Нейросети рисуют картины по тексту онлайн

Сервисы для генерации картинок с помощью AI обретают популярность. Художники видят в них угрозу и бастуют, остальные люди видят в них новый источник креативных идей. В обзоре разберём как нейросети рисуют картины по тексту, посмотрим результаты запросов и узнаем, как выглядят русские идиомы в сгенерированных нейросетями изображениях. Некоторые из онлайн-сервисов полностью бесплатны.

Картинка сгенерированная нейронной сетью

Содержание:

Midjourney
DALL-E
Нейросеть Google imagen
1. Эксперимент: сравнение imagen нейросети и DALL-E
Artbreeder
1. Плюсы Artbreeder
2. Как создать коллаж в Artbreeder
Как заработать на генерациях картинках с помощью нейросети
Заключение

Midjourney

Работники Midjourney называют себя независимой компанией, которая занимается расширением творческий способностей. Они занимаются разработкой искусственного интеллекта, алгоритмы которого строятся на распознавании человеческой речи и создании визуальных образов. Пользователь на английском языке описывает то, что хочет увидеть и отправляет текст на обработку в ИИ. После можно немного улучшить качество картинки и скачать конечный результат.

Как получить доступ к Midjourney

Использовать Midjourney можно через бота в официальном Discord чате. После того, как пользователи зайдут на канал, у них будет 25 бесплатных попыток для генерации изображения (ограничение действует на аккаунт).

Этапы к получению доступа Midjourney:

Скачать и запустить приложение Discord, либо воспользоваться веб-версией
Авторизоваться в мессенджере или создать новый аккаунт
Зайти на канал по ссылке

Пользователь попадёт в чат, где появляются только что сделанные работы. В общем чате будут появляться и ваши работы, посмотреть их можно в отдельном окне. Для этого нужно перейти в «Почту» в правом верхнем углу и выбрать «Упоминания».

результаты работы Midjourney — Сгенерированные картинки пользователей отображаются в общем чате

ИИ можно также добавить на личный сервер дискорда, для этого понадобится выбрать бота в правом углу чата, и нажать на «Добавить на сервер».

Как сделать картинку нейросетью Midjourney

В дискорде чат-бота есть каналы Newcomer Rooms внутри которых комнаты newbies. Изображения создаются там. Нужно войти в любую из этих комнат и введите «/settings«.

В увиденных параметрах выберите те, что отмечены зелёным на скриншоте.

Версия движка. Кликаем на последнюю, MJ 4. MJ Test — это два экспериментальных изображения вместо четырёх, нажав на MJ Test Photo вы получите изображение уклоном в фотореализм.
Качество изображения. Параметр quality выбираете на свой вкус.
Уровень стилизации. Ставим средний, Style med, чтобы ИИ не «перефантазировал» лишнего. Параметры high и very high могут уйти слишком далеко от сути.
Алгоритм увеличения изображения. Выбираем Regular upscale — стандартный. Light upscale увеличивает разрешение картинки, но добавляет меньше деталей, а Beta даёт вдвое больший размер, чем Regular, но работает нестабильно.
Режим доступа. Ставим Public mode, так как только он доступен бесплатно.
Режим обработки. Бесплатный вариант: Fast mode.
Режим Remix mode. Работает с объединением картинок и модернизировать результат.

После набираем команду /imagine и вписываем в promt любое слово, отправляем сообщение.

В появившемся сообщении нажимаем на Accept ToS

После этого вы можете генерировать изображения с помощью команды /imagine.

Генерация картинки в Midjourney по описанию

В этом варианте будет генерироваться 4 картинки по описанным вами словам.

Под картинкой вы увидите 2 значения: V и U. С помощью U можно увеличить разрешение картинки, а V создаёт дополнительные варианты для каждой картинки. Кнопка с круглыми стрелками создаёт новую генерацию (бесплатных только 25).

После выбора, например, увеличения картинки — она появится в чате. И под этим изображением также будут кнопки:

Make Variations — ещё четыре новых варианта, основанных на одиночном изображении.
Light / Beta Upscale Redo — вариации увеличения с меньшим и большим количеством деталей.
Web — открывает картинку на сайте‑галерее Midjourney.

изображения сделанные в Midjourney — Запрос: *ultra realistic, neon, demon, mortal kombat, japan style* и *end of the world realistic 3D*.

Слова для создания картинки можно писать через запятую. Помните, что чем больше вводных, тем сложнее AI попасть в ваши ожидания. Иногда удаётся учесть и сложить воедино более 5 вводных слов.

Создание аватарки в Midjourney

Для начала, чтобы работать с готовой картинкой нужно открыть настройки, прописав /settings, и включить Remix mode. Это позволит ai midjourney модернизировать готовое изображение. Нужно указать URL фотографии после команды «/imagine prompt«, после чего прожать нужные параметры под фото.

нейросеть рисует по тексту онлайн аватар

После ссылки пользователь пишет любую стилистику, которой будет обработана фотография. В примере ниже была указана стилистика «Star Wars», то есть, в стилистике конкретного фильма.

Также можно указать конкретного персонажа, или соединить какой-то фильм/мультфильм с другой общей стилистикой, как на примере ниже. Слева был запрос «Like Gandalf«, а справа «Simpsons art style«

искусственный интеллект рисует гендальфа и стилистику Simpsons — Искусственный интеллект рисует гендальфа и стилистику Simpsons

Скрещивание изображений с помощью ai Midjourney

После «/imagine prompt» пользователь должен указать не 1 а 2 ссылки на разные изображения, которые он хочет скрестить. В примере ниже изображение, на котором соединили Хищника и главного героя фильма «V — значит Вендетта».

Правильное формулирование запроса для Midjourney

Нейросеть рисует по описанию ваших харакретистик. Но не стоит соединять больше 5 разнообразных стилистик/персонажей. ИИ может не понять большое количество вводных данных и не учесть часть из них. Чтобы сделать результат более точным, следует использовать параметры.

Параметры

Параметры вводятся во время создания запроса с помощью «/imagine«. Для этого нужно писать 2 дефиса перед параметром «—параметр» после слова promt. Самые часто применяемые параметры:

-‎-w — устанавливает ширину изображения в пикселях;
-‎-h — устанавливает высоту изображения в пикселях;
-‎-ar <соотношение> — устанавливает соотношение сторон изображения, например -‎-ar 16:9;
-‎-no — указывает, чего на картинке быть не должно, например no fire — «без огня»;
-‎-stylize <число> — изменяет стилизации с доступными значениями: 625, 1250, 2500, 20000 и 60000;
-‎-quality <число> — изменяет качество изображения со значениями 0,25, 0,5, 1, 2 или 5;
-‎-chaos <от 0 до 100> — изменяет хаотичность результатов: чем выше chaos, тем менее похожими друг на друга будут картинки;
-‎-stop — останавливает генерацию изображения;
-‎-test -‎-creative — добавляет результатам креативности;
-‎-wallpaper — позволяет получить качественное изображение с высоким разрешением;
-‎-video — позволяет получить видео процесса генерации — нужно будет ответить на сгенерированное изображение эмодзи с конвертом.

Характеристики и параметры соединяются в запросах с помощью двойного двоеточия «::» и пробелами с каждой стороны от двоеточий. Пример: /imagine promt Harry Potter :: —no Slytherin.

Документация и полезные ссылки по Midjourney

DALL-E

Нейросеть Dall-E – рисует онлайн изображения по описанию пользователей. Для того, чтобы протестировать dall-e Kandinsky 2.0 – достаточно сказать виртуальному ассистенту «Включи художника» в веб-приложении или в мобильном приложении Салют.

У компании есть несколько продуктов, обученных с помощью нейросети: Kandinsky 2.0, ruDALL-E Kandinsky (XXL), ruDALL-E Malevich (XL) и ruDALL-E Emojich.

Поговорим о каждом по отдельности.

Kandinsky 2.0

Нейросеть рисует онлайн красочные изображения на различные темы по текстовому запросу на русском и других языках. Стоит уточнить, что основной язык обучения для этой модели — русский. Но при создании изображения можно миксовать языки. Для тех, кто силён в технической части машинного обучения и интересуется, на базе чего создан Kandinsky 2.0, подробная статья.

Несколько примеров работ Kandinsky 2.0:

генерация фото с Kandinsky 2.0 — Запрос: Ярмарка на Красной Площади в Москве в 17-м веке в стиле Сурикова

Dall e Kandinsky (XXL)

Русская text-to-image модель. Задача нейросети генерировать картинки с помощью текста. В этой версии модели больше параметров, чем в ruDALL-E XL. Содержит 12 миллиардов параметров.

Примеры работ:

генерация фото с ru dall e Kandinsky (XXL) — Запрос: Картошка, стилизованная под аниме, с эффектами электрических разрядов, на фоне современного города в неоновом киберпанк стиле

ruDALL-E Malevich (XL)

Содержит такую же архитектуру как и в ruDALL-E Kandinsky, но в малевиче 1.3 миллиарда параметров для генерации картинок.

Примеры:

генерация картинки в ruDALL-E Malevich (XL) — Запрос: Шахматная ладья из изумрудного материала

ruDALL-E Emojich

Модель создана на базе нейросети ruDALL-E (XL). Принцип работы тот же, только эта нейросеть создаёт эмодзи по описанию пользователя. Для обучения этой модели было собрано 2749 иконок эмодзи и соответствующих русскоязычных описаний.

Примеры работ:

генерация эмодзи в ruDALL-E Emojich — Запрос: Гендальф

Как пользоваться DALL-E в России?

Нужно зарегистрироваться на любом сайте по приёму смс, выбрать номер зарубежной страны.
Включить VPN страны, номер которой вы взяли.
Зайти на сайт DALL-E и зарегистрироваться на этот номер.
Получив смс в онлайн-сервисе вы сможете зарегистрироваться и войти в аккаунт.

Нейросеть Google imagen

Google imagen – нейросеть, которая создает изображения на основе текста посредством диффузии. Создание картинки начинается со схематичного рисунка (по-человечески — наброска), после чего AI проводит итерации по улучшению рисунка до тех пор, пока нейросеть ничего не сможет добавить в имеющийся рисунок.

Отрисовка картинки начинается с размера 64×64 пикселя, после чего ИИ 2 раза «проходится» по картинке улучшая разрешения и создавая новые пиксели, и через 2 подобных прохода получается картинка размером 1024×1024 пикселя. При этом масштабировании – не копируются имеющиеся пиксели, а нейросеть imagen генерирует совершенно новые элементы, которые соответствуют описанию. Описанные действия можно сравнить с тем, как работает художник: сначала появляется набросок, который после обрастает деталями.

Эксперимент: сравнение imagen нейросети и DALL-E

Компания гугл провела эксперимент. Была собрана фокус группа, которой предложили определить, какие изображения больше соответствуют текстовому описанию. Использовались 2 вышеописанных ИИ, описание было одинаковым. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

У нейросети Imagen есть и свои минусы. Для обучения разработчики Google использовали набор данных LAION-400M, который содержит широкий спектр неприемлемого контента: разизм, сексизм, порнография и другие не самые доброжелательные социальные привычки и стереотипы.

Продукт Google сейчас находится на стадии бета-теста. На их сайте доступна демо-версия ИИ, но в нём пользователь не может сам генерировать описание, он выбирает его из имеющегося пулла слов.

Artbreeder

Нейросеть Artbreeder – подходит для тех, кто никогда не прикасался к работе с искусственным интеллектом. Что такое artbreeder и как пользоваться этой нейросетью?

Плюсы Artbreeder

Бесплатные генерации. У него нет ограничений на количество генераций изображений. Но платные функции есть: быстрый рендер, улучшенное качество и так далее.
Общедоступен и имеет веб-версию. В других AI есть разные проблемы, где-то нужно копаться в коде, где-то платить. В Artbreeder эти проблемы решены.
Топ за свои деньги. Для бесплатного генератора изображений ИИ показывает отличный результат.
Удобная лицензия. По правилам компании, изображения, которые создаёт пользователь, никому не принадлежат. Это значит их можно легально использовать в своих целях.

Осенью компания Artbreeder показала новую фичу: коллажи.

Как создать коллаж в Artbreeder

Когда коллаж откроется пользователь увидит панель инструментов. Первое, что нужно сделать — ввести текстовый запрос на английском языке. Чем меньше параметров, тем проще ИИ понять ваш запрос. Параметры highly detailed, intricate, high definition, или другие, касающиеся детализации, увеличивают объём мелких деталей на картинке (шороховатости, вмятины, морщины, тени), что улучшает фотографичность.

Изображение по описанию

Под конкретные художественные стили лучше прописывать фамилии художников или название картин. Что это значит: Hogwarts лучше чем magic school, Vincent Willem van Gogh лучше чем Oily blurred images.

Вышеприведённый пример перегружен описанием, из-за чего появляются дополнительные конечности. Нужно сократить описание, убрать ненужное описание интерьера, позы, выражение лица. После корректировки лишние части исчезнут.

Изображение из клякс (Коллаж)

Из панели инструментов в левой части экрана собираем изображение из рандомных элементов. Это даёт контроль над композицией кадра.

Часть элементов на изображении залиты текстурной палитрой, части лица и тела нарисованы карандашом. Поле с параметрами осталось пустым. ИИ попытается понять сам, что отображено на холсте и будет интерпретировать это в непредсказуемой манере.

Почему из приведённых параметров нейросеть решила сделать именно плакат? Попалось рандомное «зерно», о них мы поговорим дальше.

Далее вы можете прибавлять текст, загружать своё фото, которое найдёте в интернете и миксовать эти подходы.

зёрна в Artbreeder

Эта клавиша отвечает за «зерно». Зерно — это элемент контролируемой случайности у нейросетей. В нём заложены различные идея для реализации запроса, чтобы при одних и тех же вводных получать разные результаты.

Они влияют на: композицию, цветовую гамму, стилистику, содержание полотна(детали), интерпретацию исходников, связи внутри нейросети. По-простому: кнопка «другой вариант»

Artbreeder плохо работает с реалистичными фотографиями, ему сложно сориентироваться, что добавить в коллаж.

artbreeder коллаж с фото — Artbreeder girl

В этом примере не было текстовых вводных, только разные настройки самого ИИ. Непонятно, почему он показал затылок человека и парку.

Исключением являются знаменитости. Всё потому, что при обучении AI тренируются в том числе и на портретах, артах, фотографиях медийных людей, поэтому с ними всё проще.

Как заработать на генерациях картинках с помощью нейросети

Фриланс. Работа с дизайнерами тратит уйму времени, и даже при этом у них не получится сделать картинку такого качества, какое сделает AI. логотип, сгенерированный за 5 минут принесла её владельцу $30.

Фотостоки. Подходит для зарубежной аудитории. Так как на западе серьёзнее относятся к правам на что угодно. Эту картинку сделала нейросеть, и она выставлена на фотостоке за $250 и её покупают.

Блог. Создаёте группу, аккаунт в любой социальной сети, ежедневно закидываете туда красивые картинки, которые сделала нейросеть. Таким образом набирается аудитория, на которую после можно крутить любой вид рекламы.

Заключение

Теперь вы знаете как называются нейросети, которые рисуют картины. Как на этом можно заработать и просто разнообразить свой досуг. Искусственный интеллект эволюционируют с каждым днём, и держать руку на пульсь технологий — хорошее решение.