Нейросеть ruDALL-E для генерации изображений

Сбер, продолжая играть в инновации, представил нейросеть ruDALL-E, в основе которой лежит DALL-E из OpenAI.

Что может ruDALL-e

«Сбер» утверждает, что ruDALL-E — первая нейросеть, которая может генерировать картинки по запросу на русском языке.

Нейросеть обучается одновременно на картинках и текстах и может создавать неограниченное число новых изображений по заданному описанию, рассказали vc.ru в «Сбере».

Модель ruDALL-E XL с 1,3 млрд параметров лежит в открытом доступе на GitHub. Есть вторая версия — ruDALL-E 12B с 12 млрд параметров. Обе в ближайшее время будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

ruDALL-E состоит из трёх нейросетей, первая принимает текст и генерирует заданное число картинок, вторая выбирает более удачные, третья — увеличивает их в размере без потери качества.

Нейросеть DALL-E для генерации картинок по описаниям на английском языке представила OpenAI в январе 2021 года. Команды SberDevices, Sber AI и SberCloud воспроизвели её код и запустили обучение модели на платформе ML Space на базе суперкомпьютера «Кристофари».

Обучение заняло 23 тысячи GPU-часов на массиве данных из 120 млн пар текст-изображение. По данным «Сбера», обучение ruDALL-E стало самым большим нейросетевым вычислительным проектом в России и СНГ.

Новость по теме: Нейросеть GPT-3 в OpenAI без ограничений и ожиданий

Примеры изображений

Для начала переходим по ссылке — ruDALL-E и вводим запрос:

Жмем отправить и ждем аж целых 15 минут. Наверное, сбер отправляет запрос индусам, иначе я не могу это объяснить.

Пока ждете — можно посмотреть галерею готовых сгенерированных работ.

Думаю, что теперь можно не генерировать NFT самостоятельно, просто попроси об этом нейросеть и сразу в продажу.

Нейросеть ruDALL-E для генерации изображений

Пример генерации по запросу — «худая женщина»

пример работы нейросеть для генерации изображений ruDALL-e

Пример генерации по запросу — «банка со странным содержимым»

ОТКРЫТЬ НЕЙРОСЕТЬ

Выводы

В целом генерирует вроде по теме, однако есть 2 но:

нейросеть ruDALL-E очень медленная — все в духе сбербанка, нужно ехать в отделение и ждать. Первую картинку генерировал 15 минут; вторую 23, в какой-то момент решив увеличить время; у третьей ожидание 39 минут
ощущение, будто изображения просто уникализатором обработаны

Сможете ли вы куда-то это применить ruDALL-E = решать вам. У меня мысли есть, но нужно поиграться со скоростью, возможно просто запрашивать с разных IP, вдруг это специальное ограничение.

НАЖМИТЕ, ЧТОБЫ ПОДНЯТЬСЯ НАВЕРХ

Не забывайте подписаться на канал и вступить в чат:
Больше годноты на канале — Довольный Арбитражник
Обсудить и задать вопросы в чате — Арбитраж трафика | Довольный