Эволюция Kandinsky: прогресс в мире генерации изображений

В июне 2022 года Сбер представил первую версию Kandinsky. За следующие месяцы этот передовой алгоритм превратился в стандартный инструмент для создания изображений. С второй версией Сбер поразил, а с 2.2 — ещё сильнее впечатлил. К октябрю 2023 года появилась возможность генерации видео, детали которой мы обсудим позже.

Содержание

Что представляла собой версия Kandinsky 2.0?
Интерфейс нейросети Kandinsky 2.0
Картины нейросети Kandinsky 2.1
Шедевры Kandinsky 2.2
Видео в Kandinsky

Что представляла собой версия Kandinsky 2.0?

На конференции AI Journey, проходившей 23-24 ноября, была представлена нейросеть Kandinsky 2.0. Основное новшество, на которое Сбер делал упор, — это возможность генерировать изображения на основе описаний, предоставленных на 101 языке. Сбер подчеркнул, что скорость и качество генерации изображений не зависят от языка запроса.

Это действительно поразительно, особенно учитывая тот факт, что многие сегодняшние нейросети ориентированы на английский. Из редких исключений можно выделить китайскую ERNIE-ViLG и модификации Midjourney и Stable Duffusion для разных языков.

Для того чтобы опробовать эту технологию от Сбера, посетите сайт Fusion Brain.

Интерфейс нейросети Kandinsky 2.0

При входе в Kandinsky 2.0 открывается простой и стильный интерфейс, который заметно выделяется по сравнению с дискорд-ботом Midjourney или платформой Hugging Face, где разработчики представляют свои нейросети.

Инструменты в верхнем левом углу экрана дают возможность манипулировать изображением, добавлять фотографии с устройства и корректировать их с помощью ластика, размер которого можно изменять.

В нижнем левом углу пользователь может выбрать желаемый стиль для генерации изображения. Верхний правый угол содержит опции для отката изменений и сохранения работы нейросети.

Мы провели испытание версии 2.0 на следующих 5 промтах:

Дракон летящий над городским пейзажем. Стиль «Ван Гог».
Дракон летящий над городским пейзажем. Стиль 3D-визуализация.
Тропический остров в чашке кофе. Без стиля.
Закат за горизонтом (на немецком).
Закат за горизонтом (на французском).

С помощью первых двух запросов мы оценивали способность стилизации, третий был направлен на тестирование креативного подхода системы, а два последних промта использовались для оценки мультиязычных возможностей нейросети.

Качество сравнимо с результатами первой версии Midjourney или Stable Diffusion. Несмотря на то что 2.0 демонстрировала понимание разных языков и образов, стилизация и распределение объектов оставляли желать лучшего.

Однако в апреле 2023 года Сбер представил усовершенствованную версию. После тестирования Kandinsky 2.1 мы остались в восторге.

Картины нейросети Kandinsky 2.1

Сперва мы решили провести тест с теми же 5 запросами, которые использовали для версии 2.0. Результаты, предоставленные версией 2.1, представлены в галерее ниже:

coucher de soleil a lhorizon kandinsky 2.1

sonnenuntergang ber dem horizont kandinsky 2.1

drakon letyaschiy nad gorodskim peyzazhem. stil van gog. kandinsky 2.1 1

drakon letyaschiy nad gorodskim peyzazhem. stil 3d vizualizatsiya. kandinsky 2.1

tropicheskiy ostrov v chashke kofe. kandinsky 2.1

Поразительно! Kandinsky 2.1 значительно улучшил свое понимание запросов и качество стилизации под разные художественные стили.

Мы вдохновились и попробовали более сложный запрос, чтобы сравнить его с генерацией Midjourney: игровой макет лабиринта, плавучий остров, 3D, изометрия, мечтательная цветовая палитра, вдохновленная Pixar

Ниже — сравнение результатов работы Kandinsky 2.1 и Midjourney:

От изображений до видео: трансформация Kandinsky за год

Kandinsky 2.1

Midjourney

В некоторых аспектах нейросеть Сбера действительно опередила Midjourney. Например, она смогла сгенерировать изображение всего за 20 секунд, тогда как Midjourney, даже в быстром режиме, требовалось не менее 40 секунд. Что касается деталей, то у Kandinsky они более выразительные, но в плане композиции изображение от Midjourney выглядит гармоничнее.

Шедевры Kandinsky 2.2

12 июля Сбер представил обновленную версию нейросети Kandinsky. Ее возможности стали еще более гибкими: запросы обрабатываются быстро и с высокой точностью. Кроме того, команда разработчиков внедрила дополнительные стили, включая киберпанк и реалистичную фотографию.

Особенное внимание заслуживает нововведение в настройках генерации: теперь перед созданием изображения можно задать соотношение его сторон. Выбирая 16:9, вы получите горизонтальное изображение, идеальное для сайтов, а выбрав 9:16, вы создадите вертикальный вариант, подходящий для публикаций в социальных сетях. Приглашаем вас оценить новинки и опробовать в действии!

В новой версии «Кандинского» одна из наиболее захватывающих функций похожа на Zoom Out от MidJourney. Теперь можно добавить рамку к созданному изображению, задать запрос, и нейросеть дополнит изображение в указанной области. Результат еще не идеален, но уже весьма впечатляющий. Вот пример того, что удалось создать.

Видео в Kandinsky

В Kandinsky появилась возможность создания видео. Эта функция была представлена 12 октября 2023 года. На данный момент только активные пользователи и некоторые избранные могут её тестировать. Через этот бот вы также можете оставить заявку на доступ. Сам процесс генерации видео будет проходить в этом боте. Если вы не сразу получили доступ, не беспокойтесь: к концу года функционал будет открыт для всех.

Для создания 4-секундного ролика необходимо предоставить текстовый запрос. Бот позволит выбрать движение камеры: вправо, влево, вверх, вниз, приближение или отдаление, а также разные варианты поворота. Затем можно выбрать формат видео: горизонтальный, вертикальный или квадратный.

В рамках бота можно создать отдельную сцену или объединить до трех коротких эпизодов. После выбора движения камеры предоставьте текстовый запрос. Готовое видео придет в форме GIF в диалоге с ботом.