От изображений до видео: трансформация Kandinsky за год

В июне 2022 года Сбер представил первую версию Kandinsky. За следующие месяцы этот передовой алгоритм превратился в стандартный инструмент для создания изображений. С второй версией Сбер поразил, а с 2.2 — ещё сильнее впечатлил. К октябрю 2023 года появилась возможность генерации видео, детали которой мы обсудим позже.

сравнение kandinsky 2.0 и 2.2

Что представляла собой версия Kandinsky 2.0?

На конференции AI Journey, проходившей 23-24 ноября, была представлена нейросеть Kandinsky 2.0. Основное новшество, на которое Сбер делал упор, — это возможность генерировать изображения на основе описаний, предоставленных на 101 языке. Сбер подчеркнул, что скорость и качество генерации изображений не зависят от языка запроса.

Это действительно поразительно, особенно учитывая тот факт, что многие сегодняшние нейросети ориентированы на английский. Из редких исключений можно выделить китайскую ERNIE-ViLG и модификации Midjourney и Stable Duffusion для разных языков.

Для того чтобы опробовать эту технологию от Сбера, посетите сайт Fusion Brain .

Интерфейс нейросети Kandinsky 2.0

При входе в Kandinsky 2.0 открывается простой и стильный интерфейс, который заметно выделяется по сравнению с дискорд-ботом Midjourney или платформой Hugging Face, где разработчики представляют свои нейросети.

Инструменты в верхнем левом углу экрана дают возможность манипулировать изображением, добавлять фотографии с устройства и корректировать их с помощью ластика, размер которого можно изменять.

В нижнем левом углу пользователь может выбрать желаемый стиль для генерации изображения. Верхний правый угол содержит опции для отката изменений и сохранения работы нейросети.

Мы провели испытание версии 2.0 на следующих 5 промтах:

  • Дракон летящий над городским пейзажем. Стиль «Ван Гог».
  • Дракон летящий над городским пейзажем. Стиль 3D-визуализация.
  • Тропический остров в чашке кофе. Без стиля.
  • Закат за горизонтом (на немецком).
  • Закат за горизонтом (на французском).

С помощью первых двух запросов мы оценивали способность стилизации, третий был направлен на тестирование креативного подхода системы, а два последних промта использовались для оценки мультиязычных возможностей нейросети.

Качество сравнимо с результатами первой версии Midjourney или Stable Diffusion. Несмотря на то что 2.0 демонстрировала понимание разных языков и образов, стилизация и распределение объектов оставляли желать лучшего.

Однако в апреле 2023 года Сбер представил усовершенствованную версию. После тестирования Kandinsky 2.1 мы остались в восторге.

Картины нейросети Kandinsky 2.1

Сперва мы решили провести тест с теми же 5 запросами, которые использовали для версии 2.0. Результаты, предоставленные версией 2.1, представлены в галерее ниже:

Поразительно! Kandinsky 2.1 значительно улучшил свое понимание запросов и качество стилизации под разные художественные стили.

Мы вдохновились и попробовали более сложный запрос, чтобы сравнить его с генерацией Midjourney: игровой макет лабиринта, плавучий остров, 3D, изометрия, мечтательная цветовая палитра, вдохновленная Pixar

Ниже — сравнение результатов работы Kandinsky 2.1 и Midjourney:

От изображений до видео: трансформация Kandinsky за год
Kandinsky 2.1
От изображений до видео: трансформация Kandinsky за год
Midjourney

В некоторых аспектах нейросеть Сбера действительно опередила Midjourney. Например, она смогла сгенерировать изображение всего за 20 секунд, тогда как Midjourney, даже в быстром режиме, требовалось не менее 40 секунд. Что касается деталей, то у Kandinsky они более выразительные, но в плане композиции изображение от Midjourney выглядит гармоничнее.

Шедевры Kandinsky 2.2 

12 июля Сбер представил обновленную версию нейросети Kandinsky. Ее возможности стали еще более гибкими: запросы обрабатываются быстро и с высокой точностью. Кроме того, команда разработчиков внедрила дополнительные стили, включая киберпанк и реалистичную фотографию.

Особенное внимание заслуживает нововведение в настройках генерации: теперь перед созданием изображения можно задать соотношение его сторон. Выбирая 16:9, вы получите горизонтальное изображение, идеальное для сайтов, а выбрав 9:16, вы создадите вертикальный вариант, подходящий для публикаций в социальных сетях. Приглашаем вас оценить новинки и опробовать в действии!

В новой версии «Кандинского» одна из наиболее захватывающих функций похожа на Zoom Out от MidJourney. Теперь можно добавить рамку к созданному изображению, задать запрос, и нейросеть дополнит изображение в указанной области. Результат еще не идеален, но уже весьма впечатляющий. Вот пример того, что удалось создать.

От изображений до видео: трансформация Kandinsky за год
От изображений до видео: трансформация Kandinsky за год

Видео в Kandinsky

В Kandinsky появилась возможность создания видео. Эта функция была представлена 12 октября 2023 года. На данный момент только активные пользователи и некоторые избранные могут её тестировать. Через этот бот вы также можете оставить заявку на доступ. Сам процесс генерации видео будет проходить в этом боте. Если вы не сразу получили доступ, не беспокойтесь: к концу года функционал будет открыт для всех.

Для создания 4-секундного ролика необходимо предоставить текстовый запрос. Бот позволит выбрать движение камеры: вправо, влево, вверх, вниз, приближение или отдаление, а также разные варианты поворота. Затем можно выбрать формат видео: горизонтальный, вертикальный или квадратный.

В рамках бота можно создать отдельную сцену или объединить до трех коротких эпизодов. После выбора движения камеры предоставьте текстовый запрос. Готовое видео придет в форме GIF в диалоге с ботом.

Добавить комментарий