В июне 2022 года Сбер представил первую версию Kandinsky. За следующие месяцы этот передовой алгоритм превратился в стандартный инструмент для создания изображений. С второй версией Сбер поразил, а с 2.2 — ещё сильнее впечатлил. К октябрю 2023 года появилась возможность генерации видео, детали которой мы обсудим позже.
Что представляла собой версия Kandinsky 2.0?
На конференции AI Journey, проходившей 23-24 ноября, была представлена нейросеть Kandinsky 2.0. Основное новшество, на которое Сбер делал упор, — это возможность генерировать изображения на основе описаний, предоставленных на 101 языке. Сбер подчеркнул, что скорость и качество генерации изображений не зависят от языка запроса.
Это действительно поразительно, особенно учитывая тот факт, что многие сегодняшние нейросети ориентированы на английский. Из редких исключений можно выделить китайскую ERNIE-ViLG и модификации Midjourney и Stable Duffusion для разных языков.
Для того чтобы опробовать эту технологию от Сбера, посетите сайт Fusion Brain.
Интерфейс нейросети Kandinsky 2.0
При входе в Kandinsky 2.0 открывается простой и стильный интерфейс, который заметно выделяется по сравнению с дискорд-ботом Midjourney или платформой Hugging Face, где разработчики представляют свои нейросети.
Инструменты в верхнем левом углу экрана дают возможность манипулировать изображением, добавлять фотографии с устройства и корректировать их с помощью ластика, размер которого можно изменять.
В нижнем левом углу пользователь может выбрать желаемый стиль для генерации изображения. Верхний правый угол содержит опции для отката изменений и сохранения работы нейросети.
Мы провели испытание версии 2.0 на следующих 5 промтах:
- Дракон летящий над городским пейзажем. Стиль «Ван Гог».
- Дракон летящий над городским пейзажем. Стиль 3D-визуализация.
- Тропический остров в чашке кофе. Без стиля.
- Закат за горизонтом (на немецком).
- Закат за горизонтом (на французском).
С помощью первых двух запросов мы оценивали способность стилизации, третий был направлен на тестирование креативного подхода системы, а два последних промта использовались для оценки мультиязычных возможностей нейросети.
Качество сравнимо с результатами первой версии Midjourney или Stable Diffusion. Несмотря на то что 2.0 демонстрировала понимание разных языков и образов, стилизация и распределение объектов оставляли желать лучшего.
Однако в апреле 2023 года Сбер представил усовершенствованную версию. После тестирования Kandinsky 2.1 мы остались в восторге.
Картины нейросети Kandinsky 2.1
Сперва мы решили провести тест с теми же 5 запросами, которые использовали для версии 2.0. Результаты, предоставленные версией 2.1, представлены в галерее ниже:
Поразительно! Kandinsky 2.1 значительно улучшил свое понимание запросов и качество стилизации под разные художественные стили.
Мы вдохновились и попробовали более сложный запрос, чтобы сравнить его с генерацией Midjourney: игровой макет лабиринта, плавучий остров, 3D, изометрия, мечтательная цветовая палитра, вдохновленная Pixar
Ниже — сравнение результатов работы Kandinsky 2.1 и Midjourney:
В некоторых аспектах нейросеть Сбера действительно опередила Midjourney. Например, она смогла сгенерировать изображение всего за 20 секунд, тогда как Midjourney, даже в быстром режиме, требовалось не менее 40 секунд. Что касается деталей, то у Kandinsky они более выразительные, но в плане композиции изображение от Midjourney выглядит гармоничнее.
Шедевры Kandinsky 2.2
12 июля Сбер представил обновленную версию нейросети Kandinsky. Ее возможности стали еще более гибкими: запросы обрабатываются быстро и с высокой точностью. Кроме того, команда разработчиков внедрила дополнительные стили, включая киберпанк и реалистичную фотографию.
Особенное внимание заслуживает нововведение в настройках генерации: теперь перед созданием изображения можно задать соотношение его сторон. Выбирая 16:9, вы получите горизонтальное изображение, идеальное для сайтов, а выбрав 9:16, вы создадите вертикальный вариант, подходящий для публикаций в социальных сетях. Приглашаем вас оценить новинки и опробовать в действии!
В новой версии «Кандинского» одна из наиболее захватывающих функций похожа на Zoom Out от MidJourney. Теперь можно добавить рамку к созданному изображению, задать запрос, и нейросеть дополнит изображение в указанной области. Результат еще не идеален, но уже весьма впечатляющий. Вот пример того, что удалось создать.
Видео в Kandinsky
В Kandinsky появилась возможность создания видео. Эта функция была представлена 12 октября 2023 года. На данный момент только активные пользователи и некоторые избранные могут её тестировать. Через этот бот вы также можете оставить заявку на доступ. Сам процесс генерации видео будет проходить в этом боте. Если вы не сразу получили доступ, не беспокойтесь: к концу года функционал будет открыт для всех.
Для создания 4-секундного ролика необходимо предоставить текстовый запрос. Бот позволит выбрать движение камеры: вправо, влево, вверх, вниз, приближение или отдаление, а также разные варианты поворота. Затем можно выбрать формат видео: горизонтальный, вертикальный или квадратный.
В рамках бота можно создать отдельную сцену или объединить до трех коротких эпизодов. После выбора движения камеры предоставьте текстовый запрос. Готовое видео придет в форме GIF в диалоге с ботом.