Google представляет Lumiere

Google разработала Lumiere, инновационный ИИ-генератор видео, который они описывают как «модель пространственно-временной диффузии для реалистичного создания видео». Этот инструмент, представляющий собой, возможно, наиболее продвинутый ИИ-генератор видео на текущий момент, способен создавать динамические видео на основе текстовых описаний.

Отличительной особенностью Google Lumiere является его уникальная архитектура, позволяющая генерировать видео за один проход, в отличие от других моделей, которые сначала создают ключевые кадры, а затем выполняют их интерполяцию во времени, что может усложнить согласованность и качество видео. Lumiere обладает множеством режимов работы, включая преобразование текста в видео, конвертацию статических изображений в динамические, создание видео в определенном стиле, редактирование существующего видео с помощью текстовых указаний, анимацию отдельных частей статического изображения и фрагментарное редактирование видео, например изменение одежды на человеке.

Как объяснили в Google, модель T2V (преобразование текста в видео) обучена на наборе данных из 30 миллионов видеороликов с текстовыми описаниями. Видео имеют длину 80 кадров при частоте 16 кадров в секунду и изначально обучены на разрешении 128 × 128 пикселей. В результате получаются 5-секундные ролики с разрешением 1024 × 1024 пикселей.

Хотя Google Lumiere не является первым ИИ-генератором видео (ранее Google представила модель Imagen Video, а также существуют проекты Meta✴ Make-A-Video, Runway Gen2 и Stable Video Diffusion), его создания превосходят предшественников в реалистичности. В Google также осознают потенциальные риски, связанные с неправомерным созданием подделок или вредоносного контента, и подчеркивают важность разработки инструментов для выявления предвзятости и злонамеренного использования, чтобы обеспечить безопасное и ответственное применение технологии.