MS-Vid2Vid: нейросеть для лучшения качества видео

Alibaba Cloud запустили проекты MS-Image2Video и MS-Vid2Vid с целью генерации видео высокого качества. Модель сглаживает артефакты на видео, устраняет кривые лица и в целом улучшает картинку.

MS-Vid2Vid, созданный и обученный в Damo Academy, в первую очередь служит для повышения качества и улучшения пространственной и временной согласованности видеоматериалов, произведенных из текста и графических данных. Исходные материалы для обучения включают в себя обширный ассортимент HD-видео и изображений с минимумом 720 пикселей по короткой стороне, что позволяет преобразовывать видео с низким разрешением (16:9) в форматы с более высоким разрешением (1280 * 720). Этот инструмент применим для различных задач по улучшению разрешения низкокачественных видео.

MS-Vid2Vid-XL создан на основе Stable Diffusion и включает в себя дизайнерские элементы, заимствованные VideoComposer.

MS-Vid2Vid-XL может иметь следующие ограничения:

Может возникнуть некоторая размытость, когда цель находится на большом расстоянии. Эту проблему можно решить, предоставив входной текст.
Время вычислений высоко из-за необходимости генерации видео в разрешении 720P. Размер скрытого пространства составляет (160 * 90), и время вычисления для одного видео превышает 2 минуты.
В настоящее время поддерживается только английский язык. Это связано с ограниченностью обучающих данных, которые в данный момент ограничены входами на английском языке.