Модель искусственного интеллекта для создания видео Lumiere позволяет использовать для последовательного редактирования видео методы на основе текста, – отметили в Google.
В компании Google представили новую мультимодальную модель искусственного интеллекта «Lumiere» для создания видео. В Google отметили: «Lumiere – это модель для создания видеоконтента на основе текста, разработанная для синтеза видеоматериалов, отражающих реалистические, разнообразные и согласованные движения».
Компания обращает особое внимание на то, что данная модель облегчает процесс создания контента и использования приложений для редактирования видео, таких как приложения для преобразования изображений в видео, создания видео в живописи и создания стилизованного видео.
Согласно информации от Google, модель Lumiere использует для создания видеоархитектуры Space-Time u-Net (STUNet). Используя данную архитектурную конструкцию, модель обрабатывает все кадры в видео сразу, вместо того, чтобы генерировать ключевые кадры, а затем заполнять недостающие кадры с помощью моделей временного сверхразрешения (TSR), типичной для существующих видеогенераторов.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
В Google заявили, что Lumiere генерирует всю временную продолжительность видео сразу, применяя как пространственную, так и временную уменьшающую и увеличительную дискретизацию. На практике это означает, что модель сначала генерирует видео с полной частотой кадров в низком разрешении, а затем улучшает созданное видео с помощью модели пространственного супер-разрешения (SSR) для получения конечного результата.
В исследовательской статье, посвящённой предварительному обзору возможностей Lumiere, компания Google утверждает, что образцы видео, созданные моделью искусственного интеллекта, имеют длину 80 кадров с частотой 16 кадров в секунду, то есть фактически это фрагменты продолжительностью в 5 секунд. Изначально сгенерированное с помощью новой модели видео имеет разрешение 128 x 128, а затем с помощью SSR масштабируется до разрешения 1024 x 1024.
Как утверждают в Google, модель создания видео Lumiere также даёт пользователям возможность применять для последовательного редактирования видео методы редактирования изображений с использованием в качестве основы текста. Например, имеющаяся в модели функция Cinemagraphs позволяет пользователям для создания видео анимировать определённую область изображения. Для создания стилизованного видео модель Lumiere может генерировать видео в выбранном стиле, используя одно эталонное изображение, предоставленное пользователем.