Модель штучного інтелекту для створення відео Lumiere дає користувачам можливість використовувати для послідовного редагування відео методи на основі тексту, – зазначили в Google.
У компанії Google представили нову мультимодальну модель штучного інтелекту «Lumiere» для створення відео. У Google зазначили: «Lumiere – це модель для створення відеоконтенту на основі тексту, розроблена для синтезу відеоматеріалів, які відображають реалістичні, різноманітні та узгоджені рухи».
Компанія звертає особливу увагу на те, що дана модель полегшує процес створення контенту та використання застосунків для редагування відео, таких як застосунки для перетворення зображень на відео, створення відео в живописі та створення стилізованого відео.
Згідно з інформацією від Google, модель Lumiere використовує для створення відео архітектуру Space-Time u-Net (STUNet). Використовуючи цю архітектурну конструкцію, модель обробляє всі кадри у відео відразу, замість того, щоб генерувати ключові кадри, а потім заповнювати відсутні кадри за допомогою моделей тимчасової надроздільності (TSR), яка є типовою для чинних відеогенераторів.
Підписуйтесь на Mediasat в Telegram: тут найцікавіші новини зі світу технологій
У Google заявили, що Lumiere генерує всю часову тривалість відео відразу, застосовуючи як просторову, так і часову зменшувальну та збільшувальну дискретизацію. На практиці це означає, що модель спочатку генерує відео з повною частотою кадрів у низькій роздільній здатності, а потім покращує створене відео за допомогою моделі просторової суперроздільності (SSR) для отримання кінцевого результату.
У дослідницькій статті, присвяченій попередньому огляду можливостей Lumiere, компанія Google стверджує, що зразки відео, створені моделлю штучного інтелекту, мають довжину 80 кадрів із частотою 16 кадрів за секунду, тобто, фактично це фрагменти тривалістю у 5 секунд. На початку згенероване за допомогою нової моделі відео має роздільну здатність 128 x 128, а потім за допомогою SSR масштабується до роздільної здатності 1024 x 1024.
Як стверджують у компанії Google, модель створення відео Lumiere також дозволяє користувачам застосовувати для послідовного редагування відео методи редагування зображень із використанням тексту як основи. Наприклад, наявна в моделі функція Cinemagraphs дозволяє користувачам для створення відео анімувати певну область зображення. Для генерації стилізованого відео модель Lumiere може генерувати відео в обраному стилі, використовуючи одне еталонне зображення, надане користувачем.