Netflix оприлюднив свою першу відкриту ШІ-модель VOID (Video Object and Interaction Deletion — видалення відеооб’єктів та їхніх взаємодій), яка прибирає об’єкти з відеозапису й фізично правдиво перебудовує сцену без них. Модель доступна на Hugging Face і GitHub під ліцензією Apache 2.0.
Головна відмінність VOID від наявних інструментів — здатність розуміти причинно-наслідкові зв’язки в сцені. Звичайні методи просто зафарбовують ділянку за видаленим об’єктом і коригують тіні та відбиття, проте не справляються з фізичними взаємодіями. VOID натомість застосовує спеціальну чотирикомпонентну маску (quadmask), яка позначає не лише сам об’єкт, а й зони, на які він впливає — зокрема предмети, що він підтримував або зміщував. Для визначення таких зон модель залучає мультимодальний ШІ Gemini та систему сегментації SAM2, пише The Register.
Принцип роботи VOID найкраще розкривають конкретні сцени. Так, система перетворює лобове зіткнення двох автомобілів на відео з одним автомобілем на дорозі — прибирає другу машину й перебудовує траєкторію першої. Уламки, дим і полум’я при цьому теж зникають. В іншому прикладі людина стрибає в басейн, а VOID після видалення фігури відновлює сцену так, що вода виглядає спокійною без жодних слідів сплеску.
Технічно VOID побудована поверх CogVideoX-Fun — відеодифузійного трансформера на 5 млрд параметрів від Alibaba PAI. Модель навчали на синтетичних парних відео, де сцени з об’єктом і без нього генерувалися в Blender із фізичною симуляцією (датасет HUMOTO) та в рушії Kubric від Google. Такий підхід дав «еталонні» приклади з гарантовано коректною фізикою. Для навчання використовували 8 GPU A100 80 ГБ, а для запуску моделі потрібна відеокарта з 40+ ГБ відеопам’яті.
Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому
У користувацькому тестуванні за участю 25 осіб VOID обрали 64,8% респондентів — проти 18,4% у найближчого конкурента Runway. Розробники також порівнювали модель із ProPainter, DiffuEraser, MiniMax-Remover, Generative Omnimatte і ROSE на синтетичних та реальних відео. Для Netflix, яка досі не публікувала жодних ШІ-моделей у відкритому доступі, це помітний крок до відкритості — компанія надала не лише ваги моделі, а й повний пайплайн генерації навчальних даних, код для запуску та графічний редактор масок.
Це не перший досвід Netflix у застосуванні штучного інтелекту для роботи з відеоматеріалами. Раніше компанія розробила нейромережу для автоматичного виявлення дефектів у відео — систему, здатну знаходити технічні проблеми на рівні окремих пікселів і значно скорочувати час ручної перевірки контенту.
