Netflix представил свою первую открытую модель искусственного интеллекта VOID (Video Object and Interaction Deletion — удаление видеообъектов и их взаимодействий), которая удаляет объекты из видеозаписи и физически достоверно воссоздает сцену без них. Модель доступна на Hugging Face и GitHub под лицензией Apache 2.0.
Главное отличие VOID от существующих инструментов — способность понимать причинно-следственные связи в сцене. Обычные методы просто закрашивают область за удаленным объектом и корректируют тени и отражения, но не справляются с физическими взаимодействиями. VOID же использует специальную четырехкомпонентную маску (quadmask), которая обозначает не только сам объект, но и зоны, на которые он влияет — в частности, предметы, которые он поддерживал или смещал. Для определения таких зон модель задействует мультимодальный ИИ Gemini и систему сегментации SAM2, пишет The Register.
Принцип работы VOID лучше всего раскрывают конкретные сцены. Так, система превращает лобовое столкновение двух автомобилей в видео с одним автомобилем на дороге — удаляет вторую машину и перестраивает траекторию первой. Обломки, дым и пламя при этом тоже исчезают. В другом примере человек прыгает в бассейн, а VOID после удаления фигуры восстанавливает сцену так, что вода выглядит спокойной, без каких-либо следов всплеска.
Технически VOID построена на базе CogVideoX-Fun — видеодиффузионного трансформера с 5 млрд параметров от Alibaba PAI. Модель обучали на синтетических парных видео, где сцены с объектом и без него генерировались в Blender с физической симуляцией (набор данных HUMOTO) и в движке Kubric от Google. Такой подход дал «эталонные» примеры с гарантированно корректной физикой. Для обучения использовали 8 GPU A100 80 ГБ, а для запуска модели требуется видеокарта с 40+ ГБ видеопамяти.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
В ходе пользовательского тестирования с участием 25 человек VOID выбрали 64,8% респондентов — против 18,4% у ближайшего конкурента Runway. Разработчики также сравнивали модель с ProPainter, DiffuEraser, MiniMax-Remover, Generative Omnimatte и ROSE на синтетических и реальных видео. Для Netflix, которая до сих пор не публиковала никаких ИИ-моделей в открытом доступе, это заметный шаг к открытости — компания предоставила не только веса модели, но и полный пайплайн генерации обучающих данных, код для запуска и графический редактор масок.
Это не первый опыт Netflix в применении искусственного интеллекта для работы с видеоматериалами. Ранее компания разработала нейросеть для автоматического обнаружения дефектов в видео — систему, способную выявлять технические проблемы на уровне отдельных пикселей и значительно сокращать время ручной проверки контента.
