Netflix выпустил VOID — открытую ИИ-модель, которая удаляет объекты из видео и перестраивает физику сцены

Netflix представил свою первую открытую модель искусственного интеллекта VOID (Video Object and Interaction Deletion — удаление видеообъектов и их взаимодействий), которая удаляет объекты из видеозаписи и физически достоверно воссоздает сцену без них. Модель доступна на Hugging Face и GitHub под лицензией Apache 2.0.

Главное отличие VOID от существующих инструментов — способность понимать причинно-следственные связи в сцене. Обычные методы просто закрашивают область за удаленным объектом и корректируют тени и отражения, но не справляются с физическими взаимодействиями. VOID же использует специальную четырехкомпонентную маску (quadmask), которая обозначает не только сам объект, но и зоны, на которые он влияет — в частности, предметы, которые он поддерживал или смещал. Для определения таких зон модель задействует мультимодальный ИИ Gemini и систему сегментации SAM2, пишет The Register.

- Реклама -

Принцип работы VOID лучше всего раскрывают конкретные сцены. Так, система превращает лобовое столкновение двух автомобилей в видео с одним автомобилем на дороге — удаляет вторую машину и перестраивает траекторию первой. Обломки, дым и пламя при этом тоже исчезают. В другом примере человек прыгает в бассейн, а VOID после удаления фигуры восстанавливает сцену так, что вода выглядит спокойной, без каких-либо следов всплеска.

Технически VOID построена на базе CogVideoX-Fun — видеодиффузионного трансформера с 5 млрд параметров от Alibaba PAI. Модель обучали на синтетических парных видео, где сцены с объектом и без него генерировались в Blender с физической симуляцией (набор данных HUMOTO) и в движке Kubric от Google. Такой подход дал «эталонные» примеры с гарантированно корректной физикой. Для обучения использовали 8 GPU A100 80 ГБ, а для запуска модели требуется видеокарта с 40+ ГБ видеопамяти.

Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий

В ходе пользовательского тестирования с участием 25 человек VOID выбрали 64,8% респондентов — против 18,4% у ближайшего конкурента Runway. Разработчики также сравнивали модель с ProPainter, DiffuEraser, MiniMax-Remover, Generative Omnimatte и ROSE на синтетических и реальных видео. Для Netflix, которая до сих пор не публиковала никаких ИИ-моделей в открытом доступе, это заметный шаг к открытости — компания предоставила не только веса модели, но и полный пайплайн генерации обучающих данных, код для запуска и графический редактор масок.

Это не первый опыт Netflix в применении искусственного интеллекта для работы с видеоматериалами. Ранее компания разработала нейросеть для автоматического обнаружения дефектов в видео — систему, способную выявлять технические проблемы на уровне отдельных пикселей и значительно сокращать время ручной проверки контента.

- Реклама -

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

- Реклама -

Читайте также

YouTube тестирует автоматическую скорость воспроизведения и режим «На ходу» для подписчиков Premium

YouTube тестирует для подписчиков Premium автоматическую регулировку скорости воспроизведения видео и режим «На ходу». Тестирование продлится до 27 апреля — после чего Google примет решение об их дальнейшей судьбе.

AT&T понесла убытки в размере 82 млн долларов из-за краж медных кабелей в 2025 году

В 2025 году компания AT&T зафиксировала более 10 000 краж медных кабелей, ущерб от которых составил 82 млн долларов. Больше всего пострадала Калифорния — 7 300 инцидентов на сумму 54 млн долларов.

Tubi стал первым стриминговым сервисом, интегрированным в ChatGPT

OpenAI интегрировала сервис Tubi в ChatGPT — он стал первой видеоплатформой в экосистеме чат-бота. Фильмы можно искать без указания точных названий.

YouTube разрешил создавать ИИ-аватары с голосом и вставлять их в Shorts

YouTube разрешил встраивать реалистичные ИИ-аватары в Shorts. Чтобы создать двойника, достаточно сделать несколько селфи и прочитать несколько строк текста.

Amazon Leo начнёт коммерческую эксплуатацию в середине 2026 года

Amazon Leo запустят для широкой аудитории в середине 2026 года. Сервис обещает более низкую цену по сравнению со Starlink и тесную интеграцию с облачными сервисами AWS для бизнеса.