Netflix випустив VOID — відкриту ШІ-модель, яка прибирає об’єкти з відео та перераховує фізику сцени

Netflix оприлюднив свою першу відкриту ШІ-модель VOID (Video Object and Interaction Deletion — видалення відеооб’єктів та їхніх взаємодій), яка прибирає об’єкти з відеозапису й фізично правдиво перебудовує сцену без них. Модель доступна на Hugging Face і GitHub під ліцензією Apache 2.0.

Головна відмінність VOID від наявних інструментів — здатність розуміти причинно-наслідкові зв’язки в сцені. Звичайні методи просто зафарбовують ділянку за видаленим об’єктом і коригують тіні та відбиття, проте не справляються з фізичними взаємодіями. VOID натомість застосовує спеціальну чотирикомпонентну маску (quadmask), яка позначає не лише сам об’єкт, а й зони, на які він впливає — зокрема предмети, що він підтримував або зміщував. Для визначення таких зон модель залучає мультимодальний ШІ Gemini та систему сегментації SAM2, пише The Register.

- Реклама -

Принцип роботи VOID найкраще розкривають конкретні сцени. Так, система перетворює лобове зіткнення двох автомобілів на відео з одним автомобілем на дорозі — прибирає другу машину й перебудовує траєкторію першої. Уламки, дим і полум’я при цьому теж зникають. В іншому прикладі людина стрибає в басейн, а VOID після видалення фігури відновлює сцену так, що вода виглядає спокійною без жодних слідів сплеску.

Технічно VOID побудована поверх CogVideoX-Fun — відеодифузійного трансформера на 5 млрд параметрів від Alibaba PAI. Модель навчали на синтетичних парних відео, де сцени з об’єктом і без нього генерувалися в Blender із фізичною симуляцією (датасет HUMOTO) та в рушії Kubric від Google. Такий підхід дав «еталонні» приклади з гарантовано коректною фізикою. Для навчання використовували 8 GPU A100 80 ГБ, а для запуску моделі потрібна відеокарта з 40+ ГБ відеопам’яті.

Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому

У користувацькому тестуванні за участю 25 осіб VOID обрали 64,8% респондентів — проти 18,4% у найближчого конкурента Runway. Розробники також порівнювали модель із ProPainter, DiffuEraser, MiniMax-Remover, Generative Omnimatte і ROSE на синтетичних та реальних відео. Для Netflix, яка досі не публікувала жодних ШІ-моделей у відкритому доступі, це помітний крок до відкритості — компанія надала не лише ваги моделі, а й повний пайплайн генерації навчальних даних, код для запуску та графічний редактор масок.

Це не перший досвід Netflix у застосуванні штучного інтелекту для роботи з відеоматеріалами. Раніше компанія розробила нейромережу для автоматичного виявлення дефектів у відео — систему, здатну знаходити технічні проблеми на рівні окремих пікселів і значно скорочувати час ручної перевірки контенту.

- Реклама -

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

- Реклама -

Читайте також

YouTube тестує автоматичну швидкість відтворення та режим «На ходу» для Premium-підписників

YouTube тестує для підписників Premium автоматичну зміну швидкості відео та режим «На ходу». Тест триватиме до 27 квітня — потім Google вирішить їхню долю.

AT&T зазнала збитків на $82 млн через крадіжки мідних кабелів у 2025 році

AT&T у 2025 році зафіксувала понад 10 000 крадіжок мідних кабелів із збитками $82 млн. Найбільше постраждала Каліфорнія — 7 300 інцидентів на $54 млн.

Tubi став першим стримінговим сервісом, інтегрованим у ChatGPT

OpenAI інтегрувала сервіс Tubi у ChatGPT — він став першою відеоплатформою в екосистемі чатбота. Шукати фільми можна за описом настрою без точних назв.

YouTube дозволив створювати ШІ-аватари з голосом і вставляти їх у Shorts

YouTube дозволив вбудовувати реалістичні ШІ-аватари у Shorts. Для створення двійника достатньо зробити кілька селфі та прочитати кілька рядків тексту.

Amazon Leo розпочне комерційну роботу в середині 2026 року

Amazon Leo стартує для широкої аудиторії у середині 2026 року. Сервіс обіцяє нижчу ціну за Starlink і глибоку інтеграцію з хмарними сервісами AWS для бізнесу.