OpenAI випустила Sora 2: ШІ-модель генерації відео з розумінням фізики реального світу

Компанія OpenAI анонсувала другу версію свого флагманського генератора відео та аудіо на основі штучного інтелекту Sora. Розробники порівнюють цей реліз з появою моделі GPT-3.5, яка стала проривом у текстовій генерації. Нова версія демонструє якісний стрибок у симуляції фізичних процесів та поведінки об’єктів у віртуальному просторі.

Ключовою відмінністю Sora 2 від попередників стала здатність моделювати реальну поведінку об’єктів замість створення візуально правдоподібної, але фізично некоректної картинки. Попередні генератори відео часто порушували елементарну логіку руху — баскетбольний м’яч міг «телепортуватися» у кошик навіть при промаху. Нова модель точно відтворює фізику: промах означає, що м’яч відіб’ється від щита, а фігурист під час виконання потрійного акселя може помилитися і впасти.

- Реклама -

Така здатність імітувати не лише успішні дії, але й помилки відкриває нові можливості для створення реалістичних симуляторів та розробки систем для роботів. За словами розробників, Sora 2 усуває типові проблеми попередніх версій — дивні деформації об’єктів та порушення логіки сцени заради дотримання текстового запиту користувача.

Модель демонструє значний прогрес у контрольованості генерації. Sora 2 впевнено справляється зі складними багатоетапними сценами, зберігаючи узгодженість об’єктів, локацій та освітлення протягом усього відео. Компанія навела приклади роликів, де фігуристка виконує програму з котом на голові, або де персонаж аніме бере участь у видовищній битві. Усі ці сцени зберігають цілісність світу, зв’язність кадрів та емоції на обличчях персонажів. Система підтримує три основні стилі візуалізації: реалістичний, кінематографічний та аніме.

Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому

Окрім відеогенерації, Sora 2 отримала потужні можливості для створення аудіосупроводу. Модель генерує складні фонові звукові ландшафти, мову та звукові ефекти з високим рівнем реалістичності. Для точного відтворення зовнішності, міміки та голосу конкретної людини достатньо короткого відеозапису. Ця функція працює універсально для будь-якої людини, тварини чи об’єкта.

Sound on for Sora 2

Разом із запуском Sora 2 OpenAI представила соціальний iOS-додаток Sora App. За концепцією він нагадує TikTok: користувачі бачать стрічку з вертикальними відео, можуть лайкати, коментувати та репостити контент, а також створювати ремікси на роботи інших авторів. Принципова відмінність полягає в тому, що весь контент у додатку згенерований за допомогою ШІ. Жива людина може з’явитися у відео виключно через функцію «камео», яка дозволяє інтегрувати себе або друзів у будь-яку згенеровану сцену. Для цього потрібно записати коротке відео через додаток та підтвердити свій голос для створення образу.

Команда OpenAI повідомила, що під час тестування додатка всередині компанії співробітники використовували функцію «камео» для знайомства та спілкування між собою. Розробники вважають соціальний формат найкращим способом продемонструвати можливості Sora 2.

Етичне використання технології стало пріоритетом для платформи. Користувачі самостійно контролюють, хто та як може використовувати їхнє «камео», а також можуть видалити будь-яке відео зі своєю участю в будь-який момент. Алгоритми та модератори блокують контент зі шкідливим змістом або створений без згоди людей.

Додаток Sora став доступним для користувачів iPhone у США та Канаді через систему запрошень. Через кілька тижнів Sora 2 з’явиться у вебверсії. Базовий варіант сервісу безплатний з «щедрими лімітами» на генерацію. Передплатники ChatGPT Pro незабаром отримають доступ до експериментальної моделі Sora 2 Pro з покращеною якістю. Монетизація передбачає оплату додаткових генерацій при високому попиті. У найближчих планах компанії — розширення географії сервісу та відкриття доступу через програмний інтерфейс додатків (API).

- Реклама -

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

- Реклама -

Читайте також

«Київстар» увійшов до Клубу білого бізнесу

«Київстар» визнали взірцевим платником податків і внесли до Клубу білого бізнесу. Це компанії, що працюють прозоро й вчасно сплачують усі податки.

Завантаження застосунку Starlink стрімко зростають попри здорожчання тарифів

Мобільний застосунок Starlink у другому кварталі може перевищити 3,8 млн завантажень — удвічі більше, ніж торік. Попит зростає попри підвищення цін на послуги.

Telegram випустив застосунок для годинників на Wear OS

Месенджер Telegram повернувся на годинники з Wear OS після п'ятирічної перерви. Реліз вийшов слідом за повноцінним клієнтом для Apple Watch.

Ілон Маск став першим в історії доларовим трильйонером

Засновник SpaceX Ілон Маск першим у світі заробив статок у трильйон доларів. Поки що ці гроші є лише «на папері» й залежать від майбутніх успіхів компанії.

Телевізори TCL першими отримали підтримку голосового керування на базі Gemini

Google додала голосове керування Gemini на телевізори TCL. Достатньо сказати «зроби яскравіше» або «погано чути» — і ТВ сам налаштує зображення та звук.