Компанія OpenAI представила нейромережу Sora, яка може за текстовим запитом створювати «реалістичні» і «креативні» ролики.
«Sora здатна створювати складні сцени з кількома персонажами, певними типами руху і точними деталями об’єкта і фону. Модель [штучного інтелекту] розуміє не тільки те, що користувач вказав у запиті, а й те, як ці речі існують у фізичному світі», – йдеться в пресрелізі компанії.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
В OpenAI уточнили, що зараз нейромережа може створювати ролики тривалістю до хвилини. Крім цього, вона може генерувати відео зі статичних зображень, а також заповнювати кадри, яких бракує в наявних роликах, або розширювати їх.
Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому
Водночас у компанії зазначили, що в нинішньої версії Sora є «слабкі місця». Зокрема, в деяких випадках нейромережа може не простежувати причинно-наслідковий зв’язок. Наприклад, у згенерованому ролику людини, яка їсть печиво, на самому печиві не залишаються сліди від укусів.
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Поки що Sora недоступна для широкого кола користувачів, але розробники надали доступ до нейромережі деяким фахівцям із різних галузей, зокрема експертам із питань дезінформації та кібербезпеки. Також у компанії уточнили, що займаються розробкою інструментів, які будуть обмежувати користувачів у створенні контенту, що порушує політику компанії, і дадуть змогу визначати, що ролик був згенерований нейромережею.
До тестування своєї нейромережі OpenAI також залучила художників, дизайнерів і режисерів, щоб за допомогою їхніх відгуків удосконалити модель для її використання в професійних цілях.
Крім цього, компанія планує залучити до розвитку Sora політиків, викладачів і художників по всьому світу, щоб дізнатися їхню думку про нову технологію і визначити варіанти її використання.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
«Попри великі дослідження і випробування, ми не можемо передбачити всі корисні способи використання нашої технології, а також всі способи, якими люди будуть нею зловживати. Ось чому ми вважаємо, що навчання на прикладі реального використання є найважливішим компонентом створення і випуску дедалі безпечніших систем штучного інтелекту», – додали в OpenAI.
Коли Sora з’явиться в загальному доступі, невідомо. Але користувачі Х уже викладають ролики, згенеровані нейромережею – OpenAI опублікувала їх у своєму технічному звіті. Крім дуже реалістичних відео з людьми, домашніми вихованцями й пейзажами, користувачі звернули увагу, наприклад, на ролики з пінгвінами на велосипедах і хом’яком на качці-драконі. Їх публікує глава OpenAI Сем Альтман за запитами користувачів.
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
Також користувачі Х жартують, що Sora поки що не вдаються стільці через відео, згенероване за запитом: «археологи виявляють у пустелі звичайний пластиковий стілець, розкопують і відчищають його з великою обережністю». У ролику нейромережа не відразу змоделювала стілець, як твердий об’єкт, що призвело до помилок.
Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.
Weakness: In this example, Sora fails to model the chair as a rigid object, leading to inaccurate physical interactions. pic.twitter.com/eVYR0OqHGb
— Eduardo Borges (@duborges) February 15, 2024