На конференции Google I/O 2026, состоявшейся 19 мая, компания Google анонсировала новую мультимодальную линейку систем искусственного интеллекта (ИИ) Gemini Omni. Первой моделью серии стала Gemini Omni Flash. Об этом объявил глава Google DeepMind и технический директор компании Демис Хассабис. По его словам, линейка должна стать еще одним шагом к созданию ИИ общего назначения (AGI).
Главная особенность Gemini Omni Flash — способность не только генерировать видео с нуля, но и редактировать уже имеющиеся ролики с помощью текстовых команд в диалоговом режиме. В отличие от предыдущей модели Veo, которая генерировала видео из текста с нуля, Omni Flash принимает любой входной формат — текст, изображения, аудио или готовые видеоматериалы. Модель изменяет в них именно то, что нужно пользователю. Так, Omni Flash позволяет заменить персонажей, объекты или события в кадре, скорректировать стиль, угол камеры и окружение без повторного создания ролика.
Редактирование происходит в формате цепочки команд — каждая последующая инструкция опирается на предыдущую. При этом персонажи сохраняются, а сцена «запоминает» контекст предыдущих правок. Особое внимание Google уделила физической достоверности: модель лучше воспроизводит гравитацию, кинетическую энергию и поведение жидкостей. Благодаря этому из короткого текстового запроса можно, например, создать наглядный научный ролик. На презентации Google продемонстрировала анимацию о сворачивании белков в стиле пластилиновой анимации.
Компания также тестирует функцию Avatars — создание цифрового аватара на основе фотографий и голосовой записи пользователя. После первоначальной загрузки материалов аватар можно использовать в новых роликах, генерируемых исключительно по текстовому описанию. В то же время изменение чужого голоса и звука на старте недоступно — Google воздерживается от этой возможности, пока не проработает механизмы безопасного распространения.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
С точки зрения безопасности каждое видео, созданное с помощью Omni Flash, автоматически получает скрытую цифровую метку SynthID. Проверить происхождение ролика можно через приложение Gemini, поиск Google или браузер Chrome.
Модель уже становится доступной пользователям. Доступ к ней получили подписчики тарифных планов Google AI Plus, Pro и Ultra через приложение Gemini и инструмент для создания видеороликов Flow. Авторам в YouTube Shorts и приложении YouTube Create Omni Flash она доступна бесплатно. В ближайшие недели Google планирует открыть доступ к модели через API и инструменты для разработчиков.
Параллельно Google анонсировала топовую модель линейки — Gemini Omni Pro, подробности о которой обещают раскрыть позже. В перспективе Omni научится генерировать не только видео, но и изображения со звуком. Такой подход вписывается в более широкую стратегию Google — стать единой платформой для генерации контента с интегрированной дистрибуцией через YouTube, поиск и собственные приложения.
