На протяжении вот уже почти тридцати лет мы используем одни и те же методы для проведения компрессии видео. Однако в ближайшее время можно ожидать революционных изменений в этой сфере, – считает директор по коммуникациям Hedge.video Дэвид Шэптон.
Похоже, пришло время для перемен. Парадигма может быть словом, которое используется очень часто и, в основном, не точно. Однако это именно то, что нам следует изменить. Мы не хотим показаться неблагодарными, поскольку кодеки неплохо себя показали в рамках существующей парадигмы. И именно поэтому мы можем смотреть видео в разрешении 8K, используя подключение по телефонной линии. И это – достижение по любым меркам. Это почти невероятно, и это было бы невозможным без множества взаимозависимых технологий, которые, слой за слоем, обеспечивают нам быстрый широкополосный доступ в интернет и красивые изображения.
Так почему же пришло время для перемен? На это есть, скажем так, две причины. Во-первых, текущая парадигма кодеков основана на математических операциях, выполняемых с пикселями. Пиксели не подходят ни миру, в котором мы живём, ни нашему мозгу, ни нашим когнитивным методам. Во-вторых, кодеки ничего не знают о том, что именно они сжимают. Вам это кажется странным? Сейчас попробуем объяснить.
«Глупые» кодеки
Кодеки никак не зависят от контента, поскольку им всё равно – работают ли они с видео судебной драмы или с записью хирургической операции. Им абсолютно всё равно – идёт ли в клипе речь о полёте лебедя или же о боксёрском поединке. Ведь всё это – просто пиксели. Единственный случай, когда кодекам не всё равно, что собой представляет контент, – это случай, когда возникают сложности с компрессированием контента: например, видео с лесом во время метели, или же лошадиные скачки на «сложном» фоне. В первом из этих примеров слишком много случайностей (трудно отличить вихрь из снежинок от случайного «шума»), а во втором – просто слишком много быстро меняющейся информации. Однако, ни одна из этих проблем, связанных с контентом, не касается того, о чём именно этот контент.
Как же здесь поможет искусственный интеллект? Само собой разумеется, что и искусственный интеллект, и его ближайший родственник – машинное обучение – не так уж и просты для понимания. Однако, взглянув на некоторые примеры, несложно понять, чем они могут быть нам полезны.
Появление интеллектуальных кодеков
В настоящее время уже известно несколько примеров использования искусственного интеллекта для работы с видео в режиме реального времени. В частности, некоторое время назад компания Nvidia представила приложение для видео-звонков, которое может создавать впечатление того, что участники сеанса видеосвязи смотрят в камеру, даже если они не делают этого. Этого достаточно, чтобы не привлекать к себе внимание.
Параллельно разрабатываются приложения с использованием искусственного интеллекта, способные создавать фотореалистичные изображения на основе голосовых команд. К примеру, фраза «Покажите мне пингвина, строящего квантовый компьютер» действительно создаст изображение водной антарктической птицы, проектирующей трубопровод для кубитов.
На протяжении нескольких лет web-сайт «thispersondoesnotexist.com» создаёт фотореалистичные изображения людей, которых он, по сути, сам и выдумывает. Каждый раз, когда вы обновляете страницу, вам представляется изображение нового «человека». Ни один из них не существует в реальности. Все они являются продуктом тщательно обученного искусственного интеллекта, который просто «знает», как люди обычно выглядят.
Новые инструменты, такие как Imagen от Google, ещё больше расширяют искусство «воображения» фотореалистичных сцен. И по мере того, как технологии совершенствуются – быстро и неизбежно – они работают со всё более и более высокими разрешениями. Сложно избавиться от ощущения, что если они так хороши для создания фотореалистичных изображений чего-то такого, чего никогда не существовало, то что же произойдет, если вы попросите такой искусственный интеллект создать наилучшую возможную картинку того, что вы сейчас показываете?
Погодите, что? Это вообще имеет какой-либо смысл? Да, безусловно. Для этого даже существует название: ре-синтез.
В процессе ре-синтеза вы берёте то, что уже существует, и перестраиваете это «с нуля» таким образом, чтобы оно максимально соответствовало по точности оригиналу либо превосходило его. Искусственный интеллект будет использовать те же методы, которые используются для создания фантазийных образов, применяя их к образам реальным. Возникает очевидный вопрос: в чём же секрет? Ответ заключается в том, что искусственный интеллект не «думает» пикселями. Вместо этого он использует силу концептуальных шаблонов. Чем детальнее шаблоны, тем лучшими являются результаты, однако они всё равно состоят не из пикселей.
Можно предположить, что если вы сможете обучить искусственный интеллект, привив ему достаточный опыт из естественного мира – или, точнее, дадите ему понимание того, каким образом вещи должны выглядеть в реальном мире, то он должен быть в состоянии воспроизвести существующую сцену, исходя из своего «знания» того, какова должна быть сущность этой сцены.
У кодека на основе искусственного интеллекта не будет «разрешения» как такового. Подобно и Postscript, он сможет выводить картинку в любом разрешении. Его частотой кадров будет «любая частота кадров». Преимущества будут огромными и преобразующими. Для достижения данной цели уже ведутся разработки по нескольким направлениям. Одним из них является вычислительная оптика. Компания Sony недавно предсказала, что к 2024 году камеры смартфонов превзойдут цифровые зеркальные камеры (или их беззеркальные аналоги). Большая часть вычислительной оптики – это просто обработка чисел. Однако, всё чаще она будет основываться на искусственном интеллекте. В определённый момент – и мы даже не уверены в том, что в этот момент вы бы назвали это кодеком – ваши видео начнут сохраняться в виде концепций, а не пикселей. И это может стать самым грандиозным изменением с момента появления цифрового видео.