Гуру цифрового видео и автор справочника «The MPEG Handbook» Джон Воткинсон, изучив новое поколение ТВ- и кинотехнологий, обнаружил, что они будут в корне отличаться от того, что продается сегодня.
Когда вы в следующий раз пойдете в кино или будете смотреть телевизор, имейте в виду, что вы не увидите на экране ни одной реально движущейся картинки. Движение, которое вы видите, это всего лишь иллюзия, существующая лишь в вашем сознании.
То, что на самом деле вы видите на экране, неподвижно. Это серия неподвижных картинок, каждая из которых появляется перед вашими глазами на короткое время, а после сменяется другой картинкой.
Начнем с того, что вы думаете, что частота кадров – количество картинок, мелькающих на экране за секунду, сильно влияет на качество той иллюзии, которую в итоге видите. И в этом вы, несомненно, правы. Исходя из этого, вы можете подумать, что кино- и телекомпании провели массу исследований закономерностей человеческого восприятия зрительных образов, прежде чем появились стандарты частоты кадров, которые остаются неизменными на протяжении десятилетий. Однако в этом вы будете неправы.
Давайте для начала разберемся с тем, как же появилась сегодняшняя частота кадров – 24 в секунду, принятая в кинематографе в качестве стандарта. Старые немые фильмы имели более низкую частоту кадров – 18 за секунду. Однако когда была изобретена оптическая звукозапись для звуковой дорожки, стало ясно, что на такой скорости звук получается сильно приглушенным, потому что оптика не могла на таких параметрах выделить высокие частоты. Поэтому было решено увеличить частоту кадров, чтобы достичь нормального качества звука. Таким образом, решение об установке в качестве стандарта скорости ленты 24 кадра в секунду никак не было связано с особенностями человеческого зрения.
Картинка на американском телевидении движется со скоростью 60 кадров в секунду, а в Европе частота кадров телевидения составляет всего 50. Неужели у американцев зрение острее, и поэтому им требуется более высокая частота? Вряд ли, поскольку большинство американцев являются потомками эмигрантов из Старого света. Правда состоит в том, что стандарт частоты кадров в каждом регионе выбирался в соответствии с частотой переменного тока в местной электросети – из опасений того, что в случае несоответствия данных частот сможет вызвать взаимные помехи с электрическим освещением. Таким образом, мы еще раз убеждаемся в том, что выбор скорости движения картинки никак не связан с особенностями человеческого зрения. Вся система, связанная с частотой кадров, построена на принципах, которые никак не связаны с научными исследованиями, и пришло время это изменить.
Поля зрения
Любая попытка показать кино на его естественной скорости в 24 кадра в секунду была бы сопряжена с риском головной боли для зрителей, а то и могла бы спровоцировать у них приступы эпилепсии. На практике каждый кадр кино мелькает на экране дважды. Конструкция кинопроектора предусматривает использование двухстворчатого затвора, и каждый новый кадр фильма появляется лишь тогда, когда одна из створок перекрывает свет. Таким образом, создается иллюзия скорости 48 кадров в секунду. При этом в реальности нет никаких движущихся картинок.
Создатели телевидения, разумеется, были в курсе того, что в кино каждый кадр демонстрируется зрителю дважды, поэтому они изобрели подобную технологию, позволяющая сэкономить средства и названную «чересстрочная развертка». Картинка разбивается на пары кадров, называемые четными и нечетными. В одном случае при формировании кадра игнорируются все четные строки, в другом кадр создается путем игнорирования всех нечетных строк. Когда оба типа кадров появляются на экране на большой скорости, все строки снова становятся видимыми, создавая иллюзию движущегося изображения.
Тот, кто предложил использовать двойной кадр в кино, и тот, кто предложил применить чересстрочную развертку в телевидении, оба совершили классическую ошибку, полагая, что все базируется исключительно на оси времени. На оси времени повторение кадров удваивает эффективную частоту кадров, помогая избежать мерцания, а две части чересстрочного кадра сочетаются правильно.
Однако в этом предположении имеется один колоссальный изъян, и связан он с тем, что человеческий глаз способен двигаться. Всякий, кто когда-либо пытался фотографировать движущиеся объекты, знает, что если камера при этом остается неподвижной – изображение движущегося объекта получится размытым. Однако если камера движется вслед за объектом, то изображение получается четким.
Человеческий глаз в процессе эволюции также научился отслеживать движущиеся объекты, поскольку это было необходимо для выживания наших предков. В реальной жизни наш глаз отслеживает движущийся объект и фокусирует его на сетчатку в виде неподвижного изображения, поэтому мы способны различать детали, несмотря на движение объекта. Вполне очевидно, что глаз способен отслеживать движение лишь одного объекта, в то время как все остальное для глаза будет пребывать в относительном движении.
Однако в том случае, когда глаз отслеживает «движущийся» объект на экране, он не будет способен различать детали на том же уровне, что и в реальной жизни, поскольку объекты, присутствующие в кадре, на самом деле не двигаются. Это хорошо видно на рисунке 1. Есть еще несколько причин, уменьшающих уровень восприятия деталей, и мы их проанализируем.
Поэтому статичное разрешение никогда не достигается при передаче движущегося изображения. Цифры, такие, как число строк на экране телевизора или количество пикселей в кадре, – это всего лишь простой маркетинговый ход, рассчитанных на тех «чайников», которые свято верят в то, что чем больше эти цифры – тем лучше.
Более важным параметром для движущегося изображения является динамическое разрешение – разрешение, которое воспринимает наш движущийся глаз. А нынешнее всеобщее помешательство на параметрах статичного разрешения заставляет нас делать неправильные выводы и принимать неправильные решения. Вот в чем причина того, что сегодняшнее HDTV не может быть кардинально лучше привычного SDTV. А как оно может быть лучше, если частота кадров остается неизменной?
Дисплеи типа «Retina»
Еще одной особенностью способности наших глаз отслеживать движущийся объект является то, что интересующий нас объект в реальном мире четко фиксируется на нашей сетчатке, в то время как все остальное в той или иной мере размыто. Однако этого не происходит при наблюдении за движением на экране. Вместо этого все, кроме интересующего нас объекта, как бы прыгает со скоростью частоты кадров. Этот эффект называется «фоновое стробирование» или же просто «стробирование».
Учебники и пособия по киносъемке уделяют много внимания вопросам о том, как избежать стробирования. Один из способов состоит в применении более долгой выдержки, что позволяет несколько размыть само движение и сделать стробирование менее заметным. В таком случае вам нужно использовать отслеживающие кадры, чтобы сохранить основной объект четким относительно движущегося фона. Кинематограф также использует крупные рамки, сенсоры и большие линзы, позволяющие контролировать глубину фокуса. Выбрасывание фона из фокуса позволяет уменьшить эффект стробирования. В кино все контролируется.
Телевидение, как правило, имеет меньше возможностей контроля, а низкие бюджеты не дают возможности играться с регулировкой фокуса. Вот почему телевидение нуждается в более высокой частоте кадров. И, вероятнее всего, такая же ситуация сохранится и в будущем. Частота кадров будет расти как в кинематографе, так и в телевидении, однако при этом будет сохраняться разница между ними.
Одна из причин того, что кино, снятое на бытовую камеру, выглядит ужасно, состоит в том, что владельцы компактных бытовых камер не желают носить за собой треногу, которая весит намного больше, чем сама камера. И поэтому в итоге картинка скачет по всему экрану. Лучший аксессуар, который вы можете купить для своей бытовой камеры, это цементный блок, который поможет сохранить ее стабильное положение.
Способность наших глаз отслеживать движение объекта делает проблематичным и существование такого явления, как чересстрочная развертка в телевидении. Два поля, которые совместно формируют кадр, появляются в разное время, поэтому для движущего глаза четные и нечетные строки никогда не смогут идеально сочетаться в рамках одной картинки. И они действительно не сочетаются, за исключением, разве что, описаний, сделанных в целях маркетинга. HDTV-программа, которую вы смотрите с разрешением в 1080 строк, имеет чересстрочную развертку. Она содержит всего лишь 540 строк в каждом поле, и это эффективное количество строк при передаче движущегося объекта. Однако, как ни странно, в рекламе всегда указывается полное число строк экрана.
Поэтому сегодня нам остается лишь надеяться на то, что в будущем объем наших знаний об особенностях демонстрации движущихся объектов сможет убедить представителей бюро стандартизации в том, что чересстрочная развертка должна навсегда исчезнуть из стандартов телевидения.
Пополнение базы наших знаний об особенностях передачи движущихся изображений происходит за счет разных источников. Производители телевизоров заинтересованы в том, чтобы получать в своих моделях наилучшую картинку, что может быть достигнуто за счет увеличения частоты кадров. Производители и зрители спортивных программ хотели бы получить возможность смотреть замедленные повторы ключевых моментов соревнований. Повышение количества международных продаж ТВ-панелей требует появления на рынке надежных преобразователей с 50 в 60 кадров в секунду и наоборот.
Наконец, учеными была проделана колоссальная работа по изменению стандартов компрессии, что позволило передавать цифровое видео с более низким битрейтом при сохранении качества. И в процессе всего этого исследователи и разработчики постоянно сталкивались с одним ключевым фактором – необходимостью считаться с возможностью наших глаз отслеживать движение. Найденное решение получило название «компенсация движения».
Принцип компенсации движения заключается в отслеживании оси, по которой движется глаз, отслеживая подвижный объект. Она называется осью оптического потока и не параллельна оси времени. Предположим, вы хотите посмотреть повтор на скорости, составляющей четверть от оригинальной. Между имеющимися у вас картинками необходимо вставить (либо рассчитать) три новых. Ключевой момент здесь состоит в том, что для получения плавного движения вы не можете вставить картинки сами по себе; вы должны вставить движение. Как показано на рисунке 2, каждый объект, который перемещается между двумя входными картинками, должен быть изображен на четверть, на половину и на три четверти всего движения в промежуточной картинке.
По определению, малейшее движение объекта происходит с соблюдением оси оптического потока. Если вы пытаетесь создать компрессор, малейшее движение переводится в малейшее различие между последовательными картинками, что предусматривает использование маленького битрейта для передачи движения. Таким образом, MPEG-кодеры высылают векторы, которые передают декодеру информацию о том, каким образом и на какое расстояние передвигать детали картинки так, чтобы она выглядела наиболее похожей на другую картинку.
Переработка всех имеющихся знаний, очистка их от лишнего и определение направлений развития технологий в будущем гораздо проще, чем вы можете себе представить. Каждый фотограф знает, что для того, чтобы получить неразмытое изображение движущегося объекта, требуется выставить короткую выдержку. Но если вы попробуете сделать то же самое при съемке кино, вы лишь сделаете более очевидным эффект стробирования. Поэтому на практике для уменьшения эффекта стробирования нам приходится повышать частоту кадров, а уже после этого мы можем ставить короткую выдержку для улучшения динамического разрешения. В кинотеатрах более высокая частота кадров позволит проецировать изображение на экран без множественного мигания, которое ухудшает показатели разрешения.
Интересно, что из-за того, что динамическое разрешение традиционных фильмов весьма низкое, никогда не достигается число пикселей, соответствующих статичному разрешению. В связи с этим можно смело предположить, что повышение частоты кадров с параллельным уменьшением количества пикселей в каждом кадре не только не приведет к потере качества разрешения, но даже улучшит его.
Половина меры?
К примеру, если мы снизим статичное разрешение цифрового кино до отметки в 70% от того, которое существует на сегодняшний день, никто этого не заметит, потому что потеря утонет в размытии, вызванном плохим отображением движения и прочими проблемами. При этом следует иметь в виду двухмерность цифровой картинки, стало быть, снижение разрешения коснётся числа строк в обоих измерениях – как по вертикали, так и по горизонтали. Следовательно, в итоге число пикселей в кадре будет составлять 70% на 70% от оригинала, что в целом равняется примерно 50% от того, что мы имеем сегодня. Таким образом, можно будет получить двукратное увеличение частоты кадров без увеличения скорости передачи данных. Все, что мы сделаем, поможет нам более разумно использовать имеющуюся скорость передачи данных, перераспределив содержание самих данных. Уменьшив число пикселей в каждом кадре вдвое и вдвое увеличив частоту этих кадров, мы получим очевидное увеличение качества изображения.
Первые попытки перейти от HDTV к UHDTV предполагают использовать частоту кадров от 100 до 120 в секунду. Но фиксация статичного разрешения никуда не денется. Ходят разговоры о передаче изображения разрешением в 4000 пикселей с частотой всего 50/60 Гц, что может стать самым идиотским форматом из когда-либо существовавших. В таком случае мы получим настолько ужасное динамическое разрешение, что нам придется показывать по телевизору лишь программы для садоводов (демонстрируя рост растений на грядках), а также новый вид спорта – гонки улиток.