Стандарты сжатия видео МРЕG-4, Н.264 и Н.265

Для обеспечения улучшения качества видео при ограниченной полосе пропускания телевизионного тракта используются алгоритмы цифрового сжатия видеопотока. В настоящее время на смену стандартам МРЕG-2 и МРЕG-4 part 2 пришел стандарт Н.264 и совсем новый, но очень перспективный стандарт Н.265.

Оба стандарта Н.264 и Н.265 обеспечивают значительное сокращение размера видеофайла (от 25 до 50%) при сохранении того же качества, что в старых видеостандартах. Рассмотрим как это обеспечивается.

Стандарт МРЕG-4 рагt 2 и стандарт Н .264/АInC

МРЕG-4 (13О/IЕС 14496) – это совокупность стандартов для кодирования цифровых видео- и аудиосигналов. Эти стандарты описывают стандарты сжатия видео- и аудиоданных, а также содержат информацию системного уровня, которая описывает свойства файлов формата МРЕG-4.

На практике наиболее часто используется популярный стандарт сжатия МРЕG-4 рагt 2 (ISО/IЕС 14496-2). Структурная схема кодера МРЕG-4 показана на рис.1.

Стандарт сжатия видео Н.264 был добавлен в МРЕО-4 в качестве подстандарта МРЕG-4 part 10 (15О/IЕС 14496-10). Т.е. в настоящее время стандарт МРЕО-4 содержит два подстандарта сжатия видео, называемых рагt 12 и part 10. Эти два стандарта сжатия видео несовместимы, так как каждый из них использует не только различные методы сжатия, но и различные формы представления сжатых видеоданных. Таким образом, декодер МРЕG-4 part 10 (Н.264) не может декодировать цифровой поток МРЕG-4 part. 2, и наоборот.

Стандарты видеокодеков Н.26х

Стандарты Н.264 и Н.265 представляют собой дальнейшую эволюцию линейки Н.26х кодеков (рис.2), которые широко используются в различных приложениях: от видеоконференций в Интернете и широкополосных сетях связи до цифрового ТВ и видеонаблюдения, включая мобильные IР-сети. В течение последних 10 лет среди разработчиков приложений и сервисов стал очень популярен видеокодек Н.264/ АVС (Advanced Video Coding) и его масштабируемая версия SVС.

Стандарт Н. 264

Н.264/АVС – это международный стандарт видеокодека (кодера и декодера), который предназначен для сжатия и распаковки цифрового видео с целью уменьшения полосы пропускания, требуемой для передачи и хранения видео. Он был предложен группой экспертов JVТ (Joint Video Team) в мае 2003 г.

Как известно, стандартный цифровой видеопоток DVD качества ССIR601 в несжатом виде при разрешении 720×480 пикселей 4:2:2 (см. врезку цветовое пространство YCbCr) видео и 30 кадр/с составляет 158 Мбит/с. Это значительно превышает возможности Интернет-сетей передачи данных и приводит к тому, что один часовой файл такого видео занимает объем около 79 Гб.

Конечно, можно уменьшить скорость видеопотока, сведя его к разрешению, например, стандартных камер для видеонаблюдения типа SIF, т.е. до 352×240 пикселей 4:2:0 видео 30 кадр/с. При этом битрейт уменьшится примерно в 10 раз. Однако для работы мобильных устройств и достижения того, чтобы 1,5-часовой видеофильм занимал около 0,4 Гб, требуется сжатие исходного видеопотока примерно в 300 раз. Как раз это и обеспечивает видеокодек Н.264.

Успешному закреплению на рынке стандарта Н.264/АVС способствовала низкая плата за лицензию на его использование от МРЕG.-LА Уже к 2010 г. количество видеопредложений на базе Н.264/АVС превзошло количество предложений в стандарте МРЕG-2. Эта тенденция сохраняется и в настоящее время, несмотря на появление нового стандарта сжатия Н.265/ НЕVС.

Стандарт Н.264/АVС при битрейте в 1,5 Мбит/с позволил получить видео стандартной четкости телевещательного качества. Т.е. появилась возможность передавать до 12 сжатых телевизионных каналов в полосе частот, ранее необходимой для передачи всего лишь одного аналогового телеканала. А это позволило телекомпаниям предоставлять новые услуги для видео и резко увеличить количество транслируемых телевизионных каналов.

Именно внедрение стандарта Н.264/АVС позволило начать новый этап в развитии Интернет-телевидения, мобильного телевидения и сделало широкодоступным телевидение высокой четкости НDТV. Кодек Н.264/АVС, поданным IТU), сейчас используется в 80% видеороликов, размещенных в Интернете.

Основные особенности стандарта Н .264/АVС

В стандарте Н.264/AVC используется усовершенствованная технология кодирования видеосигнала по методам, схожим с технологией кодирования в предыдущих стандартах: МРЕG и ITU-Т. При этом для обеспечения меньшего битрейта при сохранении высокого качества изображения используются новые инструментальные средства.

Цветовое пространство YCbCr

Сочетание символов УUV обычно означает цветовое пространство YCbCr. Правда, его корректней было бы записать в виде Y’Cb’Cr’, так как эти три компоненты получаются из компонент R’G’В’ (компоненты RGB после процедуры гамма-коррекции). Иногда используется запись Y’СгСЬ, где, в первую очередь, компонента яркости (Y) подвергается изменению при линейном или нелинейном кодировании (преобразовании).

Описание цветового пространства Y’CbCr было сформулировано и сведено в Recommendation IТU-R ВТ.601 (предыдущее название CCIR 601) в то время, когда происходили разработки цифрового компонентного видеостандарта. Y’CbCr – это масштабированное и смещенное относительно У’11У цветовое пространство. Компонента У принимает значения в диапазоне от 16 до 235 (условных уровней); компоненты СЬ и Сг принимают значения в диапазоне от 16 до 240, с уровнем 128, соответствующего значению 0 (нуль). Существует несколько схем дискретизации компонент Y’CbCr. Это схемы 4:4:4, 4:2:2, 4:2:0.

В схеме 4:4:4 отсчет Y, СЬ и Сг производится одновременно во всех точках дискретизации входного сигнала. Т.е. в этом случае цветовая и яркостная четкость будут одинаковы, а качество изображения, при прочих равных условиях, – наилучшее.

В схеме 4:2:2 отсчет Y, Сb и Сr производится в нечетных точках дискретизации входного сигнала, а отсчет только У – в чётных. Т.е. в этом случае качество цветопередачи будет хуже.

В схеме 4:2:0 отсчет Y и Сb и Сг производят в разных точках, так что на 2 отсчета У приходится 1 отсчет СЬ и Сг. Т.е. цветовая четкость изображения будет хуже, чем в предыдущих случаях.

Оптимизация параметров кодирования

Недостатком классического кодирования является принятие локально оптимальных решений на каждом этапе видеообработки. В итоге суммарное решение не будет оптимальным. В Н.264/AVC используется алгоритм оптимизации параметров кодирования РDО (Rate distortion optimization). При этом в процессе кодирования выбираются такие его параметры, которые обеспечивают получение наилучшего результата.

Улучшенная оценка движения

Для поисков субмакроблоков различных размеров, от 16×16 до 4×4 пикселей, используется оценка движения. При этом точность определения вектора движения увеличена, как для сигналов цветности, так и для сигнала яркости. Для улучшения кодирования векторов движения используется их предсказание.

Улучшение кодирования при плавных движениях

Одним из важных отличий стандарта Н.264/AVC от предшествующих является введение ряда новых условий для кодирования макроблоков в режиме «skip». В итоге макроблок не кодируется, а вместо него используется другой макроблок в той же позиции, но с другого кадра, что позволяет значительно снизить битрейт. При этом особенно большой выигрыш в уменьшении видеопотока достигается при малых битрейтах или когда вся картинка движется одинаково, например, при плавных движениях видеокамеры.

Фильтрация границ блоков

Отличием стандарта Н.264/AVC от предшествующих является использование деблокирующего фильтра. Этот фильтр сглаживает блочные артефакты на границах макроблоков в изображении. Это приводит к улучшению визуального восприятие каждого кадра и всего видеофильма в целом.

Пространственное предсказание

В зависимости от направления движения в Н.264/AVC используется до 9 разных способов пространственного внутрикадрового предсказания для intra-кодированных блоков.

Модифицированное дискретное косинусное преобразование

Для предотвращения ошибок округления при преобразовании остаточной информации используется модифицированное целое дискретное косинусное преобразование (МДКП). При этом в отличие от других стандартов сжатия видеоинформации, размеры блока для МДКП существенно уменьшены, до размеров 8×8 или 4×4 пикселей.

Энтропийное кодирование

В стандарте Н.264/AVC используются более производительные процессы энтропийного кодирования.

Contex-adaptive binary arithmetic coding (САВАС) – контекстно-адаптированное двоичное
арифметическое кодирование, которое представляет собой арифметический кодер. Это кодирование позволяет добиться практически максимально возможной эффективности сжатия. Но этот тип кодирования требует существенно больше ресурсов, чем другой тип кодирования – CAVLC.
Contex-adaptive variable length coding (CABAC) – контекстно-адаптированное кодирование с различной длиной кодового слова. Этот кодер, основанный на алгоритме сжатия Хаффмана,
позволяет ускорить процесс сжатия информации, но в отличие от САВАС не обеспечивает максимально возможной эффективности её сжатия.

Всё это привело к тому, что величина битрейта при использовании стандарта Н.264 заметно меньше, чем у МРЕG-4 рагt 2 и других его предшественников. Это сильно проявляется, когда в кадре отсутствует движение (Abbildung 3).,ru

Стандарт и его реализация

Важно понимать разницу между самим стандартом и его реализацией. Это разные понятия. Часто говорят: «Н.264/AVC обеспечивает лучшее качество видео, чем МРЕG-2». Это не верно, поскольку Н.264/AVC является стандартом сжатия видео, а не стандартом, определяющим его качество для каких-либо конкретных целей.

Стандарт Н.264/AVC определяет структуру создаваемого им цифрового потока, а этому потоку должен точно соответствовать декодер, который реализует весь необходимый инструментарий, определенный стандартом для декодирования этого цифрового потока.

Кодер Н.264 может реализовывать лишь структуру, определенную стандартом, при этом обеспечивая создание соответствующего цифрового потока. Важно, что при этом различные виды реализации и алгоритмы кодера не определяются стандартом, а создаются разработчиком.

Таким образом, кодеры Н.264 различных фирм-производителей будут создавать различные потоки видеоданных при одной и той же скорости передачи данных.

Правильно говорить: «Стандарт Н.264 предоставляет более широкий выбор структуры видеопотока и инструментов, чем МРЕG-2, и дает возможность создать лучший видеокодер. Т.е. этот видеокодер может создавать более качественное видео при той же скорости передачи данных и то же качество видео, что и МРЕG-2 при меньшей скорости передачи данных».

В таблице продемонстрирован результат кодирования одной и той же видеопоследовательности с использованием различных инструментов справочного кодера Н.264 JМ11), доступного бесплатно в Международной организации стандартизации (ISO). При этом каждый цифровой поток, полученный в результате каждого теста, полностью соответствует цифровым потокам стандарта Н.264/А\/С и имеет идентичное качества видео.

Из таблицы хорошо видно, что чем больше количество используемых инструментов и алгоритмов, тем больше степень сжатие при том же качества получаемого видео. Однако большая степень сжатия усложняет процесс кодирования и увеличивает его длительность. Именно увеличение сложности кодирования является причиной того, что некоторые инструменты или алгоритмы в конфигурации Н.264 кодера зачастую не используются.

Реализация алгоритма	Размер потока даннях, кБ/с		Общее время кодирования (относительное)
Кодирование только I-кадров	2279	1
I и Р-кадры, но без оценки движения (0 диапазон поиска)	1055	1,5
I и Р-кадры с ±16 поиском при помощи упрощенного алгоритма поиска	453	1,4
I и Р-кадры с использованием полного алгоритма поиска с компенсацией движения	421	56

Преимущества стандарта H.264

Рассмотрим видеокодер, в котором видеокадры захватываются с видеокамеры и направляются во внутренний H.264 кодер для сжатия. При этом каждый видеокадр сжимается одним из двух способов: в качестве I-кадра P-кадра.

I-кадр представляет собой видеокадр, который был перекодирован без ссылки на какой-либо иной кадр видеозаписи. Видеопоток или запись всегда начинаются с I-кадра, и, как правило, содержат такие I-кадры во всем потоке. Такие регулярные I-кадры, также называемые внутренними кадрами (instra frames), основными кадрами (key frames) или точками доступа (accesspoints), являются ключевым для произвольного доступа к информации записанных кодером H.264 файлов, например, при перемотке или поиске во время воспроизведения. Регулярность таких I-кадров называется «интервал I-кадров». Недостатком использования I-кадров является то, что они занимают гораздо больший объем, чем P-кадры.

P-кадры представляют собой кадры с компенсацией сдвига, другими словами, кодер использует разницу между обрабатываемым в настоящее время кадром и предыдущим кадром видео, проверяя, что информация на нём не изменилась и при этом, например, статичный задний план не передается постоянно. В отличие от кодеров, основанных исключительно на различиях в соседних кадрах, таких как дельта-MJPEG, кодер H/264 ищет не только различия, но также происходящее видеодвижение. Это вызвано тем, что кодеры с компенсацией движения обеспечивают меньший битрейт, чем простые кодеры, основанные только на поиске различий. Процесс поиска движения известен как «предсказание движения».

Оценивающий движение элемент является одной из наиболее затратных в вычислительном отношении частей и наиважнейшей для работы кодера H.254. Предсказание движения является сложной процедурой, и часто кодеры, особенно программные, работающие в реальном масштабе времени, используют уменьшенные площади поиска или ограниченный алгоритм поиска или ограниченный алгоритм поиска движения для обеспечения работы в реальном времени. Часто это может приводить к низкому качеству видео и значительному уменьшению степени сжатия. У аппаратного кодера H.264 такого недостатка нет.

По сравнению с MPEG-4 part 2 стандарт H.624 может обеспечить экономию трафика цифрового потока от 20% до 25% в обычных условиях и свыше 50% в период, когда в кадре нет движения (рис.3.). Это не только снижает общие требования к полосе пропускания для видеосистемы, но что более важно, может значительно сократить объем хранилища, требуемого для записи видео, которое часто является одни из наиболее долгих элементов системы.Структурная схема кодера H.264 показана на Figur 4.

Требования к аппаратному обеспечению

Из вышесказанного следует, что в стандарте H.264 требования к обрабатывающей способности кодера значительны, если используется полный диапазон его свойств и реализовываются все его преимущества. Отметим, что стандарт H.264 является стандартом сжатия видео общего назначения, который не разрабатывался непосредственно который не разрабатывался непосредственно для приложений CCTV. Однако при использовании специально разработанных на базе чипов программируемой пользователем вентильной матрицы (ППВМ, или FPGA по-английски) может быть обеспечена необходимая скорость обработки видео, и такая разработка может быть приспособлена к приложениям CCTV. Например, дополнительное сжатие изображения, предусмотренное в стандарте H.264, может достигаться при низкой активности видео, т.е. в ситуации, типичной для многих приложений охранного видеонаблюдения.

Использование специализированных аппаратных кодеров на базе ППВМ имеет ряд дополнительных преимуществ:

Высококачественное видео может вырабатываться при быстром движении в поле зрения камеры без потери кадров, независимо от скорости передачи данных и движения. Это является наиважнейшим требованием для таких приложений, например, как системы видеонаблюдения за столами в казино;
Низкая стоимость и при этом высокая производительность кодирования видео с разрешением до 4SIF(т.е.4·[352×288] пикселей) при 30 кадрах/с, что полностью соответствует стандарту H.264;
Возможность обновления уже установленных систем для использования новых стандартов сжатия;
Аналитика в реальном времени, которая может работать на высокопроизводительном аппаратном обеспечении быстрее, чем при использовании для этого программного обеспечения.

Значительный выигрыш в размере файла, обеспечиваемый кодеком H.264, по сравнению с другими, при одном и том же пиковом соотношении сигнал/шум (PSNR) хорошо виден на Abb.5.

Стандарт кодирования H.265/HEVC

В 2013г. Международный союз электросвязи (ITU) утвердил стандарт сжатия H.265/HEVC(HighEfficiencyVideoCording, т.е. высокоэффективное кодирование видеосигнала), который позволит передавать видео с вдвое меньшим битрейтом, чем H.264, при сохранении качества «картинки». Этот кодек поддерживает видео в разрешении до 7680×4320 пикселей, при этом для просмотра 4k-видео, закодированного в стандате H.265, достаточно Интернет-соединения со скоростью около 25МБ/с.

Стандарты видеокамер SIF или CIFCIF(с кодером H.261/H.263) и SIF(с кодером MPEG-4) являются обозначениями разрешения видео. Разрешение CIF означает 352×288 пикселей, не зависимо от системы цветности входящего видеосигнала, NTSC или PAL.Разрешение SIF определяет 352×288пикселей для камер системы PAL и разрешение в 352×240 для камер системы NTSC. Встречается разрешение 352×240, также являющееся действительным разрешением SIF. К сожалению, по причине фонетического сходства и идентичностидля источников PAL эти термины иногда используются рівнозначно, хотя они различаются. Т.е. иногда, корда говорят CIF, в действительности имеется в виду SIF.

Итак, если ваша система – CIF (2 CIF или 4 CIF), то вы используете старый кодер, основанный на стандарте H.261/H.263, и эта система не будет совместима с MPEG-4 part 2 или H.264 основаны на SIF. Поэтому если есть потребность в действительном MPEG-4, part 2 или H.264, то выбирайте SIF.

Основные цели, которые преследуются при разработке новых видеокодеков, в частности H.265, остаются неизменны, хотя они и противоречивы:

Снижение битрейта, т.е. повышение степени компрессии оцифрованного видеопотока, при сохранении качества его декодированной версии (за счет более сложной обработки сигнала);
Уменьшение задержки для приложений, которые работают в реальном времени (системы безопасности, видеочаты, видеоконференции и др.);
Уменьшение аппаратных ресурсов, требуемых при обработке видеоданных;
Увеличение устрочивости к потерям сигнала при передаче мультимедийных даннях.

Помимо попытки достижения этих целей в стандарте H.265/HEVC используется работа с высоким разрешением HD, а именно фоpмат 4k x 2k (3840×2160) 8kx 4k (7680×4320) пикселей, и применена архитектура с параллельной обработкой данных.

H.265/HEVC основан на подходе, который предусматривает сокращение избыточности изображения за счёт:

Уменьшения избыточности в соседних кадрах (inter-кодирования), благодаря оценке движения в кадре и его компенсации.
Уменьшения пространственной избыточности в ссылочном или разностном кадрах благодаря intra-кодированию. Такой же подход используется в кодеке H.264, однако в стандарте H.265/HEVC предусмотрена более широкая адаптация параметров кодека и расширен диапазон их изменения.

При этом используются:

Переменные размеры макроблоков изображения;
Макроблоки изображения, которые имеют древовидную структуру;
Деблокирующий фильтр, работающий в режиме параллельной обработки;
Фильтр в цепи обратной связи (рис.6.)

Для улучшения качества цветопередачи используется субдискретизация цветовых (хроматических) компонент 4:2:2 и 4:4:4 (помимо 4:2:0).

В стандарт заложена иерархия, которая включает профайлы, слои и уровни. В будущем их можно будет наращивать в зависимости от особенностей использования видеокодека, например, при предполагаемом развитии его масштабируемой версии SVC.

В стандарте также уделено внимание возможностям гибкого представления видео различных разрешений. Для этого используются:

Блок кодирования (CU)
Блок предсказания(PU)
Блок преобразования(TU)

CU – это базовый блок сжатия видеоинформации. Его структура такая же, как у макроблока в стандарте MPEG-2, но она выполнена гораздо более гибкой. Для эффективного сжатия HD и 4k видео в стандарте H.265/HEVC поддерживаются размеры CU большие, чем 16×16 ( как в стандарте H.264), например, 32×32 и 64×64.

PU – это блок предсказания, причём один блок CU может содержать несколько PU. Асимметричное разбиение на участки движения (AMP) используется для эффективного кодирования нерегулярных узоров видеокадра.

TU – это блок, как блок CU, может включать один или несколько PU. Кроме стандартных преобразований 4×4 и 8×8, для TU также поддерживаются быстрые преобразования 16×16 и 32×32.

В стандарте H.265/HEVCтакже улучшено предсказание векторов движения и модифицированы 1/4 –пиксельные интерполяционные фильтры.

Особое внимание уделено уменьшению искажений между исходным и восстановленным видеокадрами, для чего объедены несколько фильтров декодера H.265. Для снижения средних искажений локальных областей в дополнение к модифицированному деблочному фильтру введен адаптивный SAO фильтр (Sample Adaptive Offset).

Новшеством, по сравнению с H.264/AVC, в H.265/HEVCстало введение нового понятия тайл (tile). Тайлы представляют собой разбиение кадра на прямоугольные области, которые могут кодироваться и декодироваться независимо друг от друга. В отличие от слайсов (slices), тайлы не являются отдельными синтаксическими единицами кодирования, за счет чего достигается дополнительное увеличение степени сжатия. Использование тайлов позволяет увеличить производительность кодирования и декодирования видеоданных благодаря одновременному проведению этих процессов на современных многоядерных настольных или мобильных платформах.

Стандарт H.265/HEVC в среднем позволяет достичь примерно 40% уменьшения размера закодированного видео по сравнению с H.264/AVC (разрешение 720р.), 50% – для разрешения 1080i, р и более 50% – для 4k. На Figur 7 показаны размеры видеофайлов и МВ при использовании степени сжатия Q равной 24, 30 и 40, полученные кодерами H.264 и H.265. Как видно, раз мер закодированного видеофайла для H.265 получается в 1,7-2 раза меньше.

Велечина битрейта, который необходим ля получения одного и того же поискового соотношения сигнал/шум (PSNR), для разных величин PSNR при HD разрешении 1920×1080 пикселей и 24 кадра/с показана на рис.8.

Ожидется, что H.265 войдет в широкий обиход уже в ближайшие несколько лет. Продукты, поддерживающие новый стандарт, уже представили Ericsson, Mitsubishi, Qualcomm и другие компании.

Autor: Андрей Семёнов, г. Киев

Радиоаматор №3-4, 2014

Admin

Hinterlasse eine Antwort Antwort verwerfen