1. Вступление Цифровые
технологии изо дня в день все больше наполняют окружающий нас мир, и
этот процесс со временем только ускоряется. В повседневном обиходе
любого из нас уже сегодня присутствует большое число самых различных
цифровых устройств, каждое из которых имеет характеристики и свойства,
значение которых оказывается не всегда известным и понятным для
потребителя. Некоторые из ставших уже абсолютно привычными электронные
устройства, равно как и компьютерные программы, остаются для
потребителя некими черными ящиками, устройство и принцип действия
которых скрыто от глаз.
Потребительская аудио аппаратура,
также как и остальная аппаратура - постепенно и уверенно переходящая на
цифровые рельсы, становится все сложнее, ее параметры – все запутаннее,
а принцип действия – все менее ясным. Эта статья не является
универсальным путеводителем в области цифрового звука и цифровой аудио
техники, однако в ней мы попытаемся разобраться с основными идеями, а
также теоретическими и практическими принципами, лежащими в основе
современных цифровых аудио технологий и устройств. Автор статьи
надеется, что приведенные в ней сведения окажутся полезными для
читателя и явят собой некую основополагающую теоретическую базу,
понимание которой просто необходимо всем активным аудио любителям.
2.2. Звук и формы его представления
Как
мы уже выяснили, звук – это слышимые человеком колебания,
распространяющиеся в пространстве. Что же представляет собой звук в
аудио аппаратуре?
В звуковой аппаратуре звук представляется
либо непрерывным электрическим сигналом, либо набором цифр (нулей и
единиц). Аппаратура, в которой рабочий сигнал является непрерывным
электрическим сигналом, называется аналоговой аппаратурой (например, бытовой радио приемник или стерео усилитель), а сам рабочий сигнал – аналоговым сигналом.
Преобразование
звуковых колебаний в аналоговый сигнал можно осуществить, например,
следующим способом. Мембрана из тонкого металла с намотанной на нее
катушкой индуктивности, подключенная в электрическую цепь и находящаяся
в поле действия постоянного магнита, подчиняясь колебаниям воздуха и
колеблясь вместе с ним, вызывает соответствующие колебания напряжения в
цепи. Эти колебания как бы моделируют оригинальную звуковую волну.
Приблизительно так работает привычный для нас микрофон. Полученный в
результате такого преобразования аналоговый аудио сигнал может быть записан на магнитную ленту и впоследствии воспроизведен.
Аналоговый сигнал с помощью специального процесса (о нем мы будем говорить позднее) может быть представлен в виде цифрового сигнала
– некоторой последовательности чисел. Таким образом, аналоговый
звуковой сигнал может быть «введен» в компьютер, обработан цифровыми
методами и сохранен на цифровом носителе в виде некоторого набора
описывающих его дискретных значений.
Важно понять, что
аналоговый или цифровой аудио сигнал – это лишь формы представления
звуковых колебаний материи, придуманная человеком для того, чтобы иметь
возможность анализировать и обрабатывать звук. Непосредственно
аналоговый или цифровой сигнал в его исходном виде не может быть
«услышан». Чтобы воссоздать закодированное в цифровых данных звучание,
необходимо вызвать соответствующие колебания воздуха, потому что именно
эти колебания и есть звук. Это можно сделать лишь путем организации
вынужденных колебаний некоторого предмета, расположенного в воздушном
пространстве (например, диффузора громкоговорителя). Колебания предмета
вызывают колебаниями напряжения в электрической цепи. Эти самые
колебания напряжения и есть аналоговый сигнал. Таким образом, чтобы
«прослушать» цифровой сигнал, необходимо вернуться от него к
аналоговому сигналу. А чтобы «услышать» аналоговый сигнал нужно с его
помощью организовать колебания диффузора громкоговорителя.
2.5. Пространственное звучание.
Человек
слышит двумя ушами и за счет этого способен различать направление
прихода звуковых сигналов. Эту способность слуховой системы человека
называют бинауральным эффектом. Механизм
распознавания направления прихода звуков сложен и, надо сказать, что в
его изучении и способах применения еще не поставлена точка.
Уши
человека расставлены на некотором расстоянии по ширине головы. Скорость
распространения звуковой волны относительно невелика. Сигнал,
приходящий от источника звука, находящегося напротив слушателя,
приходит в оба уха одновременно, и мозг интерпретирует это как
расположение источника сигнала либо позади, либо спереди, но не сбоку.
Если же сигнал приходит от источника, смещенного относительно центра
головы, то звук приходит в одно ухо быстрее, чем во второе, что
позволяет мозгу соответствующим образом интерпретировать это как приход
сигнала слева или справа и даже приблизительно определить угол прихода.
Численно, разница во времени прихода сигнала в левое и правое ухо,
составляющая от 0 до 1 мс, смещает мнимый источник звука в сторону того
уха, которое воспринимает сигнал раньше. Такой способ определения
направления прихода звука используется мозгом в полосе частот от 300 Гц
до 1 кГц. Направление прихода звука для частот расположенных выше 1 кГц
определяется мозгом человека путем анализа громкости звука. Дело в том,
что звуковые волны с частотой выше 1 кГц быстро затухают в воздушном
пространстве. Поэтому интенсивность звуковых волн, доходящих до левого
и правого ушей слушателя, отличаются на столько, что позволяет мозгу
определять направление прихода сигнала по разнице амплитуд. Если звук в
одном ухе слышен лучше, чем в другом, следовательно источник звука
находится со стороны того уха, в котором он слышен лучше. Немаловажным
подспорьем в определении направления прихода звука является способность
человека повернуть голову в сторону кажущегося источника звука, чтобы
проверить верность определения. Способность мозга определять
направление прихода звука по разнице во времени прихода сигнала в левое
и правое ухо, а также путем анализа громкости сигнала используется в стереофонии.
Имея
всего два источника звука можно создать у слушателя ощущение наличия
мнимого источника звука между двумя физическими. Причем этот мнимый
источник звука можно «расположить» в любой точке на линии, соединяющей
два физических источника. Для этого нужно воспроизвести одну аудио
запись (например, со звуком рояля) через оба физических источника, но
сделать это с некоторой временной задержкой в одном из них и
соответствующей разницей в громкости. Грамотно используя описанный
эффект можно при помощи двухканальной аудио записи донести до слушателя
почти такую картину звучания, какую он ощутил бы сам, если бы лично
присутствовал, например, на каком-нибудь концерте. Такую двухканальную
запись называют стереофонической. Одноканальная же запись называется монофонической.
На
самом деле, для качественного донесения до слушателя реалистичного
пространственного звучания обычной стереофонической записи оказывается
не всегда достаточно. Основная причина этого кроется в том, что стерео
сигнал, приходящий к слушателю от двух физических источников звука,
определяет расположение мнимых источников лишь в той плоскости, в
которой расположены реальные физические источники звука. Естественно,
«окружить слушателя звуком» при этом не удается. По большому счету по
той же причине заблуждением является и мысль о том, что объемное
звучание обеспечивается квадрофонической (четырехканальной) системой
(два источника перед слушателем и два позади него). В целом, путем
выполнения многоканальной записи нам удается лишь донести до слушателя
тот звук, каким он был «услышан» расставленной нами звукопринимающей
аппаратурой (микрофонами), и не более того. Для воссоздания же более
или менее реалистичного, действительно объемного звучания прибегают к
применению принципиально других подходов, в основе которых лежат более
сложные приемы, моделирующие особенности слуховой системы человека, а
также физические особенности и эффекты передачи звуковых сигналов в
пространстве.
Одним из таких инструментов является
использование функций HRTF (Head Related Transfer Function).
Посредством этого метода (по сути – библиотеки функций) звуковой сигнал
можно преобразовать специальным образом и обеспечить достаточно
реалистичное объемное звучание, рассчитанное на прослушивание даже в
наушниках.
Суть HRTF – накопление библиотеки функций,
описывающих психофизическую модель восприятия объемности звучания
слуховой системой человека. Для создания библиотек HRTF используется
искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory
Research) или специальное «цифровое ухо». В случае использования
манекена суть проводимых измерений состоит в следующем. В уши манекена
встраиваются микрофоны, с помощью которых осуществляется запись. Звук
воспроизводится источниками, расположенными вокруг манекена. В
результате, запись от каждого микрофона представляет собой звук,
«прослушанный» соответствующим ухом манекена с учетом всех изменений,
которые звук претерпел на пути к уху ( затухания и искажения как
следствия огибания головы и отражения от разных ее частей). Расчет
функций HRTF производится с учетом исходного звука и звука,
«услышанного» манекеном. Собственно, сами опыты заключаются в
воспроизведении разных тестовых и реальных звуковых сигналов, их записи
с помощью манекена и дальнейшего анализа. Накопленная таким образом
база функций позволяет затем обрабатывать любой звук так, что при его
воспроизведении через наушники у слушателя создается впечатление, будто
звук исходит не из наушников, а откуда-то из окружающего его
пространства.
Таким образом, HRTF представляет собой набор
трансформаций, которые претерпевает звуковой сигнал на пути от
источника звука к слуховой системе человека. Рассчитанные однажды
опытным путем, HRTF могут быть применены для обработки звуковых
сигналов с целью имитации реальных изменений звука на его пути от
источника к слушателю. Не смотря на удачность идеи, HRTF имеет,
конечно, и свои отрицательные стороны, однако в целом идея
использования HRTF является вполне удачной. Использование HRTF в том
или ином виде лежит в основе множества современных технологий
пространственного звучания, таких как технологии QSound 3 D ( Q3 D),
EAX, Aureal3 D ( A3 D) и другие.
2. Цифровые аудио сигналы
Компьютер
– это цифровое устройство, то есть электронное устройство, в котором
рабочим сигналом является дискретный сигнал. Сегодняшние компьютеры
оперируют дискретными сигналами, несущими двоичные значения, условно
обозначаемые как «да» и «нет» (на электрическом уровне: 0 вольт и V
вольт, для некоторого ненулевого значения V). С помощью одного
двоичного сигнала за один шаг можно передать информацию об одном из
всего двух положений: 0 («да») или 1 («нет»). С помощью N двоичных
сигналов за один шаг можно передать информацию об одном из 2 N
положений (2 N – это число комбинаций нулей и единиц для N сигналов).
Взаимодействие всех составляющих компьютер блоков происходит путем
обмена и обработки одним или одновременно несколькими двоичными
сигналами. Все – коды управления, а также сама обрабатываемая
информация – все представляется в компьютере в виде чисел. По этой
причине и аудио сигналы в цифровой аппаратуре представляют в виде
чисел.
Итак, каким же образом можно описать аналоговый
аудио сигнал в цифровой форме? Реальный аудио сигнал – это сложное по
форме колебание, некая сложная зависимость амплитуды звуковой волны от
времени. Преобразование аналогового звукового сигнала в цифровой вид
называется аналогово-цифровым преобразованием или оцифровкой. Процесс такого преобразования заключается в:
- осуществлении замеров величины амплитуды аналогового сигнала с некоторым временным шагом - дискретизация;
- последующей записи полученных значений амплитуды в численном виде – квантование.
2.5. Кодирование цифровых аудио сигналов
По сути дела, та или иная цифровая форма представления аналоговых аудио сигналов уже является способом кодирования
– последовательность чисел, описывающая аналоговый аудио сигнал, сама
по себе является цифровым кодом. Однако кодирование, о котором мы будем
сейчас говорить, - это нечто другое. Сейчас рассмотрим методы
кодирования цифровых аудио сигналов.
Оцифрованный аудио
сигнал «в чистом виде» (например, в форме одной из рассмотренных выше
вариаций ИКМ) является достаточно точной, но не самой компактной формой
записи исходного аналогового сигнала.
Посудите сами. Ч
тобы получить полную информацию об оригинальном аналоговом сигнале в
частотной полосе от 0 до 20 кГц (в слышимом диапазоне частот),
аналоговый сигнал необходимо дискретизовать с частотой не менее 40 кГц.
Так, стандарт CD - DA (стандарт записи данных на привычных для всех
аудио компакт-дисках) устанавливает следующие параметры кодирования:
двух- или одноканальная запись в формате ИКМ с частотой дискретизации
44.1 кГц и разрядностью квантования 16 бит. Один час музыки в таком
формате занимает объем около 600 Мб (60 минут * 60 секунд * 2 канала *
44100 отсчетов в секунду * 2 байта на отсчет = около 605 Мб). Учитывая,
что, например, музыкальная коллекция рядового любителя музыки вполне
может насчитывать 5000 треков средней продолжительностью около 3 минут
каждый, объем памяти, требуемый для ее хранения в исходном цифровом
виде, оказывается очень внушительным. Поэтому хранение относительно
больших объемов аудио данных, гарантирующее достаточно хорошее качество
звучания, требует применения разных «ухищрений», позволяющих уплотнить
данные.
В целом, все существующие методы кодирования аудио информации можно условно разделить всего на два типа.
1. Сжатие данных без потерь
(англ. « lossless coding») - это способ кодирования (уплотнения)
цифровой аудио информации, позволяющий осуществлять стопроцентное
восстановление исходных данных из сжатого потока (под понятием
«исходные данные» здесь подразумевается исходный вид оцифрованных аудио
данных). К такому способу уплотнения данных прибегают в случаях, когда
требуется абсолютное, стопроцентное сохранение качества оригинального
звучания аудио данных. Существующие сегодня алгоритмы беспотерьного
сжатия позволяют сократить занимаемый данными объем на 20-50% и при
этом гарантировать стопроцентное восстановление исходного цифрового
материала из сжатых данных. Механизмы работы подобных кодеров сходны с
механизмами работы архиваторов общих данных, таких, как, например, ZIP
или RAR, но при этом адаптированы специально для сжатия аудио данных.
Беспотерьное кодирование , хотя и идеально с точки зрения сохранности
качества аудио материалов, но оказывается неспособным обеспечить
высокий уровень компрессии.
2. Существует другой, более современный путь уплотнения данных. Это так называемое сжатие данных с потерями (англ. « lossy coding»).Цель
такого кодирования заключается в достижении любыми путями максимально
высокого коэффициента компрессии данных при сохранении качества их
звучания на приемлемом уровне. В основе идеи кодирования с потерями
лежит два простых основополагающих соображения:
- исходные
цифровые аудио данные избыточны – они содержат много лишней,
бесполезной для слуха информации, которую можно удалить, тем самым,
повысив коэффициент компрессии;
- требования к качеству звучания аудио материала могут быть разными и зависят от конкретных целей и сфер использования.
Кодирование
с потерями потому и называется «с потерями», что приводит к утрате
некоторой части аудио информации. Такое кодирование приводит к тому,
что декодированный сигнал при воспроизведении звучит похоже на
оригинальный, но фактически перестает быть ему идентичным. В основе
большинства методов кодирования с потерями лежит использование
психоакустических свойств слуховой системы человека, а также различных
хитростей, связанных с переквантованием и передискретизацией сигнала. В
частотности, в процессе компрессии аудио данные анализируются кодером
на предмет выявления различных деталей звучания, которыми можно
пренебречь. Замаскированные частоты, неслышимые и слабослышимые детали
звучания – всем этим можно пожертвовать с целью достижения более
высокого значения коэффициента компрессии. Там, где в звучании важна
лишь разборчивость (например, в телефонии, где наличие частот выше 4
кГц не является необходимым), аудио информация в процессе кодирования
подвергается серьезному «упрощению», что вкупе с использованием «умных»
квантователей и удачных «жадных» алгоритмов компрессии данных позволяет
достичь высочайших степеней компрессии (1 : 50 и выше). Там, где
качеству звучания предъявляются более высокие требования (например, в
портативных и бытовых аудио устройствах), аудио материалы подвергают
более щадящему кодированию. Надо отметить, что степень агрессивности
кодера по отношению к деталям звучания может регулироваться (эта
способность, впрочем, зависит от конкретной реализации). В среднем,
современные кодеры даже при столь высокой степени компрессии, как 1 :
10 позволяют обеспечить отличное звучание, качество которого средним
слушателем на средней аппаратуре оценивается как равное качеству
звучания исходных аудио данных.
2.6. Беспотерьные кодеры
Сегодня существует множество кодеров аудио данных, основанных на идее
кодирования с потерями. Вот только некоторые из них: MPEG-1 Layer 3
(всем известный как MP3), Windows Media Audio ( WMA), Ogg Vorbis (
OGG), MusePack ( MPC), MPEG-2/4 AAC и другие. Давайте чуть подробнее
остановимся на их рассмотрении.
2.6.1 MPEG-1 Layer 3
Известный
сегодня фактически каждому пользователю компьютера под незамысловатой
маркой « MP3» кодек MPEG-1 Layer 3 – это наиболее старый из всех
распространенных на сегодня lossy-кодеков. Своим названием он обязан
группе MPEG, которая занималась его разработкой и которая продолжает
разрабатывать новые аудио и видео кодеки. О ней стоит упомянуть
отдельно.
MPEG расшифровывается как «Moving Picture Coding
Experts Group», дословно – «группа экспертов по кодированию подвижных
изображений». Группа MPEG ведет свою историю с января 1988 года и
занимается разработкой различных алгоритмов и стандартов кодирования
аудио и видео информации. В собраниях MPEG принимают участие несколько
сотен специалистов из более чем двухсот крупных и мелких компаний. При
этом большая часть участников MPEG - это специалисты, занятые в тех или
иных научных и академических учреждениях. На сегодняшний день группой
MPEG разработаны следующие стандарты:
- MPEG-1 (принят в ноябре 1992 г.) - стандарт кодирования, хранения и декодирования подвижных изображений и аудио информации;
- MPEG-2 (принят в ноябре 1994 г.) - стандарт кодирования данных для цифрового телевещания;
- MPEG-4 - стандарт для мультимедиа приложений (в его разработке еще далеко не поставлена точка);
-
MPEG-7 - универсализованный стандарт работы с мультимедиа информацией,
предназначенный для обработки, компоновки и управления мультимедиа
информацией.
Стандарт MPEG-1
представляет собой, по сути, целый комплект аудио и видео стандартов.
Согласно стандартам ISO ( International Standards Organization), аудио
часть MPEG-1 включает в себя три алгоритма различных уровней сложности:
Layer 1 (уровень 1), Layer 2 (уровень 2) и Layer 3 (уровень 3,
называемый большинством просто « MP 3»). Общая структура процесса
кодирования одинакова для всех уровней MPEG-1 . Вместе с тем, несмотря
на схожесть уровней в общем подходе к кодированию, уровни различаются
по целевому использованию и задействованным в кодировании внутренним
механизмам. Для каждого уровня определен свой формат записи выходного
потока данных и, соответственно, свой алгоритм декодирования. Алгоритмы
MPEG-1 основаны в целом на изученных свойствах восприятия звуковых
сигналов слуховым аппаратом человека – о них мы упоминали выше.
Процедура кодирования аудио информации, вкратце, представляет собой
следующий процесс. В начале кодирования входной цифровой аудио поток в
формате PCM с помощью цифровых фильтров разделяется на несколько
частотных полос. Дальнейший процесс зависит от Layer ' a .
В случае Layer 3 (то есть, в случае MP 3) в каждой полосе сигнал
раскладывается на частотные составляющие спектра (применяется
косинусное преобразование - MDCT , частный случай преобразования Фурье)
в результате чего получается набор коэффициентов разложения. Вся
дальнейшая обработка сигнала нацелена на максимально возможное
упрощение сигнала с целью достижения наиболее эффективного
переквантования этих коэффициентов и их записи. Спектр входного сигнала
очищается от заведомо неслышных составляющих - низкочастотных шумов и
наивысших гармоник. На следующем этапе производится психоакустический
анализ кодируемого аудио материала в диапазоне слышимых частот.
Вышеописанные процессы преобразования позволяют исключить из исходного
аудио материала больше половины информации. На заключительном этапе
кодирования производится сжатие уже готового потока данных с
использованием упрощенного аналога алгоритма Хаффмана ( Huffman).
В случае сжатия данных с использованием Layer 2 идея упрощения сигнала
остается той же, однако переквантованию подвергаются не коэффициенты
MDCT , а отсчеты амплитудного сигнала в каждой частотной полосе. Здесь
нужно отметить, что в соответствии с приблизительно аналогичной схемой
кодирования работают и некоторые другие lossy -кодеки.
Комплект MPEG-1 предусмотрен для кодирования аудио сигналов,
оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Три упомянутых
выше уровня MPEG-1 различаются свой целевой направленностью,
механизмами кодирования и, таким образом, обеспечивают различные
степени сжатия. Так, например, аудио данные в формате [ИКМ / 44.1 кГц /
16 бит / стерео], Layer 1 позволяет сохранить без особо ощутимых потерь
качества при скорости потока (битрейте)
384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом данными
объеме; Layer 2 обеспечивает субъективно такое же качество при 192 -
224 Кбит/с, а Layer III ( MP 3) - при 128-160. Нельзя говорить о
выигрыше или проигрыше одного уровня перед другим, так как каждый
уровень разработан для достижения своей собственной цели. Например,
преимущество Layer 3 заключается в том, что фактически он позволяет
сжимать информацию в 8-12 раз (в зависимости от битрейта) без сильно
ощутимых потерь качества исходного звучания. При этом, однако,
обеспечиваемая им скорость компрессии является самой низкой среди всех
уровней. Layer 2 потенциально способен обеспечить более высокое
качество кодирования в виду более «легкой» внутренней обработки сигнала
в процессе преобразования. В то же время, Layer 2 не позволяет достичь
таких высоких степеней компрессии, какие достигаются при использовании
Layer 3.
2.6.2 Ogg Vorbis
Одной
из негативных сторон кодека MP3 ( MPEG-1 Layer 3) являлась и является
его коммерческая основа, заключающаяся как минимум в том, что каждый
производитель, создающий новый программный или аппаратный MP3-кодер,
обязан платить отчисления изобретателям кодека. Эта ситуация не могла
не вызывать недовольство среди пользователей и разработчиков. Так
появились независимые разработки в области компрессии аудио.
Кодек Ogg Vorbis вышел в свет в июне 2000 года. Он является частью
проекта Ogg Squish, нацеленного на создание полностью открытой системы
мультимедиа. Разработчиком проекта является группа, именующаяся
Xiphophorus. В основе Ogg Vorbis лежат те же идеи, что и в основе
MPEG-1 Layer II, при этом Ogg Vorbis использует свои собственные
оригинальные математические алгоритмы, а также собственную
психоакустическую модель, что освобождает его разработчиков от
необходимости выплачивать какие-то лицензионные отчисления или
производить иные выплаты сторонним фирмам-производителям. Кодек Ogg
Vorbi s, будучи созданным позже MPEG-1, является несколько более
развитым. Он рассчитан на сжатие данных на всех возможных битрейтах без
ограничений, от 8 Кбит/с до 512 Кбит/с. Кодер позволяет хранить внутри
файлов-контейнеров подробные комментарии об исполнителе и названии
композиции, а также предусматривает возможность кодирования нескольких
каналов аудио (более двух, теоретически до 255), возможность
редактирования содержимого файлов и поддержку техники «масштабируемых
битрейтов» - возможности изменения битрейта аудио потока без
необходимости его декодирования.
2.6.3 MusePak
Естественно,
Ogg Vorbis является не единственной некоммерческой разработкой такого
рода. Энтузиасты продолжали и продолжают делать попытки создания
альтернативных качественных аудио кодеков.
Кодек MPEGplus
(MPEG+), переименованный позднее в MusePack из-за проблем, которые
появились у автора кодека в связи с тем, что название последнего
содержало в себе аббревиатуру "MPEG", - это еще один некоммерческий
lossy-кодек. MusePack создан «в домашних условиях» и
разрабатывался(ется) в основном двумя людьми: Andre Buschmann и Frank
Klemm. MusePak, также как и Ogg Vorbis, базируется на идеях MPEG-1
Layer II. В отличие от Ogg Vorbis , кодек MusePak переживает сегодня не
самые лучшие времена – в то время, как Ogg Vorbis получает все более и
более широкое распространение (как среди пользователей, так и среди
производителей), MusePak остается малоизвестным, хотя и незаслуженно.
2.6.4 Windows Media Audio
Гигант компьютерной индустрии Microsoft на некотором этапе понял, что
остаться в стороне от бурного развития цифровой аудио индустрии –
значит проиграть большую долю рынка конкурентам. Поэтому аудио кодек от
Microsoft не заставил себя долго ждать.
Кодек Windows Media
Audio (сокращенно WMA) является сегодня собственной разработкой
компании Microsoft и успешно ею продвигается. Изначально, кодек WMA
разрабатывался фирмой Voxware и имел название Voxware Audio Codec,
однако впоследствии компания забросила его доработку, остановившись на
v4.0. Разработки Voxware были выкуплены компанией Microsoft, серьезно
доработаны и представлены общественности в виде аудио кодека под
названием Windows Media Audio (сокращенно WMA).
Если кодек
MP3 был изначально стандартизован на предмет разрешенных значений
битрейтов и других основных параметров, то WMA изменялся параллельно
своему становлению и развитию. На сегодняшний день существует несколько
версий кодека WMA: v1, v2, v7, v8 и v9. Внутреннее устройство и
механизмы кодирования кодека держатся компанией Microsoft в секрете,
однако, опираясь на результаты некоторых тестов, можно предположить,
что идеи, легшие в основу WMA, не сильно отличаются от идей, на которых
базируются методы MPEG-1.
2.6.5. MPEG-2/4 AAC
Группа MPEG, конечно, не удовлетворилась разработкой аудио кодека,
включенного в стандарт MPEG-1. Исследования в области кодирования аудио
продолжались и вылились в создание новых стандартов кодирования аудио
от MPEG.
Общий стандарт MPEG-2 разрабатывался специально для
кодирования телевизионных сигналов. В апреле 1997 комплект MPEG-2
получил «продолжение» в виде алгоритма MPEG-2 AAC ( MPEG-2 Advanced
Audio Coding – продвинутое аудио кодирование). Стандарт MPEG-2 AAC стал
результатом кооперации усилий института Fraunhofer, а также компаний
Sony, NEC и Dolby, и является технологическим приемником MPEG-1, при
этом намного более развитым. Поскольку между опубликованием MPEG -2 AAC
и его стандартизацией прошло достаточно много времени, свет увидели
несколько разновидностей этого алгоритма от независимых коммерческих и
некоммерческих разработчиков: Homeboy AAC , AT & T a 2 b AAC,
Astrid/ Quartex AAC, Liquifier AAC, FAAC ( Freeware Audio Coder), Mayah
AAC и PsyTEL AAC. Почти все приведенные разновидности алгоритма AAC не
являются совместимыми между собой.
Так же, как и в комплекте
аудио стандартов MPEG-1, в основе алгоритма AAC лежит психоакустический
анализ сигнала. Вместе с тем, алгоритм AAC имеет в своем механизме
множество дополнений, направленных на улучшение качества выходного
аудио сигнала. В частности, используется другой тип преобразований,
улучшены методы шумовой обработки, модернизирован метод записи
выходного бит-потока и т.д. Следует отметить, что кодек AAC не является
обратно совместимым с уровнями MPEG-1, а значит, аудио материалы в
формате MPEG-2 AAC не могут быть декодированы с помощью декодера MPEG-1.
MPEG-2 AAC предусматривает три различных профиля (или, в терминологии
MPEG-1, «уровня») кодирования: Main, LC ( Low Complexity) и SSR (
Scalable Sampling Rate). В зависимости от того, какой профиль
используется для кодирования, изменяется время кодирования, размер
получаемого цифрового потока и качество его звучания. Наивысшее
качество звучания (при самой низкой скорости компрессии и декомпрессии)
обеспечивает основной профиль Main. Это связано с тем, что профиль Main
включает в себя все механизмы анализа и обработки входного потока.
Профили LC и SSR являются упрощенными, но при этом более скоростными.
Спустя
несколько лет после стандартизации MPEG-2, свет увидел новый комплект
стандартов, комплект MPEG-4 . По обыкновению, стандарт MPEG-4, помимо
прочего, описывает и методы кодирования аудио. Эти методы объединены
под общим названием MPEG-4 AAC.
В качестве средств
компрессии аудио в MPEG-4 используется целый комплекс стандартов аудио
кодирования: улучшенный и доработанный алгоритм MPEG-2 AAC, алгоритм
TwinVQ, а также алгоритмы кодирования речи HVXC ( Harmonic Vector
eXcitation Coding) и CELP ( Code Excited Linear Predictive). Можно
сказать, что в целом, стандарт MPEG-4 является логическим продолжением
MPEG-2 AAC. MPEG-4 AAC стандартизует следующие типы объектов (именно
так называются профили или уровни в MPEG-4 AAC):
- MPEG-4 AAC LC (Low Complexity)
- MPEG-4 AAC Main
- MPEG-4 AAC SSR (Scalable Sampling Rate)
- MPEG-4 AAC LTP (Long Term Prediction)
- MPEG-4 Version 2
- MPEG-4 Version 3 ( включая HE-AAC)
Как видно, первые три позаимствованы у MPEG-2 AAC, четвертый же
является новшеством. LTP основан на методах предсказания сигнала и
является более сложным и более ресурсоемким алгоритмом, нежели
остальные. Version 2 и Version 3 - это пакеты механизмов, расширяющих
основной инструментарий кодирования стандарта MPEG-4 AAC . Основным
нововведением в стандарт MPEG-4, введенным Version 3, является
стандартизация в мая 2003 года алгоритма HE-AAC (High Efficiency AAC –
высокоэффективный AAC ), известного также под именем aacPlus.
Расширение AAC под именем aacPlus было анонсировано компанией Coding
Tech nologies 9 октября 2002 года. aacPlus основан на использовании
технологии SBR (Spectral Band Replication). Технология SBR
предназначена для улучшения качества передачи верхнего частотного
диапазона. Идея технологии и предпосылки к ее созданию состоят вот в
чем. Дело в том, что кодеки, использующие психоакустическую модель, как
показывает практика, имеют один общий недостаток: все они обеспечивают
довольно хорошее качество звучания во всем диапазоне слышимых частот,
но только до битрейта 128-112 Кбит/с. Компрессия на более низких
битрейтах приводит к очень заметной деградации качества звучания, что
заставляет разработчиков кодеков при использовании низких битрейтов
принудительно ограничивать кодируемый диапазон частот. Технология SBR
является попыткой устранить этот досадный недостаток за счет сохранения
ограниченной информации о верхней полосе частотного спектра сигнала в
процессе кодирования и последующего искусственного синтеза
(воссоздания) верхних частот в процессе декодирования. Технология хоть
и является очень искусственным методом решения проблемы, но, тем не
менее, оказывает благотворное влияние на восприятие закодированных
таким образом аудио материалов.
Надо сказать, что
«комплектация» MPEG -4 новыми подстандартами и дополнениями
продолжается, так что список механизмов и инструментарий кодирования
MPEG -4 может постепенно расширяться. Кроме того, нужно заметить, что
не все стандартизованные в MPEG -4 методы кодирования нашли отражение в
реально существующих аппаратных или программных продуктах. Это связано
с тем, что многое из описанного в MPEG -4 стандартизует способы обмена
информации, но не сами способы кодирования. Многие идеи кодирования (в
особенности, это касается компрессии видео) требуют даже по сегодняшним
меркам гигантских вычислительных способностей, так что до полной
реализации всего предусмотренного в MPEG -4 еще далеко.
В заключении разговора о lossy -кодировании стоить заметить следующее.
Кодирование с потерями – это очень удобный инструмент. Однако в отличие
от беспотерьного кодирования – достаточно опасный инструмент.
Применяться lossy -кодирования должно там, где ему место. Совершенно
очевидно, что кодированию с потерями ввиду самой его сути не место,
например, в студийной звукозаписи. При этом совершенно нелогично
отказываться от его использования, например, в телефонии. Таким
образом, очень важно уметь правильно пользоваться имеющимся под рукой
инструментарием и, образно говоря, не использовать кувалду при огранке
алмазов, равно как и пинцет на каменоломне.
3. Послесловие
Вопросы, подобные часто задаваемому «пользоваться или не пользоваться
lossy -кодерами?» не дают спокойно спать многим, как аудио любителям,
так и профессионалам. Какой lossy -кодер использовать, пользоваться ли
вообще lossy -кодерами или применять исключительно беспотерьное сжатие,
с какими параметрами проводить оцифровку сигнала – эт о и многое другое
рано или подно спрашивает себя каждый, кто в той или иной форме
сталкивается со звукообработкой или звукозаписью. Ни один из подобных
вопросов не имеет однозначного ответа, все диктуется соображениями
целесообразности и применимости. Панацеи не существует, и поэтому
каждый конкретный практический случай имеет свои строго индивидуальные
решения.
Вообще, вопросы целесообразности и применимости
технологий цифрового звука и методов его обработки являются тонкими и
сложными. Даже тема использования цифрового звука как такового до сих
пор является камнем преткновения, и каждый на этот счет имеет свое
собственное мнение. Так, например, многие аудиофилы считают, что
цифровая форма является неудачным способом представления звуковых
сигналов и предпочитают аналоговую аудио аппаратуру цифровой. С другой
стороны, даже лампочку Эдисона многие его современники высмеивали и
относились к изобретению скептично, что уж говорить про столь сложную
область, какой является область цифровых сигналов.
Пожалуй, важнее всего понять, что имеет свои положительные и
отрицательные стороны, и эти стороны могут меняться местами в
зависимости от постановки каждой конкретной задачи. На сегодня
совершенно очевидно лишь одно – цифровые технологии находятся лишь в
начале своего пути, и нам еще только предстоит понять, что значит их
повсеместное внедрение совместно с миниатюризацией, наращиванием
вычислительных мощностей и объемов памяти. Совершенно ясно, что
цифровые технологии очень скоро завоюют новые, еще не захваченные
рубежи, и что от повсеместного применения этих технологий никуда не
деться. Опасаться этого процесса можно, но сопротивляться ему
бесполезно. Что же касается цифрового звука – части цифровой революции
– то здесь все только начинается. Что в этой области уже сегодня
получил потребитель? Очень компактные цифровые аудио проигрыватели,
высококачественную мобильную и Интернет-телефонию, домашние кинотеатры
с объемным звучанием. А, ведь это далеко не все из того, что может быть
сделано. Технологии распознавание звука и, в частности, речи до сих пор
находятся только в начале своего пути; технологии синтеза звука также
еще далеко не на вершине своих возможностей. Только представьте себе,
как развитие этих технологий может повлиять на окружающий нас мир! Все
это лишь укрепляет мысли о том, что путь не близок, и что самое
интересное нам еще только предстоит увидеть.
|