Мультимедийные технологии в САПР. Часть II. Майстренко Н.В - 15 стр.

UptoLike

синтезирования музыки. Семейство алгоритмов аудио кодирования MPEG-4 охватывает диапазон от кодирова-
ния низкокачественной речи (до 2 кбит/с) до высококачественного аудио (от 64 кбит/с на канал и выше).
AAC имеет частоту сэмплов от 8 Гц до 96 кГц и количество каналов от 1 до 48. В отличие от гибридного
набора фильтров MP3, AAC использует Модифицированное Дискретное Косинусное Преобразование (MDCT)
вместе с увеличенным размером "окна" в 2048 пунктов.
MP3 (более точно, англ. MPEG-1/2/2.5 Layer 3 (но не MPEG-3) – третий формат кодирования звуковой до-
рожки MPEG) – лицензируемый формат файла для хранения аудио-информации.
На данный момент MP3 является самым известным и популярным из распространённых форматов цифро-
вого кодирования звуковой информации с потерями. Он широко используется в файлообменных сетях для оце-
ночной передачи музыкальных произведений. Формат может проигрываться практически в любой популярной
операционной системе, на практически любом портативном аудио-плеере, а также поддерживается всеми со-
временными моделями музыкальных центров и DVD-плееров.
MP3 разработан рабочей группой института Фраунгофера (англ. Fraunhofer Society) MPEG (англ. Moving
Picture Expert Group – группа экспертов в области динамического изображения), состоящей из Джонсона,
Штолла, Деери и Карлхайнца Бранденбурга. Основой разработки MP3 послужил экспериментальный кодек
ASPEC (Adaptive Spectral Perceptual Entropy Coding). Первым кодировщиком в формат MP3 стала программа
L3Enc, выпущенная летом 1994 года. Спустя один год появился первый программный MP3-плеер – Winplay3.
Высокая степень сжатия в MP3 достигается за счёт достаточно сложного алгоритма кодирования. Исполь-
зуются как математические методы компрессии, так и особенности человеческого слуха (психоакустическая
модель): эффект маскировки слабого звука одной частоты более громким звуком такой же или соседней часто-
ты, понижение чувствительности уха к тихому звуку сразу после громкого, невосприимчивость к звукам ниже
определённого уровня громкости, удалением частот, которые неслышимы человеческим ухом (инфразвук и
ультразвук).
Поток звука при кодировании разбивается на равные по длине участки (фреймы). Каждый из фреймов ко-
дируется отдельно со своими пара-
метрами и содержит заголовок, в котором эти параметры указаны. Сжатие может быть выполнено с разным
качеством и соответственно размером конечного файла.
Степень сжатия характеризуется битрейтом (bitrate) – количество передаваемой за единицу времени ин-
формации. Файлы MP3 обычно закодированы с битрейтом 64…320 килобит в секунду (kbps или kb/s), а также с
переменным битрейтом (VBR) – когда для каждого фрейма используется свой, оптимальный для данного уча-
стка, битрейт.
Исходный сигнал с помощью фильтров разделяется на несколько частотных диапазонов, для каждого диа-
пазона определяется величина маскирующего эффекта от соседних диапазонов и предыдущего фрейма, несу-
щественные сигналы игнорируется. Программа кодирования выделяет самые громкие звуки в каждой полосе и
использует эту информацию для определения приемлемого уровня шума для этой полосы. Очень громкий звук
в одной полосе может повлиять на маскирующий эффект и на близлежащие полосы.
Также производится удаление заведомо неслышимых частот с более тщательным сохранением звуков, хо-
рошо различаемых человеческим ухом. Еще одним приёмом сжатия является использование так называемого
совмещённого стерео. Известно, что слуховой аппарат человека может определить направление лишь средних
частотвысокие и низкие звучат как бы отдельно от источника. Значит, эти фоновые частоты можно кодиро-
вать в моно сигнал. Кроме всего этого для сжатия используется различие в сложности потоков в каналах. На-
пример, если в правом канале какое-то время полная тишина, это "зарезервированное" место используется для
повышения качества левого канала или туда помещаются необходимые биты, не уместившиеся в потоке чуть
раньше.
Для оставшихся данных для каждого диапазона определяется, сколькими битами можно пожертвовать, что-
бы потери были ниже величины маскирующего эффекта. На этом работа психоакустической модели завершается,
а итоговый поток дополнительно сжимается по алгоритму Хаффмана.
Существуют три версии MP3 формата для различных нужд: MPEG-1, MPEG-2 и MPEG-2.5. Отличаются
они возможными диапазонами битрейта и частоты дискретизации:
32…320 кбит/cпри частотах дискретизации 32 000 Гц, 44 100 Гц и 48 000 Гц для MPEG-1 Layer 3;
16…160 кбит/cпри частотах дискретизации 16 000 Гц, 22 050 Гц и 24 000 Гц для MPEG-2 Layer 3;
8…160 кбит/c – при частотах дискретизации 8 000 Гц и 11 025 Гц для MPEG-2.5 Layer 3.
Режимы управления кодированием звуковых каналов. Так как формат MP3 поддерживает двухканальное
кодирование (стерео), существуют
три режима:
1. Стереодвухканальное кодирование, при котором каналы кодируются независимо друг от друга. Таким
образом, заданный битрейт де-
лится на два канала. Например, если заданный битрейт 192 кбит/c, то для каждого канала он будет равен только
96 кбит/c.
2. Моноодноканальное кодирование. Если закодировать двухка-
нальный материал этим способом, различия между каналами будут пол-
ностью стёрты, так как два канала смешиваются в один, он кодируется, и он же воспроизводится в обоих кана-
лах стереосистемы. Единственным плюсом данного режима может являться только выходное качество по срав-