Программирование мультимедиа-систем - 29 стр.

UptoLike

Составители: 

- 29 -
Возможным конкурентом MP3 в (не столь близком) будущем может
стать формат MPEG-4 (точнее, его аудиокомпонента), основанный на объ-
ектном подходе к звуковым сценам (язык
BIFS позволяет располагать ис-
точники звука в трехмерном пространстве сцены, управлять их характери-
стиками и применять к ним эффекты независимо друг от друга и т.д., в
следующих версиях предполагается добавление возможности задания аку-
стических параметров среды).
Для кодирования аудиообъектов MPEG-4 предлагает наборы инстру-
ментов как дляживыхзвуков, так и для
синтезированных. MPEG-4 уста-
навливает синтаксис двоичных потоков и процесс декодирования в терми-
нах наборов инструментов, что позволяет применять различные алгоритмы
сжатия. Диапазон предлагаемых стандартом скоростей потока для кодиро-
вания живых звуков - от 2 до 128 Кбайт/сек и выше. При кодировании с
переменным потоком минимальная средняя скорость может оказаться еще
меньше (порядка 1,2 Кбайт/сек
). Для звука высшего качества применяется
алгоритм AAC, который дает качество лучше, чем у CD при потоке в 10 с
лишним раз меньше. Другой возможный алгоритм кодирования живого
звука -
TwinVQ. Для кодирования речи предлагаются алгоритмы HVXC
(Harmonic Vector eXcitation Coding) для скоростей потока 2÷ 4 Кбайт/сек и
CELP (Code Excited Linear Predictive) для скоростей 4
÷
24 Кбайт/сек.
MPEG-4 предполагает возможность синтеза речи. На входы синтеза-
тора поступает проговариваемый текст, а также различные параметрыок-
раскиголоса - ударения, изменения высоты тона, скорости произнесения
фонем и т. п. Можно также задать дляговорящегопол, возраст, акцент и
др. В текст можно вставлять управляющую информацию, обнаружив кото-
рую синтезатор
синхронно с произнесением соответствующей фонемы пе-
редаст параметры или команды другим компонентам системы (например,
параллельно с голосом может генерироваться поток параметров для ани-
мации лица). Как и всегда, MPEG-4 задает правила работы, интерфейс син-
тезатора, но не его внутреннее устройство.
Интересная частьзвуковойсоставляющей - средства синтеза произ-
вольных звуков и музыки. MPEG-4
предлагает в качестве стандарта под-
ход, разработанный в колыбели многих передовых технологий -
MIT
Media Lab
. и названный SA (Structured Audio, Структурированный Звук).
Это не конкретный метод синтеза, а формат описания методов синтеза, в
котором можно задать любой из существующих методов (а также, как ут-
верждается, будущих). Для этого предлагаются два языка -
SAOL (Struc-
tured Audio Orchestra Language
) и SASL (Structured Audio Score Language).
Первый задает оркестр, а второй - то, что этот оркестр должен играть. Ор-
кестр состоит из инструментов, каждый инструмент представлен сетью
элементов цифровой обработки сигналов - синтезаторов, цифровых фильт-
ров, которые все вместе и синтезируют нужный звук. С помощью SAOL
                                    - 29 -


     Возможным конкурентом MP3 в (не столь близком) будущем может
стать формат MPEG-4 (точнее, его аудиокомпонента), основанный на объ-
ектном подходе к звуковым сценам (язык BIFS позволяет располагать ис-
точники звука в трехмерном пространстве сцены, управлять их характери-
стиками и применять к ним эффекты независимо друг от друга и т.д., в
следующих версиях предполагается добавление возможности задания аку-
стических параметров среды).
     Для кодирования аудиообъектов MPEG-4 предлагает наборы инстру-
ментов как для ‘живых’ звуков, так и для синтезированных. MPEG-4 уста-
навливает синтаксис двоичных потоков и процесс декодирования в терми-
нах наборов инструментов, что позволяет применять различные алгоритмы
сжатия. Диапазон предлагаемых стандартом скоростей потока для кодиро-
вания живых звуков - от 2 до 128 Кбайт/сек и выше. При кодировании с
переменным потоком минимальная средняя скорость может оказаться еще
меньше (порядка 1,2 Кбайт/сек). Для звука высшего качества применяется
алгоритм AAC, который дает качество лучше, чем у CD при потоке в 10 с
лишним раз меньше. Другой возможный алгоритм кодирования живого
звука - TwinVQ. Для кодирования речи предлагаются алгоритмы HVXC
(Harmonic Vector eXcitation Coding) для скоростей потока 2 ÷ 4 Кбайт/сек и
CELP (Code Excited Linear Predictive) для скоростей 4 ÷ 24 Кбайт/сек.
     MPEG-4 предполагает возможность синтеза речи. На входы синтеза-
тора поступает проговариваемый текст, а также различные параметры ‘ок-
раски’ голоса - ударения, изменения высоты тона, скорости произнесения
фонем и т. п. Можно также задать для ‘говорящего’ пол, возраст, акцент и
др. В текст можно вставлять управляющую информацию, обнаружив кото-
рую синтезатор синхронно с произнесением соответствующей фонемы пе-
редаст параметры или команды другим компонентам системы (например,
параллельно с голосом может генерироваться поток параметров для ани-
мации лица). Как и всегда, MPEG-4 задает правила работы, интерфейс син-
тезатора, но не его внутреннее устройство.
     Интересная часть ‘звуковой’ составляющей - средства синтеза произ-
вольных звуков и музыки. MPEG-4 предлагает в качестве стандарта под-
ход, разработанный в колыбели многих передовых технологий - MIT
Media Lab. и названный SA (Structured Audio, Структурированный Звук).
Это не конкретный метод синтеза, а формат описания методов синтеза, в
котором можно задать любой из существующих методов (а также, как ут-
верждается, будущих). Для этого предлагаются два языка - SAOL (Struc-
tured Audio Orchestra Language) и SASL (Structured Audio Score Language).
Первый задает оркестр, а второй - то, что этот оркестр должен играть. Ор-
кестр состоит из инструментов, каждый инструмент представлен сетью
элементов цифровой обработки сигналов - синтезаторов, цифровых фильт-
ров, которые все вместе и синтезируют нужный звук. С помощью SAOL