ВУЗ:
Составители:
зависимости от объема словаря и типа ввода – слитная речь или дискретная («диктовка»).
Соответственно и эталоны описываются также .
Емкость памяти словаря эталонов зависит от количества распознаваемых фонем,
слов. Например, для голосового программирования на языке С (65 команд и знаков)
хранение эталонов занимает 3,5 Кбайт, т.к. хранение одной команды занимает 55 байт.
Объем программы распознавания на С получается в 991 строку .
Описание поступившей речевой команды сравнивается с эталоном по типу
ассоциативного поиска методом перебора или на матричном процессоре с описанием всех
эталонов. Вводимой фонеме приписывается имя того эталона , который наиболее близок к
коду описания слухового образа .
Если набор слов или команд ограничен, то распознавание довольно просто можно
обеспечить на принципе персептрона .
Тембры голосов разных операторов часто сильно отличаются.
Машинное описание фонем также будет существенно отличаться от эталонов. Это
приведет в дикторо-зависимых системах к нераспознаванию некоторых фонем (а то и
всех фонем). Поэтому при смене операторов требуется предварительная настройка
системы путем записи новых эталонов с голоса пользователя. Этот прием в
интеллектуальных системах называют обучением. Индивидуальные речевые параметры
конкретного оператора: тембр, скорость произношения слов, фраз (средняя скорость ≈ 200
слов/мин), акцент, дефекты речи.
Другой вариант настройки на голос оператора – индивидуальная подстройка
амплитудно -частотных характеристик (АЧХ ) фильтров анализатора. Это сложная система
частотно -зависимой отрицательной обратной связи , обеспечивающая постоянство
частотного спектра сигнала независимо от индивидуальных свойств голоса оператора.
Наибольший эффект будет, когда тембры голосов близки .
Пока в дикторо-зависимых, т.е . настраиваемых, системах ввода речи удается
получить в 4 раза меньше ошибок распознавания, чем в дикторо-независимых.
При проектировании дикторо-независимых методов и систем распознавания
слитной речи с большим словарем разработчиками в настоящее время последовательно
решаются следующие задачи:
- вначале прогнозируется дикоро-зависимая система распознавания речи с
ограниченным словарем 15000… 20 000 слов.
- Затем разработка адаптивных (настраиваемых на конкретного диктора в процессе
работы ) систем распознавания с большим словарем (более 20 000 слов).
- Наконец, ожидается создание дикоторо-независимых систем распознавания
слитной речи со словарем в 200… 300 слов доя использования в системах речевого
управления.
7.4. Устройства вывода речевой информации. Синтезаторы .
Задача вывода речевой информации сводится к преобразованию машинных кодов
из ПК в колебания звуковой частоты речи. Устройства вывода и аппаратно , и программно
проще устройств анализа . Особенно заметно экономится память при синтезе речи по
фонетическим правилам.
Классификация:
Синтезаторы речевых сигналов
речевых сообщений компиляторы (ограниченный словарь)
универсальные
зависимости от объема словаря и типа ввода – слитная речь или дискретная («диктовка»). Соответственно и эталоны описываются также. Емкость памяти словаря эталонов зависит от количества распознаваемых фонем, слов. Например, для голосового программирования на языке С (65 команд и знаков) хранение эталонов занимает 3,5 Кбайт, т.к. хранение одной команды занимает 55 байт. Объем программы распознавания на С получается в 991 строку. Описание поступившей речевой команды сравнивается с эталоном по типу ассоциативного поиска методом перебора или на матричном процессоре с описанием всех эталонов. Вводимой фонеме приписывается имя того эталона, который наиболее близок к коду описания слухового образа. Если набор слов или команд ограничен, то распознавание довольно просто можно обеспечить на принципе персептрона. Тембры голосов разных операторов часто сильно отличаются. Машинное описание фонем также будет существенно отличаться от эталонов. Это приведет в дикторо-зависимых системах к нераспознаванию некоторых фонем (а то и всех фонем). Поэтому при смене операторов требуется предварительная настройка системы путем записи новых эталонов с голоса пользователя. Этот прием в интеллектуальных системах называют обучением. Индивидуальные речевые параметры конкретного оператора: тембр, скорость произношения слов, фраз (средняя скорость ≈200 слов/мин), акцент, дефекты речи. Другой вариант настройки на голос оператора – индивидуальная подстройка амплитудно-частотных характеристик (АЧХ) фильтров анализатора. Это сложная система частотно-зависимой отрицательной обратной связи, обеспечивающая постоянство частотного спектра сигнала независимо от индивидуальных свойств голоса оператора. Наибольший эффект будет, когда тембры голосов близки. Пока в дикторо-зависимых, т.е. настраиваемых, системах ввода речи удается получить в 4 раза меньше ошибок распознавания, чем в дикторо-независимых. При проектировании дикторо-независимых методов и систем распознавания слитной речи с большим словарем разработчиками в настоящее время последовательно решаются следующие задачи: - вначале прогнозируется дикоро-зависимая система распознавания речи с ограниченным словарем 15000…20 000 слов. - Затем разработка адаптивных (настраиваемых на конкретного диктора в процессе работы) систем распознавания с большим словарем (более 20 000 слов). - Наконец, ожидается создание дикоторо-независимых систем распознавания слитной речи со словарем в 200…300 слов доя использования в системах речевого управления. 7.4. Устройства вывода речевой информации. Синтезаторы. Задача вывода речевой информации сводится к преобразованию машинных кодов из ПК в колебания звуковой частоты речи. Устройства вывода и аппаратно, и программно проще устройств анализа. Особенно заметно экономится память при синтезе речи по фонетическим правилам. Классификация: Синтезаторы речевых сигналов речевых сообщений компиляторы (ограниченный словарь) универсальные
Страницы
- « первая
- ‹ предыдущая
- …
- 52
- 53
- 54
- 55
- 56
- …
- следующая ›
- последняя »