Человек - интерфейс - компьютер. Будко В.Н. - 44 стр.

UptoLike

Составители: 

результата через фильтр низкой частоты . Аналогично получают и энергетический спектр ,
измеряя энергию на выходе каждого полосового фильтра гребенки. Берется компромисс
между шириной полосового фильтра и разрешением во времени.
Большое распространение получила цифровая обработка сигналов. Пусть речевой
сигнал x(t) представлен последовательностью отсчетов x(nT). 0 n N-1, Т интервал
дискретизации.
Тогда спектр дискретного речевого сигнала
=
⋅=
1
0
)()(
N
n
nTj
x Д
enTxS
ω
ω
Согласно теории отсчетов (Котельникова ) в частотной области для ограниченной во
времени функции (на интервале NT) спектральная плотность однозначно определяется
заданием своих дискретных значений в точках
k
NT
⋅=
π
ω
2
, k = 0,1,2,
Обозначив
NT
π
2
=Ω получим окончательное выражение для дискретного
преобразования Фурье (ДПФ)
=
Ω−
=Ω
1
0
)()(
N
n
nTjk
xД
enTxkS
Дискретный спектр , в отличие от аналогового , будет по частоте периодическим с
периодом N=2π/T.
Обратное ДПФ, которое переводит ДПФ в исходную последовательность отсчетов
дается выражением
=
Ω=
1
0
)(
1
)(
N
k
jlk
xД
ekS
N
bTx
Здесь объем операции на ЭВМ порядка N
2
комплексных умножений и сложений.
Известны искусственные приемы экономных по числу операций определения ДПФ,
называемые быстрыми преобразованиями Фурье (БПФ). Если N степень числа 2, то БПФ
требует не N
2
а Nlog
2
N операций. Например, при N=1024 получается 99% экономии
вычислительных операций.
6.3 Речевые звуки
С физической точки зрения речь это последовательность звуков речи с паузами
между группами. Оптимальным считается темп речи 60..80 слов в 1 мин с интервалами
между словами около 1с, а допустимый темп до 120 слов в 1 мин.
Каждому человеку свойственна своя манера произносить звуки речи (своего рода
устный подчерк). Но при всем многообразии произношения, звуки это физические
реализации ограниченного числа обобщенных звуков речи, называемых фонемами.
Фонема это что человек хочет произнести , а звук речи то , что человек фактически
произносит. Фонема по отношению к звуку играет ту же роль, что и образцовая буква ,
называемая графемой , по отношению к ее реализации.
В русском языке 41 основная фонема:
Сонорные л, ль, р , рь, м, мь, н, нь, й;
Щ елевые ж , ш , з, зв, в, вь, с, сь, ф, фь, х, хь;
Взрывные б , бь, д, дь, г, гь , п, пь, т, ть , к, кь;
Аффрикаты ц , ч (комбинация глухих взрывных и щелевых)
Гласные а , о , у , э, и, ы.
Гласные е , я, ё , ю это составные фонемы йе , йа , йо , йу
результата через фильтр низкой частоты. Аналогично получают и энергетический спектр,
измеряя энергию на выходе каждого полосового фильтра гребенки. Берется компромисс
между шириной полосового фильтра и разрешением во времени.
     Большое распространение получила цифровая обработка сигналов. Пусть речевой
сигнал x(t) представлен последовательностью отсчетов x(nT). 0 ≤ n ≤ N-1, Т – интервал
дискретизации.
     Тогда спектр дискретного речевого сигнала
               N −1
     S xД (ω) =∑ x(nT ) ⋅ e −jωnT
               n =0
     Согласно теории отсчетов (Котельникова) в частотной области для ограниченной во
времени функции (на интервале NT) спектральная плотность однозначно определяется
заданием своих дискретных значений в точках
         2π
     ω=      ⋅k    , k = 0,1,2,…
         NT
                       2π
     Обозначив Ω =            получим окончательное выражение для дискретного
                       NT
преобразования Фурье (ДПФ)
                 N −1
     S xД (kΩ) =∑ x(nT ) ⋅ e −jkΩnT
                 n =0
     Дискретный спектр, в отличие от аналогового, будет по частоте периодическим с
периодом NΩ=2π/T.
     Обратное ДПФ, которое переводит ДПФ в исходную последовательность отсчетов
дается выражением
             1 N −1
     x(bT ) = ∑ S xД (kΩ) ⋅ e jlkΩ
             N k =0
     Здесь объем операции на ЭВМ порядка N2 комплексных умножений и сложений.
Известны искусственные приемы экономных по числу операций определения ДПФ,
называемые быстрыми преобразованиями Фурье (БПФ). Если N степень числа 2, то БПФ
требует не N2 а Nlog2N операций. Например, при N=1024 получается 99% экономии
вычислительных операций.


6.3 Речевые звуки

     С физической точки зрения речь – это последовательность звуков речи с паузами
между группами. Оптимальным считается темп речи 60..80 слов в 1 мин с интервалами
между словами около 1с, а допустимый темп – до 120 слов в 1 мин.
     Каждому человеку свойственна своя манера произносить звуки речи (своего рода
устный подчерк). Но при всем многообразии произношения, звуки – это физические
реализации ограниченного числа обобщенных звуков речи, называемых фонемами.
     Фонема – это что человек хочет произнести, а звук речи – то, что человек фактически
произносит. Фонема по отношению к звуку играет ту же роль, что и образцовая буква,
называемая графемой, по отношению к ее реализации.
     В русском языке 41 основная фонема:
     Сонорные – л, ль, р, рь, м, мь, н, нь, й;
     Щелевые – ж, ш, з, зв, в, вь, с, сь, ф, фь, х, хь;
     Взрывные – б, бь, д, дь, г, гь, п, пь, т, ть, к, кь;
     Аффрикаты – ц, ч (комбинация глухих взрывных и щелевых)
     Гласные – а, о, у, э, и, ы.
     Гласные е, я, ё, ю – это составные фонемы йе, йа, йо, йу