ВУЗ:
Составители:
26
достаточно ограничиться биграммами. Неравновероятность k -грамм (и даже слов)
тесно связана с характерной особенностью открытого текста – наличием в нем
большого числа повторений отдельных фрагментов текста: корней, окончаний,
суффиксов, слов и фраз. Так, для русского языка такими привычными фрагментами
являются наиболее частые биграммы и триграммы:
СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО,
СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА
Полезной является информация о сочетаемости букв, то есть о
предпочтительных связях букв друг с другом, которую легко извлечь из таблиц
частот биграмм.
Имеется в виду таблица, в которой слева и справа от каждой буквы
расположены наиболее предпочтительные "соседи" (в порядке убывания частоты
соответствующих биграмм). В таких таблицах обычно указывается также доля
гласных и согласных букв (в процентах), предшествующих (или следующих за)
данной букве.
Таблица 5. Таблица частот биграмм русского языка
ЧАСТЬ 1
А Б В Г Д Е Ж 3 И И К Л М Н О П
А 2 12 35 8 14 7 6 15 7 7 19 27 19 45 3 11
Б 5 9 1 6 6 2 21
В 35 1 5 3 3 32 2 17 7 10 3 9 58 6
Г 7 3 3 5 1 5 1 50
Д 25 3 1 1 29 1 1 13 1 5 1 13 22 3
Е 2 9 18 11 27 7 5 10 6 15 13 35 24 63 7 16
Ж 5 1 6 12 5 6
3 35 1 7 1 5 3 4 2 1 2 9 9 1
И 4 6 22 5 10 21 2 23 19 11 19 21 20 32 8 13
И 1 1 4 1 3 1 2 4 5 1 2 7 9 7
К 24 1 4 1 4 1 1 26 1 4 1 2 66 2
Л 25 1 1 1 1 33 2 1 36 1 2 1 8 30 2
М 18 2 4 1 1 21 1 2 23 3 1 3 7 19 5
Н 54 1 2 3 3 34 58 3 1 24 67 2
О 1 28 84 32 47 15 7 18 12 29 19 41 38 30 9 18
П 7 15 4 9 1 46
ЧАСТЬ 2
Р С Т У Ф X Ц Ч Ш Щ Ы Ь Э Ю Я
А 26 31 27 3 1 10 6 7 10 1 2 6 9
Б 8 1 6 1 11 2
Страницы
- « первая
- ‹ предыдущая
- …
- 24
- 25
- 26
- 27
- 28
- …
- следующая ›
- последняя »