ВУЗ:
Составители:
33
Для втopoгo варианта у можно оценить по следующей формуле:
y (минимальный) = (L - 1) * b
y (максимальный) = n * b (L>1)
Характерным примером подобного способа кодирования является международ-
ный телеграфный код МТК-2.
Смысловая архивация
Как видно из приведенных примеров , коэффициент сжатия объема, зани-
маемого текстом, в результате архивации во многом определяется самим текстом ,
такими его характеристиками, как :
• число различных символов ;
•
частота повторения символов ;
•
расстояние между одинаковыми символами.
Во всех вышеприведенных алгоритмах мы исходили из необходимости од-
нозначного восстановления архивируемого текста, т.е., по сути, искали альтерна-
тивные способы кодировки, позволяющие наиболее экономно использовать па-
мять ЭВМ . Однако не надо забывать , что исходный текст может содержать и смы-
словую избыточность , т.е. при определенных условиях он может быть правильно
восстановлен даже в случае безвозвратной потери какой-то своей части. Напри-
мер, если в архивируемом тексте пропадут все гласные буквы, то думается , что
восстановление будет представлять собой несложную процедуру для человека,
умеющего грамотно писать . Точно также сможет восстановить данный текст и
ЭВМ при наличии в памяти орфографического словаря.
Пример 25: "3?Щ ?Т ? ПР?ГР?ММ ? Д ?НН?Х ?Т НСД "
В этом случае , применяя префиксный код, можно сжать текст до 14 байт.
Символ Частота повторения Код Объем (бит)
ПРОБЕЛ 5 00
10
? 4 01
18
Н 3 101
9
М 2 110
6
Д 2 1001
8
Т 2 1110
8
Р 2 1100
8
П 2 11110
5
Г 1 111110
6
Щ 1 1111110
7
З 1 11111110
8
Х 1 111111110
9
С 1 111111111
9
В приведенном примере из текста были изъяты только гласные буквы.
Однако буквы - кандидаты на удаление могу быть выбраны и случайным обра-
зом . Исходя из того, что избыточность любого естественного языка составляет
30-40%, предварительно , перед архивацией, можно, используя случайные после-
довательности, проредить текст , удалив из него 30-40% символов . Благодаря
чему объем исходного текста, подлежащего архивации, значительно сократится .
33 Для втopoгo варианта у можно оценить по следующей формуле: y (минимальный) = (L - 1) * b y (максимальный) = n * b (L>1) Характерным примером подобного способа кодирования является международ- ный телеграфный код МТК-2. Смысловая архивация Как видно из приведенных примеров, коэффициент сжатия объема, зани- маемого текстом, в результате архивации во многом определяется самим текстом, такими его характеристиками, как: • число различных символов; • частота повторения символов; • расстояние между одинаковыми символами. Во всех вышеприведенных алгоритмах мы исходили из необходимости од- нозначного восстановления архивируемого текста, т.е., по сути, искали альтерна- тивные способы кодировки, позволяющие наиболее экономно использовать па- мять ЭВМ. Однако не надо забывать, что исходный текст может содержать и смы- словую избыточность, т.е. при определенных условиях он может быть правильно восстановлен даже в случае безвозвратной потери какой-то своей части. Напри- мер, если в архивируемом тексте пропадут все гласные буквы, то думается, что восстановление будет представлять собой несложную процедуру для человека, умеющего грамотно писать. Точно также сможет восстановить данный текст и ЭВМ при наличии в памяти орфографического словаря. Пример 25: "3?Щ?Т? ПР?ГР?ММ ? Д?НН?Х ?Т НСД" В этом случае, применяя префиксный код, можно сжать текст до 14 байт. Символ Частота повторения Код Объем (бит) ПРОБЕЛ 5 00 10 ? 4 01 18 Н 3 101 9 М 2 110 6 Д 2 1001 8 Т 2 1110 8 Р 2 1100 8 П 2 11110 5 Г 1 111110 6 Щ 1 1111110 7 З 1 11111110 8 Х 1 111111110 9 С 1 111111111 9 В приведенном примере из текста были изъяты только гласные буквы. Однако буквы - кандидаты на удаление могу быть выбраны и случайным обра- зом. Исходя из того, что избыточность любого естественного языка составляет 30-40%, предварительно, перед архивацией, можно, используя случайные после- довательности, проредить текст, удалив из него 30-40% символов. Благодаря чему объем исходного текста, подлежащего архивации, значительно сократится.