ВУЗ:
Составители:
34
Однако надо помнить , что применение смысловой архивации иногда может
быть чревато существенной потерей смысла текста. Например, попробуйте рас-
шифровать следующую фразу (все гласные заменены "?"):
Кл?д б?л ? ?нн?.
Возможные варианты :
1) Клад был у Инны .
2) Клод был у Анны .
3) Клод бил и Анну.
В серьезных приложениях смысловая архивация никогда не используется , и
здесь данный алгоритм приведен исключительно для полноты картины .
Поиск закономерностей
Не всегда обязательно пытаться любыми путями напрямую архивировать
данные одним из вышеописанных способов . Иногда бывает полезно поискать за-
кономерности , присущие исходным файлам данных.
Когда речь идет о графических изображениях, понятно, что для того чтобы
восстановить прямую линию , совсем необязательно хранить информацию о каж -
дой точке линии – достаточно и двух точек. То же можно сказать и о других гео -
метрических фигурах .
Что касается символьных текстов , то здесь все гораздо сложнее. Понятно,
что текстам естественного языка также присущи определенные закономерности .
Например, в старославянской письменности числительные обозначались буквами
русского алфавита, т.е. А = 1, Б = 2 и т.д. - причем после числа 10 идут 20, 30, 40
и т.д., а после 100 - соответственно 200, 300… . Значит, каждая буква русской аз -
буки имеет строго определенную числовую меру. Оказалось , что весь русский
язык, все слова имеют суммарные числовые меры , подчиняющиеся строгой зако-
номерности. При этом слова-синонимы имеют одну и ту же сумму чисел при со -
вершенно различном написании. При дальнейшем исследовании выяснилось , что
и в других древних языках слова одного смысла имеют одинаковую числовую ме-
ру. Столь же безусловна и фонетическая сторона языка.
Выбор алгоритма архивации
Выбор алгоритма архивации во многом определяется следующими факторами:
- статическими характеристиками распределения кодов шифруемых данных;
- ограничением на время архивации/ дезархивации;
- наличием у пользователя готовых архиваторов или специальных библиотечных
модулей для архивации.
Из множества существующих и перечисленных выше алгоритмов архивации в
реальных программах используются лишь немногие. Наиболее популярными яв -
ляются алгоритм Лемпела-Зива, Хаффмана и контекстное моделирование. В осно -
ву контекстного моделирования положен поиск закономерностей текста.
Хороший архиватор, как правило, включает в себя несколько алгоритмов .
Практически все популярные программы архивации без потерь (ARJ, RAR, ZIP)
используют объединение первых двух из названных методов – алгоритм LZH.
Каждый из методов кодирования может использоваться для защиты дан -
ных, особенно если используется свой (нестандартный) вариант метода сжатия
34 Однако надо помнить, что применение смысловой архивации иногда может быть чревато существенной потерей смысла текста. Например, попробуйте рас- шифровать следующую фразу (все гласные заменены "?"): Кл?д б?л ? ?нн?. Возможные варианты: 1) Клад был у Инны. 2) Клод был у Анны. 3) Клод бил и Анну. В серьезных приложениях смысловая архивация никогда не используется, и здесь данный алгоритм приведен исключительно для полноты картины. Поиск закономерностей Не всегда обязательно пытаться любыми путями напрямую архивировать данные одним из вышеописанных способов. Иногда бывает полезно поискать за- кономерности, присущие исходным файлам данных. Когда речь идет о графических изображениях, понятно, что для того чтобы восстановить прямую линию, совсем необязательно хранить информацию о каж- дой точке линии – достаточно и двух точек. То же можно сказать и о других гео- метрических фигурах. Что касается символьных текстов, то здесь все гораздо сложнее. Понятно, что текстам естественного языка также присущи определенные закономерности. Например, в старославянской письменности числительные обозначались буквами русского алфавита, т.е. А = 1, Б = 2 и т.д. - причем после числа 10 идут 20, 30, 40 и т.д., а после 100 - соответственно 200, 300…. Значит, каждая буква русской аз- буки имеет строго определенную числовую меру. Оказалось, что весь русский язык, все слова имеют суммарные числовые меры, подчиняющиеся строгой зако- номерности. При этом слова-синонимы имеют одну и ту же сумму чисел при со- вершенно различном написании. При дальнейшем исследовании выяснилось, что и в других древних языках слова одного смысла имеют одинаковую числовую ме- ру. Столь же безусловна и фонетическая сторона языка. Выбор алгоритма архивации Выбор алгоритма архивации во многом определяется следующими факторами: - статическими характеристиками распределения кодов шифруемых данных; - ограничением на время архивации/дезархивации; - наличием у пользователя готовых архиваторов или специальных библиотечных модулей для архивации. Из множества существующих и перечисленных выше алгоритмов архивации в реальных программах используются лишь немногие. Наиболее популярными яв- ляются алгоритм Лемпела-Зива, Хаффмана и контекстное моделирование. В осно- ву контекстного моделирования положен поиск закономерностей текста. Хороший архиватор, как правило, включает в себя несколько алгоритмов. Практически все популярные программы архивации без потерь (ARJ, RAR, ZIP) используют объединение первых двух из названных методов – алгоритм LZH. Каждый из методов кодирования может использоваться для защиты дан- ных, особенно если используется свой (нестандартный) вариант метода сжатия