Введение в информационно-поисковые системы. Иванов В.К - 18 стр.

UptoLike

Составители: 

Таким образом, согласно закону Ципфа, если самое распространенное слово
встречается в тексте, например 50 раз, то следующее по частоте слово с высокой
долей вероятности встретится 25 раз.
Связь, задаваемая зависимостью (2.2), описывает реальные данные прибли-
женно. Более точное совпадение с экспериментом дает несколько измененное урав-
нение
s
ii
BrCTF
+=
)()(
. (2.3)
Здесь
C
и
s
параметры распределения, а
B
малая константа, называе-
мая поправкой Мандельброта. Она улучшает совпадение для общеупотребительных
слов, имеющих низкий ранг, а параметр
s
для слов, имеющих высокий ранг. Зна-
чение константы
C
в разных языках различно, но внутри одной языковой группы оно
остается неизменным вне зависимости от анализируемого текста.
Выражение (2.3) называется каноническим законом Ципфа []. Оно используется
для составления поискового образа документа, то есть для извлечения из текста до-
кумента слов, наиболее адекватно отражающих его смысл.
Практика показывает, что наиболее значимые слова лежат в средней части гра-
фика зависимости (рис. Рис. 7). Иными словами, самыми ценными для представле-
ния содержания документов являются термины не слишком редкие и не слишком ча-
стые. Слова, которые попадаются слишком часто, в основном оказываются предло-
гами, союзами и т. д. Редко встречающиеся слова также не имеют решающего смыс-
лового значения в большинстве случаев.
Ключевые слова
0
i
TF
)(
i
r
Рис. 7. Выделение ключевых слов по закону Ципфа
Границы выделения ключевых слов определяют качество поиска в ИПС. Высо-
кочастотные термины хоть и не являются специфическими, но все же дают большое
18