ВУЗ:
Составители:
Рубрика:
ных слов в текстах. В частности, в теории индексирования особый интерес представ-
ляют явления, поведение которых носит гиперболический характер. Другими слова-
ми, произведение фиксированных степеней переменных остается для таких явлений
постоянным.
Наиболее известный гиперболический закон, относящийся к статистической об-
работке текстов, сформулирован Дж. Ципфом. Он касается распределения слов в
достаточно больших выборках текста и используется для решения задачи выделе-
ния ключевых слов (терминов) произвольного документа. Основываясь на общем
"принципе наименьшего усилия"
1
, Дж. Ципф вывел универсальный закон, который
применим ко всем созданным человеком текстам [, , ].
Рассмотрим некоторый текст, количество слов в котором обозначим как
T
, а
число вхождений каждого слова
i
t
в этот текст обозначим как
i
n
. Частота появле-
ния
2
слова
i
t
в таком случае будет определяться формулой
TnTF
i
i
=
)(
.
Если расположить слова текста в порядке убывания частоты их появления, на-
чиная с наиболее часто встречающихся, то произведение частоты слова
i
TF
)(
на
порядковый номер частоты будет постоянным для любого данного слова
i
t
:
CrTF
ii
=⋅
)(
, (2.2)
где
C
– некоторая константа,
i
r
– порядковый номер (ранг) частоты слова
i
t
.
Наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними – 2 и
т. д. Если несколько слов имеет одинаковую частоту, то ранг присваивается только
одному значению из каждой группы.
Выражение (2.2) описывает функцию вида
xky
=
и её график – гипербола,
или прямая в логарифмических координатах (рис. ).
1
Подобному распределению подчиняются не только все естественные языки мира, но и другие явле-
ния: распределения ученых по числу опубликованных ими статей, городов по численности населения,
биологических родов по численности видов, посетителей сайтов сети Интернет и т. д. []
2
TF – англ. Term Frequency – частота термина в отдельных документах.
16
Страницы
- « первая
- ‹ предыдущая
- …
- 14
- 15
- 16
- 17
- 18
- …
- следующая ›
- последняя »