ВУЗ:
Составители:
Рубрика:
му нужно говорить об отображении в S не отдель-
ных документов, а соответствующих подмножеств D.
Опишем с точки зрения математики содержание вве-
денных выше операций индексирования (о показателях
эффективности индексирования см. [22], гл. 3, п. 4).
Отбор терминов производится, как правило, сле-
дующим образом: выписываются слова, встречающиеся
в каждом документе, и делаются определённые
статистические подсчеты, в основе которых лежит
частота появления данного слова в документах или
вo всем массиве. Далее, отбрасываются общеупотре-
бительные слова, имеющие высокую частоту, а остав-
шимся словам приписываются веса в соответствий
с ранее проведенными статистическими расчетами.
Можно вводить также некоторые уточнения, объеди-
няя термины в группы или указывая связи между
ними. Адекватность данного термина для отражения
содержания документа не может быть достаточно
убедительно установлена в результате рассмотрения
терминов одного отдельно взятого документа. Поэ-
тому нужно описать поведение документа в полном
фонде.
Среди теорий индексирования, учитывающих всю
совокупность документов, рассмотрим сначала модель,
основанную на частотности. Её идея состоит в том,
чтобы отдавать предпочтение терминам, которые
встречаются с высокой частотой в отдельных доку-
ментах фонда, в то время как суммарная частота их
появления в фэнде довольно невелика. Впервые та-
кую модель исследовал X. Лун, вводя частотные
меры: f
i
k
— частота появления термина k в документе
d
i
, F
k
= f
i
k
— суммарная частота термина k в наборе
n
0
документов. Для усовершенствования частотных
мер можно использовать относительные частотные
параметры, чтобы частоту появления термина в дан-
ном набора можно было сравнить с частотой его
появления во всем объеме литературы. Однако прак-
тическое использование этих параметров затрудняется
тем, что нелегко обработать „всю литературу". В мо-
дели, дополняющей предыдущую и созданной Спарк
Джоунс, делается акцент на отбрасывание нерелевант-
ных документов. Точнее, если определить докумен-
180
му нужно говорить об отображении в S не отдель- ных документов, а соответствующих подмножеств D. Опишем с точки зрения математики содержание вве- денных выше операций индексирования (о показателях эффективности индексирования см. [22], гл. 3, п. 4). Отбор терминов производится, как правило, сле- дующим образом: выписываются слова, встречающиеся в каждом документе, и делаются определённые статистические подсчеты, в основе которых лежит частота появления данного слова в документах или вo всем массиве. Далее, отбрасываются общеупотре- бительные слова, имеющие высокую частоту, а остав- шимся словам приписываются веса в соответствий с ранее проведенными статистическими расчетами. Можно вводить также некоторые уточнения, объеди- няя термины в группы или указывая связи между ними. Адекватность данного термина для отражения содержания документа не может быть достаточно убедительно установлена в результате рассмотрения терминов одного отдельно взятого документа. Поэ- тому нужно описать поведение документа в полном фонде. Среди теорий индексирования, учитывающих всю совокупность документов, рассмотрим сначала модель, основанную на частотности. Её идея состоит в том, чтобы отдавать предпочтение терминам, которые встречаются с высокой частотой в отдельных доку- ментах фонда, в то время как суммарная частота их появления в фэнде довольно невелика. Впервые та- кую модель исследовал X. Лун, вводя частотные меры: f i k — частота появления термина k в документе di , Fk = fik — суммарная частота термина k в наборе n 0 документов. Для усовершенствования частотных мер можно использовать относительные частотные параметры, чтобы частоту появления термина в дан- ном набора можно было сравнить с частотой его появления во всем объеме литературы. Однако прак- тическое использование этих параметров затрудняется тем, что нелегко обработать „всю литературу". В мо- дели, дополняющей предыдущую и созданной Спарк Джоунс, делается акцент на отбрасывание нерелевант- ных документов. Точнее, если определить докумен- 180
Страницы
- « первая
- ‹ предыдущая
- …
- 178
- 179
- 180
- 181
- 182
- …
- следующая ›
- последняя »
