Математические методы в библиотечной работе. Елизаров А.М - 180 стр.

UptoLike

Составители: 

Рубрика: 

му нужно говорить об отображении в S не отдель-
ных документов, а соответствующих подмножеств D.
Опишем с точки зрения математики содержание вве-
денных выше операций индексирования (о показателях
эффективности индексирования см. [22], гл. 3, п. 4).
Отбор терминов производится, как правило, сле-
дующим образом: выписываются слова, встречающиеся
в каждом документе, и делаются определённые
статистические подсчеты, в основе которых лежит
частота появления данного слова в документах или
вo всем массиве. Далее, отбрасываются общеупотре-
бительные слова, имеющие высокую частоту, а остав-
шимся словам приписываются веса в соответствий
с ранее проведенными статистическими расчетами.
Можно вводить также некоторые уточнения, объеди-
няя термины в группы или указывая связи между
ними. Адекватность данного термина для отражения
содержания документа не может быть достаточно
убедительно установлена в результате рассмотрения
терминов одного отдельно взятого документа. Поэ-
тому нужно описать поведение документа в полном
фонде.
Среди теорий индексирования, учитывающих всю
совокупность документов, рассмотрим сначала модель,
основанную на частотности. Её идея состоит в том,
чтобы отдавать предпочтение терминам, которые
встречаются с высокой частотой в отдельных доку-
ментах фонда, в то время как суммарная частота их
появления в фэнде довольно невелика. Впервые та-
кую модель исследовал X. Лун, вводя частотные
меры: f
i
k
частота появления термина k в документе
d
i
, F
k
= f
i
k
суммарная частота термина k в наборе
n
0
документов. Для усовершенствования частотных
мер можно использовать относительные частотные
параметры, чтобы частоту появления термина в дан-
ном набора можно было сравнить с частотой его
появления во всем объеме литературы. Однако прак-
тическое использование этих параметров затрудняется
тем, что нелегко обработатьвсю литературу". В мо-
дели, дополняющей предыдущую и созданной Спарк
Джоунс, делается акцент на отбрасывание нерелевант-
ных документов. Точнее, если определить докумен-
180
му нужно говорить об отображении в S не отдель-
ных документов, а соответствующих подмножеств D.
Опишем с точки зрения математики содержание вве-
денных выше операций индексирования (о показателях
эффективности индексирования см. [22], гл. 3, п. 4).
   Отбор терминов производится, как правило, сле-
дующим образом: выписываются слова, встречающиеся
в каждом документе, и делаются определённые
статистические подсчеты, в основе которых лежит
частота появления данного слова в документах или
вo всем массиве. Далее, отбрасываются общеупотре-
бительные слова, имеющие высокую частоту, а остав-
шимся словам приписываются веса в соответствий
с ранее проведенными статистическими расчетами.
Можно вводить также некоторые уточнения, объеди-
няя термины в группы или указывая связи между
ними. Адекватность данного термина для отражения
содержания документа не может быть достаточно
убедительно установлена в результате рассмотрения
терминов одного отдельно взятого документа. Поэ-
тому нужно описать поведение документа в полном
фонде.
   Среди теорий индексирования, учитывающих всю
совокупность документов, рассмотрим сначала модель,
основанную на частотности. Её идея состоит в том,
чтобы отдавать предпочтение терминам, которые
встречаются с высокой частотой в отдельных доку-
ментах фонда, в то время как суммарная частота их
появления в фэнде довольно невелика. Впервые та-
кую модель      исследовал X. Лун, вводя частотные
меры: f i k — частота появления термина k в документе
di , Fk =   fik — суммарная частота термина k в наборе
n 0 документов. Для усовершенствования частотных
мер можно использовать относительные частотные
параметры, чтобы частоту появления термина в дан-
ном набора можно было сравнить с частотой его
появления во всем объеме литературы. Однако прак-
тическое использование этих параметров затрудняется
тем, что нелегко обработать „всю литературу". В мо-
дели, дополняющей предыдущую и созданной Спарк
Джоунс, делается акцент на отбрасывание нерелевант-
ных документов. Точнее, если определить докумен-
 180