Математические методы в библиотечной работе. Елизаров А.М - 180 стр.

UptoLike

ВУЗ:

КФУ | Казань

Составители:

Рубрика:

Математика

му нужно говорить об отображении в S не отдель-

ных документов, а соответствующих подмножеств D.

Опишем с точки зрения математики содержание вве-

денных выше операций индексирования (о показателях

эффективности индексирования см. [22], гл. 3, п. 4).

Отбор терминов производится, как правило, сле-

дующим образом: выписываются слова, встречающиеся

в каждом документе, и делаются определённые

статистические подсчеты, в основе которых лежит

частота появления данного слова в документах или

вo всем массиве. Далее, отбрасываются общеупотре-

бительные слова, имеющие высокую частоту, а остав-

шимся словам приписываются веса в соответствий

с ранее проведенными статистическими расчетами.

Можно вводить также некоторые уточнения, объеди-

няя термины в группы или указывая связи между

ними. Адекватность данного термина для отражения

содержания документа не может быть достаточно

убедительно установлена в результате рассмотрения

терминов одного отдельно взятого документа. Поэ-

тому нужно описать поведение документа в полном

фонде.

Среди теорий индексирования, учитывающих всю

совокупность документов, рассмотрим сначала модель,

основанную на частотности. Её идея состоит в том,

чтобы отдавать предпочтение терминам, которые

встречаются с высокой частотой в отдельных доку-

ментах фонда, в то время как суммарная частота их

появления в фэнде довольно невелика. Впервые та-

кую модель исследовал X. Лун, вводя частотные

меры: f

— частота появления термина k в документе

, F

= f

— суммарная частота термина k в наборе

документов. Для усовершенствования частотных

мер можно использовать относительные частотные

параметры, чтобы частоту появления термина в дан-

ном набора можно было сравнить с частотой его

появления во всем объеме литературы. Однако прак-

тическое использование этих параметров затрудняется

тем, что нелегко обработать „всю литературу". В мо-

дели, дополняющей предыдущую и созданной Спарк

Джоунс, делается акцент на отбрасывание нерелевант-

ных документов. Точнее, если определить докумен-

180

му нужно говорить об отображении в S не отдель-
ных документов, а соответствующих подмножеств D.
Опишем с точки зрения математики содержание вве-
денных выше операций индексирования (о показателях
эффективности индексирования см. [22], гл. 3, п. 4).
   Отбор терминов производится, как правило, сле-
дующим образом: выписываются слова, встречающиеся
в каждом документе, и делаются определённые
статистические подсчеты, в основе которых лежит
частота появления данного слова в документах или
вo всем массиве. Далее, отбрасываются общеупотре-
бительные слова, имеющие высокую частоту, а остав-
шимся словам приписываются веса в соответствий
с ранее проведенными статистическими расчетами.
Можно вводить также некоторые уточнения, объеди-
няя термины в группы или указывая связи между
ними. Адекватность данного термина для отражения
содержания документа не может быть достаточно
убедительно установлена в результате рассмотрения
терминов одного отдельно взятого документа. Поэ-
тому нужно описать поведение документа в полном
фонде.
   Среди теорий индексирования, учитывающих всю
совокупность документов, рассмотрим сначала модель,
основанную на частотности. Её идея состоит в том,
чтобы отдавать предпочтение терминам, которые
встречаются с высокой частотой в отдельных доку-
ментах фонда, в то время как суммарная частота их
появления в фэнде довольно невелика. Впервые та-
кую модель      исследовал X. Лун, вводя частотные
меры: f i k — частота появления термина k в документе
di , Fk =   fik — суммарная частота термина k в наборе
n 0 документов. Для усовершенствования частотных
мер можно использовать относительные частотные
параметры, чтобы частоту появления термина в дан-
ном набора можно было сравнить с частотой его
появления во всем объеме литературы. Однако прак-
тическое использование этих параметров затрудняется
тем, что нелегко обработать „всю литературу". В мо-
дели, дополняющей предыдущую и созданной Спарк
Джоунс, делается акцент на отбрасывание нерелевант-
ных документов. Точнее, если определить докумен-
 180

Заказать работу

Математические методы в библиотечной работе. Елизаров А.М - 180 стр.

UptoLike

ВУЗ:

Елизаров А.М.

Хохлов Ю.Е.

Математика

Вы здесь

Математические методы в библиотечной работе. Елизаров А.М - 180 стр.

UptoLike

ВУЗ:

Елизаров А.М.

Хохлов Ю.Е.

Математика

Страницы