Математические методы в библиотечной работе. Елизаров А.М - 201 стр.

UptoLike

Составители: 

Рубрика: 

информационном поиске в ИПС. Следовательно, здесь
можно исиользовать те же математические модели,
что и при определении соответствия документа за-
просу в ИПС. Тем самым определяется способ уста-
новления степени релевантности документа профилю
фонда.
Рассмотрим множества документов фонда D и
новых документов R,> заиндексированных при помощи
n линейно-упорядоченных терминов. Тогда любой
документ D представляется в виде n-мерного вектора
D = (d
1
, d
2
,..., d
n
); аналогичным образом представляются
новые документы R = (r
1
, r
2
,..., r
п
). Пусть ин-
дексирование будет бинарным, т. е.
d
i
(r
i
)= 1,если документ D(R) содержит i-й термин,
0 в остальных случаях.
Предположим, что имеется выборка из р
документов фонда и q новых документов, а также
(pxq)- матрица релевантности Z=(z..) со следующими
свойствами:
1, если 1-й документ D
i
релевантен j-му ново-
z
ij
= му документу R
j
0
в остальных случаях.
Предположим, что заданы функция совпадения f
документов D
i
и R
j
и пороговое значение T
*
, при ко-
тором документ R
j
включается в фонд тогда и только
тогда, когда f (D
i
, R
j
) Т
*
. Функция f измеряет сте-
пень близости векторов документов на основе подо-
бия соответствующих терминов этих векторов. В
частности, число совпадений (или несовпадений)
терминов для двух бинарных векторов можно опре-
делить как количество терминов, содержащиеся
в обоих векторах (соответственно как количество
терминов, содержащихся в одном векторе и отсут-
ствующих в другом). В первом случае мы вычисляем
количество общих единиц у двух векторов, а во втором
берем количество пар неодинаковых координат
одного номера. Например, если D = (1, 0, 1, 1), R
= (1, 0, 0, 1), то число совпадений терминов равно 2
(термины 1 и 4), а число несовпадений есть 1
(термин 3). Выбор функции f в указанном виде
соответствует стратегиина пересечение" включения
документа в фонд. Возможен выбор стратегийна
включение" ина совпадение", когда все термины
нового документа включаются или совпадают с на-
бором терминов некоторого класса документов фонда.
201
 информационном поиске в ИПС. Следовательно, здесь
 можно исиользовать те же математические модели,
 что и при определении соответствия документа за-
 просу в ИПС. Тем самым определяется способ уста-
 новления степени релевантности документа профилю
 фонда.
     Рассмотрим множества документов фонда D и
 новых документов R,> заиндексированных при помощи
 n линейно-упорядоченных терминов. Тогда любой
 документ D представляется в виде n-мерного вектора
 D = (d1, d2,..., dn); аналогичным образом представляются
 новые документы R = (r1, r2,..., rп). Пусть ин-
 дексирование будет бинарным, т. е.
 di(ri)=      1,если документ D(R) содержит i-й термин,
              0 в остальных случаях.
     Предположим, что имеется выборка из р
 документов фонда и q новых документов, а также
 (pxq)- матрица релевантности Z=(z..) со следующими
 свойствами:
         1, если 1-й документ Di релевантен j-му ново-
zij=      му документу R j
         0 в остальных случаях.
       Предположим, что заданы функция совпадения f
документов Di и Rj и пороговое значение T*, при ко-
тором документ Rj включается в фонд тогда и только
тогда, когда f (Di , Rj ) ≥ Т* . Функция f измеряет сте-
пень близости векторов документов на основе подо-
бия соответствующих терминов этих векторов. В
частности, число совпадений (или несовпадений)
терминов для двух бинарных векторов можно опре-
делить как количество терминов, содержащиеся
в обоих векторах (соответственно как количество
терминов, содержащихся в одном векторе и отсут-
ствующих в другом). В первом случае мы вычисляем
количество общих единиц у двух векторов, а во втором
— берем количество пар неодинаковых координат
одного номера. Например, если D = (1, 0, 1, 1), R
= (1, 0, 0, 1), то число совпадений терминов равно 2
(термины № 1 и № 4), а число несовпадений есть 1
(термин № 3). Выбор функции f в указанном виде
соответствует стратегии „на пересечение" включения
документа в фонд. Возможен выбор стратегий „на
включение" и „на совпадение", когда все термины
нового документа включаются или совпадают с на-
бором терминов некоторого класса документов фонда.
                                                     201