ВУЗ:
Составители:
Рубрика:
информационном поиске в ИПС. Следовательно, здесь
можно исиользовать те же математические модели,
что и при определении соответствия документа за-
просу в ИПС. Тем самым определяется способ уста-
новления степени релевантности документа профилю
фонда.
Рассмотрим множества документов фонда D и
новых документов R,> заиндексированных при помощи
n линейно-упорядоченных терминов. Тогда любой
документ D представляется в виде n-мерного вектора
D = (d
1
, d
2
,..., d
n
); аналогичным образом представляются
новые документы R = (r
1
, r
2
,..., r
п
). Пусть ин-
дексирование будет бинарным, т. е.
d
i
(r
i
)= 1,если документ D(R) содержит i-й термин,
0 в остальных случаях.
Предположим, что имеется выборка из р
документов фонда и q новых документов, а также
(pxq)- матрица релевантности Z=(z..) со следующими
свойствами:
1, если 1-й документ D
i
релевантен j-му ново-
z
ij
= му документу R
j
0
в остальных случаях.
Предположим, что заданы функция совпадения f
документов D
i
и R
j
и пороговое значение T
*
, при ко-
тором документ R
j
включается в фонд тогда и только
тогда, когда f (D
i
, R
j
) ≥ Т
*
. Функция f измеряет сте-
пень близости векторов документов на основе подо-
бия соответствующих терминов этих векторов. В
частности, число совпадений (или несовпадений)
терминов для двух бинарных векторов можно опре-
делить как количество терминов, содержащиеся
в обоих векторах (соответственно как количество
терминов, содержащихся в одном векторе и отсут-
ствующих в другом). В первом случае мы вычисляем
количество общих единиц у двух векторов, а во втором
— берем количество пар неодинаковых координат
одного номера. Например, если D = (1, 0, 1, 1), R
= (1, 0, 0, 1), то число совпадений терминов равно 2
(термины № 1 и № 4), а число несовпадений есть 1
(термин № 3). Выбор функции f в указанном виде
соответствует стратегии „на пересечение" включения
документа в фонд. Возможен выбор стратегий „на
включение" и „на совпадение", когда все термины
нового документа включаются или совпадают с на-
бором терминов некоторого класса документов фонда.
201
информационном поиске в ИПС. Следовательно, здесь
можно исиользовать те же математические модели,
что и при определении соответствия документа за-
просу в ИПС. Тем самым определяется способ уста-
новления степени релевантности документа профилю
фонда.
Рассмотрим множества документов фонда D и
новых документов R,> заиндексированных при помощи
n линейно-упорядоченных терминов. Тогда любой
документ D представляется в виде n-мерного вектора
D = (d1, d2,..., dn); аналогичным образом представляются
новые документы R = (r1, r2,..., rп). Пусть ин-
дексирование будет бинарным, т. е.
di(ri)= 1,если документ D(R) содержит i-й термин,
0 в остальных случаях.
Предположим, что имеется выборка из р
документов фонда и q новых документов, а также
(pxq)- матрица релевантности Z=(z..) со следующими
свойствами:
1, если 1-й документ Di релевантен j-му ново-
zij= му документу R j
0 в остальных случаях.
Предположим, что заданы функция совпадения f
документов Di и Rj и пороговое значение T*, при ко-
тором документ Rj включается в фонд тогда и только
тогда, когда f (Di , Rj ) ≥ Т* . Функция f измеряет сте-
пень близости векторов документов на основе подо-
бия соответствующих терминов этих векторов. В
частности, число совпадений (или несовпадений)
терминов для двух бинарных векторов можно опре-
делить как количество терминов, содержащиеся
в обоих векторах (соответственно как количество
терминов, содержащихся в одном векторе и отсут-
ствующих в другом). В первом случае мы вычисляем
количество общих единиц у двух векторов, а во втором
— берем количество пар неодинаковых координат
одного номера. Например, если D = (1, 0, 1, 1), R
= (1, 0, 0, 1), то число совпадений терминов равно 2
(термины № 1 и № 4), а число несовпадений есть 1
(термин № 3). Выбор функции f в указанном виде
соответствует стратегии „на пересечение" включения
документа в фонд. Возможен выбор стратегий „на
включение" и „на совпадение", когда все термины
нового документа включаются или совпадают с на-
бором терминов некоторого класса документов фонда.
201
Страницы
- « первая
- ‹ предыдущая
- …
- 199
- 200
- 201
- 202
- 203
- …
- следующая ›
- последняя »
