ВУЗ:
Составители:
Рубрика:
онной потребностью и терминами, составляющими поисковый образ документа, раз-
работана вероятностная модель оценки весов терминов [, ].
Вероятностная модель основана на точной оценке вероятности того, что дан-
ный документ является релевантным (точнее, пертинентным) данному запросу [, ].
Обозначим вероятность такого события как
)|(
1
dwP
, где
1
w
– событие, кото-
рое состоит в том, что документ
d
является релевантным по отношению к запро-
су
q
. Аналогично, предположим, что
)|(
2
dwP
– вероятность того, что документ
d
окажется нерелевантным.
Для определения вероятности
)|(
1
dwP
воспользуемся теоремой Байеса:
)(
)()|(
)|(
11
1
dP
wPwdP
dwP
=
.
Здесь
)(
1
wP
– вероятность того, что случайно выбранный документ является
релевантным,
)(
dP
– вероятность того, что из всего множества документов для
рассмотрения выбран документ
d
,
)|(
1
wdP
– вероятность того, что документ
d
выбран из множества релевантных документов.
Для дальнейшего изложения примем несколько упрощений. Во-первых, предпо-
ложим, что поисковый образ документа
d
представлен двоичным вектором (2.1):
∈
∉
==
dt
dt
dddddd
i
i
i
Di
,1
,0
,,,,,,
21
,
где
D
– размер словаря поисковой системы.
Далее, будем считать, что любая пара терминов входит в документ независимо
друг от друга, то есть вероятности появления всех терминов в документе равны:
)|()|()|(
11211
wdPwdPwdP
D
===
.
Тогда вероятность
)|(
1
wdP
для документа
d
будет равна произведению со-
ответствующих вероятностей для всех входящих в него терминов:
∏∏
⋅
∏
=∉∈
==
D
i
i
dtdt
wdPwtPwtPwdP
1
111
1
)|()|()|()|(
. (2.5)
Если вероятность появления термина
i
t
в релевантном документе обозначить
как
25
Страницы
- « первая
- ‹ предыдущая
- …
- 23
- 24
- 25
- 26
- 27
- …
- следующая ›
- последняя »