ВУЗ:
Составители:
Рубрика:
Описанная модель информационного массива является наиболее широко ис-
пользуемой. В первую очередь это связано с простотой реализации и, как следствие,
возможностью быстрой обработки больших объемов документов. В случае использо-
вания весов терминов информационный массив
L
может быть представлен в виде
{
}
∈
∉
===∀=
ijij
ij
ij
dtW
dt
bDjNiL
,
,0
:,1;,1
,
где
ij
W
– вес термина
j
t
в документе
i
d
.
Матрица информационного массива изображена на рис. Рис. 4.
NDNj2N1N
iDij2i1i
D2j22221
D1j11211
WWWW
WWWW
WWWW
WWWW
Документ 1
Документ 2
Документ i
Документ N
...
...
Термин 1 Термин 2 Термин j Термин D... ...
Рис. 4. Матрица "термин-документ" информационного массива
Процедура обращения к информационно-поисковой системе может быть опре-
делена следующим образом:
RqL
=×
.
Здесь
q
– вектор запроса,
R
– вектор отклика системы на запрос.
Остановимся подробнее на статистических закономерностях, которые исполь-
зуются в процессе индексирования документов.
2.3. Статистический анализ текстов. Закон Ципфа
Начальным этапом любого метода индексирования является отбор из докумен-
тов терминов, которые бы наилучшим образом характеризовали их содержимое. Та-
кая необходимость вызвана тем, что непосредственное сканирование текстов доку-
ментов во время поиска занимает слишком много времени, особенно в поисковых
системах сети Интернет. С другой стороны, хранение полных текстов документов в
базах данных поисковых систем привело бы, во-первых, к резкому росту их объема,
и, во-вторых, поставило бы проблему соблюдения авторских прав.
Для выделения из документа индексационных терминов используются главным
образом статистические закономерности распределения частоты появления различ-
15
Страницы
- « первая
- ‹ предыдущая
- …
- 13
- 14
- 15
- 16
- 17
- …
- следующая ›
- последняя »