Введение в информационно-поисковые системы. Иванов В.К - 15 стр.

UptoLike

Составители: 

Описанная модель информационного массива является наиболее широко ис-
пользуемой. В первую очередь это связано с простотой реализации и, как следствие,
возможностью быстрой обработки больших объемов документов. В случае использо-
вания весов терминов информационный массив
L
может быть представлен в виде
{
}
====
ijij
ij
ij
dtW
dt
bDjNiL
,
,0
:,1;,1
,
где
ij
W
– вес термина
j
t
в документе
i
d
.
Матрица информационного массива изображена на рис. Рис. 4.
NDNj2N1N
iDij2i1i
D2j22221
D1j11211
WWWW
WWWW
WWWW
WWWW
Документ 1
Документ 2
Документ i
Документ N
...
...
Термин 1 Термин 2 Термин j Термин D... ...
Рис. 4. Матрица "термин-документ" информационного массива
Процедура обращения к информационно-поисковой системе может быть опре-
делена следующим образом:
RqL
=×
.
Здесь
q
– вектор запроса,
– вектор отклика системы на запрос.
Остановимся подробнее на статистических закономерностях, которые исполь-
зуются в процессе индексирования документов.
2.3. Статистический анализ текстов. Закон Ципфа
Начальным этапом любого метода индексирования является отбор из докумен-
тов терминов, которые бы наилучшим образом характеризовали их содержимое. Та-
кая необходимость вызвана тем, что непосредственное сканирование текстов доку-
ментов во время поиска занимает слишком много времени, особенно в поисковых
системах сети Интернет. С другой стороны, хранение полных текстов документов в
базах данных поисковых систем привело бы, во-первых, к резкому росту их объема,
и, во-вторых, поставило бы проблему соблюдения авторских прав.
Для выделения из документа индексационных терминов используются главным
образом статистические закономерности распределения частоты появления различ-
15