Введение в информационно-поисковые системы. Иванов В.К - 30 стр.

UptoLike

Составители: 

Главное достоинство межязыкового ЛСИ отсутствие необходимости перевода
(ручного или машинного) запроса на другой язык. Это особенно актуально для поис-
ка в сети Интернет, когда запросы являются неспециализированными, и их адекват-
ный перевод вызывает значительные трудности [, , ].
Латентно-семантический анализ в настоящее время также часто применяется
для анализа гипертекстовых документов. Практика показывает, что документы, свя-
занные гиперссылками, обычно находятся в одном семантическом пространстве.
Один из латентных факторов, которым в данном случае является структура гиперс-
сылок, существенно влияет на точность поиска [].
Примером количественной характеристики этого фактора может служить ве-
личина
PageRank
, которая вычисляется на основе информации о других докумен-
тах, имеющих ссылки на данный, и определяется выражением
=
+=
1
,
:
)(
)(
)1()(
ik
OL
k
P
k
k
i
PL
PPageRank
ddPPageRank
.
Здесь
i
P
и
k
P
документы информационного массива;
d
некоторый пара-
метр (обычно
85.0
d
);
)(
k
PL
общее количество ссылок, выходящих из доку-
мента
k
P
;
ik
OL
,
величина, характеризующая наличие гиперссылки из документа
k
P
в документ
i
P
(исходящей гиперссылки
1
).
, если такая ссылка отсут-
ствует, и
1
,
=
ik
OL
, если она существует.
Значение
PageRank
, которое рассчитывается для каждого документа, опре-
деляет его важность по сравнению с другими документами [].
Для реализации некоторых вспомогательных операций информационного поис-
ка (автоматическая фильтрация
2
, классификация и др.) также используются алгорит-
мы ЛСИ [].
3. Хранение индексированных документов
Организация хранения массива поисковых образов документов – одна из крити-
ческих частей поискового аппарата ИПС.
1
OL – англ. Outgoing Hyperlink – исходящая гиперссылка.
2
Автоматическая фильтрация – это отбор документов, удовлетворяющих информационной потребно-
сти пользователя, из некоторого потока. Примером потока может служить лента новостей информа-
ционного агентства, на которую непрерывно поступает свежая информация.
30