Введение в информационно-поисковые системы - 29 стр.

UptoLike

Составители: 

Также используются возможности полуавтоматической или ручной индексации.
В первом случае администраторы оставляют сообщения о своих документах, кото-
рые индексирующий агент обрабатывает спустя некоторое время, во втором, адми-
нистраторы самостоятельно вносят в базу данных ИПС необходимую информацию.
Все большее число ИПС производят полнотекстовую индексацию. В этом слу-
чае для составления поискового образа используется весь текст документа []. Фор-
матирование, ссылки и т. д. становятся в этом случае дополнительным фактором,
влияющим на значимость того или иного термина. Термин из заголовка получит
больший вес, чем термин из подписи к рисунку [, ].
Современные крупные ИПС должны в течение секунды обрабатывать сотни
запросов. Поэтому любая задержка может привести к оттоку пользователей и, как
следствие, к непопулярности системы и коммерческим неудачам. С точки зрения ар-
хитектуры, такие ИПС реализуются в виде распределенных вычислительных систем,
состоящих из сотен компьютеров, расположенных по всему миру. Поисковые алго-
ритмы и программный код подвергаются крайне тщательной оптимизации.
В ИПС с большим объемом базы документов для ускорения их работы приме-
няются технологии эшелонирования и прюнинга. Эшелонирование заключается в
разделении базы данных на заведомо более релевантную и менее релевантную ча-
сти. Сначала ИПС ищет документы по первой части базы. Если документов не
найдено или найдено недостаточно, то поиск выполняется во второй части. При ис-
пользовании прюнинга
1
обработка запроса автоматически прекращается после нахо-
ждения достаточного количества релевантных документов [].
Также широко применяются пороговые модели поиска, которые определяют не-
которые пороговые значения для характеристик документов, выдаваемых пользова-
телю. Например, релевантность документов обычно ограничивается некоторым зна-
чением релевантности
R
, например,
75,0
=
R
при
10
R
. Вниманию пользо-
вателя предлагаются все документы со значением релевантности
RR
.
В случае ранжирования результатов поиска по дате пороговые значения опре-
деляют временной интервал даты изменения документов. Например, ИПС может ав-
томатически отсекать документы, не изменявшиеся последние три года [].
Главным достоинством ИПС словарного типа является практически полная ее
автоматизация. Система самостоятельно анализирует поисковые ресурсы, состав-
ляет и хранит их описания, производит поиск среди этих описаний. Широкий охват
ресурсов сети Интернет также относится к плюсам таких систем. Значительные
1
Pruning – англ. сокращение, удаление.
27