Введение в информационно-поисковые системы - 5 стр.

UptoLike

Составители: 

Введение
В части 2 методических указаний описываются основные модели и алгоритмы
поиска информации в информационно-поисковых системах (ИПС), а также один из
традиционных методов анализа документов классификация. Перечисляются глав-
ные критерии эффективности ИПС и способы их оценки. Приводятся архитектура и
состав современных ИПС, работающих в сети Интернет.
1. Модели поиска информации
Главная цель ИПС – наилучшим образом удовлетворить потребности пользова-
телей в необходимой информации. Для реализации этой глобальной цели необходи-
мо проделать ряд подготовительных операций, которые были подробно рассмотре-
ны в первой части методических указаний: проанализировать информационный мас-
сив и представить его в форме, удобной для хранения и обработки. Не менее важ-
ной частью поискового аппарата ИПС является модель поиска информации. Она
описывает способ и критерии сравнения запросов и документов, а также форму
представления результатов этого сравнения.
Любая модель поиска тесно связана с информационно-поисковым языком. Ин-
формационно-поисковый язык (ИПЯ) это специальный язык для формирования
запросов к ИПС. Необходимость создания ИПЯ вызвана трудностями интерпретации
естественного языка в компьютерной системе. Однако синтаксис информационно-
поисковых языков обычно довольно прост и внешне они часто похожи на естествен-
ные. Перед использованием запросов на ИПЯ проводятся лексическая (например,
удаление из запроса терминов, присутствующих в стоп-словаре), морфологическая
(нормализация терминов запроса
1
), реже синтаксическая и семантическая обработки
(в основном в экспериментальных системах) [].
Рассмотрим основные модели поиска информации, применяемые в ИПС.
1.1. Булева модель поиска
Наиболее распространенной моделью поиска является булева модель, позво-
ляющая составлять логические выражения из набора терминов. Найденные доку-
менты определяются в результате описанных запросом логических операций над
множеством поисковых образов документов. Пользователь получает только те доку-
1
В базе данных ИПС термины обычно хранятся в так называемой нормальной форме. Например, для
существительных - это именительный падеж единственного числа. Одновременная нормализация
терминов запросов и документов позволяет существенно упростить процесс их сравнения при поиске.
3