Поисковые системы. Афонин Д. - 3 стр.

UptoLike

Составители: 

Информационные технологии
Лабораторная работа 1
Томский политехнический университет
Д. Афонин, январь 2006 г.
3
2.3 ПРИНЦИП РАБОТЫ ПОИСКОВОЙ СИСТЕМЫ
Как правило, поисковая система состоит из трёх компонент:
1) робота;
2) базы данных;
3) обработчика запросов.
Робот систематически обходит почти все сайты как обычный пользователь и
записывает их содержимое в базу данных. Этот процесс называют индексацией. Позже,
когда пользователь введёт запрос, программа обратится к базе данных и по ключевым
словам выдаст пользователю информацию о тех страницах, которые наиболее полно
соответствуют запросу.
Интернетживая динамическая система, которая меняется быстрее, чем об этом
успевает узнать поисковый робот, — пишет Интернетско-русский разговорник Яндекса.
Поэтому иногда найденные документы могут оказаться изменёнными или вообще не
существовать. На этот случай большинство поисковиков имеют возможность показать
пользователю страницу даже после того, как оригинал перестал соответствовать образу.
Скорость индексации и размер поисковой базы данных являются важными
характеристиками поисковой машины.
Программа-обработчик сортирует ссылки на документы по мере их соответствия
запросу. Этот критерий называется релевантностью. Способ вычисления релевантности
является собственным ноу-хау каждого поисковика, поэтому в ответ на один и тот же
запрос разные системы выдают разные результаты. Например, на запрос «велосипед»
Google первой выдаст ссылку на сайт agbike.spb.ru; а Яндекс в ответ на тот же запрос
ссылку на agbike.spb.ru выдаст четвёртой, а на первом месте окажется velosite.ru.
2.4 УЧЁТ МОРФОЛОГИИ ЯЗЫКА
Наиболее существенной проблемой в развитии поисковых систем в русском
Интернете стала развитая морфология языкакогда одно и то же слово может быть
представлено в разных формах: единственном или множественном числе и одном из
шести падежей.
Таблица 1.1 Разные формы слова «форточка»
Число:
Падеж:
единственное множественное
именительный
форточка форточки
родительный
форточку форточки
дательный
форточке форточкам
винительный
форточку форточки
творительный
форточкой форточками
предложный
форточке форточках
Если задать поисковику запросы «форточка», «форточке», «форточками» и т.п., то
он выдаст одинаковые результаты.
При этом у слов ещё могут быть разные приставки, суффиксов и окончания. Всё
это создавало и создаёт серьёзные трудности в развитии поисковых систем.
Правильная поисковая система должна учитывать все особенности языка и
причуды пользователя. В каком бы падеже он ни вводил ключевое слово, система должна
его понимать.