Сетевая экономика. Учебное пособие. Цуканова О.А - 30 стр.

UptoLike

30
Технология сбора адресов страниц в Интернете заключается в том, что для
начала разработчики поисковой машины загружают в нее начальный список адре-
сов страниц сайтов (например, из каталога). Затем поисковая машина (поисковый
робот) собирает все гипертекстовые ссылки из каждой из заданных страниц на
другие страницы и добавляет все найденные в ссылках адреса к своему первона-
чальному набору адресов. Таким образом, малоизвестные страницы, на которые
никто не ссылается, имеют очень мало шансов автоматически попасть в индекс
поисковой машины. Владелец сайта может сам добавить новый адрес страницы в
индекс поисковика вручную, используя средства регистрации новых веб-страниц,
которые есть во всех поисковых машинах.
Поисковик выкачивает текст из страницы специальным модулем поисковой
машины, называемой поисковым «пауком» или поисковым роботом. После выка-
чивания индексный робот выбирает все слова из выкачанных текстов и располага-
ет их в алфавитном порядке, помещает их в индекс, к которому поисковая машина
обращается по запросу пользователя в поисковике. В большинстве случаев поис-
ковые машины слова не заносят в индекс в том виде, в котором они есть в тексте, а
подергают их машинной морфологии. В индексе поисковая машина идет от слов к
страницам, то есть индекс является инвертированным.
Изначально целью поисковиков было проиндексировать веб-страницы, то есть
тексты в формате html. Позже большинство поисковиков начали индексировать
выложенные на сайт документы в форматах Word, PDF, Excel.
После регистрации в той или иной поисковой системе администрация сер-
вера предлагает клиентам бесплатный счетчик посещений, позволяющий участво-
вать в различных рейтингах данной службы. Чем больше посещений, тем выше
ссылка на сайт будет находиться в списке прочих ресурсов Интернета и, соответ-
ственно, тем больше пользователей каталога станут ее посетителями.
Рейтинг определяется количеством уникальных посетителей сайта в сутки.
Индекс цитирования (ИЦ) показывает, сколько чужих сайтов ссылаются на
ресурс.
Тематический индекс цитирования (ТИЦ) учитывает тематику ссылаю-
щихся на сайт страниц.
Релевантность результатов поиска поисковой машины означает, что эти ре-
зультаты содержат страницы, относящиеся к делу, то есть к смыслу поискового
запроса.
Ранжированием называется упорядочение результатов поиска по их реле-
вантности. Каждая поисковая машина имеет свою формулу релевантности. Кроме
сведений о составе и релевантности текста на самой странице, поисковики анали-
зируют также позицию страницы в общем пространстве Интернета, а именно авто-
ритетность страницы, которую они вычисляют по количеству ссылок на нее с дру-
гих сайтов.
Поисковые машины отличаются друг от друга набором своих возможностей,
функциональностью, удобством.
Индексацию сайта в результатах поиска определяют адреса страниц и работа
серверных скриптов.