Информационные технологии в учебном процессе: Часть 2. Кревский И.Г. - 24 стр.

UptoLike

Составители: 

поисковых серверах есть два способа поиска: по иерархии понятий и по ключевым
словам.
Заполнение поисковых серверов происходит либо автоматически, либо вручную.
Поисковый сервер обычно имеет ссылки на остальные поисковые сервера и передает им
запрос на поиск по желанию пользователя.
Существует два типа поисковых машин:
"полнотекстовые" поисковые машины индексируют каждое слово на веб-странице,
исключая лишь стоп-слова;
"абстрактные" поисковые машины создают экстракт каждой страницы.
Для вебмастеров полнотекстовые машины полезней, поскольку любое слово,
встречающееся на веб-странице, подвергается анализу при определении его
релевантности к запросам пользователей.
Однако при использовании абстрактных поисковых машин может случиться, что
страницы проиндексированы лучше, чем при использовании полнотекстовых. Это может
исходить от алгоритма выделения информации, например, по частоте употребления одних
и тех же слов.
Основные характеристики поисковых машин.
Размер поисковой машины
определяется количеством проиндексированных
страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы
пользователей, могут быть различной давности.
Дата индексации. Некоторые поисковые машины показывают дату, когда был
проиндексирован документ. Это помогает пользователю определить, когда документ
появился в сети.
Глубина индексирования показывает, сколько страниц после указанной будет
индексировать поисковая система. Большинство крупных машин не имеют ограничений
по глубине индексирования. По ряду причин могут быть проиндексированы не все
страницы.
Частота ссылок. Основные поисковые машины могут определить популярность
документа по тому, как часто на него ссылаются из других мест сети. Некоторые машины
на основании таких данных "делают вывод", стоит или не стоит индексировать документ.
Обновление сервера. Если сервер обновляется часто, то поисковая машина чаще
будет его реиндексировать, если редко - реже.
Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера
на другой, и этот параметр показывает, какой URL будет связан с вашими документами.
Если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы
с несуществующими файлами.
Стоп-слова. Некоторые поисковые машины не включают определенные слова в
свои индексы или могут не включать эти слова в запросы пользователей. Такими словами
обычно считаются предлоги или часто используемые слова. Их не включают ради
экономии места на носителях. Например, Altavista игнорирует слово web.
Влияние на алгоритм определения релевантности. Поисковые машины используют
расположение и частоту повторения ключевых слов в документе. Однако дополнительные
механизмы увеличения степени релевантности для каждой машины различны. Этот
параметр показывает, какие именно механизмы существуют для той или иной машины.
Spam-штрафы. Все поисковые системы "не любят", когда какой-либо сайт пытается
повысить свой рейтинг путем многократного упоминания одного и того же ключевого
слова и т.д. В большинстве случаев подобные действия (spamming, stacking) караются, и
рейтинг сайта падает.
поисковых серверах есть два способа поиска: по иерархии понятий и по ключевым
словам.
       Заполнение поисковых серверов происходит либо автоматически, либо вручную.
Поисковый сервер обычно имеет ссылки на остальные поисковые сервера и передает им
запрос на поиск по желанию пользователя.
       Существует два типа поисковых машин:
•    "полнотекстовые" поисковые машины индексируют каждое слово на веб-странице,
     исключая лишь стоп-слова;
•    "абстрактные" поисковые машины создают экстракт каждой страницы.
       Для вебмастеров полнотекстовые машины полезней, поскольку любое слово,
встречающееся на веб-странице, подвергается анализу при определении его
релевантности к запросам пользователей.
       Однако при использовании абстрактных поисковых машин может случиться, что
страницы проиндексированы лучше, чем при использовании полнотекстовых. Это может
исходить от алгоритма выделения информации, например, по частоте употребления одних
и тех же слов.

Основные характеристики поисковых машин.

       Размер поисковой машины определяется количеством проиндексированных
страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы
пользователей, могут быть различной давности.
       Дата индексации. Некоторые поисковые машины показывают дату, когда был
проиндексирован документ. Это помогает пользователю определить, когда документ
появился в сети.
       Глубина индексирования показывает, сколько страниц после указанной будет
индексировать поисковая система. Большинство крупных машин не имеют ограничений
по глубине индексирования. По ряду причин могут быть проиндексированы не все
страницы.
       Частота ссылок. Основные поисковые машины могут определить популярность
документа по тому, как часто на него ссылаются из других мест сети. Некоторые машины
на основании таких данных "делают вывод", стоит или не стоит индексировать документ.
       Обновление сервера. Если сервер обновляется часто, то поисковая машина чаще
будет его реиндексировать, если редко - реже.
       Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера
на другой, и этот параметр показывает, какой URL будет связан с вашими документами.
Если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы
с несуществующими файлами.
       Стоп-слова. Некоторые поисковые машины не включают определенные слова в
свои индексы или могут не включать эти слова в запросы пользователей. Такими словами
обычно считаются предлоги или часто используемые слова. Их не включают ради
экономии места на носителях. Например, Altavista игнорирует слово web.
       Влияние на алгоритм определения релевантности. Поисковые машины используют
расположение и частоту повторения ключевых слов в документе. Однако дополнительные
механизмы увеличения степени релевантности для каждой машины различны. Этот
параметр показывает, какие именно механизмы существуют для той или иной машины.
       Spam-штрафы. Все поисковые системы "не любят", когда какой-либо сайт пытается
повысить свой рейтинг путем многократного упоминания одного и того же ключевого
слова и т.д. В большинстве случаев подобные действия (spamming, stacking) караются, и
рейтинг сайта падает.