Основы работы в Интернет. Часть 2 (базовый уровень подготовки). Кревский И.Г - 42 стр.

UptoLike

ВУЗ:

ПГУ | Пенза

Составители:

Рубрика:

Информатика и информационные технологии

исходить от алгоритма выделения информации, например по частоте употребления одних

и тех же слов.

Основные характеристики поисковых машин

Размер поисковой машины определяется количеством проиндексированных

страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы

пользователей, могут быть различной давности. Причины, по которым это происходит:

некоторые поисковые машины сразу индексируют страницу по запросу

пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

другие чаще индексируют наиболее популярные страницы сети.

Дата индексации. Некоторые поисковые машины показывают дату, когда был

проиндексирован документ. Это помогает пользователю определить когда документ

появился в сети.

Глубина индексирования показывает сколько страниц после указанной будет

индексировать поисковая система. Большинство крупных машин не имеют ограничений

по глубине индексирования. Причины, по которым могут быть проиндексированы не все

страницы:

не слишком правильное использование фреймовых структур (без дублирования

ссылок в управляющем файле).

использование карты сайта без дублирования обычными ссылками

Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми

структурами, то многие структуры с фреймами будут упущены при индексировании.

Частота ссылок. Основные поисковые машины могут определить популярность

документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины

на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

Обновление сервера. Если сервер обновляется часто, то поисковая машина чаще

будет его реиндексировать, если редко - реже.

Контроль индексации. Показывает, какими средствами можно управлять

поисковой машиной. Все крупные поисковые машины руководствуются предписаниями

файла robots.txt. Некоторые поддерживают контроль с помощью META-тагов из

индексируемых документов. Файл /robots.txt предназначен для указания всем поисковым

роботам (spiders) индексировать информационные сервера так, как определено в этом

файле, т.е. только те директории и файлы сервера, которые НЕ описаны в /robots.txt. Это

файл должен содержать 0 или более записей, которые связаны с тем или иным роботом

(что определяется значением поля agent_id), и указывают для каждого робота или для всех

сразу что именно им НЕ НАДО индексировать.

Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера

на другой, и этот параметр показывает какой URL будет связан с вашими документами.

Если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы

с несуществующими файлами.

Стоп-слова. Некоторые поисковые машины не включают определенные слова в

свои индексы или могут не включать эти слова в запросы пользователей. Такими словами

обычно считаются предлоги или часто использующиеся слова. Их не включают ради

экономии места на носителях. Например, Altavista игнорирует слово web.

Влияние на алгоритм определения релевантности. Поисковые машины

используют расположение и частоту повторения ключевых слов в документе. Однако,

дополнительные механизмы увеличения степени релевантности для каждой машины

различны. Этот параметр показывает, какие именно механизмы существуют для той или

иной машины.

Spam-штрафы. Все поисковые системы "не любят", когда какой-либо сайт

пытается повысить свой рейтинг путем многократного указания себя через Add URL или

многократного упоминания одного и того же ключевого слова и т.д. В большинстве

случаев подобные действия (spamming, stacking) караются, и рейтинг сайта падает.

исходить от алгоритма выделения информации, например по частоте употребления одних
и тех же слов.
Основные характеристики поисковых машин
Размер поисковой машины определяется количеством проиндексированных
страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы
пользователей, могут быть различной давности. Причины, по которым это происходит:
некоторые поисковые машины сразу индексируют страницу по запросу
пользователя, а затем продолжают индексировать еще не проиндексированные страницы.
другие чаще индексируют наиболее популярные страницы сети.
Дата индексации. Некоторые поисковые машины показывают дату, когда был
проиндексирован документ. Это помогает пользователю определить когда документ
появился в сети.
Глубина индексирования показывает сколько страниц после указанной будет
индексировать поисковая система. Большинство крупных машин не имеют ограничений
по глубине индексирования. Причины, по которым могут быть проиндексированы не все
страницы:
не слишком правильное использование фреймовых структур (без дублирования
ссылок в управляющем файле).
использование карты сайта без дублирования обычными ссылками
Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми
структурами, то многие структуры с фреймами будут упущены при индексировании.
Частота ссылок. Основные поисковые машины могут определить популярность
документа по тому, как часто на него ссылаются из других мест Сети. Некоторые машины
на основании таких данных "делают вывод" стоит или не стоит индексировать документ.
Обновление сервера. Если сервер обновляется часто, то поисковая машина чаще
будет его реиндексировать, если редко - реже.
Контроль индексации. Показывает, какими средствами можно управлять
поисковой машиной. Все крупные поисковые машины руководствуются предписаниями
файла robots.txt. Некоторые поддерживают контроль с помощью META-тагов из
индексируемых документов. Файл /robots.txt предназначен для указания всем поисковым
роботам (spiders) индексировать информационные сервера так, как определено в этом
файле, т.е. только те директории и файлы сервера, которые НЕ описаны в /robots.txt. Это
файл должен содержать 0 или более записей, которые связаны с тем или иным роботом
(что определяется значением поля agent_id), и указывают для каждого робота или для всех
сразу что именно им НЕ НАДО индексировать.
Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера
на другой, и этот параметр показывает какой URL будет связан с вашими документами.
Если поисковая машина не отрабатывает перенаправление, то могут возникнуть проблемы
с несуществующими файлами.
Стоп-слова. Некоторые поисковые машины не включают определенные слова в
свои индексы или могут не включать эти слова в запросы пользователей. Такими словами
обычно считаются предлоги или часто использующиеся слова. Их не включают ради
экономии места на носителях. Например, Altavista игнорирует слово web.
Влияние на алгоритм определения релевантности. Поисковые машины
используют расположение и частоту повторения ключевых слов в документе. Однако,
дополнительные механизмы увеличения степени релевантности для каждой машины
различны. Этот параметр показывает, какие именно механизмы существуют для той или
иной машины.
Spam-штрафы. Все поисковые системы "не любят", когда какой-либо сайт
пытается повысить свой рейтинг путем многократного указания себя через Add URL или
многократного упоминания одного и того же ключевого слова и т.д. В большинстве
случаев подобные действия (spamming, stacking) караются, и рейтинг сайта падает.

Заказать работу

Основы работы в Интернет. Часть 2 (базовый уровень подготовки). Кревский И.Г - 42 стр.

UptoLike

ВУЗ:

Кревский И.Г.

Селиверстов М.Н.

Финогеев А.Г.

Информатика и информационные технологии

Вы здесь

Основы работы в Интернет. Часть 2 (базовый уровень подготовки). Кревский И.Г - 42 стр.

UptoLike

ВУЗ:

Кревский И.Г.

Селиверстов М.Н.

Финогеев А.Г.

Информатика и информационные технологии

Страницы