Информационные технологии в учебном процессе: Часть 2. Кревский И.Г. - 25 стр.

UptoLike

Составители: 

Примеры поисковых машин.
Altavista. Система открыта в декабре 1995 года. Принадлежит компании DEC. С
1996 года сотрудничает с Yahoo. Первая из крупных поисковых систем, включившая
поддержку запросов на русском языке.
Excite Search. Запущена в конце 1995 года. В сентябре 1996 года приобретена
WebCrawler.
HotBot. Запущена в мае 1996 года. Принадлежит компании Wired. Базируется на
технологии поисковой машины Berkeley Inktomi.
InfoSeek
. Запущена до 1995 года, легко доступна. В настоящее время содержит
порядка 50 миллионов URL.
Lycos
. Работает с мая 1994 года. Широко известна и используема. В состав входит
поисковая машина Point и каталог A2Z.
OpenText. Система OpenText появилась в начале 1995 года. Постепенно теряет
позиции.
WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского
Университета. Существует каталог WebCrawler Select.
Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко
известен, часто используем и наиболее уважаем. В марте 1996 года запущен каталог
Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на
подписке пользователей.
К российским поисковым машинам относятся Russian Express, TELA поиск,
Rambler, Яndex, Апорт Поиск.
Программные продукты серии Яndex (Языковый index) - набор средств
полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского
языка. Яndex включает модули морфологического анализа и синтеза, индексации и
поиска, а также набор вспомогательных модулей, таких, как анализатор документов,
языки разметки, конверторы форматов, сетевой "паук".
Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре,
умеют нормализовать слова, то есть находить их начальную форму, а также строить
гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового
индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с
учетом логических операторов.
Яndex предназначен для работы с текстами как в локальной, так и в глобальной
сети (технологии Интранет и Интернет), а также может быть подключен как модуль к
другим системам.
Индексация. Создаваемый индекс составляет около 1/3 объема текста (без
картинок, тегов
8
и пр.), при этом записывается подробный адрес слова с точностью до
позиции в тексте, что потом позволяет искать с учетом близости. Морфологический
анализ слов текста происходит одновременно с индексацией, что дает возможность снятия
омонимии. Скорость индексации - не менее 2 Мб/минуту.
Поиск Язык запросов: скобки; логическое И (в пределах одного абзаца);
логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в
словах. Список выданных документов упорядочивается по релевантности - по количеству
найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.
Работа с языком. Для интеллектуализации поиска используется словарь на 90 тыс.
слов. При индексации происходит нормализация, то есть слово ставится в свою исходную
форму (для существительных - именительный падеж единственного числа, для глаголов -
неопределенная форма и т.д.) и в таком виде учитывается в базе. Морфология работает
для русского и английского языка. Также индексируются числа.
8
Тегуправляющий элемент разметки языка HTML (языка разметки гипертекстовых страниц).
Примеры поисковых машин.
       Altavista. Система открыта в декабре 1995 года. Принадлежит компании DEC. С
1996 года сотрудничает с Yahoo. Первая из крупных поисковых систем, включившая
поддержку запросов на русском языке.
       Excite Search. Запущена в конце 1995 года. В сентябре 1996 года приобретена
WebCrawler.
       HotBot. Запущена в мае 1996 года. Принадлежит компании Wired. Базируется на
технологии поисковой машины Berkeley Inktomi.
       InfoSeek. Запущена до 1995 года, легко доступна. В настоящее время содержит
порядка 50 миллионов URL.
       Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит
поисковая машина Point и каталог A2Z.
       OpenText. Система OpenText появилась в начале 1995 года. Постепенно теряет
позиции.
       WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского
Университета. Существует каталог WebCrawler Select.
       Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко
известен, часто используем и наиболее уважаем. В марте 1996 года запущен каталог
Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на
подписке пользователей.
       К российским поисковым машинам относятся Russian Express, TELA поиск,
Rambler, Яndex, Апорт Поиск.
       Программные продукты серии Яndex (Языковый index) - набор средств
полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского
языка. Яndex включает модули морфологического анализа и синтеза, индексации и
поиска, а также набор вспомогательных модулей, таких, как анализатор документов,
языки разметки, конверторы форматов, сетевой "паук".
       Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре,
умеют нормализовать слова, то есть находить их начальную форму, а также строить
гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового
индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с
учетом логических операторов.
       Яndex предназначен для работы с текстами как в локальной, так и в глобальной
сети (технологии Интранет и Интернет), а также может быть подключен как модуль к
другим системам.
       Индексация. Создаваемый индекс составляет около 1/3 объема текста (без
картинок, тегов8 и пр.), при этом записывается подробный адрес слова с точностью до
позиции в тексте, что потом позволяет искать с учетом близости. Морфологический
анализ слов текста происходит одновременно с индексацией, что дает возможность снятия
омонимии. Скорость индексации - не менее 2 Мб/минуту.
       Поиск Язык запросов: скобки; логическое И (в пределах одного абзаца);
логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в
словах. Список выданных документов упорядочивается по релевантности - по количеству
найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.
       Работа с языком. Для интеллектуализации поиска используется словарь на 90 тыс.
слов. При индексации происходит нормализация, то есть слово ставится в свою исходную
форму (для существительных - именительный падеж единственного числа, для глаголов -
неопределенная форма и т.д.) и в таком виде учитывается в базе. Морфология работает
для русского и английского языка. Также индексируются числа.



      8
          Тег – управляющий элемент разметки языка HTML (языка разметки гипертекстовых страниц).