ВУЗ:
Составители:
Рубрика:
в) со статистическими процедурами выбора слов.
В случае (а) отбираются все полнозначные слова, в случае (в) – только ин-
формативные слова в соответствии с распределением частот их употребления, в
случае (б) слова отбираются интуитивно или по заданной процедуре.
4.
По характеру лексикографического контроля
существуют системы:
а) без лексикографического контроля;
б) с полным контролем;
в) с промежуточным контролем.
Лексикографический контроль предусматривает:
– устранение синонимии, полисемии и омонимии на основе нормативных
словарей лексических единиц с парадигматическими отношениями между ни-
ми;
– приведение всех слов к нормальному виду на основе морфологических
нормативных словарей.
В системах с полным контролем реализуются обе функции лексикографиче-
ского контроля. В СИ с промежуточным контролем эти функции реализуются
частично.
5.
По характеру морфологического анализа слов
различают СИ с морфоло-
гическим анализом с использованием:
а) морфологических словарей;
б) основных лексических словарей;
в) морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Примеры систем индексирования.
Системы свободного индексирования.
Процесс индексирования состоит в
следующем. Индексатор выписывает слова или словосочетания, которые, по
его мнению, отражают содержание текста. Он может брать слова, отсутствую-
щие в тексте, но важные, с его точки зрения, для выражения смысла текста. Та-
кие слова он может брать из своей памяти, любых словарей, энциклопедий, во-
обще любых текстов. Отобранный список слов является поисковым образом
текста.
Это СИ с ручным индексированием, без словаря, с эвристическими проце-
дурами отбора слов, без лексикографического контроля и морфологического
анализа.
Системы полусвободного индексирования
. В данном случае процесс индек-
сирования аналогичен вышеописанному, но слова сформированного списка
сравниваются со словарём, несовпадающие слова отбрасываются и в ПОД не
включаются.
Системы жёсткого индексирования.
При этом слова выписываются только
из текста. В ПОД включаются только те слова, которые есть в словаре. Перед
включением термина в словарь проводится его морфологическая нормализация
на основе основных лексических словарей.
Системы статистического автокодирования.
Слова выбираются из текста по
заданным статистическим процедурам, после чего проводится их статистиче-
ское кодирование путём усечения слов по алгоритмам позиционной статистики.
Страницы
- « первая
- ‹ предыдущая
- …
- 53
- 54
- 55
- 56
- 57
- …
- следующая ›
- последняя »
