ВУЗ:
Составители:
Рубрика:
2. Представление информации в ИПС
2.1. Индексирование документов
Первая задача, которую должна решить информационно-поисковая система –
это создание описания документа или любого другого информационного ресурса.
Такая процедура называется индексированием.
Основная цель процесса индексирования – поставить в соответствие каждому
документу некоторое множество ключевых слов, отражающих содержание докумен-
та. Ключевые слова называются также идентификаторами, индексационными терми-
нами, дескрипторами, понятиями. Ключевые слова управляют поиском, приводя в
результате к тем документам, термины которых оказываются наиболее сходными с
терминами запроса. Результатом индексирования является поисковый образ доку-
мента, который представляет документ в ИПС [, ].
Любой метод индексирования основан на текстах исходных документов, или же
на определенных фрагментах этих текстов (заглавия, рефераты и др.).
Обычный процесс индексирования состоит из следующих операций []:
−отбор индексационных терминов, используемых для описания содержания до-
кумента;
−приписывание этим терминам некоторого веса, который отражает предполага-
емую важность терминов.
−отнесение каждого термина к некоторому типу (например, к классу действий,
свойств или объектов);
−определение отношений (синонимических, иерархических, ассоциативных и т.
д.) между терминами.
В зависимости от принятой модели индексирования и поиска документов неко-
торые операции из вышеперечисленного списка могут быть исключены.
В большинстве ИПС для описания содержания документов и запросов исполь-
зуются полученные таким образом множества терминов с весами. Расчеты весовых
коэффициентов обычно основаны на частоте появления данного термина в докумен-
те или частоте его появления во всех доступных документах.
Тем не менее, современные способы индексирования не ограничиваются ана-
лизом частотных параметров текста, предоставляя возможность весьма подробного
описания документов. Коэффициенты значимости терминов определяются с учетом
положения термина внутри документа (например, в заголовке) и взаимного располо-
жения терминов в тексте.
13
Страницы
- « первая
- ‹ предыдущая
- …
- 11
- 12
- 13
- 14
- 15
- …
- следующая ›
- последняя »
