ВУЗ:
Составители:
Рубрика:
Морфологический анализ и нормализация понятий.
Основные этапы процесса индексирования состоят в выборе понятий текста,
отражающих его основное смысловое содержание, в морфологическом анализе
и лексикографическом контроле отобранных понятий и их кодировании.
Процедура отбора информативных понятий текста аналогична процессам
выбора понятий при построении словарей основных лексических единиц.
Рассмотрим суть процедур морфологического анализа, лексикографическо-
го контроля и кодирования понятий при использовании различных видов сло-
варей.
Процедура морфологического анализа по морфологическим словарям
со-
стоит:
1) в определении обобщённого грамматического класса слова и его члене-
нии на основу и окончание (по словарям основ и окончаний);
2) в идентификации рода существительных (по основам слов);
3) в выявлении номера флексивного класса слов (по обобщённому грамма-
тическому классу, признаку рода, окончанию, конечным буквосочетаниям ос-
новы);
4) в определении номера набора грамматической информации к слову.
Результатом такого анализа является нормализованное слово и номер набо-
ра его грамматической информации.
Кодирование нормализованных слов
осуществляется путём их замены бук-
венными кодами или кодами слов. В первом случае оно состоит в замене каж-
дой буквы слова соответствующим кодом данной буквы (по словарю кодов
букв). Во втором случае – в отождествлении слов по словарю лексических еди-
ниц и замене их номерами или кодами словаря.
Декодирование слов
, осуществляемое при выдаче результатов поиска, со-
стоит в формировании буквенного кода слова (а затем и самого слова) по номе-
ру или коду его нормализованной части и по номеру соответствующей грамма-
тической информации.
При использовании словосочетаний процедура морфологического анализа
существенно усложняется и состоит в следующем.
1. Отождествление слов словосочетания с элементами словаря слов, замена
их номерами по словарю, сопровождение грамматической информацией.
2. Выявление грамматической структуры словосочетания в целом – синтак-
сический анализ (по грамматической информации слов словосочетания).
3. Поиск по словарю номера словосочетания, соответствующего данному
сочетанию номеров слов и грамматической структуре кодируемого словосоче-
тания.
4. Выбор из словаря по номеру словосочетания соответствующего ему но-
мера грамматической структуры и самой структуры, сравнение выбранной
грамматической структуры с грамматической структурой кодируемого слово-
сочетания, полученной на втором этапе.
Страницы
- « первая
- ‹ предыдущая
- …
- 54
- 55
- 56
- 57
- 58
- …
- следующая ›
- последняя »