Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 10 стр.

UptoLike

10
словарей совместимости. При этом наличие в русском языке большого числа слов-
исключений не позволяет сколько-нибудь автоматизировать этот процесс. Для проведения
анализа словоформы необходимо наличие словарей «приставка-корень», «корень
суффикс - флективный класс», «флективный классокончание - морфологическая
информация».
Работающая система, в которой реализован процедурный морфологический анализ,
занимает значительно меньший объем памяти, но при этом увеличивается время работы
лингвистического анализатора. Другим существенным недостатком процедурных методов
является отсутствие универсальности. Иначе, существует большое количество слов,
которые нельзя представить в виде суммы неизменной основы и аффиксов (приставку,
суффикс, окончание).
В системах реальной степени сложности чаще используется комбинированный
вариант морфологического анализа. При этом используется как словарь словоформ, так и
словарь основ. На первом этапе проводится поиск по словарю словоформ, как при
декларативном методе, и в случае успешного поиска анализ на этом завершается. В
противном случае задействуется словарь основ и процедурный метод анализа.
В настоящее время выделилось несколько направлений в разработке
морфологического анализа. Одно из них моделирует классическую схему анализа путем
разделения словоформы на основу и аффиксы с последующей проверкой на совместность
окончания с остающейся основой [6].
К данному направлению можно отнести модель морфологического анализа Г.Г.
Белоногова, в основе которой лежит флективный анализ слов, базирующийся на разбиении
лексем (слов) русского языка на флективные классы [29-30]. Морфологический анализ
начинается с поиска лексемы в словаре готовых словоформ. При успешном завершении
извлекается код флективного класса, соответствующий данной лексеме и указывающий на
часть речи и синтаксическую функцию словоформы, в противном случае словоформа
подвергается флективному анализу, который включает в себя следующие этапы:
- идентификация морфем словоформы (последовательная проверка возможностей
вложения в анализируемую словоформу корня, суффикса, окончания и приставки);
- определение флективного класса словоформы (извлечение кода флективного
класса из таблиц совместимости корня со словообразующими аффиксами);
- присвоение словоформе морфологической информации.
Все этапы тесно взаимосвязаны между собой, так как неудачное завершение второго
и третьего этапов свидетельствует о некорректном разбиении анализируемой словоформы
на морфемы.
Другое направление использует информацию, содержащуюся в конечных
буквосочетаниях (эта информация получается в результате предварительной
статистической обработки словаря). Этот путь также дает достаточно хорошие для
практических целей результаты [5].
Третье направление развивается в последние годы. Оно вызвано стремлением
преодолеть ограниченность существующих алгоритмов морфологического анализа.
Известно, что они ориентировались на тексты определенной тематики и поэтому не
полностью учитывали все особенности морфологии. Это направление пытается построить
более адекватные морфологические модели. Создаются универсальные математические
словарей совместимости. При этом наличие в русском языке большого числа слов-
исключений не позволяет сколько-нибудь автоматизировать этот процесс. Для проведения
анализа словоформы необходимо наличие словарей «приставка-корень», «корень –
суффикс - флективный класс», «флективный класс – окончание - морфологическая
информация».
     Работающая система, в которой реализован процедурный морфологический анализ,
занимает значительно меньший объем памяти, но при этом увеличивается время работы
лингвистического анализатора. Другим существенным недостатком процедурных методов
является отсутствие универсальности. Иначе, существует большое количество слов,
которые нельзя представить в виде суммы неизменной основы и аффиксов (приставку,
суффикс, окончание).
     В системах реальной степени сложности чаще используется комбинированный
вариант морфологического анализа. При этом используется как словарь словоформ, так и
словарь основ. На первом этапе проводится поиск по словарю словоформ, как при
декларативном методе, и в случае успешного поиска анализ на этом завершается. В
противном случае задействуется словарь основ и процедурный метод анализа.
     В настоящее время выделилось несколько направлений в разработке
морфологического анализа. Одно из них моделирует классическую схему анализа путем
разделения словоформы на основу и аффиксы с последующей проверкой на совместность
окончания с остающейся основой [6].
     К данному направлению можно отнести модель морфологического анализа Г.Г.
Белоногова, в основе которой лежит флективный анализ слов, базирующийся на разбиении
лексем (слов) русского языка на флективные классы [29-30]. Морфологический анализ
начинается с поиска лексемы в словаре готовых словоформ. При успешном завершении
извлекается код флективного класса, соответствующий данной лексеме и указывающий на
часть речи и синтаксическую функцию словоформы, в противном случае словоформа
подвергается флективному анализу, который включает в себя следующие этапы:
     - идентификация морфем словоформы (последовательная проверка возможностей
вложения в анализируемую словоформу корня, суффикса, окончания и приставки);
     - определение флективного класса словоформы (извлечение кода флективного
класса из таблиц совместимости корня со словообразующими аффиксами);
     - присвоение словоформе морфологической информации.
     Все этапы тесно взаимосвязаны между собой, так как неудачное завершение второго
и третьего этапов свидетельствует о некорректном разбиении анализируемой словоформы
на морфемы.
     Другое направление использует информацию, содержащуюся в конечных
буквосочетаниях (эта информация получается в результате предварительной
статистической обработки словаря). Этот путь также дает достаточно хорошие для
практических целей результаты [5].
         Третье направление развивается в последние годы. Оно вызвано стремлением
преодолеть ограниченность существующих алгоритмов морфологического анализа.
Известно, что они ориентировались на тексты определенной тематики и поэтому не
полностью учитывали все особенности морфологии. Это направление пытается построить
более адекватные морфологические модели. Создаются универсальные математические

                                        10