Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 9 стр.

UptoLike

9
стоят либо предметные имена, либо слова универсального семантического языка, а дуги
соответствуют универсальным отношениям семантического подчинения, таким, как
аргументное, атрибутивное, конъюнкция, дизъюнкция, равенство, неравенство, больше,
меньше, принадлежит и т.п. Существенным компонентом семантической структуры
является информация о кореферентности узлов, т.е. информация о том, в каких случаях
речь идет об одном и том же объекте, а в каких - о разных.
Лингвистический процессор в целом должен обеспечивать выполнение следующих
преобразований:
предложение на естественном языке морфологическая структура
синтаксическая структура семантическая структура.
Реализация лингвистического анализатора требует разработки формальных языков
для записи (образов) предложений на морфологическом, синтаксическом, семантическом
уровнях представления; формального понятия структуры предложения для каждой из этих
уровней; массивов правил для преобразования структур смежных уровней друг в друга;
морфологического, синтаксического и семантического словарей, с включением в них всей
информации о каждой лексеме, необходимой для осуществления соответствующего
преобразования.
1.2. Анализ методов и подходов морфологического анализа
Стадия морфологического анализа является наиболее проработанным
лингвистическим этапом процесса обработки естественного текста. За последние два
десятилетия создано по крайней мере несколько десятков алгоритмов для разных языков, в
том числе 10-12 для русского [4, 5, 6].
Цель морфологического анализа заключается в определении морфологической
информации словоформ для использования на последующих этапах обработки текста.
Существует три основных метода реализации морфологического анализа:
декларативный, процедурный и комбинированный.
При декларативном методе в словаре хранятся все возможные словоформы каждого
слова с приписанной им морфологической информацией. В этом случае задача
морфологического анализа состоит в поиске словоформы в словаре и переписывании из
словаря морфологической информации, поэтому можно считать, что в этом методе
отсутствует как таковой морфологический анализ, а хранится только его результат. Так как
количество различных словоформ у каждого слова довольно велико, декларативный метод
требует больших затрат памяти вычислительной системы, что порождает ряд технических
проблем, заключающихся в больших затратах труда на создание и поддержание словаря, в
высокой избыточности информации. Достоинствами метода является высокая скорость
анализа, а также универсальность по отношению к множеству всех возможных словоформ
русского языка.
Процедурный морфологический анализ выполняет следующие функции: выделяет в
текущей словоформе основу, идентифицирует ее и приписывает данной словоформе
соответствующий комплекс морфологической информации. Процедурный метод
предполагает предварительную систематизацию морфологических знаний о естественном
языке и разработку алгоритмов присвоения морфологической информации отдельной
словоформе [5]. Недостатком такого подхода является высокая трудоемкость составления
стоят либо предметные имена, либо слова универсального семантического языка, а дуги
соответствуют универсальным отношениям семантического подчинения, таким, как
аргументное, атрибутивное, конъюнкция, дизъюнкция, равенство, неравенство, больше,
меньше, принадлежит и т.п. Существенным компонентом семантической структуры
является информация о кореферентности узлов, т.е. информация о том, в каких случаях
речь идет об одном и том же объекте, а в каких - о разных.
     Лингвистический процессор в целом должен обеспечивать выполнение следующих
преобразований:
     предложение на естественном языке ⇒ морфологическая структура ⇒
синтаксическая структура ⇒ семантическая структура.
     Реализация лингвистического анализатора требует разработки формальных языков
для записи (образов) предложений на морфологическом, синтаксическом, семантическом
уровнях представления; формального понятия структуры предложения для каждой из этих
уровней; массивов правил для преобразования структур смежных уровней друг в друга;
морфологического, синтаксического и семантического словарей, с включением в них всей
информации о каждой лексеме, необходимой для осуществления соответствующего
преобразования.
1.2. Анализ методов и подходов морфологического анализа
     Стадия     морфологического        анализа является    наиболее    проработанным
лингвистическим этапом процесса обработки естественного текста. За последние два
десятилетия создано по крайней мере несколько десятков алгоритмов для разных языков, в
том числе 10-12 для русского [4, 5, 6].
     Цель морфологического анализа заключается в определении морфологической
информации словоформ для использования на последующих этапах обработки текста.
     Существует три основных метода реализации морфологического анализа:
декларативный, процедурный и комбинированный.
     При декларативном методе в словаре хранятся все возможные словоформы каждого
слова с приписанной им морфологической информацией. В этом случае задача
морфологического анализа состоит в поиске словоформы в словаре и переписывании из
словаря морфологической информации, поэтому можно считать, что в этом методе
отсутствует как таковой морфологический анализ, а хранится только его результат. Так как
количество различных словоформ у каждого слова довольно велико, декларативный метод
требует больших затрат памяти вычислительной системы, что порождает ряд технических
проблем, заключающихся в больших затратах труда на создание и поддержание словаря, в
высокой избыточности информации. Достоинствами метода является высокая скорость
анализа, а также универсальность по отношению к множеству всех возможных словоформ
русского языка.
     Процедурный морфологический анализ выполняет следующие функции: выделяет в
текущей словоформе основу, идентифицирует ее и приписывает данной словоформе
соответствующий комплекс морфологической информации. Процедурный метод
предполагает предварительную систематизацию морфологических знаний о естественном
языке и разработку алгоритмов присвоения морфологической информации отдельной
словоформе [5]. Недостатком такого подхода является высокая трудоемкость составления

                                           9