Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 15 стр.

UptoLike

15
формально-грамматический и вероятностно-статистический подходы. Формально-
грамматический подход направлен на создание сложных систем правил, которые позволяли
бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической
структуры, а статистическиена сбор статистики встречаемости различных структур в
похожем контексте, на основе которого и принимается решение о выборе варианта
структуры.
Формально-грамматические подходы заложены классификацией формальных языков
и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее
важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые
грамматики. Для описания естественно-языковых феноменов в основном применяются КС-
грамматики с некоторыми расширениями.
Грамматика конечных автоматов (Finite-State Transition Network) формально
соответствует простой по возможностям грамматике третьего типа. Конечный автомат
содержит набор состояний (нетерминальных символов), среди которых выделяют одно или
несколько начальных и конечных, и условий перехода между состояниями. Информацией
для перехода по условиям служат символы, поступающие с ленты, которую читает автомат.
Иногда конечный автомат может писать символы на другую ленту, в англоязычной
традиции такой автомат называют transducer. Часто для лингвистических приложений
условия перехода не задаются непосредственно, а вычисляются словарным компонентом,
ставящим в соответствие символам или цепочкам символов ленты-символы их
обобщенных классов.
Конечные автоматы являются декларативным средством представления, что означает
возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также
весьма эффективны с точки зрения скорости работы, но ограничены в возможности
описания многих структур, встречающихся в естественном языке, таких как вложенные
конструкции, например, из вложенных друг в друга придаточных предложений.
Более высокий уровень грамматик составляют контекстно-свободные грамматики,
которые описываются в виде продукций (правил), ставящих в соответствие
нетерминальным символам в своих левых частях (до знака «=») набор терминальных и
нетерминальных символов в правых частях. Пример контекстно-свободных правил (КС-
правил) для простой грамматики русского языка дан на рисунке 1.5. КС-правила в первой
колонке описывают структуру нетерминальных символов, во второйсловарь, т.е.
соответствие между нетерминальными и терминальными символами.
Подобная грамматика описывает такие предложения, как "лис видит волка"; "молодой
лис видит старого волка"; "молодой лис видит старого лежачего волка"; "лис лежит" и т.д.
Достаточно просто расширить эту грамматику, чтобы представить в словаре русскую
морфологию в более полном виде. Заметим, что в данной грамматике выбор конкретного
правила для построения глагольных групп (VP-правила) или именных групп (NP-правила)
задан вариантами, гарантированный выбор между которыми сделать в рамках данного
правила невозможно. Подобная грамматика относится к так называемым
недетерминированным грамматикам.
Синтаксис КС-правил очень прост, однако для описания многих феноменов
естественного языка простого аппарата КС-грамматики оказывается недостаточно. В
частности, контекстно-свободными правилами неудобно описывать согласование
формально-грамматический и вероятностно-статистический подходы. Формально-
грамматический подход направлен на создание сложных систем правил, которые позволяли
бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической
структуры, а статистические – на сбор статистики встречаемости различных структур в
похожем контексте, на основе которого и принимается решение о выборе варианта
структуры.
     Формально-грамматические подходы заложены классификацией формальных языков
и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее
важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые
грамматики. Для описания естественно-языковых феноменов в основном применяются КС-
грамматики с некоторыми расширениями.
     Грамматика конечных автоматов (Finite-State Transition Network) формально
соответствует простой по возможностям грамматике третьего типа. Конечный автомат
содержит набор состояний (нетерминальных символов), среди которых выделяют одно или
несколько начальных и конечных, и условий перехода между состояниями. Информацией
для перехода по условиям служат символы, поступающие с ленты, которую читает автомат.
Иногда конечный автомат может писать символы на другую ленту, в англоязычной
традиции такой автомат называют transducer. Часто для лингвистических приложений
условия перехода не задаются непосредственно, а вычисляются словарным компонентом,
ставящим в соответствие символам или цепочкам символов ленты-символы их
обобщенных классов.
     Конечные автоматы являются декларативным средством представления, что означает
возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также
весьма эффективны с точки зрения скорости работы, но ограничены в возможности
описания многих структур, встречающихся в естественном языке, таких как вложенные
конструкции, например, из вложенных друг в друга придаточных предложений.
     Более высокий уровень грамматик составляют контекстно-свободные грамматики,
которые описываются в виде продукций (правил), ставящих в соответствие
нетерминальным символам в своих левых частях (до знака «=») набор терминальных и
нетерминальных символов в правых частях. Пример контекстно-свободных правил (КС-
правил) для простой грамматики русского языка дан на рисунке 1.5. КС-правила в первой
колонке описывают структуру нетерминальных символов, во второй – словарь, т.е.
соответствие между нетерминальными и терминальными символами.
     Подобная грамматика описывает такие предложения, как "лис видит волка"; "молодой
лис видит старого волка"; "молодой лис видит старого лежачего волка"; "лис лежит" и т.д.
Достаточно просто расширить эту грамматику, чтобы представить в словаре русскую
морфологию в более полном виде. Заметим, что в данной грамматике выбор конкретного
правила для построения глагольных групп (VP-правила) или именных групп (NP-правила)
задан вариантами, гарантированный выбор между которыми сделать в рамках данного
правила невозможно. Подобная грамматика относится к так называемым
недетерминированным грамматикам.
     Синтаксис КС-правил очень прост, однако для описания многих феноменов
естественного языка простого аппарата КС-грамматики оказывается недостаточно. В
частности, контекстно-свободными правилами неудобно описывать согласование

                                          15