ВУЗ:
Составители:
Рубрика:
15
формально-грамматический и вероятностно-статистический подходы. Формально-
грамматический подход направлен на создание сложных систем правил, которые позволяли
бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической
структуры, а статистические – на сбор статистики встречаемости различных структур в
похожем контексте, на основе которого и принимается решение о выборе варианта
структуры.
Формально-грамматические подходы заложены классификацией формальных языков
и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее
важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые
грамматики. Для описания естественно-языковых феноменов в основном применяются КС-
грамматики с некоторыми расширениями.
Грамматика конечных автоматов (Finite-State Transition Network) формально
соответствует простой по возможностям грамматике третьего типа. Конечный автомат
содержит набор состояний (нетерминальных символов), среди которых выделяют одно или
несколько начальных и конечных, и условий перехода между состояниями. Информацией
для перехода по условиям служат символы, поступающие с ленты, которую читает автомат.
Иногда конечный автомат может писать символы на другую ленту, в англоязычной
традиции такой автомат называют transducer. Часто для лингвистических приложений
условия перехода не задаются непосредственно, а вычисляются словарным компонентом,
ставящим в соответствие символам или цепочкам символов ленты-символы их
обобщенных классов.
Конечные автоматы являются декларативным средством представления, что означает
возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также
весьма эффективны с точки зрения скорости работы, но ограничены в возможности
описания многих структур, встречающихся в естественном языке, таких как вложенные
конструкции, например, из вложенных друг в друга придаточных предложений.
Более высокий уровень грамматик составляют контекстно-свободные грамматики,
которые описываются в виде продукций (правил), ставящих в соответствие
нетерминальным символам в своих левых частях (до знака «=») набор терминальных и
нетерминальных символов в правых частях. Пример контекстно-свободных правил (КС-
правил) для простой грамматики русского языка дан на рисунке 1.5. КС-правила в первой
колонке описывают структуру нетерминальных символов, во второй – словарь, т.е.
соответствие между нетерминальными и терминальными символами.
Подобная грамматика описывает такие предложения, как "лис видит волка"; "молодой
лис видит старого волка"; "молодой лис видит старого лежачего волка"; "лис лежит" и т.д.
Достаточно просто расширить эту грамматику, чтобы представить в словаре русскую
морфологию в более полном виде. Заметим, что в данной грамматике выбор конкретного
правила для построения глагольных групп (VP-правила) или именных групп (NP-правила)
задан вариантами, гарантированный выбор между которыми сделать в рамках данного
правила невозможно. Подобная грамматика относится к так называемым
недетерминированным грамматикам.
Синтаксис КС-правил очень прост, однако для описания многих феноменов
естественного языка простого аппарата КС-грамматики оказывается недостаточно. В
частности, контекстно-свободными правилами неудобно описывать согласование
формально-грамматический и вероятностно-статистический подходы. Формально- грамматический подход направлен на создание сложных систем правил, которые позволяли бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической структуры, а статистические – на сбор статистики встречаемости различных структур в похожем контексте, на основе которого и принимается решение о выборе варианта структуры. Формально-грамматические подходы заложены классификацией формальных языков и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые грамматики. Для описания естественно-языковых феноменов в основном применяются КС- грамматики с некоторыми расширениями. Грамматика конечных автоматов (Finite-State Transition Network) формально соответствует простой по возможностям грамматике третьего типа. Конечный автомат содержит набор состояний (нетерминальных символов), среди которых выделяют одно или несколько начальных и конечных, и условий перехода между состояниями. Информацией для перехода по условиям служат символы, поступающие с ленты, которую читает автомат. Иногда конечный автомат может писать символы на другую ленту, в англоязычной традиции такой автомат называют transducer. Часто для лингвистических приложений условия перехода не задаются непосредственно, а вычисляются словарным компонентом, ставящим в соответствие символам или цепочкам символов ленты-символы их обобщенных классов. Конечные автоматы являются декларативным средством представления, что означает возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также весьма эффективны с точки зрения скорости работы, но ограничены в возможности описания многих структур, встречающихся в естественном языке, таких как вложенные конструкции, например, из вложенных друг в друга придаточных предложений. Более высокий уровень грамматик составляют контекстно-свободные грамматики, которые описываются в виде продукций (правил), ставящих в соответствие нетерминальным символам в своих левых частях (до знака «=») набор терминальных и нетерминальных символов в правых частях. Пример контекстно-свободных правил (КС- правил) для простой грамматики русского языка дан на рисунке 1.5. КС-правила в первой колонке описывают структуру нетерминальных символов, во второй – словарь, т.е. соответствие между нетерминальными и терминальными символами. Подобная грамматика описывает такие предложения, как "лис видит волка"; "молодой лис видит старого волка"; "молодой лис видит старого лежачего волка"; "лис лежит" и т.д. Достаточно просто расширить эту грамматику, чтобы представить в словаре русскую морфологию в более полном виде. Заметим, что в данной грамматике выбор конкретного правила для построения глагольных групп (VP-правила) или именных групп (NP-правила) задан вариантами, гарантированный выбор между которыми сделать в рамках данного правила невозможно. Подобная грамматика относится к так называемым недетерминированным грамматикам. Синтаксис КС-правил очень прост, однако для описания многих феноменов естественного языка простого аппарата КС-грамматики оказывается недостаточно. В частности, контекстно-свободными правилами неудобно описывать согласование 15
Страницы
- « первая
- ‹ предыдущая
- …
- 13
- 14
- 15
- 16
- 17
- …
- следующая ›
- последняя »