ВУЗ:
Составители:
Рубрика:
79
тогда появляется слишком много вариантов анализа, либо - если используются сильные
ограничения - как формула становится слишком сложной для вычисления. Формальные
грамматики работают, как правило, с синтаксическим представлением в виде дерева
составляющих. Привлекательными свойствами графа зависимостей является их
экономичность, удобство использования в преобразованиях, возможность представления
частичных результатов анализа в виде множества подграфов. Модель данного типа
используют системы групп Г.Г. Белоногова, APT, РЕЗОН, ЭТАП-2, ПОЭТ, АДАМАНТ,
САГА, большинство японских систем анализа текста и ряд других.
С точки зрения описания естественного языка формальными теориями различают
формально-грамматический и вероятностно-статистический подходы. Формально-
грамматический подход направлен на создание сложных систем правил, которые позволяли
бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической
структуры, а статистические – на сбор статистики встречаемости различных структур в
похожем контексте, на основе которого и принимается решение о выборе варианта
структуры.
Формально-грамматические подходы заложены классификацией формальных языков и
грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее
важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые
грамматики. Для описания естественно-языковых феноменов в основном применяются КС-
грамматики с некоторыми расширениями.
Грамматика конечных автоматов (Finite-State Transition Network) формально
соответствует простой по возможностям грамматике третьего типа. Конечный автомат
содержит набор состояний (нетерминальных символов), среди которых выделяют одно или
несколько начальных и конечных, и условий перехода между состояниями. Информацией
для перехода по условиям служат символы, поступающие с ленты, которую читает автомат.
Иногда конечный автомат может писать символы на другую ленту, в англоязычной традиции
такой автомат называют transducer. Часто для лингвистических приложений условия
перехода не задаются непосредственно, а вычисляются словарным компонентом, ставящим в
соответствие символам или цепочкам символов ленты-символы их обобщенных классов.
Конечные автоматы являются декларативным средством представления, что означает
возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также
весьма эффективны с точки зрения скорости работы, но ограничены в возможности описания
многих структур, встречающихся в естественном языке, таких как вложенные конструкции,
например, из вложенных друг в друга придаточных предложений.
Более высокий уровень грамматик составляют контекстно-свободные грамматики,
которые описываются в виде продукций (правил), ставящих в соответствие нетерминальным
символам в своих левых частях (до знака «=») набор терминальных и нетерминальных
символов в правых частях. Пример контекстно-свободных правил (КС-правил) для простой
грамматики русского языка дан на рисунке 18. КС-правила в первой колонке описывают
структуру нетерминальных символов, во второй – словарь, т.е. соответствие между
тогда появляется слишком много вариантов анализа, либо - если используются сильные ограничения - как формула становится слишком сложной для вычисления. Формальные грамматики работают, как правило, с синтаксическим представлением в виде дерева составляющих. Привлекательными свойствами графа зависимостей является их экономичность, удобство использования в преобразованиях, возможность представления частичных результатов анализа в виде множества подграфов. Модель данного типа используют системы групп Г.Г. Белоногова, APT, РЕЗОН, ЭТАП-2, ПОЭТ, АДАМАНТ, САГА, большинство японских систем анализа текста и ряд других. С точки зрения описания естественного языка формальными теориями различают формально-грамматический и вероятностно-статистический подходы. Формально- грамматический подход направлен на создание сложных систем правил, которые позволяли бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической структуры, а статистические – на сбор статистики встречаемости различных структур в похожем контексте, на основе которого и принимается решение о выборе варианта структуры. Формально-грамматические подходы заложены классификацией формальных языков и грамматик, предложенной Хомским. Для компьютерной лингвистики среди них наиболее важны грамматики конечных автоматов, контекстно-свободные и контекстно-зависимые грамматики. Для описания естественно-языковых феноменов в основном применяются КС- грамматики с некоторыми расширениями. Грамматика конечных автоматов (Finite-State Transition Network) формально соответствует простой по возможностям грамматике третьего типа. Конечный автомат содержит набор состояний (нетерминальных символов), среди которых выделяют одно или несколько начальных и конечных, и условий перехода между состояниями. Информацией для перехода по условиям служат символы, поступающие с ленты, которую читает автомат. Иногда конечный автомат может писать символы на другую ленту, в англоязычной традиции такой автомат называют transducer. Часто для лингвистических приложений условия перехода не задаются непосредственно, а вычисляются словарным компонентом, ставящим в соответствие символам или цепочкам символов ленты-символы их обобщенных классов. Конечные автоматы являются декларативным средством представления, что означает возможность их обратимости, т.е. применения и для анализа, и для синтеза. Они также весьма эффективны с точки зрения скорости работы, но ограничены в возможности описания многих структур, встречающихся в естественном языке, таких как вложенные конструкции, например, из вложенных друг в друга придаточных предложений. Более высокий уровень грамматик составляют контекстно-свободные грамматики, которые описываются в виде продукций (правил), ставящих в соответствие нетерминальным символам в своих левых частях (до знака «=») набор терминальных и нетерминальных символов в правых частях. Пример контекстно-свободных правил (КС-правил) для простой грамматики русского языка дан на рисунке 18. КС-правила в первой колонке описывают структуру нетерминальных символов, во второй – словарь, т.е. соответствие между 79
Страницы
- « первая
- ‹ предыдущая
- …
- 77
- 78
- 79
- 80
- 81
- …
- следующая ›
- последняя »