Естественно-языковые системы. Евдокимова И.С. - 40 стр.

UptoLike

Составители: 

40
Лингвистическое разграничение разных уровней может проявляться также в
разграничении используемых в соответствующих описаниях формальных средств (набор
этих средств задается для каждого уровня отдельно). На практике часто задаются отдельно
лингвистические средства морфологического анализа и совмещаются средства двух
остальных этапов. Но разграничение уровней может оставаться только содержательным при
использовании в их описаниях единого формализма, пригодного для представления
информации всех выделяемых уровней.
С технической точки зрения модульность лингвистического обеспечения означает
отделение структурного представления фраз и текстов (как текущих, временных знаний о
тексте) от «постоянных» знаний о языке, а также языковых знаний - от знаний ПО;
отделение словарей от грамматик, грамматик - от алгоритмов их обработки, алгоритмов - от
программ.
Словари анализа, как правило, одноязычные. Они должны содержать всю информацию,
необходимую для включения данной лексической единицы (ЛЕ) в структурное
представление. Часто разделяют словари основ (с морфолого-синтаксической информацией:
часть речи, тип словоизменения, подкласс, характеризующий синтаксическое поведение ЛЕ
и т. п.) и словари словозначений, содержащие семантическую и концептуальную
информацию: семантический класс ЛЕ, семантические падежи (валентности), условия их
реализации во фразе и т. д.
Во многих системах разделены словари общеупотребительной и терминологической
лексики. Такое разделение дает возможность при переходе к текстам другой предметной
области ограничиваться лишь сменой терминологических словарей. Словари сложных ЛЕ
(оборотов, конструкции) образуют обычно отдельный массив, словарная информация в них
указывает на способ «собирания» такой единицы при анализе. Часть словарной информации
может задаваться в процедурной форме, например, многозначным словам могут
сопоставляться алгоритмы разрешения соответствующего типа неоднозначности.
Грамматика и словарь задают лингвистическую модель, образуя основную часть
лингвистических данных. Алгоритмы их обработки, т. е. соотнесения с текстовыми
единицами, относят к математико-алгоритмическому обеспечению системы.
Разделение грамматик и алгоритмов важно в практическом смысле тем, что позволяет
менять правила грамматики, не меняя алгоритмов (и соответственно программ), работающих
с грамматиками. Но далеко не всегда такое разделение возможно. Так, для системы с
процедурным заданием грамматики и тем более с процедурным представлением словарной
информации такое разделение нерелевантно. Алгоритмы принятия решений в случае
недостаточной (неполнота входных данных) или избыточной (вариантность анализа)
информации в большой мере эмпиричны, их формулировка требует лингвистической
интуиции.
Наиболее четко разделение грамматик и алгоритмов наблюдается в системах,
работающих с контекстно-свободными (КС) грамматиками (КСГ), где модель языка -
грамматика с конечным числом состояний, а алгоритм должен обеспечить для произвольно
     Лингвистическое разграничение разных уровней может проявляться также в
разграничении используемых в соответствующих описаниях формальных средств (набор
этих средств задается для каждого уровня отдельно). На практике часто задаются отдельно
лингвистические средства морфологического анализа и совмещаются средства двух
остальных этапов. Но разграничение уровней может оставаться только содержательным при
использовании в их описаниях единого формализма, пригодного для представления
информации всех выделяемых уровней.
     С технической точки зрения модульность лингвистического обеспечения означает
отделение структурного представления фраз и текстов (как текущих, временных знаний о
тексте) от «постоянных» знаний о языке, а также языковых знаний - от знаний ПО;
отделение словарей от грамматик, грамматик - от алгоритмов их обработки, алгоритмов - от
программ.
     Словари анализа, как правило, одноязычные. Они должны содержать всю информацию,
необходимую для включения данной лексической единицы (ЛЕ) в структурное
представление. Часто разделяют словари основ (с морфолого-синтаксической информацией:
часть речи, тип словоизменения, подкласс, характеризующий синтаксическое поведение ЛЕ
и т. п.) и словари словозначений, содержащие семантическую и концептуальную
информацию: семантический класс ЛЕ, семантические падежи (валентности), условия их
реализации во фразе и т. д.
     Во многих системах разделены словари общеупотребительной и терминологической
лексики. Такое разделение дает возможность при переходе к текстам другой предметной
области ограничиваться лишь сменой терминологических словарей. Словари сложных ЛЕ
(оборотов, конструкции) образуют обычно отдельный массив, словарная информация в них
указывает на способ «собирания» такой единицы при анализе. Часть словарной информации
может задаваться в процедурной форме, например, многозначным словам могут
сопоставляться алгоритмы разрешения соответствующего типа неоднозначности.
     Грамматика и словарь задают лингвистическую модель, образуя основную часть
лингвистических данных. Алгоритмы их обработки, т. е. соотнесения с текстовыми
единицами, относят к математико-алгоритмическому обеспечению системы.
     Разделение грамматик и алгоритмов важно в практическом смысле тем, что позволяет
менять правила грамматики, не меняя алгоритмов (и соответственно программ), работающих
с грамматиками. Но далеко не всегда такое разделение возможно. Так, для системы с
процедурным заданием грамматики и тем более с процедурным представлением словарной
информации такое разделение нерелевантно. Алгоритмы принятия решений в случае
недостаточной (неполнота входных данных) или избыточной (вариантность анализа)
информации в большой мере эмпиричны, их формулировка требует лингвистической
интуиции.
     Наиболее четко разделение грамматик и алгоритмов наблюдается в системах,
работающих с контекстно-свободными (КС) грамматиками (КСГ), где модель языка -
грамматика с конечным числом состояний, а алгоритм должен обеспечить для произвольно


                                            40