Естественно-языковые системы. Евдокимова И.С. - 89 стр.

UptoLike

Составители: 

89
РАЗДЕЛ 5. СЕМАНТИЧЕСКИЙ АНАЛИЗ ЕЯ-ТЕКСТОВ
Лекция 10. Анализ лингвистических моделей
На данный момент разработано множество моделей лингвистического анализатора,
которые способны в той или иной степени выполнять анализ естественно-языкового текста,
определять смысл и генерировать высказывания. При этом подходы к моделированию
процесса общения весьма разнообразны. Основные отличия этих подходов заключаются в
методах реализации компонента понимания смысла, используемых средствах анализа, а
также в объеме и способах представления знаний, поскольку именно знания, представленные
в различной форме, являются базой, от которой зависит процесс общения, глубина
проникновения в смысл и, соответственно, качество самой модели лингвистического
анализатора. От выполнения отдельных функциональных компонент зависит практическая
реализация моделей в различных системах общения (системы общения с базами данных,
системы машинного перевода и др.). Некоторые из них легли в основу конкретных систем
формирования семантического представления на основе обработки текстов (например,
модель Смысл-текст в системе «Поэт»).
Проанализируем наиболее проработанные модели лингвистического процессора с
точки зрения реализации анализа и интерпретации входного высказывания и синтеза
выходного высказывания.
В задачу анализа входит выделение смысла входного текста (под смыслом будем
понимать семантикуинформацию, которую пользователь хотел передать системе) и
выражения этого смысла на внутреннем языке системы. Интерпретация заключается в
отображении входного текста на знания системы. Одним из основных параметров анализа
текста является понимание смысла входного предложения, включающее в себя описание
сущностей входного текста, определение их свойств и отношений между ними. От этого
параметра часто зависит глубина проникновения в смысл входного текста.
В существующих моделях лингвистического анализатора можно выделить
следующие способы выделения и представления смысла: компонентный анализ; сеть
концептуализаций; идентификация смысла по образцу; интегральный подход.
Одна из первых попыток формализации входного текста принадлежит компонентному
анализу, который исходит из предпосылки, что семантика естественных языков может быть
выражена в терминах конечного неструктурированного набора семантических множителей
(атомов смысла). В процессе рассмотрения слов выделяются признаки (одушевленность,
неодушевленность и т.п.), которые разбивают слова на отдельные группы. При кажущейся
естественности данный метод связан с существенными трудностями при реализации и не
лишен слабостей. Он становится сложным при выражении смысла целого предложения и
громоздким при анализе многозначных слов, при этом нет достаточного объяснения слова,
что может привести к неправильному его употреблению.
В дальнейшем идея описания входного текста с помощью компонентного анализа
нашла свое продолжение в модели «Семантические падежи (роли Ч. Филмора. Но в
отличие от предыдущей модели в предикатах указывается не только аргументная структура и
               РАЗДЕЛ 5. СЕМАНТИЧЕСКИЙ АНАЛИЗ ЕЯ-ТЕКСТОВ

                       Лекция 10. Анализ лингвистических моделей
     На данный момент разработано множество моделей лингвистического анализатора,
которые способны в той или иной степени выполнять анализ естественно-языкового текста,
определять смысл и генерировать высказывания. При этом подходы к моделированию
процесса общения весьма разнообразны. Основные отличия этих подходов заключаются в
методах реализации компонента понимания смысла, используемых средствах анализа, а
также в объеме и способах представления знаний, поскольку именно знания, представленные
в различной форме, являются базой, от которой зависит процесс общения, глубина
проникновения в смысл и, соответственно, качество самой модели лингвистического
анализатора. От выполнения отдельных функциональных компонент зависит практическая
реализация моделей в различных системах общения (системы общения с базами данных,
системы машинного перевода и др.). Некоторые из них легли в основу конкретных систем
формирования семантического представления на основе обработки текстов (например,
модель Смысл-текст в системе «Поэт»).
     Проанализируем наиболее проработанные модели лингвистического процессора с
точки зрения реализации анализа и интерпретации входного высказывания и синтеза
выходного высказывания.
     В задачу анализа входит выделение смысла входного текста (под смыслом будем
понимать семантику – информацию, которую пользователь хотел передать системе) и
выражения этого смысла на внутреннем языке системы. Интерпретация заключается в
отображении входного текста на знания системы. Одним из основных параметров анализа
текста является понимание смысла входного предложения, включающее в себя описание
сущностей входного текста, определение их свойств и отношений между ними. От этого
параметра часто зависит глубина проникновения в смысл входного текста.
       В существующих моделях лингвистического анализатора можно выделить
следующие способы выделения и представления смысла: компонентный анализ; сеть
концептуализаций; идентификация смысла по образцу; интегральный подход.
     Одна из первых попыток формализации входного текста принадлежит компонентному
анализу, который исходит из предпосылки, что семантика естественных языков может быть
выражена в терминах конечного неструктурированного набора семантических множителей
(атомов смысла). В процессе рассмотрения слов выделяются признаки (одушевленность,
неодушевленность и т.п.), которые разбивают слова на отдельные группы. При кажущейся
естественности данный метод связан с существенными трудностями при реализации и не
лишен слабостей. Он становится сложным при выражении смысла целого предложения и
громоздким при анализе многозначных слов, при этом нет достаточного объяснения слова,
что может привести к неправильному его употреблению.
     В дальнейшем идея описания входного текста с помощью компонентного анализа
нашла свое продолжение в модели «Семантические падежи (роли)» Ч. Филмора. Но в
отличие от предыдущей модели в предикатах указывается не только аргументная структура и

                                             89