Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 18 стр.

UptoLike

18
в системе Powerful Parser.
Грамматики конечных автоматов достаточно эффективны в реализации, но обладают
слишком ограниченными возможностями для анализа, по этой причине одним из широко
используемых механизмов анализа является формализм расширенных сетей переходов
(augmented transition networks, ATN). Формализм ATN расширяет грамматику конечных
автоматов, вводя аппарат рекурсивного вызова новой подсети переходов (операция PUSH)
и набор регистров, в которых хранятся текущие результаты разбора фразы, а также
средства работы с этими регистрами. Значения регистров могут выступать условиями для
переходов по веткам, что обеспечивает частичную зависимость от контекста и выход за
пределы КС-грамматик. Благодаря регистрам и операциям над значениями, которые там
хранятся, ATN-формализм эквивалентен процедурному языку программирования, в
котором можно описать анализ языка произвольной сложности.
1.4. Аналитический обзор семантических моделей
На данный момент разработано множество моделей лингвистического анализатора,
которые способны в той или иной степени выполнять анализ естественно-языкового текста,
определять смысл и генерировать высказывания. При этом подходы к моделированию
процесса общения весьма разнообразны. Основные отличия этих подходов заключаются в
методах реализации компонента понимания смысла, используемых средствах анализа, а
также в объеме и способах представления знаний, поскольку именно знания,
представленные в различной форме, являются базой, от которой зависит процесс общения,
глубина проникновения в смысл и, соответственно, качество самой модели
лингвистического анализатора. От выполнения отдельных функциональных компонент
зависит практическая реализация моделей в различных системах общения (системы
общения с базами данных, системы машинного перевода и др.). Некоторые из них легли в
основу конкретных систем формирования семантического представления на основе
обработки текстов (например, модель Смысл-текст в системе «Поэт») [25].
Проанализируем наиболее проработанные модели лингвистического процессора с
точки зрения реализации анализа и интерпретации входного высказывания и синтеза
выходного высказывания.
В задачу анализа входит выделение смысла входного текста (под смыслом будем
понимать семантикуинформацию, которую пользователь хотел передать системе) и
выражения этого смысла на внутреннем языке системы. Интерпретация заключается в
отображении входного текста на знания системы. Одним из основных параметров анализа
текста является понимание смысла входного предложения, включающее в себя описание
сущностей входного текста, определение их свойств и отношений между ними. От этого
параметра часто зависит глубина проникновения в смысл входного текста.
В существующих моделях лингвистического анализатора можно выделить
следующие способы выделения и представления смысла: компонентный анализ; сеть
концептуализаций; идентификация смысла по образцу; интегральный подход.
Одна из первых попыток формализации входного текста принадлежит
компонентному анализу, который исходит из предпосылки, что семантика естественных
языков может быть выражена в терминах конечного неструктурированного набора
семантических множителей (атомов смысла). В процессе рассмотрения слов выделяются
признаки (одушевленность, неодушевленность и т.п.), которые разбивают слова на
в системе Powerful Parser.
      Грамматики конечных автоматов достаточно эффективны в реализации, но обладают
слишком ограниченными возможностями для анализа, по этой причине одним из широко
используемых механизмов анализа является формализм расширенных сетей переходов
(augmented transition networks, ATN). Формализм ATN расширяет грамматику конечных
автоматов, вводя аппарат рекурсивного вызова новой подсети переходов (операция PUSH)
и набор регистров, в которых хранятся текущие результаты разбора фразы, а также
средства работы с этими регистрами. Значения регистров могут выступать условиями для
переходов по веткам, что обеспечивает частичную зависимость от контекста и выход за
пределы КС-грамматик. Благодаря регистрам и операциям над значениями, которые там
хранятся, ATN-формализм эквивалентен процедурному языку программирования, в
котором можно описать анализ языка произвольной сложности.
1.4. Аналитический обзор семантических моделей
     На данный момент разработано множество моделей лингвистического анализатора,
которые способны в той или иной степени выполнять анализ естественно-языкового текста,
определять смысл и генерировать высказывания. При этом подходы к моделированию
процесса общения весьма разнообразны. Основные отличия этих подходов заключаются в
методах реализации компонента понимания смысла, используемых средствах анализа, а
также в объеме и способах представления знаний, поскольку именно знания,
представленные в различной форме, являются базой, от которой зависит процесс общения,
глубина проникновения в смысл и, соответственно, качество самой модели
лингвистического анализатора. От выполнения отдельных функциональных компонент
зависит практическая реализация моделей в различных системах общения (системы
общения с базами данных, системы машинного перевода и др.). Некоторые из них легли в
основу конкретных систем формирования семантического представления на основе
обработки текстов (например, модель Смысл-текст в системе «Поэт») [25].
     Проанализируем наиболее проработанные модели лингвистического процессора с
точки зрения реализации анализа и интерпретации входного высказывания и синтеза
выходного высказывания.
     В задачу анализа входит выделение смысла входного текста (под смыслом будем
понимать семантику – информацию, которую пользователь хотел передать системе) и
выражения этого смысла на внутреннем языке системы. Интерпретация заключается в
отображении входного текста на знания системы. Одним из основных параметров анализа
текста является понимание смысла входного предложения, включающее в себя описание
сущностей входного текста, определение их свойств и отношений между ними. От этого
параметра часто зависит глубина проникновения в смысл входного текста.
        В существующих моделях лингвистического анализатора можно выделить
следующие способы выделения и представления смысла: компонентный анализ; сеть
концептуализаций; идентификация смысла по образцу; интегральный подход.
     Одна из первых попыток формализации входного текста принадлежит
компонентному анализу, который исходит из предпосылки, что семантика естественных
языков может быть выражена в терминах конечного неструктурированного набора
семантических множителей (атомов смысла). В процессе рассмотрения слов выделяются
признаки (одушевленность, неодушевленность и т.п.), которые разбивают слова на
                                         18