Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 23 стр.

UptoLike

23
2. Модель лингвистического транслятора
Анализ и трансляция текста осуществляются при наличии достаточно мощных
средств описания и фрагментации лингвистических знаний. Схема отображения ЕЯ-текста
адекватна трансляции ЕЯ-запросов на проблемную область в базе данных. Инвариантность
проблемной области достаточно точно отражается в словаре базы данных. Словарь БД
предполагает наличие в них всех концептов проблемной области и включает в себя, как
минимум, имя концепта и его определение.
2.1. Математическая модель транслятора
Основу модели контекстного фрагментирования составляет трехуровневая система:
лингвистическая модель, базовые механизмы обработки предложений и ассоциированные
процедуры. В модели выполняется синтаксический анализ с одновременным
преобразованием распознаваемых синтаксических отношений в семантические.
Структуру системы общения с базами данных можно представить в виде тройки:
Z = <M, В, K>,
(1.1)
где Млингвистическая модель;
Вбазовые механизмы обработки предложений;
К ассоциированные процедуры.
Лингвистическая модель М содержит информацию о морфологии, синтаксисе и
семантике подмножества естественного языка. Семантика определяется как интерпретация
компонентов текста естественного языка компонентами проблемной среды.
Лингвистическая модель представляется в виде:
M = <M
1
, M
2
, M
3
>,
(1.2)
где M
1
грамматическая модель;
M
2
интерпретационная модель;
M
3
модель трансляции, включающая семантический и проблемный анализы.
Структура лингвистической модели определяется выбором языка представления
знаний и реализуемой схемой трансляции, а ее наполнениеиспользуемым
подмножеством естественного языка и моделью проблемной среды.
Грамматическая модель, в свою очередь, состоит из кортежа:
>
=
<
111
, MMM
,
(1.3)
где M
1
- модель морфологического анализа;
M
1
′′
- модель синтаксического анализа.
Интерпретационная модель
М
2
задается в виде вектора:
>
=<
222
, MMM ,
(1.4)
где
2
M
модель метаописания базы данных;
2
M
- модель проблемной среды.
Базовые механизмы В реализуют четыре основных отображения: Ψ
1
: T X
(морфологический разбор); Ψ
2
: ХG (синтаксический разбор); Ψ
3
: GG
~
(семантический и
проблемный анализы), Ψ
4
: G
~
Q (трансляция), где Ттекст естественного языка в виде
множества лексем, X - множество лексем с векторами морфологической информации v, G -
граф зависимостей, в вершинах которого располагаются словоформы (лексемы), а дуги
отображают связь от вершиныпредокк вершинепотомок”, G
~
- граф, в вершинах
которого располагаются термины физической модели базы данных, Q – SQL-запрос в виде
               2. Модель лингвистического транслятора
     Анализ и трансляция текста осуществляются при наличии достаточно мощных
средств описания и фрагментации лингвистических знаний. Схема отображения ЕЯ-текста
адекватна трансляции ЕЯ-запросов на проблемную область в базе данных. Инвариантность
проблемной области достаточно точно отражается в словаре базы данных. Словарь БД
предполагает наличие в них всех концептов проблемной области и включает в себя, как
минимум, имя концепта и его определение.
2.1. Математическая модель транслятора
     Основу модели контекстного фрагментирования составляет трехуровневая система:
лингвистическая модель, базовые механизмы обработки предложений и ассоциированные
процедуры. В модели выполняется синтаксический анализ с одновременным
преобразованием распознаваемых синтаксических отношений в семантические.
     Структуру системы общения с базами данных можно представить в виде тройки:
                             Z = ,                                (1.1)
     где М – лингвистическая модель;
     В – базовые механизмы обработки предложений;
     К – ассоциированные процедуры.
     Лингвистическая модель М содержит информацию о морфологии, синтаксисе и
семантике подмножества естественного языка. Семантика определяется как интерпретация
компонентов текста естественного языка компонентами проблемной среды.
Лингвистическая модель представляется в виде:
                           M = ,                               (1.2)
     где M1 – грамматическая модель;
     M2 – интерпретационная модель;
     M3 – модель трансляции, включающая семантический и проблемный анализы.
     Структура лингвистической модели определяется выбором языка представления
знаний и реализуемой схемой трансляции, а ее наполнение – используемым
подмножеством естественного языка и моделью проблемной среды.
     Грамматическая модель, в свою очередь, состоит из кортежа:
                               M1 =< M1′ , M1′′ >                              (1.3)
                                                   ,
     где M1′- модель морфологического анализа;
     M1′′ - модель синтаксического анализа.
     Интерпретационная модель М2 задается в виде вектора:
                             M 2 =< M 2′ , M 2′′ > ,                           (1.4)
     где M 2′ – модель метаописания базы данных; M 2′′ - модель проблемной среды.
     Базовые механизмы В реализуют четыре основных отображения: Ψ1: T → X
                                                                  ~
(морфологический разбор); Ψ2: Х→G (синтаксический разбор); Ψ3: G→ G (семантический и
                           ~
проблемный анализы), Ψ4: G →Q (трансляция), где Т – текст естественного языка в виде
множества лексем, X - множество лексем с векторами морфологической информации v, G -
граф зависимостей, в вершинах которого располагаются словоформы (лексемы), а дуги
                                                                ~
отображают связь от вершины “предок” к вершине “потомок”, G - граф, в вершинах
которого располагаются термины физической модели базы данных, Q – SQL-запрос в виде

                                               23