Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 27 стр.

UptoLike

27
В архитектуре программных систем продукций можно выделить четыре основных
компонента: базу данныхпамять для хранения информации о решаемой задаче, базу
знаниймножество правил (продукций), аппарат активации продукций - алгоритм,
осуществляющий поиск по образцу, и интерпретатор, выполняющий преобразование базы
данных по заданным правилам. Таким образом, аппарат активации продукций можно
реализовать на основе метода линейной резолюции.
В связи с тем, что сразу представление в предикативной форме утверждения на
естественном языке достаточно трудно осуществить, используем подход, предложенный в
работах Т.М. Яхно, А.С. Клещева, М.Ю. Черняховской, Т.Л. Гаврилова и других [131,
62,81-82], в котором для описания системы продукций применяется аппарат многосортной
алгебры.
2.2.2. Описание формального аппарата
Рассмотрим аппарат, который позволит построить формальное описание
лингвистических моделей. В работе [131] было предложено описание модели проблемной
среды представлять посредством множества подразумеваемых ситуаций. Формальное
описание ситуации удобно представлять продукционными правилами, так как продукция
записывается в виде простого правила «Условие действие», что соответствует
оператору ЕСЛИ-ТО. Тогда модель проблемной среды может быть формализована как
система продукций. Описание продукций основано на работах [129 и 131].
Введем понятия из теории моделей в том объеме, в котором они понадобятся для
дальнейшего изложения и как они описаны в работах Т.М. Яхно [129, 131].
Введем определение терма:
всякая константа
Aa
, где А словарь констант, есть терм;
всякая переменная
Xx
, где X - исходное множество-носитель, есть терм;
если f - функциональный символ
F
, а t
1
, ... , t
n
термы
T
, то f ( t
1
, ... , t
n
)
терм.
Термы находятся как в функциональных, так и в предикатных отношениях. Фактом
принято называть предложение, являющееся истинным высказыванием. В предложении
элементы
x
1,
x
2, …
, x
h
высказывания находятся в некотором отношении, которое обозначают
предикатным символом
Р.
Определение 1. Назовем фактом предикат вида P
0
(t
1
,...,t
n
), Tt
j
, при этом
существуют некоторые t
i
=f(t
1
,...,t
m
), Ff
- множеству частичных функций.
В этих обозначениях
ситуацией называется конечная конъюнкция фактов, через D
обозначается множество всевозможных ситуаций. Понятие ситуации соответствует
понятию текущего состояния базы данных или рабочей памяти.
Если все t
i
(i = 1... n) в факте суть константы, то факт называется терминальным.
Поскольку среди фактов ситуации могут быть нетерминальные, то в общем случае ей
соответствует неединственный набор множеств носителей.
Определенная таким образом ситуация представляет собой множество
конъюнктивно-связанных фактов, и поэтому в дальнейшем будем обращаться с нею как с
множеством, используя операции объединение
, пересечение
, разность \ и отношение
включения .
Традиционным образом введем понятие подстановки и примера.
     В архитектуре программных систем продукций можно выделить четыре основных
компонента: базу данных — память для хранения информации о решаемой задаче, базу
знаний – множество правил (продукций), аппарат активации продукций - алгоритм,
осуществляющий поиск по образцу, и интерпретатор, выполняющий преобразование базы
данных по заданным правилам. Таким образом, аппарат активации продукций можно
реализовать на основе метода линейной резолюции.
     В связи с тем, что сразу представление в предикативной форме утверждения на
естественном языке достаточно трудно осуществить, используем подход, предложенный в
работах Т.М. Яхно, А.С. Клещева, М.Ю. Черняховской, Т.Л. Гаврилова и других [131,
62,81-82], в котором для описания системы продукций применяется аппарат многосортной
алгебры.
2.2.2. Описание формального аппарата
      Рассмотрим аппарат, который позволит построить формальное описание
лингвистических моделей. В работе [131] было предложено описание модели проблемной
среды представлять посредством множества подразумеваемых ситуаций. Формальное
описание ситуации удобно представлять продукционными правилами, так как продукция
записывается в виде простого правила «Условие → действие», что соответствует
оператору ЕСЛИ-ТО. Тогда модель проблемной среды может быть формализована как
система продукций. Описание продукций основано на работах [129 и 131].
      Введем понятия из теории моделей в том объеме, в котором они понадобятся для
дальнейшего изложения и как они описаны в работах Т.М. Яхно [129, 131].
      Введем определение терма:
      • всякая константа a ∈ A , где А – словарь констант, есть терм;
      • всякая переменная x ∈ X , где X - исходное множество-носитель, есть терм;
      • если f - функциональный символ ∈ F , а t1 , ... , tn – термы ∈ T , то f ( t1 , ... , tn) –
терм.
      Термы находятся как в функциональных, так и в предикатных отношениях. Фактом
принято называть предложение, являющееся истинным высказыванием. В предложении
элементы x1, x2, …, xh высказывания находятся в некотором отношении, которое обозначают
предикатным символом Р.
      Определение 1. Назовем фактом предикат вида P0(t1,...,tn), t j ∈ T , при этом
существуют некоторые ti=f(t1,...,tm), f ∈ F - множеству частичных функций.
     В этих обозначениях ситуацией называется конечная конъюнкция фактов, через D
обозначается множество всевозможных ситуаций. Понятие ситуации соответствует
понятию текущего состояния базы данных или рабочей памяти.
     Если все ti (i = 1... n) в факте суть константы, то факт называется терминальным.
Поскольку среди фактов ситуации могут быть нетерминальные, то в общем случае ей
соответствует неединственный набор множеств носителей.
     Определенная таким образом ситуация представляет собой множество
конъюнктивно-связанных фактов, и поэтому в дальнейшем будем обращаться с нею как с
множеством, используя операции объединение ∪ , пересечение ∩ , разность \ и отношение
включения ⊇ .
     Традиционным образом введем понятие подстановки и примера.
                                               27