Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 44 стр.

UptoLike

44
указание на соответствие непосредственной связи между словами и словосочетаниями и их
подчинение одному и тому же элементу текста. В качестве метода представления
результатов синтаксического анализа нами выбран комбинированный метод, включающий
в себя элементы графа зависимостей и системы составляющих. Исходными данными для
проведения синтаксического анализа являются результаты морфологического анализа,
представленные в виде множества пар <
x
i
, V
i
>, где x
i
лексема естественно-языкового
запроса,
V
i
вектор морфологической информации x
i
лексемы.
В результате проведения синтаксического анализа должен быть сформирован граф
зависимостей, в узлах которого помещаются лексемы. Узлы соединяются дугами,
указывающими направление связи от главного слова к зависимому.
2.4.1.1. Алгоритм синтаксического анализа
Синтаксический анализ будет проходить в три этапа. На первом этапе осуществляется
нормализация лексем естественно-языкового предложения для выделения синтаксических
групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и
другие, описание и правила выделения которых, более подробно рассмотрены в
следующем разделе данной главы. На этом же этапе осуществляется удаление
несущественных лексем из исходного множества, таких как служебные части речи
(предлоги, союзы, частицы и т.п.). В результате будут сформированы два множества: новое
исходное множество лексем
Х и L - множество синтаксических групп в виде векторов
связанных лексем.
Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух
слов, в котором одно выступает как главное, а другоекак зависимое. Поэтому задачей
второго этапа является выявление синтаксической связи между двумя лексемами
множества
Х и множества векторов L, разбиение лексем на множество главных слов L
1
и
множество зависимых слов
L
2
, причем L
1
L
2
≠∅, и формирование множества сочетаемых
пар лексем
D = {(x
i
, x
j
)| x
i
L
1
, x
j
L
2
}. Для нахождения корневой вершины необходимо:
1) объединить множества
L
1
и L
2
: L
3
= L
1
L
2
;
2) найти разности множеств
L
3
и L
2
: L
4
= L
3
\ L
2
, где L
4
одноэлементное множество
корневых вершин.
Таким образом, формируется один или несколько графов зависимостей
G=<Х, D>, где
Хмножество вершин графа G, которое составляет множество лексем Х={x
i
| i=1,n}, а D
множество дуг.
Итоговый граф зависимостей
G будет удовлетворять следующим требованиям:
- граф
G является неполным графом, т.е. не содержит петель и циклов;
- граф
G является связным.
Граф синтаксического разбора не может иметь петель, так как разработанные правила
учитывают как морфологическую информацию лексем, так и порядок лексем в
естественно-языковом предложении. Второе требование удовлетворяется введением
второго ограничения на естественный язык запроса (раздел 1.5), связанное с тем, что в
каждом последующем предложении запроса должно присутствовать существительное,
введенное в одном из предыдущих предложений.
указание на соответствие непосредственной связи между словами и словосочетаниями и их
подчинение одному и тому же элементу текста. В качестве метода представления
результатов синтаксического анализа нами выбран комбинированный метод, включающий
в себя элементы графа зависимостей и системы составляющих. Исходными данными для
проведения синтаксического анализа являются результаты морфологического анализа,
представленные в виде множества пар , где xi – лексема естественно-языкового
запроса, Vi – вектор морфологической информации xi лексемы.
     В результате проведения синтаксического анализа должен быть сформирован граф
зависимостей, в узлах которого помещаются лексемы. Узлы соединяются дугами,
указывающими направление связи от главного слова к зависимому.

2.4.1.1. Алгоритм синтаксического анализа
      Синтаксический анализ будет проходить в три этапа. На первом этапе осуществляется
нормализация лексем естественно-языкового предложения для выделения синтаксических
групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и
другие, описание и правила выделения которых, более подробно рассмотрены в
следующем разделе данной главы. На этом же этапе осуществляется удаление
несущественных лексем из исходного множества, таких как служебные части речи
(предлоги, союзы, частицы и т.п.). В результате будут сформированы два множества: новое
исходное множество лексем Х и L - множество синтаксических групп в виде векторов
связанных лексем.
      Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух
слов, в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей
второго этапа является выявление синтаксической связи между двумя лексемами
множества Х и множества векторов L, разбиение лексем на множество главных слов L1 и
множество зависимых слов L2, причем L1 ∩ L2 ≠∅, и формирование множества сочетаемых
пар лексем D = {(xi, xj)| xi∈L1, xj∈L2}. Для нахождения корневой вершины необходимо:
      1) объединить множества L1 и L2: L3 = L1∪L2;
      2) найти разности множеств L3 и L2: L4 = L3 \ L2, где L4 – одноэлементное множество
корневых вершин.
      Таким образом, формируется один или несколько графов зависимостей G=<Х, D>, где
Х – множество вершин графа G, которое составляет множество лексем Х={xi| i=1,n}, а D –
множество дуг.
      Итоговый граф зависимостей G будет удовлетворять следующим требованиям:
      - граф G является неполным графом, т.е. не содержит петель и циклов;
      - граф G является связным.
      Граф синтаксического разбора не может иметь петель, так как разработанные правила
учитывают как морфологическую информацию лексем, так и порядок лексем в
естественно-языковом предложении. Второе требование удовлетворяется введением
второго ограничения на естественный язык запроса (раздел 1.5), связанное с тем, что в
каждом последующем предложении запроса должно присутствовать существительное,
введенное в одном из предыдущих предложений.




                                           44