ВУЗ:
Составители:
Рубрика:
44
указание на соответствие непосредственной связи между словами и словосочетаниями и их
подчинение одному и тому же элементу текста. В качестве метода представления
результатов синтаксического анализа нами выбран комбинированный метод, включающий
в себя элементы графа зависимостей и системы составляющих. Исходными данными для
проведения синтаксического анализа являются результаты морфологического анализа,
представленные в виде множества пар <
x
i
, V
i
>, где x
i
– лексема естественно-языкового
запроса,
V
i
– вектор морфологической информации x
i
лексемы.
В результате проведения синтаксического анализа должен быть сформирован граф
зависимостей, в узлах которого помещаются лексемы. Узлы соединяются дугами,
указывающими направление связи от главного слова к зависимому.
2.4.1.1. Алгоритм синтаксического анализа
Синтаксический анализ будет проходить в три этапа. На первом этапе осуществляется
нормализация лексем естественно-языкового предложения для выделения синтаксических
групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и
другие, описание и правила выделения которых, более подробно рассмотрены в
следующем разделе данной главы. На этом же этапе осуществляется удаление
несущественных лексем из исходного множества, таких как служебные части речи
(предлоги, союзы, частицы и т.п.). В результате будут сформированы два множества: новое
исходное множество лексем
Х и L - множество синтаксических групп в виде векторов
связанных лексем.
Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух
слов, в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей
второго этапа является выявление синтаксической связи между двумя лексемами
множества
Х и множества векторов L, разбиение лексем на множество главных слов L
1
и
множество зависимых слов
L
2
, причем L
1
∩ L
2
≠∅, и формирование множества сочетаемых
пар лексем
D = {(x
i
, x
j
)| x
i
∈L
1
, x
j
∈L
2
}. Для нахождения корневой вершины необходимо:
1) объединить множества
L
1
и L
2
: L
3
= L
1
∪L
2
;
2) найти разности множеств
L
3
и L
2
: L
4
= L
3
\ L
2
, где L
4
– одноэлементное множество
корневых вершин.
Таким образом, формируется один или несколько графов зависимостей
G=<Х, D>, где
Х – множество вершин графа G, которое составляет множество лексем Х={x
i
| i=1,n}, а D –
множество дуг.
Итоговый граф зависимостей
G будет удовлетворять следующим требованиям:
- граф
G является неполным графом, т.е. не содержит петель и циклов;
- граф
G является связным.
Граф синтаксического разбора не может иметь петель, так как разработанные правила
учитывают как морфологическую информацию лексем, так и порядок лексем в
естественно-языковом предложении. Второе требование удовлетворяется введением
второго ограничения на естественный язык запроса (раздел 1.5), связанное с тем, что в
каждом последующем предложении запроса должно присутствовать существительное,
введенное в одном из предыдущих предложений.
указание на соответствие непосредственной связи между словами и словосочетаниями и их подчинение одному и тому же элементу текста. В качестве метода представления результатов синтаксического анализа нами выбран комбинированный метод, включающий в себя элементы графа зависимостей и системы составляющих. Исходными данными для проведения синтаксического анализа являются результаты морфологического анализа, представленные в виде множества пар, где xi – лексема естественно-языкового запроса, Vi – вектор морфологической информации xi лексемы. В результате проведения синтаксического анализа должен быть сформирован граф зависимостей, в узлах которого помещаются лексемы. Узлы соединяются дугами, указывающими направление связи от главного слова к зависимому. 2.4.1.1. Алгоритм синтаксического анализа Синтаксический анализ будет проходить в три этапа. На первом этапе осуществляется нормализация лексем естественно-языкового предложения для выделения синтаксических групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и другие, описание и правила выделения которых, более подробно рассмотрены в следующем разделе данной главы. На этом же этапе осуществляется удаление несущественных лексем из исходного множества, таких как служебные части речи (предлоги, союзы, частицы и т.п.). В результате будут сформированы два множества: новое исходное множество лексем Х и L - множество синтаксических групп в виде векторов связанных лексем. Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух слов, в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей второго этапа является выявление синтаксической связи между двумя лексемами множества Х и множества векторов L, разбиение лексем на множество главных слов L1 и множество зависимых слов L2, причем L1 ∩ L2 ≠∅, и формирование множества сочетаемых пар лексем D = {(xi, xj)| xi∈L1, xj∈L2}. Для нахождения корневой вершины необходимо: 1) объединить множества L1 и L2: L3 = L1∪L2; 2) найти разности множеств L3 и L2: L4 = L3 \ L2, где L4 – одноэлементное множество корневых вершин. Таким образом, формируется один или несколько графов зависимостей G=<Х, D>, где Х – множество вершин графа G, которое составляет множество лексем Х={xi| i=1,n}, а D – множество дуг. Итоговый граф зависимостей G будет удовлетворять следующим требованиям: - граф G является неполным графом, т.е. не содержит петель и циклов; - граф G является связным. Граф синтаксического разбора не может иметь петель, так как разработанные правила учитывают как морфологическую информацию лексем, так и порядок лексем в естественно-языковом предложении. Второе требование удовлетворяется введением второго ограничения на естественный язык запроса (раздел 1.5), связанное с тем, что в каждом последующем предложении запроса должно присутствовать существительное, введенное в одном из предыдущих предложений. 44
Страницы
- « первая
- ‹ предыдущая
- …
- 42
- 43
- 44
- 45
- 46
- …
- следующая ›
- последняя »
