ВУЗ:
Составители:
Рубрика:
85
достаточно грубых вероятностных соображений. Система САГА допускает в строго
ограниченном количестве ситуаций подобного рода построение альтернативных вариантов,
которые останутся в результирующем представлении входного предложения.
Качество анализа в системах, основанных на концепции детерминизма, может быть
разным. Чем более дифференцированным описанием ситуаций оперирует алгоритм, тем
точнее он работает: возможности совершенствования качества анализа здесь достаточно
богатые. Но с повышением точности скорость анализа уменьшается. Чем более грубо заданы
синтаксические ситуации, тем быстрее работает алгоритм, но тем больше вероятность
ошибки.
По сравнению с другими стратегиями стратегия детерминированного анализа
оказывается более экономной в том смысле, что она не затрачивает время на порождение и
фильтрацию избыточных связей.
Лекция 9. Алгоритмы и база знаний синтаксического анализа
В результате синтаксического анализа должны быть однозначно определены все
синтаксические единицы естественно-языкового предложения. Синтаксическими единицами
будем называть конструкции, в которых их элементы (компоненты) объединены
синтаксическими связями и отношениями. Синтаксическая связь является выражением
взаимосвязи элементов в синтаксической единице, то есть служит для выражения
синтаксических отношений между словами, создает синтаксическую структуру предложения
и словосочетания, а также условия для реализации лексического значения слова. Исходными
данными для проведения синтаксического анализа являются результаты морфологического
анализа, представленные в виде множества пар <x
i
, V
i
>, где x
i
– ЕЯ-лексема, V
i
– вектор
морфологической информации x
i
лексемы.
Синтаксический анализ проходит три этапа. На первом этапе осуществляется
нормализация лексем естественно-языкового предложения для выделения синтаксических
групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и
другие, описание и правила выделения которых более подробно рассмотрены в следующем
разделе данной главы. На этом же этапе осуществляется удаление несущественных лексем из
исходного множества, таких как служебные части речи (предлоги, союзы, частицы и т.п.). В
результате будут сформированы два множества: новое исходное множество лексем Х и L -
множество синтаксических групп в виде векторов связанных лексем.
Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух слов,
в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей второго
этапа является выявление синтаксической связи между двумя лексемами множества Х и
множества векторов L, разбиение лексем на множество главных слов L
1
и множество
зависимых слов L
2
, причем L
1
∩ L
2
≠∅, и формирование множества сочетаемых пар лексем D
= {(x
i
, x
j
)| x
i
∈L
1
, x
j
∈L
2
}. Для нахождения корневой вершины необходимо:
1) объединить множества L
1
и L
2
: L
3
= L
1
∪L
2
;
2) найти разности множеств L
3
и L
2
: L
4
= L
3
\ L
2
, где L
4
– одноэлементное множество
достаточно грубых вероятностных соображений. Система САГА допускает в строго ограниченном количестве ситуаций подобного рода построение альтернативных вариантов, которые останутся в результирующем представлении входного предложения. Качество анализа в системах, основанных на концепции детерминизма, может быть разным. Чем более дифференцированным описанием ситуаций оперирует алгоритм, тем точнее он работает: возможности совершенствования качества анализа здесь достаточно богатые. Но с повышением точности скорость анализа уменьшается. Чем более грубо заданы синтаксические ситуации, тем быстрее работает алгоритм, но тем больше вероятность ошибки. По сравнению с другими стратегиями стратегия детерминированного анализа оказывается более экономной в том смысле, что она не затрачивает время на порождение и фильтрацию избыточных связей. Лекция 9. Алгоритмы и база знаний синтаксического анализа В результате синтаксического анализа должны быть однозначно определены все синтаксические единицы естественно-языкового предложения. Синтаксическими единицами будем называть конструкции, в которых их элементы (компоненты) объединены синтаксическими связями и отношениями. Синтаксическая связь является выражением взаимосвязи элементов в синтаксической единице, то есть служит для выражения синтаксических отношений между словами, создает синтаксическую структуру предложения и словосочетания, а также условия для реализации лексического значения слова. Исходными данными для проведения синтаксического анализа являются результаты морфологического анализа, представленные в виде множества пар, где xi – ЕЯ-лексема, Vi – вектор морфологической информации xi лексемы. Синтаксический анализ проходит три этапа. На первом этапе осуществляется нормализация лексем естественно-языкового предложения для выделения синтаксических групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и другие, описание и правила выделения которых более подробно рассмотрены в следующем разделе данной главы. На этом же этапе осуществляется удаление несущественных лексем из исходного множества, таких как служебные части речи (предлоги, союзы, частицы и т.п.). В результате будут сформированы два множества: новое исходное множество лексем Х и L - множество синтаксических групп в виде векторов связанных лексем. Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух слов, в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей второго этапа является выявление синтаксической связи между двумя лексемами множества Х и множества векторов L, разбиение лексем на множество главных слов L1 и множество зависимых слов L2, причем L1 ∩ L2 ≠∅, и формирование множества сочетаемых пар лексем D = {(xi, xj)| xi∈L1, xj∈L2}. Для нахождения корневой вершины необходимо: 1) объединить множества L1 и L2: L3 = L1∪L2; 2) найти разности множеств L3 и L2: L4 = L3 \ L2, где L4 – одноэлементное множество 85
Страницы
- « первая
- ‹ предыдущая
- …
- 83
- 84
- 85
- 86
- 87
- …
- следующая ›
- последняя »