Естественно-языковые системы. Евдокимова И.С. - 85 стр.

UptoLike

Составители: 

85
достаточно грубых вероятностных соображений. Система САГА допускает в строго
ограниченном количестве ситуаций подобного рода построение альтернативных вариантов,
которые останутся в результирующем представлении входного предложения.
Качество анализа в системах, основанных на концепции детерминизма, может быть
разным. Чем более дифференцированным описанием ситуаций оперирует алгоритм, тем
точнее он работает: возможности совершенствования качества анализа здесь достаточно
богатые. Но с повышением точности скорость анализа уменьшается. Чем более грубо заданы
синтаксические ситуации, тем быстрее работает алгоритм, но тем больше вероятность
ошибки.
По сравнению с другими стратегиями стратегия детерминированного анализа
оказывается более экономной в том смысле, что она не затрачивает время на порождение и
фильтрацию избыточных связей.
Лекция 9. Алгоритмы и база знаний синтаксического анализа
В результате синтаксического анализа должны быть однозначно определены все
синтаксические единицы естественно-языкового предложения. Синтаксическими единицами
будем называть конструкции, в которых их элементы (компоненты) объединены
синтаксическими связями и отношениями. Синтаксическая связь является выражением
взаимосвязи элементов в синтаксической единице, то есть служит для выражения
синтаксических отношений между словами, создает синтаксическую структуру предложения
и словосочетания, а также условия для реализации лексического значения слова. Исходными
данными для проведения синтаксического анализа являются результаты морфологического
анализа, представленные в виде множества пар <x
i
, V
i
>, где x
i
ЕЯ-лексема, V
i
вектор
морфологической информации x
i
лексемы.
Синтаксический анализ проходит три этапа. На первом этапе осуществляется
нормализация лексем естественно-языкового предложения для выделения синтаксических
групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и
другие, описание и правила выделения которых более подробно рассмотрены в следующем
разделе данной главы. На этом же этапе осуществляется удаление несущественных лексем из
исходного множества, таких как служебные части речи (предлоги, союзы, частицы и т.п.). В
результате будут сформированы два множества: новое исходное множество лексем Х и L -
множество синтаксических групп в виде векторов связанных лексем.
Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух слов,
в котором одно выступает как главное, а другоекак зависимое. Поэтому задачей второго
этапа является выявление синтаксической связи между двумя лексемами множества Х и
множества векторов L, разбиение лексем на множество главных слов L
1
и множество
зависимых слов L
2
, причем L
1
L
2
≠∅, и формирование множества сочетаемых пар лексем D
= {(x
i
, x
j
)| x
i
L
1
, x
j
L
2
}. Для нахождения корневой вершины необходимо:
1) объединить множества L
1
и L
2
: L
3
= L
1
L
2
;
2) найти разности множеств L
3
и L
2
: L
4
= L
3
\ L
2
, где L
4
одноэлементное множество
достаточно грубых вероятностных соображений. Система САГА допускает в строго
ограниченном количестве ситуаций подобного рода построение альтернативных вариантов,
которые останутся в результирующем представлении входного предложения.
     Качество анализа в системах, основанных на концепции детерминизма, может быть
разным. Чем более дифференцированным описанием ситуаций оперирует алгоритм, тем
точнее он работает: возможности совершенствования качества анализа здесь достаточно
богатые. Но с повышением точности скорость анализа уменьшается. Чем более грубо заданы
синтаксические ситуации, тем быстрее работает алгоритм, но тем больше вероятность
ошибки.
     По сравнению с другими стратегиями стратегия детерминированного анализа
оказывается более экономной в том смысле, что она не затрачивает время на порождение и
фильтрацию избыточных связей.

               Лекция 9. Алгоритмы и база знаний синтаксического анализа
     В результате синтаксического анализа должны быть однозначно определены все
синтаксические единицы естественно-языкового предложения. Синтаксическими единицами
будем называть конструкции, в которых их элементы (компоненты) объединены
синтаксическими связями и отношениями. Синтаксическая связь является выражением
взаимосвязи элементов в синтаксической единице, то есть служит для выражения
синтаксических отношений между словами, создает синтаксическую структуру предложения
и словосочетания, а также условия для реализации лексического значения слова. Исходными
данными для проведения синтаксического анализа являются результаты морфологического
анализа, представленные в виде множества пар , где xi – ЕЯ-лексема, Vi – вектор
морфологической информации xi лексемы.
     Синтаксический анализ проходит три этапа. На первом этапе осуществляется
нормализация лексем естественно-языкового предложения для выделения синтаксических
групп, к которым относятся группы ФИО, ДАТА, ПС (существительное с предлогом) и
другие, описание и правила выделения которых более подробно рассмотрены в следующем
разделе данной главы. На этом же этапе осуществляется удаление несущественных лексем из
исходного множества, таких как служебные части речи (предлоги, союзы, частицы и т.п.). В
результате будут сформированы два множества: новое исходное множество лексем Х и L -
множество синтаксических групп в виде векторов связанных лексем.
     Синтаксическая связь, относящаяся к типу подчинение, передает сочетание двух слов,
в котором одно выступает как главное, а другое – как зависимое. Поэтому задачей второго
этапа является выявление синтаксической связи между двумя лексемами множества Х и
множества векторов L, разбиение лексем на множество главных слов L1 и множество
зависимых слов L2, причем L1 ∩ L2 ≠∅, и формирование множества сочетаемых пар лексем D
= {(xi, xj)| xi∈L1, xj∈L2}. Для нахождения корневой вершины необходимо:
     1) объединить множества L1 и L2: L3 = L1∪L2;
     2) найти разности множеств L3 и L2: L4 = L3 \ L2, где L4 – одноэлементное множество


                                               85