Естественно-языковые системы. Евдокимова И.С. - 32 стр.

UptoLike

Составители: 

32
лучшего. Такой подход заключается в необходимости предусмотреть все возможные
способы выражений на естественном языке, т.е. исчислить грамматику. К сожалению,
современный пользовательский язык совсем не похож на литературный, и поисковые
запросы синтаксическими шаблонами в чистом виде покрыть довольно трудно. Если же
основываться на семантической грамматике, придется для каждой новой предметной области
писать шаблоны заново.
Также выделяются системы с семантической грамматикой и системы с промежуточным
языком представления.
В системах с семантической грамматикой ответ на ЕЯ-запрос также делается разбором
запроса и отображением дерева в выражение на формальном языке. Отличие в том, что
грамматические категории не обязательно соответствуют синтаксическим концептам. Ниже
показана возможная семантическая грамматика, используя которую, ЕЯИ строит структуру
запроса "which rock contains magnesium", показанную на рисунке 8.
Заметим, что некоторые категории грамматики на (Substance, Radiation,
Specimen_question) не соответствуют синтаксическим конструкциям (группе подлежащего,
подлежащему, предложению). Семантическая информация о предметной области жестко
привязана к семантической грамматике. Категории семантической грамматики обычно
выбираются так, чтобы усилить семантические ограничения. Например, приведенная
грамматика не допускает следования слова "light" после "contains" (синтаксически же эта
фраза корректна - "contains light").
Грамматические категории могут быть выбраны также таким образом, чтобы облегчить
отображение дерева запроса в запрос к базе данных. Семантическая грамматика была
введена как инженерная методология, позволяющая просто включать семантические знания
в систему. Однако поскольку семантическая грамматика содержит жестко привязанные
знания о конкретной предметной области, системы, основанные на этом подходе, трудно
портируются на другие предметные области - каждая ПО требует своей грамматики.
Например, приведенная выше грамматика абсолютно неприменима для ЕЯ-интерфейса к
кадровой базе данных.
Многие современные ЕИЯ к базам данных сначала преобразуют ЕЯ-запрос в
логический запрос на некотором промежуточном языке представления. Промежуточный
логический запрос выражает значение запроса в терминах модели предметной области,
независимой от структуры базы данных. Затем логический запрос преобразуется в запрос на
языке запросов к базе данных, этот запрос исполняется в базе данных. Многие современные
ЕЯ-интерфейсы к БД используют не один, а несколько промежуточных языков запросов [3,
4, 5]. Принцип анализа следующий: ЕЯ-запрос сначала обрабатывается синтаксически
анализатором с использованием набора синтаксических правил для построения дерева
синтаксического разбора, аналогичного показанного на рисунке 8. Семантический
интерпретатор последовательно трансформирует дерево синтаксического разбора в язык
промежуточного представления, используя семантические правила, рассмотренные ранее.
лучшего. Такой подход заключается в необходимости предусмотреть все возможные
способы выражений на естественном языке, т.е. исчислить грамматику. К сожалению,
современный пользовательский язык совсем не похож на литературный, и поисковые
запросы синтаксическими шаблонами в чистом виде покрыть довольно трудно. Если же
основываться на семантической грамматике, придется для каждой новой предметной области
писать шаблоны заново.
      Также выделяются системы с семантической грамматикой и системы с промежуточным
языком представления.
      В системах с семантической грамматикой ответ на ЕЯ-запрос также делается разбором
запроса и отображением дерева в выражение на формальном языке. Отличие в том, что
грамматические категории не обязательно соответствуют синтаксическим концептам. Ниже
показана возможная семантическая грамматика, используя которую, ЕЯИ строит структуру
запроса "which rock contains magnesium", показанную на рисунке 8.
      Заметим, что некоторые категории грамматики на (Substance, Radiation,
Specimen_question) не соответствуют синтаксическим конструкциям (группе подлежащего,
подлежащему, предложению). Семантическая информация о предметной области жестко
привязана к семантической грамматике. Категории семантической грамматики обычно
выбираются так, чтобы усилить семантические ограничения. Например, приведенная
грамматика не допускает следования слова "light" после "contains" (синтаксически же эта
фраза корректна - "contains light").
      Грамматические категории могут быть выбраны также таким образом, чтобы облегчить
отображение дерева запроса в запрос к базе данных. Семантическая грамматика была
введена как инженерная методология, позволяющая просто включать семантические знания
в систему. Однако поскольку семантическая грамматика содержит жестко привязанные
знания о конкретной предметной области, системы, основанные на этом подходе, трудно
портируются на другие предметные области - каждая ПО требует своей грамматики.
Например, приведенная выше грамматика абсолютно неприменима для ЕЯ-интерфейса к
кадровой базе данных.
      Многие современные ЕИЯ к базам данных сначала преобразуют ЕЯ-запрос в
логический запрос на некотором промежуточном языке представления. Промежуточный
логический запрос выражает значение запроса в терминах модели предметной области,
независимой от структуры базы данных. Затем логический запрос преобразуется в запрос на
языке запросов к базе данных, этот запрос исполняется в базе данных. Многие современные
ЕЯ-интерфейсы к БД используют не один, а несколько промежуточных языков запросов [3,
4, 5]. Принцип анализа следующий: ЕЯ-запрос сначала обрабатывается синтаксически
анализатором с использованием набора синтаксических правил для построения дерева
синтаксического разбора, аналогичного показанного на рисунке 8. Семантический
интерпретатор последовательно трансформирует дерево синтаксического разбора в язык
промежуточного представления, используя семантические правила, рассмотренные ранее.




                                            32