Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 6 стр.

UptoLike

6
каждой новой предметной области писать шаблоны заново.
К настоящему времени существующие естественно-языковые системы используют в
основном два последних подхода. Второй подход реализован в достаточно
распространенной системе ЗАПСИБ, разработанной в середине 80-х годов [64]. Система
позволяет вести общение на ограниченном подмножестве естественного языка. Развитием
проекта является система InterBase, вышедшая в 1990 году [106]. Система основана на
семантически-ориентированном анализе и продолжает ряд естественно-языковых
технологий лаборатории искусственного интеллекта ВЦ АН Новосибирска, затем фирмы
«Интеллектуальные технологии», а теперь РосНИИ искусственного интеллекта. В 2001
году эта система была переработана и получила название InBASE в виде коммерческого
продукта. В настоящее время система представляет собой библиотеку COM-компонентов и
среду настройки естественно-языковых интерфейсов. Существенным отличием от старой
версии является появление промежуточного уровня запросов — Q-языка, являющегося
подмножеством языка объектных запросов OQL, и уровня описания предметной области в
виде диаграммы классов UML. В полном соответствии с особенностями семантически-
ориентированной парадигмы InBASE позволяет строить естественно-языковые интерфейсы
ко многим языкамдля русского и для английского используется один и тот же Л-
процессор. Интересной особенностью InBASE является возможность моделирования
предметной области на естественном языке: с помощью класса словарных статей
«Толкование» смысл слова можно описать простой фразой. Это позволяет настраивать
естественно-языковые интерфейсы людям, не обладающим навыками инженеров знаний.
Основным недостатком данной системы является то, что кортежи базы данных
продублированы в словаряхотдельных файлах. В базах данных больших объемов этот
недостаток может стать проблемой [112-118].
Ярким представителем третьего подхода является система English Query. Система
English Query от Microsoft основана на синтаксически-ориентированных шаблонах,
связываемых с моделью предметной области, и через нее - со схемой базы данных [112]. При
настройке необходимо задать модель базы данных и предметной области, а затем для
каждого отношения в базе данных (а отношением считается и связь между классом и его
атрибутом, например, между товаром и его ценой) задать синтаксический шаблон
английской грамматики, выбираемый из списка. Этот продукт позволяет строить
естественно-языковые интерфейсы только для английского языка и работает только с
Microsoft SQL Server, в этом смысле это лишь утилита, поставляемая с SQL-сервером,
именно так она и позиционируется. В целом же этот продукт очень интересен. Например, в
нем есть встроенная обучаемая база знаний, с которой можно пообщаться на английском
языке, — она запоминает факты, правила и отвечает на вопросы по этой базе. К сожалению,
эта замечательная способность не совмещена с пониманием запросов к базе данных.
Исследования, проводимые в данной работе, посвящены разработке методов и
алгоритмов, реализующих второй подход. Основное отличие от описанных выше работ
заключается в формальном описании моделей транслятора. На наш взгляд, запросы к
структурированным источникам данных вполне могут быть изложены в виде одного или
нескольких простых предложений естественного языка, в которых отсутствуют
неологизмы и для которых несложно осуществлять синтаксический анализ. При
синтаксическом анализе естественно-языкового предложения строится граф зависимостей,
каждой новой предметной области писать шаблоны заново.
      К настоящему времени существующие естественно-языковые системы используют в
основном два последних подхода. Второй подход реализован в достаточно
распространенной системе ЗАПСИБ, разработанной в середине 80-х годов [64]. Система
позволяет вести общение на ограниченном подмножестве естественного языка. Развитием
проекта является система InterBase, вышедшая в 1990 году [106]. Система основана на
семантически-ориентированном анализе и продолжает ряд естественно-языковых
технологий лаборатории искусственного интеллекта ВЦ АН Новосибирска, затем фирмы
«Интеллектуальные технологии», а теперь РосНИИ искусственного интеллекта. В 2001
году эта система была переработана и получила название InBASE в виде коммерческого
продукта. В настоящее время система представляет собой библиотеку COM-компонентов и
среду настройки естественно-языковых интерфейсов. Существенным отличием от старой
версии является появление промежуточного уровня запросов — Q-языка, являющегося
подмножеством языка объектных запросов OQL, и уровня описания предметной области в
виде диаграммы классов UML. В полном соответствии с особенностями семантически-
ориентированной парадигмы InBASE позволяет строить естественно-языковые интерфейсы
ко многим языкам — для русского и для английского используется один и тот же Л-
процессор. Интересной особенностью InBASE является возможность моделирования
предметной области на естественном языке: с помощью класса словарных статей
«Толкование» смысл слова можно описать простой фразой. Это позволяет настраивать
естественно-языковые интерфейсы людям, не обладающим навыками инженеров знаний.
Основным недостатком данной системы является то, что кортежи базы данных
продублированы в словарях – отдельных файлах. В базах данных больших объемов этот
недостаток может стать проблемой [112-118].
      Ярким представителем третьего подхода является система English Query. Система
English Query от Microsoft основана на синтаксически-ориентированных шаблонах,
связываемых с моделью предметной области, и через нее - со схемой базы данных [112]. При
настройке необходимо задать модель базы данных и предметной области, а затем для
каждого отношения в базе данных (а отношением считается и связь между классом и его
атрибутом, например, между товаром и его ценой) задать синтаксический шаблон
английской грамматики, выбираемый из списка. Этот продукт позволяет строить
естественно-языковые интерфейсы только для английского языка и работает только с
Microsoft SQL Server, в этом смысле это лишь утилита, поставляемая с SQL-сервером,
именно так она и позиционируется. В целом же этот продукт очень интересен. Например, в
нем есть встроенная обучаемая база знаний, с которой можно пообщаться на английском
языке, — она запоминает факты, правила и отвечает на вопросы по этой базе. К сожалению,
эта замечательная способность не совмещена с пониманием запросов к базе данных.
      Исследования, проводимые в данной работе, посвящены разработке методов и
алгоритмов, реализующих второй подход. Основное отличие от описанных выше работ
заключается в формальном описании моделей транслятора. На наш взгляд, запросы к
структурированным источникам данных вполне могут быть изложены в виде одного или
нескольких простых предложений естественного языка, в которых отсутствуют
неологизмы и для которых несложно осуществлять синтаксический анализ. При
синтаксическом анализе естественно-языкового предложения строится граф зависимостей,

                                           6