Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 5 стр.

UptoLike

ВУЗ:

ВСГУТУ | Улан-Удэ

Составители:

Рубрика:

Информационные системы и базы данных

Введение

Задача интеллектуальной обработки текстов на естественном языке впервые

появилась на рубеже 60-х–70-х гг.ХХ в. Работы последних лет связаны с решением

проблемы анализа смысла языка в приложении к созданию систем диалога с программным

обеспечением. Подходов к решению задачи понимания естественно-языковых запросов

несколько. Наиболее распространенными являются подходы, основанные на

синтаксическом, семантическом анализах и шаблонах. Первый подход, использующий

синтаксические конструкции, - самый трудный. Синтаксическое представление запроса

строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые

определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и

т.д.). Это представление ничего не говорит о смысле запроса.

Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем

используется синтаксическая информация из предыдущего подхода, а также информация

из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие

определять смысловые отношения между ним и другими словами, точнее, их значениями.

Полное описание связей между смыслами слов (а одно слово часто имеет несколько

смыслов) образует тезаурус, представляющий собой большую сеть со словами и их

смыслами в качестве узлов. С помощью таких тезаурусов выполняется построение

семантического представления запроса. Основная задача при этом — отсечь ненужные

смыслы, постараться выделить с помощью синтаксических связей достоверные

семантические конструкции. В больших предложениях, особенно с многозначными

словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и

связей между ними, а также многозначности синтаксических конструкций (одному и тому

же предложению может быть сопоставлено несколько синтаксических представлений),

обработка которых занимает неприемлемо большое время. Это лишь одна проблема,

стоящая на пути понимания естественно-языковых запросов в традиционной

синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно-

языковые запросы, которые, как правило, не имеют правильных синтаксических

конструкций. На это влияют вольное словоизменение и словообразование в виде

неологизмов сетевой общественности, большой процент имен собственных и сокращений,

игнорирование правил пунктуации, что приводит к тому, что от естественного языка во

всем его многообразии иногда остается лишь лексика, причудливым образом

исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень

трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их

разработка требует высокой квалификации.

Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он

появился самым первым и с точки зрения программной реализации наиболее прост. Суть

его в том, что возможные запросы покрываются набором шаблонов-конструкций,

позволяющих отождествляться с запросом и выдавать в результате предопределенные

конструкции. Основной недостаток такого подхода заключается в необходимости

предусмотреть все возможные способы выражений на естественном языке, т.е. исчислить

грамматику. К сожалению, современный пользовательский язык совсем не похож на

литературный, и поисковые запросы синтаксическими шаблонами в чистом виде покрыть

довольно трудно. Если же основываться на семантической грамматике, придется для

                                    Введение
       Задача интеллектуальной обработки текстов на естественном языке впервые
появилась на рубеже 60-х–70-х гг.ХХ в. Работы последних лет связаны с решением
проблемы анализа смысла языка в приложении к созданию систем диалога с программным
обеспечением. Подходов к решению задачи понимания естественно-языковых запросов
несколько. Наиболее распространенными являются подходы, основанные на
синтаксическом, семантическом анализах и шаблонах. Первый подход, использующий
синтаксические конструкции, - самый трудный. Синтаксическое представление запроса
строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые
определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и
т.д.). Это представление ничего не говорит о смысле запроса.
       Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем
используется синтаксическая информация из предыдущего подхода, а также информация
из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие
определять смысловые отношения между ним и другими словами, точнее, их значениями.
Полное описание связей между смыслами слов (а одно слово часто имеет несколько
смыслов) образует тезаурус, представляющий собой большую сеть со словами и их
смыслами в качестве узлов. С помощью таких тезаурусов выполняется построение
семантического представления запроса. Основная задача при этом — отсечь ненужные
смыслы, постараться выделить с помощью синтаксических связей достоверные
семантические конструкции. В больших предложениях, особенно с многозначными
словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и
связей между ними, а также многозначности синтаксических конструкций (одному и тому
же предложению может быть сопоставлено несколько синтаксических представлений),
обработка которых занимает неприемлемо большое время. Это лишь одна проблема,
стоящая на пути понимания естественно-языковых запросов в традиционной
синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно-
языковые запросы, которые, как правило, не имеют правильных синтаксических
конструкций. На это влияют вольное словоизменение и словообразование в виде
неологизмов сетевой общественности, большой процент имен собственных и сокращений,
игнорирование правил пунктуации, что приводит к тому, что от естественного языка во
всем его многообразии иногда остается лишь лексика, причудливым образом
исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень
трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их
разработка требует высокой квалификации.
       Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он
появился самым первым и с точки зрения программной реализации наиболее прост. Суть
его в том, что возможные запросы покрываются набором шаблонов-конструкций,
позволяющих отождествляться с запросом и выдавать в результате предопределенные
конструкции. Основной недостаток такого подхода заключается в необходимости
предусмотреть все возможные способы выражений на естественном языке, т.е. исчислить
грамматику. К сожалению, современный пользовательский язык совсем не похож на
литературный, и поисковые запросы синтаксическими шаблонами в чистом виде покрыть
довольно трудно. Если же основываться на семантической грамматике, придется для
                                         5

Заказать работу

Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 5 стр.

UptoLike

ВУЗ:

Найханова Л.В.

Евдокимова И.С.

Информационные системы и базы данных

Вы здесь

Методы и алгоритмы трансляции естественно-языковых запросов к базе данных в SQL-запросы. Найханова Л.В - 5 стр.

UptoLike

ВУЗ:

Найханова Л.В.

Евдокимова И.С.

Информационные системы и базы данных

Страницы