ВУЗ:
Составители:
Рубрика:
5
Введение
Задача интеллектуальной обработки текстов на естественном языке впервые
появилась на рубеже 60-х–70-х гг.ХХ в. Работы последних лет связаны с решением
проблемы анализа смысла языка в приложении к созданию систем диалога с программным
обеспечением. Подходов к решению задачи понимания естественно-языковых запросов
несколько. Наиболее распространенными являются подходы, основанные на
синтаксическом, семантическом анализах и шаблонах. Первый подход, использующий
синтаксические конструкции, - самый трудный. Синтаксическое представление запроса
строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые
определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и
т.д.). Это представление ничего не говорит о смысле запроса.
Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем
используется синтаксическая информация из предыдущего подхода, а также информация
из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие
определять смысловые отношения между ним и другими словами, точнее, их значениями.
Полное описание связей между смыслами слов (а одно слово часто имеет несколько
смыслов) образует тезаурус, представляющий собой большую сеть со словами и их
смыслами в качестве узлов. С помощью таких тезаурусов выполняется построение
семантического представления запроса. Основная задача при этом — отсечь ненужные
смыслы, постараться выделить с помощью синтаксических связей достоверные
семантические конструкции. В больших предложениях, особенно с многозначными
словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и
связей между ними, а также многозначности синтаксических конструкций (одному и тому
же предложению может быть сопоставлено несколько синтаксических представлений),
обработка которых занимает неприемлемо большое время. Это лишь одна проблема,
стоящая на пути понимания естественно-языковых запросов в традиционной
синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно-
языковые запросы, которые, как правило, не имеют правильных синтаксических
конструкций. На это влияют вольное словоизменение и словообразование в виде
неологизмов сетевой общественности, большой процент имен собственных и сокращений,
игнорирование правил пунктуации, что приводит к тому, что от естественного языка во
всем его многообразии иногда остается лишь лексика, причудливым образом
исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень
трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их
разработка требует высокой квалификации.
Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он
появился самым первым и с точки зрения программной реализации наиболее прост. Суть
его в том, что возможные запросы покрываются набором шаблонов-конструкций,
позволяющих отождествляться с запросом и выдавать в результате предопределенные
конструкции. Основной недостаток такого подхода заключается в необходимости
предусмотреть все возможные способы выражений на естественном языке, т.е. исчислить
грамматику. К сожалению, современный пользовательский язык совсем не похож на
литературный, и поисковые запросы синтаксическими шаблонами в чистом виде покрыть
довольно трудно. Если же основываться на семантической грамматике, придется для
Введение Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60-х–70-х гг.ХХ в. Работы последних лет связаны с решением проблемы анализа смысла языка в приложении к созданию систем диалога с программным обеспечением. Подходов к решению задачи понимания естественно-языковых запросов несколько. Наиболее распространенными являются подходы, основанные на синтаксическом, семантическом анализах и шаблонах. Первый подход, использующий синтаксические конструкции, - самый трудный. Синтаксическое представление запроса строится на основе подлежащего, сказуемого, прямого дополнения и т.п., которые определяются с помощью морфологических характеристик (часть речи, род, падеж, лицо и т.д.). Это представление ничего не говорит о смысле запроса. Второй подход, основанный на семантике, гораздо ближе к смыслу запроса. В нем используется синтаксическая информация из предыдущего подхода, а также информация из семантических словарей. Каждое слово в словаре имеет характеристики, позволяющие определять смысловые отношения между ним и другими словами, точнее, их значениями. Полное описание связей между смыслами слов (а одно слово часто имеет несколько смыслов) образует тезаурус, представляющий собой большую сеть со словами и их смыслами в качестве узлов. С помощью таких тезаурусов выполняется построение семантического представления запроса. Основная задача при этом — отсечь ненужные смыслы, постараться выделить с помощью синтаксических связей достоверные семантические конструкции. В больших предложениях, особенно с многозначными словами, это часто приводит к комбинаторному взрыву — перебору множества смыслов и связей между ними, а также многозначности синтаксических конструкций (одному и тому же предложению может быть сопоставлено несколько синтаксических представлений), обработка которых занимает неприемлемо большое время. Это лишь одна проблема, стоящая на пути понимания естественно-языковых запросов в традиционной синтаксически-ориентированной парадигме. Вторая сложность — типичные естественно- языковые запросы, которые, как правило, не имеют правильных синтаксических конструкций. На это влияют вольное словоизменение и словообразование в виде неологизмов сетевой общественности, большой процент имен собственных и сокращений, игнорирование правил пунктуации, что приводит к тому, что от естественного языка во всем его многообразии иногда остается лишь лексика, причудливым образом исковерканная. И, наконец, необходимые в этом подходе семантические словари — очень трудоемкая составляющая, для многих предметных областей они просто отсутствуют, а их разработка требует высокой квалификации. Третий подход к анализу естественно-языковых запросов основан на шаблонах. Он появился самым первым и с точки зрения программной реализации наиболее прост. Суть его в том, что возможные запросы покрываются набором шаблонов-конструкций, позволяющих отождествляться с запросом и выдавать в результате предопределенные конструкции. Основной недостаток такого подхода заключается в необходимости предусмотреть все возможные способы выражений на естественном языке, т.е. исчислить грамматику. К сожалению, современный пользовательский язык совсем не похож на литературный, и поисковые запросы синтаксическими шаблонами в чистом виде покрыть довольно трудно. Если же основываться на семантической грамматике, придется для 5
Страницы
- « первая
- ‹ предыдущая
- …
- 3
- 4
- 5
- 6
- 7
- …
- следующая ›
- последняя »