Естественно-языковые системы. Евдокимова И.С. - 46 стр.

UptoLike

Составители: 

46
инициативы пользователем обычно применяются специальные стандартные команды, смысл
которых заранее известен системе. Появление в высказывании пользователя подобной
команды сигнализирует системе, как о наличии перехвата инициативы, так и о цели
перехвата.
Если способ перехвата инициативы пользователем не ограничен специальными
командами, то диалоговый компонент должен определять по смыслу очередного
высказывания его отношение к текущей цели (теме). Если взаимосвязь высказывания с
текущей целью установить не удается, то это высказывание должно рассматриваться как
перехват инициативы. При этом возникает достаточно сложная задача определения цели,
которую, перехватив инициативу, намерен преследовать пользователь. Данная задача в
настоящее время еще не имеет удовлетворительного решения, однако следует подчеркнуть,
что способность диалогового компонента обрабатывать перехваты инициативы с учетом
целей участников является одним из необходимых условий для организации гибкого
диалога, гарантирующего достижение в процессе общения глобального успеха.
Методы реализации компонента понимания высказываний
Понимание высказываний включает анализ и интерпретацию.
В методах анализа обычно выделяются анализ слов, предложений и текстов. Анализ
слов сводится к морфологическому анализу, обнаружению и исправлению орфографических
ошибок. Цель морфологического анализа состоит в получении основ (под основой
понимается словоформа с отсеченным окончанием) со значениями грамматических
категорий (например, часть речи, род, число, падеж) для каждой из словоформ
высказывания, поступившего на вход ЕЯ-системы. Методы морфологического анализа были
детально разработаны еще при создании первых ЕЯ-систем и более подробно рассмотрены в
главе III. Примерами отечественных ЕЯ-систем с достаточно полной для практических
потребностей реализацией морфологического анализа могут служить ПОЭТ, TULIPS и
АИСТ.
Методы обнаружения и исправления орфографических ошибок подразделяются на два
класса в зависимости от того, используют они словари основ или нет. К методам, не
использующим словари, относятся частотные и полиграммные. Частотные методы
основаны на сортировке слов по частоте их встречаемости в текстах. Предполагается, что
частота встречаемости слов, содержащих ошибки, низкая. Однако низкая частота
встречаемости и у правильных, но редко встречающихся слов, что значительно снижает
эффективность частотных методов. В полиграммных методах для поиска ошибок применяют
списки возможных сочетаний букв в словах (обычно анализируются пары и тройки идущих
подряд букв). Полиграммными методами целесообразно пользоваться в системах с
открытым (пополняемым) словарем наряду с методами, основанными на словарях.
Методы, в которых используются словари, разделяются в зависимости от типа
применяемой стратегии на абсолютные и относительные. К абсолютным относится
«исторический» метод, основанный на словаре встречаемых ранее ошибок. Данный метод
реализован, например, в системе SPEEDCOP. Эффективность исторического метода
инициативы пользователем обычно применяются специальные стандартные команды, смысл
которых заранее известен системе. Появление в высказывании пользователя подобной
команды сигнализирует системе, как о наличии перехвата инициативы, так и о цели
перехвата.
     Если способ перехвата инициативы пользователем не ограничен специальными
командами, то диалоговый компонент должен определять по смыслу очередного
высказывания его отношение к текущей цели (теме). Если взаимосвязь высказывания с
текущей целью установить не удается, то это высказывание должно рассматриваться как
перехват инициативы. При этом возникает достаточно сложная задача определения цели,
которую, перехватив инициативу, намерен преследовать пользователь. Данная задача в
настоящее время еще не имеет удовлетворительного решения, однако следует подчеркнуть,
что способность диалогового компонента обрабатывать перехваты инициативы с учетом
целей участников является одним из необходимых условий для организации гибкого
диалога, гарантирующего достижение в процессе общения глобального успеха.

Методы реализации компонента понимания высказываний
      Понимание высказываний включает анализ и интерпретацию.
      В методах анализа обычно выделяются анализ слов, предложений и текстов. Анализ
слов сводится к морфологическому анализу, обнаружению и исправлению орфографических
ошибок. Цель морфологического анализа состоит в получении основ (под основой
понимается словоформа с отсеченным окончанием) со значениями грамматических
категорий (например, часть речи, род, число, падеж) для каждой из словоформ
высказывания, поступившего на вход ЕЯ-системы. Методы морфологического анализа были
детально разработаны еще при создании первых ЕЯ-систем и более подробно рассмотрены в
главе III. Примерами отечественных ЕЯ-систем с достаточно полной для практических
потребностей реализацией морфологического анализа могут служить ПОЭТ, TULIPS и
АИСТ.
      Методы обнаружения и исправления орфографических ошибок подразделяются на два
класса в зависимости от того, используют они словари основ или нет. К методам, не
использующим словари, относятся частотные и полиграммные. Частотные методы
основаны на сортировке слов по частоте их встречаемости в текстах. Предполагается, что
частота встречаемости слов, содержащих ошибки, низкая. Однако низкая частота
встречаемости и у правильных, но редко встречающихся слов, что значительно снижает
эффективность частотных методов. В полиграммных методах для поиска ошибок применяют
списки возможных сочетаний букв в словах (обычно анализируются пары и тройки идущих
подряд букв). Полиграммными методами целесообразно пользоваться в системах с
открытым (пополняемым) словарем наряду с методами, основанными на словарях.
      Методы, в которых используются словари, разделяются в зависимости от типа
применяемой стратегии на абсолютные и относительные. К абсолютным относится
«исторический» метод, основанный на словаре встречаемых ранее ошибок. Данный метод
реализован, например, в системе SPEEDCOP. Эффективность исторического метода


                                             46