ВУЗ:
Составители:
Рубрика:
47
существенно зависит от размера текстов, на основе которых порожден словарь ошибок.
Относительный метод состоит в нахождении в словаре таких слов, которые наиболее
похожи на искаженное слово, и выборе среди них правильного. Обычно искаженное слово
подвергается определенной обработке для получения из него правильных слов. Обработка,
как правило, включает действия по пропуску, перестановке и вставке букв. При этом для
уменьшения списка новых слов применяются частотные и полиграммные методы.
Анализ предложений обычно сводится к синтаксическому и семантическому анализу,
выполняемому отдельным функциональным блоком-анализатором (parser). Наиболее
распространенные методы анализа предложений, так же как и методы морфологического
анализа, были разработаны еще при создании первых ЕЯ-систем и предназначались для
обработки только «правильных», т. е. не содержащих отклонений от грамматической нормы,
предложений. Обычно при описании анализаторов основное внимание уделяется
распределению функций между синтаксическим и семантическим анализом и порядку их
выполнения. Однако с точки зрения современных требовании к ЕЯ-системам более важным
является вопрос о том, насколько существующие анализаторы могут быть приспособлены к
обработке «неграмматичностей», т. е. характерных для диалогов между людьми
высказываний с отклонениями от грамматической нормы (лексические и грамматические
ошибки, пропуски, повторы, шумы, эллипсис, идиомы и т.п.). Сравним по этому параметру
следующие типы анализаторов: традиционные, концептуальные, анализаторы,
использующие сопоставление по образцам и анализаторы, использующие разнообразные
стратегии. Более подробно существующие подходы, методы и алгоритмы синтаксического и
семантического анализов рассмотрены в следующих разделах.
Традиционные анализаторы
Наиболее распространенным способом анализа ЕЯ-предложений является разбор
сверху вниз, слева направо, основанный на некоторой фиксированной грамматике. В
последние годы подобные методы обычно выполнялись с применением ATN-техники, т.е. с
помощью расширенных сетей переходов. Такие анализаторы осуществляют разбор
предложения либо в общих грамматических категориях, либо в терминах категорий,
имеющих значение в некоторой ограниченной области. Анализаторы этого типа
чрезвычайно «хрупки», т. е. они терпят неудачу при разборе предложений, содержащих
минимальные отклонения от нормы.
Хрупкость традиционных анализаторов обусловлена тем, что их алгоритм
осуществляет поиск сверху вниз среди разборов, допускаемых грамматикой, того разбора,
который соответствует обрабатываемому предложению. Если некоторый частный разбор при
сопоставлении ему очередного слова противоречит используемой грамматике, то для
анализатора это сигнал того, что на более раннем этапе поиска сделан ошибочный выбор.
Таким образом, неудача на некотором шаге разбора является сигналом для выбора
очередного из возможных разборов, т. е. принципиальные затруднения возникают при
обработке предложений, содержащих отклонения от грамматики.
Для преодоления указанных недостатков традиционных анализаторов были
существенно зависит от размера текстов, на основе которых порожден словарь ошибок. Относительный метод состоит в нахождении в словаре таких слов, которые наиболее похожи на искаженное слово, и выборе среди них правильного. Обычно искаженное слово подвергается определенной обработке для получения из него правильных слов. Обработка, как правило, включает действия по пропуску, перестановке и вставке букв. При этом для уменьшения списка новых слов применяются частотные и полиграммные методы. Анализ предложений обычно сводится к синтаксическому и семантическому анализу, выполняемому отдельным функциональным блоком-анализатором (parser). Наиболее распространенные методы анализа предложений, так же как и методы морфологического анализа, были разработаны еще при создании первых ЕЯ-систем и предназначались для обработки только «правильных», т. е. не содержащих отклонений от грамматической нормы, предложений. Обычно при описании анализаторов основное внимание уделяется распределению функций между синтаксическим и семантическим анализом и порядку их выполнения. Однако с точки зрения современных требовании к ЕЯ-системам более важным является вопрос о том, насколько существующие анализаторы могут быть приспособлены к обработке «неграмматичностей», т. е. характерных для диалогов между людьми высказываний с отклонениями от грамматической нормы (лексические и грамматические ошибки, пропуски, повторы, шумы, эллипсис, идиомы и т.п.). Сравним по этому параметру следующие типы анализаторов: традиционные, концептуальные, анализаторы, использующие сопоставление по образцам и анализаторы, использующие разнообразные стратегии. Более подробно существующие подходы, методы и алгоритмы синтаксического и семантического анализов рассмотрены в следующих разделах. Традиционные анализаторы Наиболее распространенным способом анализа ЕЯ-предложений является разбор сверху вниз, слева направо, основанный на некоторой фиксированной грамматике. В последние годы подобные методы обычно выполнялись с применением ATN-техники, т.е. с помощью расширенных сетей переходов. Такие анализаторы осуществляют разбор предложения либо в общих грамматических категориях, либо в терминах категорий, имеющих значение в некоторой ограниченной области. Анализаторы этого типа чрезвычайно «хрупки», т. е. они терпят неудачу при разборе предложений, содержащих минимальные отклонения от нормы. Хрупкость традиционных анализаторов обусловлена тем, что их алгоритм осуществляет поиск сверху вниз среди разборов, допускаемых грамматикой, того разбора, который соответствует обрабатываемому предложению. Если некоторый частный разбор при сопоставлении ему очередного слова противоречит используемой грамматике, то для анализатора это сигнал того, что на более раннем этапе поиска сделан ошибочный выбор. Таким образом, неудача на некотором шаге разбора является сигналом для выбора очередного из возможных разборов, т. е. принципиальные затруднения возникают при обработке предложений, содержащих отклонения от грамматики. Для преодоления указанных недостатков традиционных анализаторов были 47
Страницы
- « первая
- ‹ предыдущая
- …
- 45
- 46
- 47
- 48
- 49
- …
- следующая ›
- последняя »