ВУЗ:
Составители:
Рубрика:
9
стоят либо предметные имена, либо слова универсального семантического языка, а дуги
соответствуют универсальным отношениям семантического подчинения, таким, как
аргументное, атрибутивное, конъюнкция, дизъюнкция, равенство, неравенство, больше,
меньше, принадлежит и т.п. Существенным компонентом семантической структуры
является информация о кореферентности узлов, т.е. информация о том, в каких случаях
речь идет об одном и том же объекте, а в каких - о разных.
Лингвистический процессор в целом должен обеспечивать выполнение следующих
преобразований:
предложение на естественном языке ⇒ морфологическая структура ⇒
синтаксическая структура ⇒ семантическая структура.
Реализация лингвистического анализатора требует разработки формальных языков
для записи (образов) предложений на морфологическом, синтаксическом, семантическом
уровнях представления; формального понятия структуры предложения для каждой из этих
уровней; массивов правил для преобразования структур смежных уровней друг в друга;
морфологического, синтаксического и семантического словарей, с включением в них всей
информации о каждой лексеме, необходимой для осуществления соответствующего
преобразования.
1.2. Анализ методов и подходов морфологического анализа
Стадия морфологического анализа является наиболее проработанным
лингвистическим этапом процесса обработки естественного текста. За последние два
десятилетия создано по крайней мере несколько десятков алгоритмов для разных языков, в
том числе 10-12 для русского [4, 5, 6].
Цель морфологического анализа заключается в определении морфологической
информации словоформ для использования на последующих этапах обработки текста.
Существует три основных метода реализации морфологического анализа:
декларативный, процедурный и комбинированный.
При декларативном методе в словаре хранятся все возможные словоформы каждого
слова с приписанной им морфологической информацией. В этом случае задача
морфологического анализа состоит в поиске словоформы в словаре и переписывании из
словаря морфологической информации, поэтому можно считать, что в этом методе
отсутствует как таковой морфологический анализ, а хранится только его результат. Так как
количество различных словоформ у каждого слова довольно велико, декларативный метод
требует больших затрат памяти вычислительной системы, что порождает ряд технических
проблем, заключающихся в больших затратах труда на создание и поддержание словаря, в
высокой избыточности информации. Достоинствами метода является высокая скорость
анализа, а также универсальность по отношению к множеству всех возможных словоформ
русского языка.
Процедурный морфологический анализ выполняет следующие функции: выделяет в
текущей словоформе основу, идентифицирует ее и приписывает данной словоформе
соответствующий комплекс морфологической информации. Процедурный метод
предполагает предварительную систематизацию морфологических знаний о естественном
языке и разработку алгоритмов присвоения морфологической информации отдельной
словоформе [5]. Недостатком такого подхода является высокая трудоемкость составления
стоят либо предметные имена, либо слова универсального семантического языка, а дуги соответствуют универсальным отношениям семантического подчинения, таким, как аргументное, атрибутивное, конъюнкция, дизъюнкция, равенство, неравенство, больше, меньше, принадлежит и т.п. Существенным компонентом семантической структуры является информация о кореферентности узлов, т.е. информация о том, в каких случаях речь идет об одном и том же объекте, а в каких - о разных. Лингвистический процессор в целом должен обеспечивать выполнение следующих преобразований: предложение на естественном языке ⇒ морфологическая структура ⇒ синтаксическая структура ⇒ семантическая структура. Реализация лингвистического анализатора требует разработки формальных языков для записи (образов) предложений на морфологическом, синтаксическом, семантическом уровнях представления; формального понятия структуры предложения для каждой из этих уровней; массивов правил для преобразования структур смежных уровней друг в друга; морфологического, синтаксического и семантического словарей, с включением в них всей информации о каждой лексеме, необходимой для осуществления соответствующего преобразования. 1.2. Анализ методов и подходов морфологического анализа Стадия морфологического анализа является наиболее проработанным лингвистическим этапом процесса обработки естественного текста. За последние два десятилетия создано по крайней мере несколько десятков алгоритмов для разных языков, в том числе 10-12 для русского [4, 5, 6]. Цель морфологического анализа заключается в определении морфологической информации словоформ для использования на последующих этапах обработки текста. Существует три основных метода реализации морфологического анализа: декларативный, процедурный и комбинированный. При декларативном методе в словаре хранятся все возможные словоформы каждого слова с приписанной им морфологической информацией. В этом случае задача морфологического анализа состоит в поиске словоформы в словаре и переписывании из словаря морфологической информации, поэтому можно считать, что в этом методе отсутствует как таковой морфологический анализ, а хранится только его результат. Так как количество различных словоформ у каждого слова довольно велико, декларативный метод требует больших затрат памяти вычислительной системы, что порождает ряд технических проблем, заключающихся в больших затратах труда на создание и поддержание словаря, в высокой избыточности информации. Достоинствами метода является высокая скорость анализа, а также универсальность по отношению к множеству всех возможных словоформ русского языка. Процедурный морфологический анализ выполняет следующие функции: выделяет в текущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс морфологической информации. Процедурный метод предполагает предварительную систематизацию морфологических знаний о естественном языке и разработку алгоритмов присвоения морфологической информации отдельной словоформе [5]. Недостатком такого подхода является высокая трудоемкость составления 9
Страницы
- « первая
- ‹ предыдущая
- …
- 7
- 8
- 9
- 10
- 11
- …
- следующая ›
- последняя »