ВУЗ:
Составители:
Рубрика:
66
является высокая скорость анализа, а также универсальность по отношению к множеству
всех возможных словоформ русского языка.
Процедурный МА выполняет следующие функции: выделяет в текущей словоформе
основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс
МИ. Процедурный метод предполагает предварительную систематизацию морфологических
знаний о ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком
такого подхода является высокая трудоемкость составления словарей совместимости. При
этом наличие в русском языке большого числа слов-исключений не позволяет сколько-
нибудь автоматизировать этот процесс. Для проведения анализа словоформы необходимо
наличие словарей «приставка-корень», «корень – суффикс - флективный класс»,
«флективный класс – окончание - морфологическая информация».
Работающая система, в которой реализован процедурный морфологический анализ,
занимает значительно меньший объем памяти, но при этом увеличивается время поиска МИ
за счет разбиения словоформы на составляющие и применения процедур совместимости.
Исходя из этого, процедурный метод удобнее применять в системах с относительно
небольшим количеством пользователей, в то время как декларативный – в системах с частым
обращением к лингвистическому анализатору. Другим существенным недостатком
процедурных методов является отсутствие универсальности, т.к. существует большое
количество слов, которые нельзя представить в виде суммы неизменной основы и аффиксов.
В системах реальной степени сложности чаще используется комбинированный вариант
морфологического анализа. При этом используется как словарь словоформ, так и словарь
основ. На первом этапе проводится поиск по словарю словоформ, как при декларативном
методе, и в случае успешного поиска анализ на этом завершается. В противном случае
задействуется словарь основ и процедурный метод анализа.
В комбинированном методе, реализованном фирмой «Интелтек Плюс» словоформа
разделяется на основу и аффикс (окончание и, возможно, суффикс), и словарь содержит
только основы слов вместе со ссылками на соответствующие строки в таблице возможных
аффиксов, причем основа должна оставаться неизменной во всех возможных словоформах
данного слова. За счет использования словаря готовых словоформ обеспечивается
достаточно высокая скорость определения МИ, а за счет справочников “основа+аффикс” –
качество морфологического анализа.
Лекция 7. Анализ существующих моделей морфологического анализа
В настоящее время выделилось несколько направлений в разработке морфологического
анализа.
Одно из них моделирует классическую схему анализа путем разделения словоформы на
основу и аффиксы (приставку, суффикс, окончание) с последующей проверкой на
совместность окончания с остающейся основой.
К данному направлению относится модель морфологического анализа Г.Г. Белоногова,
в основе которой лежит флективный анализ слов, базирующийся на разбиении лексем (слов)
русского языка на флективные классы (табл. 4).
является высокая скорость анализа, а также универсальность по отношению к множеству всех возможных словоформ русского языка. Процедурный МА выполняет следующие функции: выделяет в текущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс МИ. Процедурный метод предполагает предварительную систематизацию морфологических знаний о ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком такого подхода является высокая трудоемкость составления словарей совместимости. При этом наличие в русском языке большого числа слов-исключений не позволяет сколько- нибудь автоматизировать этот процесс. Для проведения анализа словоформы необходимо наличие словарей «приставка-корень», «корень – суффикс - флективный класс», «флективный класс – окончание - морфологическая информация». Работающая система, в которой реализован процедурный морфологический анализ, занимает значительно меньший объем памяти, но при этом увеличивается время поиска МИ за счет разбиения словоформы на составляющие и применения процедур совместимости. Исходя из этого, процедурный метод удобнее применять в системах с относительно небольшим количеством пользователей, в то время как декларативный – в системах с частым обращением к лингвистическому анализатору. Другим существенным недостатком процедурных методов является отсутствие универсальности, т.к. существует большое количество слов, которые нельзя представить в виде суммы неизменной основы и аффиксов. В системах реальной степени сложности чаще используется комбинированный вариант морфологического анализа. При этом используется как словарь словоформ, так и словарь основ. На первом этапе проводится поиск по словарю словоформ, как при декларативном методе, и в случае успешного поиска анализ на этом завершается. В противном случае задействуется словарь основ и процедурный метод анализа. В комбинированном методе, реализованном фирмой «Интелтек Плюс» словоформа разделяется на основу и аффикс (окончание и, возможно, суффикс), и словарь содержит только основы слов вместе со ссылками на соответствующие строки в таблице возможных аффиксов, причем основа должна оставаться неизменной во всех возможных словоформах данного слова. За счет использования словаря готовых словоформ обеспечивается достаточно высокая скорость определения МИ, а за счет справочников “основа+аффикс” – качество морфологического анализа. Лекция 7. Анализ существующих моделей морфологического анализа В настоящее время выделилось несколько направлений в разработке морфологического анализа. Одно из них моделирует классическую схему анализа путем разделения словоформы на основу и аффиксы (приставку, суффикс, окончание) с последующей проверкой на совместность окончания с остающейся основой. К данному направлению относится модель морфологического анализа Г.Г. Белоногова, в основе которой лежит флективный анализ слов, базирующийся на разбиении лексем (слов) русского языка на флективные классы (табл. 4). 66
Страницы
- « первая
- ‹ предыдущая
- …
- 64
- 65
- 66
- 67
- 68
- …
- следующая ›
- последняя »