Естественно-языковые системы. Евдокимова И.С. - 66 стр.

UptoLike

Составители: 

66
является высокая скорость анализа, а также универсальность по отношению к множеству
всех возможных словоформ русского языка.
Процедурный МА выполняет следующие функции: выделяет в текущей словоформе
основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс
МИ. Процедурный метод предполагает предварительную систематизацию морфологических
знаний о ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком
такого подхода является высокая трудоемкость составления словарей совместимости. При
этом наличие в русском языке большого числа слов-исключений не позволяет сколько-
нибудь автоматизировать этот процесс. Для проведения анализа словоформы необходимо
наличие словарей «приставка-корень», «кореньсуффикс - флективный класс»,
«флективный классокончание - морфологическая информация».
Работающая система, в которой реализован процедурный морфологический анализ,
занимает значительно меньший объем памяти, но при этом увеличивается время поиска МИ
за счет разбиения словоформы на составляющие и применения процедур совместимости.
Исходя из этого, процедурный метод удобнее применять в системах с относительно
небольшим количеством пользователей, в то время как декларативныйв системах с частым
обращением к лингвистическому анализатору. Другим существенным недостатком
процедурных методов является отсутствие универсальности, т.к. существует большое
количество слов, которые нельзя представить в виде суммы неизменной основы и аффиксов.
В системах реальной степени сложности чаще используется комбинированный вариант
морфологического анализа. При этом используется как словарь словоформ, так и словарь
основ. На первом этапе проводится поиск по словарю словоформ, как при декларативном
методе, и в случае успешного поиска анализ на этом завершается. В противном случае
задействуется словарь основ и процедурный метод анализа.
В комбинированном методе, реализованном фирмой «Интелтек Плюс» словоформа
разделяется на основу и аффикс (окончание и, возможно, суффикс), и словарь содержит
только основы слов вместе со ссылками на соответствующие строки в таблице возможных
аффиксов, причем основа должна оставаться неизменной во всех возможных словоформах
данного слова. За счет использования словаря готовых словоформ обеспечивается
достаточно высокая скорость определения МИ, а за счет справочниковоснова+аффикс” –
качество морфологического анализа.
Лекция 7. Анализ существующих моделей морфологического анализа
В настоящее время выделилось несколько направлений в разработке морфологического
анализа.
Одно из них моделирует классическую схему анализа путем разделения словоформы на
основу и аффиксы (приставку, суффикс, окончание) с последующей проверкой на
совместность окончания с остающейся основой.
К данному направлению относится модель морфологического анализа Г.Г. Белоногова,
в основе которой лежит флективный анализ слов, базирующийся на разбиении лексем (слов)
русского языка на флективные классы (табл. 4).
является высокая скорость анализа, а также универсальность по отношению к множеству
всех возможных словоформ русского языка.
      Процедурный МА выполняет следующие функции: выделяет в текущей словоформе
основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс
МИ. Процедурный метод предполагает предварительную систематизацию морфологических
знаний о ЕЯ и разработку алгоритмов присвоения МИ отдельной словоформе. Недостатком
такого подхода является высокая трудоемкость составления словарей совместимости. При
этом наличие в русском языке большого числа слов-исключений не позволяет сколько-
нибудь автоматизировать этот процесс. Для проведения анализа словоформы необходимо
наличие словарей «приставка-корень», «корень – суффикс - флективный класс»,
«флективный класс – окончание - морфологическая информация».
      Работающая система, в которой реализован процедурный морфологический анализ,
занимает значительно меньший объем памяти, но при этом увеличивается время поиска МИ
за счет разбиения словоформы на составляющие и применения процедур совместимости.
Исходя из этого, процедурный метод удобнее применять в системах с относительно
небольшим количеством пользователей, в то время как декларативный – в системах с частым
обращением к лингвистическому анализатору. Другим существенным недостатком
процедурных методов является отсутствие универсальности, т.к. существует большое
количество слов, которые нельзя представить в виде суммы неизменной основы и аффиксов.
      В системах реальной степени сложности чаще используется комбинированный вариант
морфологического анализа. При этом используется как словарь словоформ, так и словарь
основ. На первом этапе проводится поиск по словарю словоформ, как при декларативном
методе, и в случае успешного поиска анализ на этом завершается. В противном случае
задействуется словарь основ и процедурный метод анализа.
      В комбинированном методе, реализованном фирмой «Интелтек Плюс» словоформа
разделяется на основу и аффикс (окончание и, возможно, суффикс), и словарь содержит
только основы слов вместе со ссылками на соответствующие строки в таблице возможных
аффиксов, причем основа должна оставаться неизменной во всех возможных словоформах
данного слова. За счет использования словаря готовых словоформ обеспечивается
достаточно высокая скорость определения МИ, а за счет справочников “основа+аффикс” –
качество морфологического анализа.

           Лекция 7. Анализ существующих моделей морфологического анализа
     В настоящее время выделилось несколько направлений в разработке морфологического
анализа.
     Одно из них моделирует классическую схему анализа путем разделения словоформы на
основу и аффиксы (приставку, суффикс, окончание) с последующей проверкой на
совместность окончания с остающейся основой.
     К данному направлению относится модель морфологического анализа Г.Г. Белоногова,
в основе которой лежит флективный анализ слов, базирующийся на разбиении лексем (слов)
русского языка на флективные классы (табл. 4).

                                             66