Основы прикладной лингвистики. Шилихина К.М. - 19 стр.

UptoLike

Составители: 

Рубрика: 

19
алгоритмы, в основе которых заложены статистические данные о
сочетаемости и частотности графем .
Экспертиза авторства текста может быть рассмотрена с точки зрения
трех возможных ситуаций:
1. Имеется множество текстов или их фрагментов. Необходимо
установить, скольким авторам принадлежат эти тексты, и определить
конкретное авторство каждого текста. Этот случай анализа называют
множественной неопределенностью.
2. Вторая ситуация это случай, когда имеется несколько образцов
текстов определенного автора . Задача исследователя определить, является ли
он и автором некоторого другого текста. Такая ситуация называется
сравнением по образцу .
3. В третьей возможной ситуации имеются образцы текстов нескольких
авторов. Необходимо установить, кто из них является автором спорного текста.
Это так называемая конкуренция образцов.
Поскольку в современной лингвистике авторский стиль понимается как
категория структурно-синтаксическая, то использование количественных
методов анализа оказывается неизбежным . Одно из перспективных
направлений в этой области теория распознавания образов. В рамках этой
теории стиль описывается как пространство количественно выразимых
параметров. Например, количественное описание получают средняя длина
предложения, количество слов в предложении, количество вложенных
синтаксических структур, количество предложений в абзаце и т.д . Далее
анализируемый текст выражается через вектор, координаты которого задаются
значениями выбранных параметров. Сходство векторов является основанием
для заключения о сходстве стилей.
Существуют и другие методики определения авторства. Могут изучаться
количественные особенности реализации синтаксических структур: с помощью
количественных методов можно проанализировать использование речи героев
и речи автора в тексте, поскольку соотношение чужой речи с авторской также
является стилеобразующим фактором . Такая методика получила название
«формально-пунктуационного» метода структуризации текста.
Синтаксический парсинг процедура приписывания грамматических
характеристик цепочке слов. Детальность такого описания зависит от целей
синтаксического анализа : например, для выделения терминологического
словосочетания при автоматическом переводе достаточно установить границы
фразы , а для обработки информационного запроса и поиска в базе данных
необходим полный синтаксический анализ с элементами семантической
интерпретации. Применение статистических методов помогает снять
неоднозначность при интерпретации высказывания: предпочтение отдается
наиболее вероятной (т.е. наиболее частотной) грамматической характеристике
фразы .
                                             19
а лгорит м ы,      в      осн ове     которых за лож ен ы ста т истические д а н н ые о
сочета ем ост и и ча стот н ости гра ф ем .
         Э кспертиза а в т орс т в а т е кс т а м ож ет б ыт ь ра ссм отрен а с т очки зрен ия
т рех возм ож н ых ситу а ций:
         1. И м еется м н ож ест во текст ов или их ф ра гм ен тов. Н еоб ход им о
у ст а н овит ь, скольким а вт ора м прин а д леж а т эти т екст ы, и опред елить
кон крет н ое а вт орст во ка ж д ого т екст а . Э тот слу ча й а н а лиза н а зыва ют
м н ож ест вен н ой н еопред елен н ост ью.
         2. Вт ора я сит у а ция – эт о слу ча й, когд а им еет ся н есколько об ра зцов
т екст ов опред елен н ого а втора . За д а ча исслед ова теля– опред елит ь, являетсяли
он и а втором н екот орого д ру гого т екст а . Та ка я сит у а ция н а зыва ет ся
сра вн ен ием по об ра зцу .
         3. В трет ьей возм ож н ой сит у а ции им еют сяоб ра зцы т екстов н ескольких
а вт оров. Н еоб ход им о у ст а н овит ь, кт о изн их являет сяа вт ором спорн ого т екст а .
Э то та к н а зыва ем а якон ку рен цияоб ра зцов.
         П оскольку в соврем ен н ой лин гвистике а вт орский ст иль пон им а ет сяка к
ка т егория стру кт у рн о-син та ксическа я, т о использова н ие количест вен н ых
м ет од ов а н а лиза ока зыва ет ся н еизб еж н ым . Од н о из перспект ивн ых
н а пра влен ий в этой об ла ст и – теорияра спозн а ва н ияоб ра зов. В ра м ка х этой
т еории стиль описыва ет ся ка к прост ра н ст во количест вен н о выра зим ых
па ра м етров. Н а прим ер, количест вен н ое описа н ие полу ча ют сред н яя д лин а
пред лож ен ия, количест во слов в пред лож ен ии, количест во влож ен н ых
син та ксических стру кт у р, количест во пред лож ен ий в а б за це и т .д . Д а лее
а н а лизиру ем ый т екст выра ж а ет сячерезвект ор, коорд ин а ты кот орого за д а ют ся
зн а чен иям и выб ра н н ых па ра м ет ров. Сход ст во вект оров являет сяосн ова н ием
д ляза ключен ияо сход стве ст илей.
         Су щест ву ют и д ру гие м ет од ики опред елен ияа вторст ва . М огу т изу ча т ься
количест вен н ые особ ен н ост и реа лиза ции син т а ксических ст ру кт у р: с пом ощью
количест вен н ых м етод ов м ож н о проа н а лизирова т ь использова н ие речи героев
и речи а вт ора в т екст е, поскольку соот н ош ен ие чу ж ой речи с а вторской т а кж е
являет ся ст илеоб ра зу ющим ф а кт ором . Та ка я м ет од ика полу чила н а зва н ие
«ф орм а льн о-пу н кт у а цион н ого» м ет од а ст ру кт у риза ции текст а .
         Синт а кс иче с кий па рс инг – процед у ра приписыва н ия гра м м а тических
ха ра кт еристик цепочке слов. Д ет а льн ост ь т а кого описа н ияза висит от целей
син та ксического а н а лиза : н а прим ер, д ля выд елен ия т ерм ин ологического
словосочета н ияпри а вт ом а т ическом перевод е д ост а т очн о у ста н овит ь гра н ицы
ф ра зы, а д ля об ра б от ки ин ф орм а цион н ого за проса и поиска в б а зе д а н н ых
н еоб ход им полн ый син т а ксический а н а лиз с элем ен та м и сем а н т ической
ин т ерпрета ции. П рим ен ен ие ст а тистических м ет од ов пом ога ет сн ять
н еод н озн а чн ост ь при ин терпрет а ции выска зыва н ия: пред почт ен ие отд а ется
н а иб олее вероятн ой (т .е. н а иб олее ча стот н ой) гра м м а тической ха ра кт еристике
ф ра зы.