ВУЗ:
Составители:
Рубрика:
19
алгоритмы, в основе которых заложены статистические данные о
сочетаемости и частотности графем .
Экспертиза авторства текста может быть рассмотрена с точки зрения
трех возможных ситуаций:
1. Имеется множество текстов или их фрагментов. Необходимо
установить, скольким авторам принадлежат эти тексты, и определить
конкретное авторство каждого текста. Этот случай анализа называют
множественной неопределенностью.
2. Вторая ситуация – это случай, когда имеется несколько образцов
текстов определенного автора . Задача исследователя – определить, является ли
он и автором некоторого другого текста. Такая ситуация называется
сравнением по образцу .
3. В третьей возможной ситуации имеются образцы текстов нескольких
авторов. Необходимо установить, кто из них является автором спорного текста.
Это так называемая конкуренция образцов.
Поскольку в современной лингвистике авторский стиль понимается как
категория структурно-синтаксическая, то использование количественных
методов анализа оказывается неизбежным . Одно из перспективных
направлений в этой области – теория распознавания образов. В рамках этой
теории стиль описывается как пространство количественно выразимых
параметров. Например, количественное описание получают средняя длина
предложения, количество слов в предложении, количество вложенных
синтаксических структур, количество предложений в абзаце и т.д . Далее
анализируемый текст выражается через вектор, координаты которого задаются
значениями выбранных параметров. Сходство векторов является основанием
для заключения о сходстве стилей.
Существуют и другие методики определения авторства. Могут изучаться
количественные особенности реализации синтаксических структур: с помощью
количественных методов можно проанализировать использование речи героев
и речи автора в тексте, поскольку соотношение чужой речи с авторской также
является стилеобразующим фактором . Такая методика получила название
«формально-пунктуационного» метода структуризации текста.
Синтаксический парсинг – процедура приписывания грамматических
характеристик цепочке слов. Детальность такого описания зависит от целей
синтаксического анализа : например, для выделения терминологического
словосочетания при автоматическом переводе достаточно установить границы
фразы , а для обработки информационного запроса и поиска в базе данных
необходим полный синтаксический анализ с элементами семантической
интерпретации. Применение статистических методов помогает снять
неоднозначность при интерпретации высказывания: предпочтение отдается
наиболее вероятной (т.е. наиболее частотной) грамматической характеристике
фразы .
19 а лгорит м ы, в осн ове которых за лож ен ы ста т истические д а н н ые о сочета ем ост и и ча стот н ости гра ф ем . Э кспертиза а в т орс т в а т е кс т а м ож ет б ыт ь ра ссм отрен а с т очки зрен ия т рех возм ож н ых ситу а ций: 1. И м еется м н ож ест во текст ов или их ф ра гм ен тов. Н еоб ход им о у ст а н овит ь, скольким а вт ора м прин а д леж а т эти т екст ы, и опред елить кон крет н ое а вт орст во ка ж д ого т екст а . Э тот слу ча й а н а лиза н а зыва ют м н ож ест вен н ой н еопред елен н ост ью. 2. Вт ора я сит у а ция – эт о слу ча й, когд а им еет ся н есколько об ра зцов т екст ов опред елен н ого а втора . За д а ча исслед ова теля– опред елит ь, являетсяли он и а втором н екот орого д ру гого т екст а . Та ка я сит у а ция н а зыва ет ся сра вн ен ием по об ра зцу . 3. В трет ьей возм ож н ой сит у а ции им еют сяоб ра зцы т екстов н ескольких а вт оров. Н еоб ход им о у ст а н овит ь, кт о изн их являет сяа вт ором спорн ого т екст а . Э то та к н а зыва ем а якон ку рен цияоб ра зцов. П оскольку в соврем ен н ой лин гвистике а вт орский ст иль пон им а ет сяка к ка т егория стру кт у рн о-син та ксическа я, т о использова н ие количест вен н ых м ет од ов а н а лиза ока зыва ет ся н еизб еж н ым . Од н о из перспект ивн ых н а пра влен ий в этой об ла ст и – теорияра спозн а ва н ияоб ра зов. В ра м ка х этой т еории стиль описыва ет ся ка к прост ра н ст во количест вен н о выра зим ых па ра м етров. Н а прим ер, количест вен н ое описа н ие полу ча ют сред н яя д лин а пред лож ен ия, количест во слов в пред лож ен ии, количест во влож ен н ых син та ксических стру кт у р, количест во пред лож ен ий в а б за це и т .д . Д а лее а н а лизиру ем ый т екст выра ж а ет сячерезвект ор, коорд ин а ты кот орого за д а ют ся зн а чен иям и выб ра н н ых па ра м ет ров. Сход ст во вект оров являет сяосн ова н ием д ляза ключен ияо сход стве ст илей. Су щест ву ют и д ру гие м ет од ики опред елен ияа вторст ва . М огу т изу ча т ься количест вен н ые особ ен н ост и реа лиза ции син т а ксических ст ру кт у р: с пом ощью количест вен н ых м етод ов м ож н о проа н а лизирова т ь использова н ие речи героев и речи а вт ора в т екст е, поскольку соот н ош ен ие чу ж ой речи с а вторской т а кж е являет ся ст илеоб ра зу ющим ф а кт ором . Та ка я м ет од ика полу чила н а зва н ие «ф орм а льн о-пу н кт у а цион н ого» м ет од а ст ру кт у риза ции текст а . Синт а кс иче с кий па рс инг – процед у ра приписыва н ия гра м м а тических ха ра кт еристик цепочке слов. Д ет а льн ост ь т а кого описа н ияза висит от целей син та ксического а н а лиза : н а прим ер, д ля выд елен ия т ерм ин ологического словосочета н ияпри а вт ом а т ическом перевод е д ост а т очн о у ста н овит ь гра н ицы ф ра зы, а д ля об ра б от ки ин ф орм а цион н ого за проса и поиска в б а зе д а н н ых н еоб ход им полн ый син т а ксический а н а лиз с элем ен та м и сем а н т ической ин т ерпрета ции. П рим ен ен ие ст а тистических м ет од ов пом ога ет сн ять н еод н озн а чн ост ь при ин терпрет а ции выска зыва н ия: пред почт ен ие отд а ется н а иб олее вероятн ой (т .е. н а иб олее ча стот н ой) гра м м а тической ха ра кт еристике ф ра зы.
Страницы
- « первая
- ‹ предыдущая
- …
- 17
- 18
- 19
- 20
- 21
- …
- следующая ›
- последняя »