Основы прикладной лингвистики. Шилихина К.М. - 18 стр.

UptoLike

Составители: 

Рубрика: 

18
всего в лексикологии при изучении количественного состава словаря,
процессов словообразования. Информация о частотности употребления того
или иного слова либо словосочетания может оказаться полезной, например, при
изучении иностранного языка , когда встает вопрос, какую именно лексику
должен знать коммуникант для успешного общения.
Основным объектом применения количественных методов является текст .
Количественные показатели дают нам определенную информацию о самих
текстах. Например, существует такое направление исследований, как
статистическая стилистика . Это направление основано на утверждении, что
различия между языковыми жанрами и стилями носят преимущественно
статистический характер.
С помощью статистических методов исследования можно получить
данные о частотности употребления лексических единиц. Такая информация
необходима, во-первых, для создания так называемых «малых» двуязычных
словарей, которые предназначены для тех, кто только начал изучать
иностранный язык для того , чтобы говорить на иностранном языке надо в
первую очередь усвоить наиболее употребительные, т.е. частотные, слова. Во -
вторых, данные о частоте использования слов могут оказать влияние на выбор
говорящего в ситуации, когда из ряда синонимов необходимо выбрать одно
слово.
Статистические методы анализа текста также используются для решения
других задач: дешифровки текста, авторизации текста, для синтаксического
парсинга , при проведении контент-анализа (о контент-анализе см . стр.41).
Помимо этого , статистические данные используются в системах
автоматического перевода, в информационно-поисковых системах.
Кратко рассмотрим некоторые возможности применения статистических
методов в лингвистических исследованиях .
Дешифровка это исследование сообщений или текстов для обнаружения
информации, причем эта информация представлена способом, не известным
исследователю. При дешифровке исследователь может столкнуться со
следующими ситуациями:
1. Неизвестна только письменность, но язык известен . Решение этой
задачи это установление правил чтения забытых знаков.
2. Неизвестен только язык, но письменность известна. В качестве
иллюстрации этой ситуации может выступать код . Решение такой задачи
предполагает установление значения единиц языка , звучание которых известно.
Такая ситуация называется интерпретацией.
3. Неизвестный язык записан неизвестным письмом. Аналогом здесь
выступает зашифрованный код . Решение такой задачи, т.е. установление и
звучания, и значения единиц называется раскрытием .
При дешифровке используются структурные методы, которые позволяют
исследовать тексты на основе их формы, без привлечения значения. В основе
структурного анализа лежит убеждение в том, основную информацию о языке
можно получить непосредственно из текста (как письменного , так и устного ),
если изучить все встречающиеся в нем сочетания единиц. Разрабатываются
                                                 18
всего в лексикологии при изу чен ии количест вен н ого сост а ва                            слова ря,
процессов словооб ра зова н ия. И н ф орм а ция о ча стот н ости у пот реб лен ия т ого
или ин ого слова либ о словосочет а н иям ож ет ока за т ьсяполезн ой, н а прим ер, при
изу чен ии ин остра н н ого языка , когд а вста ет вопрос, ка ку ю им ен н о лексику
д олж ен зн а т ь ком м у н ика н т д ляу спеш н ого об щен ия.
         Осн овн ым об ъ ект ом прим ен ен ияколичест вен н ых м етод ов являет сят екст.
Количествен н ые пока за т ели д а ют н а м опред елен н у ю ин ф орм а цию о са м их
т екст а х. Н а прим ер, су щест ву ет т а кое н а пра влен ие исслед ова н ий, ка к
с т а т ис т иче с ка я с т ил ис т ика . Э т о н а пра влен ие осн ова н о н а у т верж д ен ии, чт о
ра зличия м еж д у языковым и ж а н ра м и и стилям и н осят преим у щест вен н о
ст а т истический ха ра кт ер.
         С пом ощью ста т ист ических м ет од ов исслед ова н ия м ож н о полу чит ь
д а н н ые о ча стотн ост и у пот реб лен иялексических ед ин иц. Та ка яин ф орм а ция
н еоб ход им а , во-первых, д ля созд а н ия т а к н а зыва ем ых «м а лых» д ву язычн ых
слова рей, которые пред н а зн а чен ы д ля т ех, кт о только н а ча л изу ча т ь
ин остра н н ый язык – д лят ого, чтоб ы говорит ь н а ин остра н н ом языке н а д о в
перву ю очеред ь у своит ь н а иб олее у пот реб ит ельн ые, т.е. ча ст от н ые, слова . Во-
вт орых, д а н н ые о ча ст от е использова н ияслов м огу т ока за т ь влиян ие н а выб ор
говорящего в сит у а ции, когд а из ряд а син он им ов н еоб ход им о выб ра т ь од н о
слово.
         Ст а т истические м етод ы а н а лиза т екст а т а кж е использу ют сяд ляреш ен ия
д ру гих за д а ч: д еш иф ровки т екст а , а вториза ции т екст а , д ля син т а ксического
па рсин га , при провед ен ии кон тен т -а н а лиза (о кон т ен т -а н а лизе см . стр.41).
П ом им о этого, ст а тист ические д а н н ые использу ют ся в систем а х
а вт ом а тического перевод а , в ин ф орм а цион н о-поисковых сист ем а х.
         Кра т ко ра ссм отрим н екот орые возм ож н ости прим ен ен ияст а т истических
м ет од ов в лин гвистических исслед ова н иях.
         Де шифров ка – это исслед ова н ие сооб щен ий или т екст ов д ляоб н а ру ж ен ия
ин ф орм а ции, причем эт а ин ф орм а цияпред ста влен а способ ом , н е извест н ым
исслед ова телю. П ри д еш иф ровке исслед ова тель м ож ет ст олкн у т ься со
след у ющим и сит у а циям и:
         1. Н еизвестн а т олько письм ен н ост ь, н о язык извест ен . Реш ен ие эт ой
за д а чи – это у ст а н овлен ие пра вил чт ен ияза б ытых зн а ков.
         2. Н еизвест ен т олько язык, н о письм ен н ост ь извест н а . В ка чест ве
иллюстра ции эт ой сит у а ции м ож ет выст у па т ь код . Реш ен ие т а кой за д а чи
пред пола га ет у ст а н овлен ие зн а чен ияед ин иц языка , зву ча н ие кот орых известн о.
Та ка ясит у а циян а зыва ет сяин терпрет а цией.
         3. Н еизвестн ый язык за писа н н еизвест н ым письм ом . А н а логом зд есь
выст у па ет за ш иф рова н н ый код . Реш ен ие та кой за д а чи, т .е. у ст а н овлен ие и
зву ча н ия, и зн а чен ияед ин иц н а зыва ет сяра скрыт ием .
         П ри д еш иф ровке использу ют сяст ру кт у рн ые м ет од ы, кот орые позволяют
исслед ова т ь т екст ы н а осн ове их ф орм ы, б ез привлечен иязн а чен ия. В осн ове
ст ру кт у рн ого а н а лиза леж ит у б еж д ен ие в т ом , осн овн у ю ин ф орм а цию о языке
м ож н о полу чит ь н епосред ст вен н о из текст а (ка к письм ен н ого, та к и у ст н ого),
если изу чит ь все вст реча ющиеся в н ем сочет а н ия ед ин иц. Ра зра б а т ыва ют ся