Основы прикладной лингвистики. Шилихина К.М. - 20 стр.

UptoLike

Составители: 

Рубрика: 

20
4. Корпусная лингвистика
Корпусная лингвистика направление лингвистических исследований,
которое занимается созданием и использованием корпусов - компьютерных
коллекций текстов, специально подобранных и подготовленных для научных
исследований. Создание корпусов включает в себя отбор текстов, разработку
средств кодирования и средств поиска внутри базы данных. Подбор текстов
осуществляется на основе четко сформулированных критериев (жанровая
принадлежность текста, время его создания и др.). Поскольку собрать все
тексты языка практически невозможно (исключение составляют лишь мертвые
языки), при отборе текстов необходимо следить за тем , чтобы были равномерно
представлены все стили языка , чтобы в корпус были включены примеры
употребления низкочастотной лексики. Считается, что для национального
корпуса , который достоверно описывает некоторый язык, размер базы данных
должен быть не менее 100 миллионов словоупотреблений. О таком корпусе
принято говорить как о достаточно репрезентативном . Репрезентативность
корпуса одно из важнейших условий его использования. Поскольку от того ,
насколько корпус является репрезентативным , зависит достоверность
результатом исследований, которые проводятся на материале этого корпуса .
В корпус могут включаться тексты самых разных жанров: произведения
художественной литературы , публикации СМИ, деловые документы, записи
диалогов, телевизионных ток-шоу , переписка по электронной почте и т.д.
Такой подбор обеспечивает репрезентативность, т.е. показывает , как на самом
деле функционирует язык в обществе. Иногда оказывается, что языковое
употребление значительно расходится с нормой, представленной в грамматиках
и словарях . Необходимо также отметить, что включение в корпус текстов,
отражающих реальный процесс использования языка в определенных
коммуникативных контекстах, контрастирует с подходом генеративной
лингвистики, где порождение высказываний это результат размышлений
лингвиста об использовании языка , т.е. высказывания порождаются вне
контекста на основе строгих правил.
Включенные в корпус тексты получают морфологическую и
синтаксическую разметку (или аннотацию), которая необходима для того ,
чтобы пользователь мог осуществлять поиск необходимых фрагментов по
заданным параметрам. Разметка это приписывание грамматической
информации о входящих в тексты словоформах. Наличие такой информации
значительно обогащает корпус и облегчает процедуру поиска . Другие
преимущества разметки заключаются в ее эксплицитности (т.е. информация о
грамматических свойствах словоформ дается в явном виде), а также
многофункциональности (аннотированный корпус может быть использован в
различных исследовательских целях ).
Разметка может осуществляться как вручную, так и в автоматическом
режиме. Для того , чтобы аннотирование происходило автоматически,
специалисты по корпусной лингвистике используют специальные программы:
                                             20

                                 4. К орпусная линг в истика

          К орпус на я л ингв ис т ика – н а пра влен ие лин гвистических исслед ова н ий,
кот орое за н им а ет ся созд а н ием и использова н ием корпу сов - ком пьют ерн ых
коллекций т екст ов, специа льн о под об ра н н ых и под гот овлен н ых д лян а у чн ых
исслед ова н ий. Созд а н ие корпу сов включа ет в себ яотб ор т екст ов, ра зра б от ку
сред ст в код ирова н ияи сред ст в поиска вн у т ри б а зы д а н н ых. П од б ор т екст ов
осу щест вляет ся н а осн ове чет ко сф орм у лирова н н ых крит ериев (ж а н рова я
прин а д леж н ост ь т екст а , врем я его созд а н ия и д р.). П оскольку соб ра т ь все
т екст ы языка пра ктически н евозм ож н о (исключен ие сост а вляют лиш ь м ерт вые
языки), при отб оре т екст ов н еоб ход им о след ит ь за т ем , чт об ы б ыли ра вн ом ерн о
пред ста влен ы все ст или языка , чт об ы в корпу с б ыли включен ы прим еры
у пот реб лен ия н изкоча стотн ой лексики. Счит а ется, что д ля н а цион а льн ого
корпу са , кот орый д остоверн о описыва ет н екот орый язык, ра зм ерб а зы д а н н ых
д олж ен б ыт ь н е м ен ее 100 м иллион ов словоу пот реб лен ий. О т а ком корпу се
прин ято говорит ь ка к о д оста т очн о репрезен т а тивн ом . Репрезен та т ивн ост ь
корпу са – од н о изва ж н ейш их у словий его использова н ия. П оскольку от того,
н а сколько корпу с являет ся репрезен т а т ивн ым , за висит д остоверн ост ь
резу льт а т ом исслед ова н ий, которые провод ятсян а м а т ериа ле эт ого корпу са .
          В корпу с м огу т включа т ьсят екст ы са м ых ра зн ых ж а н ров: произвед ен ия
ху д ож ест вен н ой литера т у ры, пу б лика ции СМ И , д еловые д оку м ен т ы, за писи
д иа логов, т елевизион н ых т ок-ш оу , переписка по элект рон н ой почт е и т .д .
Та кой под б ороб еспечива ет репрезен т а тивн ост ь, т .е. пока зыва ет , ка к н а са м ом
д еле ф у н кцион иру ет язык в об ществе. И н огд а ока зыва ет ся, что языковое
у пот реб лен ие зн а чит ельн о ра сход итсяс н орм ой, пред ст а влен н ой в гра м м а тика х
и слова рях. Н еоб ход им о т а кж е отм етит ь, что включен ие в корпу с т екст ов,
от ра ж а ющих реа льн ый процесс использова н ия языка в опред елен н ых
ком м у н ика т ивн ых кон т екст а х, кон т ра стиру ет с под ход ом ген ера т ивн ой
лин гвист ики, гд е порож д ен ие выска зыва н ий – эт о резу льт а т ра зм ыш лен ий
лин гвист а об использова н ии языка , т .е. выска зыва н ия порож д а ются вн е
кон т екст а н а осн ове строгих пра вил.
          Включен н ые в корпу с т ексты полу ча ют м орф ологическу ю и
син та ксическу ю ра зм е т ку (или а н н ота цию), котора я н еоб ход им а д ля того,
чт об ы пользова т ель м ог осу щест влять поиск н еоб ход им ых ф ра гм ен тов по
за д а н н ым па ра м етра м . Ра зм ет ка – эт о приписыва н ие гра м м а т ической
ин ф орм а ции о вход ящих в т екст ы словоф орм а х. Н а личие т а кой ин ф орм а ции
зн а чит ельн о об ога ща ет корпу с и об легча ет процед у ру поиска . Д ру гие
преим у щест ва ра зм ет ки за ключа ют сяв ее эксплицитн ост и (т .е. ин ф орм а цияо
гра м м а т ических свойст ва х словоф орм д а ет ся в явн ом вид е), а т а кж е
м н огоф у н кцион а льн ости (а н н отирова н н ый корпу с м ож ет б ыт ь использова н в
ра зличн ых исслед ова т ельских целях).
          Ра зм ет ка м ож ет осу щест влятьсяка к вру чн у ю, т а к и в а вт ом а тическом
реж им е. Д ля того, чт об ы а н н отирова н ие происход ило а втом а тически,
специа лист ы по корпу сн ой лин гвист ике использу ют специа льн ые програ м м ы: