ВУЗ:
Составители:
Рубрика:
21
лемматизаторы (т.е. программы, функция которых – приведение
словоформы к начальной форме), программы, расставляющие указатели частей
речи (part-of-speech taggers) и др.
Если в корпус включены тексты только на одном языке, то это
одноязычный корпус. Существуют также многоязычные корпуса , которые
объединяют несколько одноязычных корпусов с приблизительно одинаковой
выборкой текстов и репрезентативностью. Также разрабатываются корпуса
параллельных текстов: в них включаются тексты с их переводами на другой
язык (или языки).
Корпусная лингвистика занимается не только созданием , но и
использованием корпусов в исследовательских целях . Корпусы текстов
становятся незаменимым инструментом современных лингвистических
исследований – с их помощью можно узнать, как функционирует язык в
обществе, как часто носители языка прибегают к определенным типам
дискурса , какие изменения происходят в языке.
К корпусам текстов обращаются также программисты, занимающиеся
разработкой систем автоматической обработки текстов. Для них корпус служит
своеобразным «полигоном», на котором проверяется эффективность работы
компьютерных программ.
Современные корпуса текстов
Одним из самых авторитетных корпусов сегодня считается British
National Corpus (http://www.natcorp.ox.ac.uk/). Этот корпус был создан в 1990-х
годах. Правила разметки, которые использовались при его создании, приняли
за образец еще более ста появившихся позднее систем . Появление корпуса
стимулировало развитие англоязычной лексикографии: данными корпуса
пользуются при составлении наиболее авторитетных англоязычных словарей.
Среди корпусов славянских языков выделяется Чешский национальный корпус
(http://ucnk.ff.cuni.cz/), который содержит коллекцию текстов на чешском
литературном языке разных периодов.
Корпусная лингвистика в России развивается с некоторым отставанием .
Первые электронные корпуса русского языка начали появляться не в России, а
в Европе. Самым известным из таких корпусов является Упсальский корпус
русского языка , созданный в Швеции. Сегодня этот корпус хранится на сервере
Тюбингенского университета в Германии.
Национальный корпус русского языка (http://www.ruscorpora.ru/) создан
недавно и находится в стадии разработки. На сегодняшний день в корпусе
используется четыре типа разметки: метатекстовая, морфологическая,
акцентная и семантическая. Поиск можно осуществлять как во всем массиве
текстов, так и в текстах, отобранных по определенному критерию (жанр, автор,
время написания и др.). Также в составе корпуса представлен подкорпус
параллельных текстов.
21 лем м а т иза торы (т .е. програ м м ы, ф у н кция кот орых – привед ен ие словоф орм ы к н а ча льн ой ф орм е), програ м м ы, ра сст а вляющие у ка за т ели ча стей речи (part-of-speech taggers) и д р. Е сли в корпу с включен ы текст ы т олько н а од н ом языке, то эт о од н оязычн ый корпу с. Су щест ву ют т а кж е м н огоязычн ые корпу са , кот орые об ъ ед ин яют н есколько од н оязычн ых корпу сов с приб лизит ельн о од ин а ковой выб оркой т екст ов и репрезен т а тивн остью. Та кж е ра зра б а т ыва ют ся корпу са па ра ллельн ых т екстов: в н их включа ютсят екст ы с их перевод а м и н а д ру гой язык (или языки). Корпу сн а я лин гвист ика за н им а ет ся н е т олько созд а н ием , н о и использова н ием корпу сов в исслед ова т ельских целях. Корпу сы т екст ов ст а н овятся н еза м ен им ым ин ст ру м ен т ом соврем ен н ых лин гвист ических исслед ова н ий – с их пом ощью м ож н о у зн а ть, ка к ф у н кцион иру ет язык в об щест ве, ка к ча ст о н осит ели языка приб ега ют к опред елен н ым т ипа м д иску рса , ка кие изм ен ен ияпроисход ят в языке. К корпу са м т екст ов об ра ща ют ся та кж е програ м м исты, за н им а ющиеся ра зра б от кой сист ем а вт ом а тической об ра б от ки т екст ов. Д лян их корпу с слу ж ит своеоб ра зн ым «полигон ом », н а кот ором проверяет ся эф ф ект ивн ост ь ра б оты ком пьют ерн ых програ м м . Сов ре м е нные корпус а т е кс т ов Од н им из са м ых а вт орит ет н ых корпу сов сегод н я счит а ет ся British National Corpus (http://www.natcorp.ox.ac.uk/). Э тот корпу с б ыл созд а н в 1990-х год а х. П ра вила ра зм ет ки, которые использова лись при его созд а н ии, прин яли за об ра зец еще б олее ста появивш ихся позд н ее систем . П оявлен ие корпу са ст им у лирова ло ра звит ие а н глоязычн ой лексикогра ф ии: д а н н ым и корпу са пользу ют сяпри сост а влен ии н а иб олее а вт оритет н ых а н глоязычн ых слова рей. Сред и корпу сов сла вян ских языков выд еляет сяЧ еш ский н а цион а льн ый корпу с (http://ucnk.ff.cuni.cz/), кот орый сод ерж ит коллекцию т екст ов н а чеш ском литера т у рн ом языке ра зн ых период ов . Корпу сн а ялин гвист ика в России ра звива ет сяс н екоторым от ст а ва н ием . П ервые элект рон н ые корпу са ру сского языка н а ча ли появлятьсян е в России, а в Е вропе. Са м ым извест н ым из т а ких корпу сов являет сяУ пса льский корпу с ру сского языка , созд а н н ый в Ш веции. Сегод н яэт от корпу с хра н ит сян а сервере Тюб ин ген ского у н иверситет а в Г ерм а н ии. Н а цион а льн ый корпу с ру сского языка (http://www.ruscorpora.ru/) созд а н н ед а вн о и н а ход ится в ст а д ии ра зра б от ки. Н а сегод н яш н ий д ен ь в корпу се использу ет ся чет ыре типа ра зм етки: м ет а т екст ова я, м орф ологическа я, а кцен тн а яи сем а н тическа я. П оиск м ож н о осу щест влять ка к во всем м а ссиве т екст ов, т а к и в т екст а х, отоб ра н н ых по опред елен н ом у крит ерию (ж а н р, а втор, врем я н а писа н ия и д р.). Та кж е в сост а ве корпу са пред ст а влен под корпу с па ра ллельн ых т екст ов.
Страницы
- « первая
- ‹ предыдущая
- …
- 19
- 20
- 21
- 22
- 23
- …
- следующая ›
- последняя »