Основы прикладной лингвистики. Шилихина К.М. - 17 стр.

UptoLike

Составители: 

Рубрика: 

17
поисковых образов документов или из самих документов. В ответ на
предъявляемый информационный запрос ИПС выдает некоторое множество
документов (или адреса их хранения), содержащих необходимую пользователю
информацию.
Фактографическая ИПС обеспечивает выдачу непосредственно
фактических сведений, затребованных потребителем в информационном
запросе. Поисковый массив состоит из фактографических записей, т.е. из
описаний фактов, извлеченных из документов и представленных на некотором
формальном языке.
Лингвистический компонент ИПС
При работе информационно-поисковых систем могут возникать ошибки
двух типов. Первый тип связан с ситуацией, когда текст является релевантным
по смыслу , но не является релевантным с формальной точки зрения. В
результате информационно-поисковая система не выдает этот текст
пользователю. Второй тип ошибок связан с тем , что текст обладает формальной
релевантность, не обладая при этом смысловой. В результате возникает так
называемый информационный шум, когда пользователь на выходе получает
множество текстов, не являющихся релевантными по смыслу .
Увеличить эффективность работы ИПС можно за счет детальной обработки
текста документа. Существуют системы, которые для простоты в качестве
поискового образа документа принимают его название, однако оно в силу
разных обстоятельств не всегда формально отражает содержание текста.
Поэтому применяют программы, производящие лингвистическую обработку
текстов на естественном языке с учетом морфологии и синтаксиса . Только с их
помощью можно установить, являются ли слова с похожим написанием
формами одного слова или же это совершенно разные слова, в соответствие
которым поставлены разные семантические единицы.
3. Квантитативная лингвистика
Квантитативная лингвистика это междисциплинарное прикладное
направление, в котором объектом изучения является язык или речь, а
инструментом анализа количественные или статистические методы. Когда
говорят , что в исследовании были использованы статистические методы, имеют
в виду, что в ходе исследования были собраны некоторые данные, затем с
помощью статистических приемов их обработали, а затем на основании
полученных числовых данных сделали определенные выводы о свойствах
изучаемого объекта.
Квантитативная лингвистика бурно развивается благодаря тому, что
современные компьютеры позволяют хранить и автоматически обрабатывать
большие массивы текстов.
Количественные данные проливают свет на наши представления о
возможностях функционирования языковой системы. В прикладной
лингвистике с помощью статистических методов могут быть проанализированы
единицы любого уровня языка . Количественные методы применяются чаще
                                             17
поисковых об ра зов д оку м ен т ов или из са м их д оку м ен т ов. В от вет н а
пред ъ являем ый ин ф орм а цион н ый за прос И П С выд а ет н екот орое м н ож ест во
д оку м ен т ов (или а д реса их хра н ен ия), сод ерж а щих н еоб ход им у ю пользова т елю
ин ф орм а цию.
        Фа кт огра фиче с ка я     И П С об еспечива ет выд а чу           н епосред ст вен н о
ф а кт ических свед ен ий, за треб ова н н ых потреб ит елем в ин ф орм а цион н ом
за просе. П оисковый м а ссив состоит из ф а кт огра ф ических за писей, т.е. из
описа н ий ф а кт ов, извлечен н ых изд оку м ен тов и пред ст а влен н ых н а н екот ором
ф орм а льн ом языке.
        Л ингв ис т иче с кий ком поне нт И П С
        П ри ра б от е ин ф орм а цион н о-поисковых сист ем м огу т возн ика т ь ош иб ки
д ву х т ипов. П ервый т ип связа н с сит у а цией, когд а т екст являетсярелева н тн ым
по см ыслу , н о н е является релева н т н ым с ф орм а льн ой точки зрен ия. В
резу льт а т е ин ф орм а цион н о-поискова я систем а н е выд а ет эт от т екст
пользова телю. Вт орой т ип ош иб ок связа н с т ем , что т екст об ла д а ет ф орм а льн ой
релева н т н ост ь, н е об ла д а япри этом см ысловой. В резу льт а т е возн ика ет т а к
н а зыва ем ый ин ф орм а цион н ый ш у м , когд а пользова т ель н а выход е полу ча ет
м н ож ест во т екст ов, н е являющихсярелева н т н ым и по см ыслу .
     У величить эф ф ект ивн ост ь ра б оты И П С м ож н о за счет д ета льн ой об ра б от ки
т екст а д оку м ен т а . Су щест ву ют сист ем ы, кот орые д ля простот ы в ка честве
поискового об ра за д оку м ен т а прин им а ют его н а зва н ие, од н а ко он о в силу
ра зн ых об стоятельст в н е всегд а ф орм а льн о от ра ж а ет сод ерж а н ие текст а .
П оэт ом у прим ен яют програ м м ы, производ ящие лин гвистическу ю об ра б от ку
т екст ов н а естест вен н ом языке с у чет ом м орф ологии и син т а ксиса . Только с их
пом ощью м ож н о у ст а н овит ь, являют ся ли слова с похож им н а писа н ием
ф орм а м и од н ого слова или ж е эт о соверш ен н о ра зн ые слова , в соот ветст вие
кот орым поста влен ы ра зн ые сем а н т ические ед ин ицы.

                              3. К в антитатив ная линг в истика

        К в а нт ит а т ив на я л ингв ис т ика – это м еж д исциплин а рн ое прикла д н ое
н а пра влен ие, в кот ором об ъ ектом изу чен ия являет ся язык или речь, а
ин стру м ен т ом а н а лиза – количест вен н ые или ст а т ист ические м ет од ы. Когд а
говорят, что в исслед ова н ии б ыли использова н ы ста т истические м ет од ы, им еют
в вид у , чт о в ход е исслед ова н ия б ыли соб ра н ы н екот орые д а н н ые, за тем с
пом ощью ста т истических прием ов их об ра б ота ли, а за т ем н а осн ова н ии
полу чен н ых числовых д а н н ых сд ела ли опред елен н ые вывод ы о свойст ва х
изу ча ем ого об ъ ект а .
        Ква н т ита т ивн а я лин гвистика б у рн о ра звива ет ся б ла год а ря т ом у , чт о
соврем ен н ые ком пьют еры позволяют хра н ит ь и а втом а тически об ра б а т ыва т ь
б ольш ие м а ссивы текст ов.
        Количест вен н ые д а н н ые пролива ют свет н а н а ш и пред ст а влен ия о
возм ож н ост ях ф у н кцион ирова н ия языковой сист ем ы. В прикла д н ой
лин гвист ике с пом ощью ст а т истических м етод ов м огу т б ыт ь проа н а лизирова н ы
ед ин ицы люб ого у ровн я языка . Количест вен н ые м етод ы прим ен яют ся ча ще