ВУЗ:
Составители:
Рубрика:
17
поисковых образов документов или из самих документов. В ответ на
предъявляемый информационный запрос ИПС выдает некоторое множество
документов (или адреса их хранения), содержащих необходимую пользователю
информацию.
Фактографическая ИПС обеспечивает выдачу непосредственно
фактических сведений, затребованных потребителем в информационном
запросе. Поисковый массив состоит из фактографических записей, т.е. из
описаний фактов, извлеченных из документов и представленных на некотором
формальном языке.
Лингвистический компонент ИПС
При работе информационно-поисковых систем могут возникать ошибки
двух типов. Первый тип связан с ситуацией, когда текст является релевантным
по смыслу , но не является релевантным с формальной точки зрения. В
результате информационно-поисковая система не выдает этот текст
пользователю. Второй тип ошибок связан с тем , что текст обладает формальной
релевантность, не обладая при этом смысловой. В результате возникает так
называемый информационный шум, когда пользователь на выходе получает
множество текстов, не являющихся релевантными по смыслу .
Увеличить эффективность работы ИПС можно за счет детальной обработки
текста документа. Существуют системы, которые для простоты в качестве
поискового образа документа принимают его название, однако оно в силу
разных обстоятельств не всегда формально отражает содержание текста.
Поэтому применяют программы, производящие лингвистическую обработку
текстов на естественном языке с учетом морфологии и синтаксиса . Только с их
помощью можно установить, являются ли слова с похожим написанием
формами одного слова или же это совершенно разные слова, в соответствие
которым поставлены разные семантические единицы.
3. Квантитативная лингвистика
Квантитативная лингвистика – это междисциплинарное прикладное
направление, в котором объектом изучения является язык или речь, а
инструментом анализа – количественные или статистические методы. Когда
говорят , что в исследовании были использованы статистические методы, имеют
в виду, что в ходе исследования были собраны некоторые данные, затем с
помощью статистических приемов их обработали, а затем на основании
полученных числовых данных сделали определенные выводы о свойствах
изучаемого объекта.
Квантитативная лингвистика бурно развивается благодаря тому, что
современные компьютеры позволяют хранить и автоматически обрабатывать
большие массивы текстов.
Количественные данные проливают свет на наши представления о
возможностях функционирования языковой системы. В прикладной
лингвистике с помощью статистических методов могут быть проанализированы
единицы любого уровня языка . Количественные методы применяются чаще
17 поисковых об ра зов д оку м ен т ов или из са м их д оку м ен т ов. В от вет н а пред ъ являем ый ин ф орм а цион н ый за прос И П С выд а ет н екот орое м н ож ест во д оку м ен т ов (или а д реса их хра н ен ия), сод ерж а щих н еоб ход им у ю пользова т елю ин ф орм а цию. Фа кт огра фиче с ка я И П С об еспечива ет выд а чу н епосред ст вен н о ф а кт ических свед ен ий, за треб ова н н ых потреб ит елем в ин ф орм а цион н ом за просе. П оисковый м а ссив состоит из ф а кт огра ф ических за писей, т.е. из описа н ий ф а кт ов, извлечен н ых изд оку м ен тов и пред ст а влен н ых н а н екот ором ф орм а льн ом языке. Л ингв ис т иче с кий ком поне нт И П С П ри ра б от е ин ф орм а цион н о-поисковых сист ем м огу т возн ика т ь ош иб ки д ву х т ипов. П ервый т ип связа н с сит у а цией, когд а т екст являетсярелева н тн ым по см ыслу , н о н е является релева н т н ым с ф орм а льн ой точки зрен ия. В резу льт а т е ин ф орм а цион н о-поискова я систем а н е выд а ет эт от т екст пользова телю. Вт орой т ип ош иб ок связа н с т ем , что т екст об ла д а ет ф орм а льн ой релева н т н ост ь, н е об ла д а япри этом см ысловой. В резу льт а т е возн ика ет т а к н а зыва ем ый ин ф орм а цион н ый ш у м , когд а пользова т ель н а выход е полу ча ет м н ож ест во т екст ов, н е являющихсярелева н т н ым и по см ыслу . У величить эф ф ект ивн ост ь ра б оты И П С м ож н о за счет д ета льн ой об ра б от ки т екст а д оку м ен т а . Су щест ву ют сист ем ы, кот орые д ля простот ы в ка честве поискового об ра за д оку м ен т а прин им а ют его н а зва н ие, од н а ко он о в силу ра зн ых об стоятельст в н е всегд а ф орм а льн о от ра ж а ет сод ерж а н ие текст а . П оэт ом у прим ен яют програ м м ы, производ ящие лин гвистическу ю об ра б от ку т екст ов н а естест вен н ом языке с у чет ом м орф ологии и син т а ксиса . Только с их пом ощью м ож н о у ст а н овит ь, являют ся ли слова с похож им н а писа н ием ф орм а м и од н ого слова или ж е эт о соверш ен н о ра зн ые слова , в соот ветст вие кот орым поста влен ы ра зн ые сем а н т ические ед ин ицы. 3. К в антитатив ная линг в истика К в а нт ит а т ив на я л ингв ис т ика – это м еж д исциплин а рн ое прикла д н ое н а пра влен ие, в кот ором об ъ ектом изу чен ия являет ся язык или речь, а ин стру м ен т ом а н а лиза – количест вен н ые или ст а т ист ические м ет од ы. Когд а говорят, что в исслед ова н ии б ыли использова н ы ста т истические м ет од ы, им еют в вид у , чт о в ход е исслед ова н ия б ыли соб ра н ы н екот орые д а н н ые, за тем с пом ощью ста т истических прием ов их об ра б ота ли, а за т ем н а осн ова н ии полу чен н ых числовых д а н н ых сд ела ли опред елен н ые вывод ы о свойст ва х изу ча ем ого об ъ ект а . Ква н т ита т ивн а я лин гвистика б у рн о ра звива ет ся б ла год а ря т ом у , чт о соврем ен н ые ком пьют еры позволяют хра н ит ь и а втом а тически об ра б а т ыва т ь б ольш ие м а ссивы текст ов. Количест вен н ые д а н н ые пролива ют свет н а н а ш и пред ст а влен ия о возм ож н ост ях ф у н кцион ирова н ия языковой сист ем ы. В прикла д н ой лин гвист ике с пом ощью ст а т истических м етод ов м огу т б ыт ь проа н а лизирова н ы ед ин ицы люб ого у ровн я языка . Количест вен н ые м етод ы прим ен яют ся ча ще
Страницы
- « первая
- ‹ предыдущая
- …
- 15
- 16
- 17
- 18
- 19
- …
- следующая ›
- последняя »