Основы прикладной лингвистики. Шилихина К.М. - 13 стр.

UptoLike

Составители: 

Рубрика: 

13
одним знаком письменного текста нельзя пренебрегать, поскольку эти
знаки являются носителями важной смысловой информации.
Технологии распознавания текстов базируются на статистических данных
о частоте употребления графем , а также на данных о возможных правилах
сочетаемости графем в конкретном языке и о частотности определенных
буквосочетаний. Данные о графематическом составе языка используются в
программах оптического распознавания символов (OCR - Optical Character
Recognition), которые позволяют при помощи сканера перенести в электронный
вид текст с бумаги . На сегодняшний день наиболее популярный пакет
программ для распознавания образов это FineReader.
Анализ текстов на естественном языке является необходимым этапом
работы систем машинного перевода, а также информационно-поисковых
систем . Чтобы проводить анализ текста автоматически, необходимо ответить на
вопрос, существуют ли строгие формальные правила , по которым строится
структура предложения и структура текста.
В результате проведенных исследований стало ясно, что за каждым
текстом (в том числе и за отдельным предложением , являющимся своего рода
мини-текстом ) скрывается не одна, а несколько формальных структур, которые
можно разделить на три уровня. Первый уровень - это поверхностная
синтаксическая структура . В этой структуре каждое предложение текста
рассматривается изолированно от других и для каждого проводится что-то
вроде разбора предложения по составу . Выделяются подлежащее и сказуемое,
определения, дополнения и обстоятельства разного вида. Но этой структуры
для анализа оказывается мало. Следующий шаг - построение глубинной
синтаксической структуры . Идея существования глубинной синтаксической
структуры связана с пониманием того , что различные естественные языки,
отличаясь друг от друга многими внешними синтаксическими особенностями,
передают весь спектр взаимосвязей между объектами, явлениями, их
свойствами и протекающими с их участием процессами, характерными для
окружающего мира . И этот мир един , каким бы языком мы его ни описывали.
Следовательно, в каждом тексте существуют не зависящие от особенностей
языка некие глубинные структуры , которые определяют адекватное
отображение той или иной ситуации в окружающем мире .
С этой идеей тесно связано использование так называемых глубинных
падежей, или падежей Ч . Филлмора , названных по имени американского
исследователя, впервые введшего их в научный оборот. Рассмотрим две фразы :
"Мальчик сорвал цветок" и "Цветок был сорван мальчиком". В первом
предложении субъект действия "сорвал" - это "мальчик". И это слово играет
здесь роль подлежащего , о чем свидетельствует именительный падеж . Во
втором же предложении роль подлежащего играет слово "цветок", а слово
"мальчик" стоит в творительном' падеже. Но субъектом действия "сорвал" и
здесь остается все тот же "мальчик". А цветок в любом из двух приведенных
предложений играет роль объекта действия. Понимание ситуации,
описываемой любым из этих предложений, заключается, в частности, в том, что
мы выделяем в тексте некоторое действие, а также его субъект и объект.
                                             13
од н им зн а ком письм ен н ого т екст а н ельзя прен еб рега ть, поскольку эти
зн а ки являют сян осит елям и ва ж н ой см ысловой ин ф орм а ции.
        Техн ологии ра спозн а ва н ият екст ов б а зиру ют сян а ст а тистических д а н н ых
о ча ст оте у пот реб лен ия гра ф ем , а т а кж е н а д а н н ых о возм ож н ых пра вила х
сочета ем ост и гра ф ем в кон крет н ом языке и о ча ст отн ост и опред елен н ых
б у квосочет а н ий. Д а н н ые о гра ф ем а тическом сост а ве языка использу ют ся в
програ м м а х оптического ра спозн а ва н ия сим волов (OCR - Optical Character
Recognition), которые позволяют при пом ощи ска н ера перен ести в элект рон н ый
вид текст с б у м а ги. Н а сегод н яш н ий д ен ь н а иб олее попу лярн ый па кет
програ м м д ляра спозн а ва н ияоб ра зов – эт о FineReader.
        Ана л из т е кс т ов на е с т е с т в е нном я зыке являетсян еоб ход им ым эта пом
ра б оты сист ем м а ш ин н ого перевод а , а т а кж е ин ф орм а цион н о-поисковых
сист ем . Ч тоб ы провод ить а н а лизт екст а а вт ом а тически, н еоб ход им о от вет ить н а
вопрос, су щест ву ют ли ст рогие ф орм а льн ые пра вила , по которым строится
ст ру кт у ра пред лож ен ияи стру кт у ра т екст а .
        В резу льт а т е провед ен н ых исслед ова н ий ста ло ясн о, чт о за ка ж д ым
т екст ом (в т ом числе и за отд ельн ым пред лож ен ием , являющим сясвоего род а
м ин и-т екст ом ) скрыва ет сян е од н а , а н есколько ф орм а льн ых ст ру кт у р, кот орые
м ож н о ра зд елит ь н а три у ровн я. П ервый у ровен ь - эт о поверхн остн а я
син та ксическа я стру кт у ра . В эт ой ст ру кт у ре ка ж д ое пред лож ен ие т екст а
ра ссм а т рива ет ся изолирова н н о от д ру гих и д ля ка ж д ого провод ит ся чт о-то
врод е ра зб ора пред лож ен ияпо сост а ву . Выд еляют сяпод леж а щее и ска зу ем ое,
опред елен ия, д ополн ен ияи об стоятельст ва ра зн ого вид а . Н о этой ст ру кт у ры
д ля а н а лиза ока зыва ет ся м а ло. След у ющий ш а г - пост роен ие глу б ин н ой
син та ксической стру кт у ры. И д ея су щест вова н ия глу б ин н ой син та ксической
ст ру кт у ры связа н а с пон им а н ием того, что ра зличн ые ест ест вен н ые языки,
от лича ясь д ру г от д ру га м н огим и вн еш н им и син т а ксическим и особ ен н ост ям и,
перед а ют весь спект р вза им освязей м еж д у об ъ ект а м и, явлен иям и, их
свойст ва м и и протека ющим и с их у ча ст ием процесса м и, ха ра кт ерн ым и д ля
окру ж а ющего м ира . И эт от м иред ин , ка ким б ы языком м ы его н и описыва ли.
След ова т ельн о, в ка ж д ом т екст е су щест ву ют н е за висящие от особ ен н ост ей
языка н екие глу б ин н ые ст ру кт у ры, кот орые опред еляют а д еква т н ое
от об ра ж ен ие т ой или ин ой сит у а ции в окру ж а ющем м ире.
        С эт ой ид еей тесн о связа н о использова н ие т а к н а зыва ем ых глу б ин н ых
па д еж ей, или па д еж ей Ч . Ф иллм ора , н а зва н н ых по им ен и а м ерика н ского
исслед ова теля, впервые введ ш его их в н а у чн ый об орот . Ра ссм отрим д ве ф ра зы:
"М а льчик сорва л цвет ок" и "Ц веток б ыл сорва н м а льчиком ". В первом
пред лож ен ии су б ъ ект д ейст вия"сорва л" - это "м а льчик". И эт о слово игра ет
зд есь роль под леж а щего, о чем свид ет ельст ву ет им ен ительн ый па д еж . Во
вт ором ж е пред лож ен ии роль под леж а щего игра ет слово "цветок", а слово
"м а льчик" ст оит в т ворит ельн ом ' па д еж е. Н о су б ъ ектом д ейст вия"сорва л" и
зд есь ост а ет сявсе т от ж е "м а льчик". А цветок в люб ом из д ву х привед ен н ых
пред лож ен ий игра ет роль об ъ ект а д ейст вия. П он им а н ие сит у а ции,
описыва ем ой люб ым изэтих пред лож ен ий, за ключа ет ся, в ча ст н ости, в том , что
м ы выд еляем в т екст е н екоторое д ейст вие, а т а кж е его су б ъ ект и об ъ ект.