Теоретическая и практическая лексикография. Шилихина К.М. - 54 стр.

UptoLike

Составители: 

Рубрика: 

54
Каждая основа (лексическая единица ), входящая в базу данных,
получает описание на морфологическом , синтаксическом , семантическом
и функциональном уровнях в виде набора характеристик. Синтаксические
и морфологические характеристики необходимы, если электронный
словарь используется в автоматических системах обработки текстов
(например, при переводе или поиске информации). С помощью этих
характеристик определяется значение текстовой словоформы и
устанавливается ее синтаксическая роль в предложении. Семантические
характеристики описывают значение единицы, а функциональные ее
потенциальную роль в общей структуре текста.
Чтобы разместить названные характеристики, в современных
системах автоматической обработки текстов могут использоваться
словарные статьи трех видов.
1. Словарные статьи единой жесткой структуры , имеющие
фиксированную длину. При такой структуре заранее определены все типы
информации, которые включаются в статью , а границы зон фиксируются
по объему (в байтах). При отсутствии информации конкретного типа
соответствующие поля остаются свободными. Словарные статьи с жесткой
структурой удобны тем , что позволяют легко дополнять и корректировать
информацию, если она предусмотрена структурой статьи, т.е. для нее
заранее определена позиция. Но есть и недостатки. В тех случаях , когда
вводится абсолютно новая информация, необходимо полностью
перестраивать структуру словарной статьи, да и всю базу данных. Чтобы
избежать этого , словарную статью с жесткой структурой делают
максимально громоздкой, фиксируя все потенциально возможные
характеристики лексических единиц. В результате большинство позиций в
такой статье остается незаполненным , а память компьютера при этом
используется нерационально.
2. Второй способ организации словарной статьи электронного
словаря это создание статьи с плавающей правой границей. Здесь
описание задается по принципу «признак значение». Составление статьи
происходит по определенной схеме. Вся информация распределяется по
зонам, количество которых определяется объемом конкретной
информации. Лексическая единица описывается с точки зрения
принадлежности к определенному классу , по своим формальным и
семантическим характеристикам. Плавающая правая граница существует
только на этапе предварительного введения информации. При вводе статьи
в память компьютера это описание должно преобразовываться в такую же
жесткую структуру , как и в первом случае.
3. Третий способ это создание словарной статьи с иерархической
организацией. В этом случае весь словарь делится на две части: список
словарных входов с приписанной обязательной информацией и словарь
значений. При этом предварительно создается иерархия всех
                                          54
          Ка ж д а я осн ова (лексическа я ед ин ица ), вход яща яв б а зу д а н н ых,
полу ча ет описа н ие н а м орф ологическом , син т а ксическом , сем а н т ическом
и ф у н кцион а льн ом у ровн ях в вид е н а б ора ха ра кт ерист ик. Син та ксические
и м орф ологические ха ра кт ерист ики н еоб ход им ы, если элект рон н ый
слова рь использу ет ся в а вт ом а т ических сист ем а х об ра б от ки т екст ов
(н а прим ер, при перевод е или поиске ин ф орм а ции). С пом ощью этих
ха ра кт ерист ик опред еляет ся зн а чен ие т екст овой словоф орм ы и
у ст а н а влива етсяее син т а ксическа яроль в пред лож ен ии. Сем а н тические
ха ра кт ерист ики описыва ю т зн а чен ие ед ин ицы, а ф у н кцион а льн ые – ее
пот ен циа льн у ю роль в об щей ст ру кт у ре т екст а .
          Ч т об ы ра зм естит ь н а зва н н ые ха ра кт ерист ики, в соврем ен н ых
сист ем а х а вт ом а тической об ра б от ки т екст ов м огу т использова т ься
слова рн ые ст а т ьи трех вид ов.
          1. Слова рн ые ста тьи ед ин ой ж ест кой стру кт у ры, им ею щие
ф иксирова н н у ю д лин у . П ри т а кой ст ру кт у ре за ра н ее опред елен ы все типы
ин ф орм а ции, кот орые вклю ча ю т сяв ст а т ью , а гра н ицы зон ф иксиру ю т ся
по об ъем у (в б а йт а х). П ри от су т ст вии ин ф орм а ции кон крет н ого типа
соот вет ст ву ю щие поляоста ю т сясвоб од н ым и. Слова рн ые ст а т ьи с ж ест кой
ст ру кт у рой у д об н ы т ем , что позволяю т легко д ополн ять и коррект ирова т ь
ин ф орм а цию , если он а пред у см от рен а ст ру кт у рой ст а тьи, т.е. д ля н ее
за ра н ее опред елен а позиция. Но ест ь и н ед ост а т ки. В т ех слу ча ях, когд а
ввод ит ся а б солю тн о н ова я ин ф орм а ция, н еоб ход им о полн ост ью
перестра ива т ь стру кт у ру слова рн ой ста т ьи, д а и всю б а зу д а н н ых. Ч т об ы
изб еж а т ь этого, слова рн у ю ст а т ью с ж ест кой стру кт у рой д ела ю т
м а ксим а льн о гром озд кой, ф иксиру я все потен циа льн о возм ож н ые
ха ра кт ерист ики лексических ед ин иц. В резу льт а т е б ольш ин ст во позиций в
т а кой ст а т ье ост а ет ся н еза полн ен н ым , а па м ять ком пью т ера при эт ом
использу ет сян ера цион а льн о.

        2. Вт орой способ орга н иза ции слова рн ой ст а т ьи элект рон н ого
слова ря – это созд а н ие ста т ьи с пла ва ю щей пра вой гра н ицей. Зд есь
описа н ие за д а ет сяпо прин ципу «призн а к – зн а чен ие». Соста влен ие ст а т ьи
происход ит по опред елен н ой схем е. Всяин ф орм а цияра спред еляет сяпо
зон а м , количест во кот орых опред еляется об ъем ом кон кретн ой
ин ф орм а ции. Лексическа я ед ин ица описыва ет ся с т очки зрен ия
прин а д леж н ости к опред елен н ом у кла ссу , по своим ф орм а льн ым и
сем а н тическим ха ра кт еристика м . П ла ва ю ща япра ва ягра н ица су щест ву ет
т олько н а эт а пе пред ва рит ельн ого введ ен ияин ф орм а ции. П ри ввод е ста т ьи
в па м ять ком пью т ера эт о описа н ие д олж н о преоб ра зовыва т ьсяв т а ку ю ж е
ж ест ку ю стру кт у ру , ка к и в первом слу ча е.

        3. Трет ий способ – эт о созд а н ие слова рн ой ста т ьи с иера рхической
орга н иза цией. В эт ом слу ча е весь слова рь д елит сян а д ве ча ст и: список
слова рн ых вход ов с приписа н н ой об яза т ельн ой ин ф орм а цией и слова рь
зн а чен ий. П ри эт ом пред ва рит ельн о созд а ет ся иера рхия всех