Математические методы в библиотечной работе. Елизаров А.М - 202 стр.

UptoLike

Составители: 

Рубрика: 

С другой стороны, индексационные термины не-
равнозначны и играют различную роль при индекси-
ровании. Поэтому между ними необходимо зафикси-
ровать отношения, определяющие их роль при
индексировании. Такие отношения задаются в виде
классификации терминов, когда каждый термин пред-
ставляется как k-мерный бинарный вектор t =
=(t
1
, t
2
, ..., t
k
), где
1, если термин t входит в класс i,
t
i
= 0, если термин t не входит в класс i,
а, если нет сведений относительно вхождения t
в класс i.
Вектор t = (t
1
, t
2
, ..., t
k
), построенный указанным об-
разом, называется вектором класса. Если данный
термин относится к нескольким классам, его вектор
класса имеет более одной единицы.
Теперь для любой пары терминов нетрудно опре-
делить понятие совпадения (несовпадения) классов,
используя векторы классов (аналогично определенно-
му выше совпадению и несовпадению терминов).
Совпадение (соответственно несовпадение) классов
определяется, как количество единиц, совместно со-
держащихся в обоих векторах (соответственно со-
держащихся только в одном, но не содержащихся
в другом векторе). В этом случае введение неопре-
деленного условия а не считается ни совпадением,
ни несовпадением.
При определении степени подобия новых доку-
ментов и документов фонда имеется возможность
учесть совпадения как терминов, так и классов,
определив следующим образом для R и D k-мерные
вектора классов R
c
и D
c
:
1, если некоторый из терминов R(D) входит
в класс i (у терминов при отнесении к клас-
су i стоит по меньшей мере одна 1 на месте
соответствующей координаты);
0, если ни один из терминов R (D) не входит
r
c
i
(d
c
i
)=
в класс i (терминам присваивается значение
0 или а);
а, если все термины R(D) относительно клас-
са i имеют значение а.
Другими словами, правило построения координат
вектора класса документов по координатам вектора
классов терминов таково:
202
       С другой стороны, индексационные термины не-
  равнозначны и играют различную роль при индекси-
  ровании. Поэтому между ними необходимо зафикси-
  ровать отношения, определяющие их роль при
  индексировании. Такие отношения задаются в виде
  классификации терминов, когда каждый термин пред-
  ставляется как k-мерный бинарный вектор t =
  =(t 1 , t 2 , ..., t k ), где
             1, если термин t входит в класс i,
t i = 0, если термин t не входит в класс i,
              а, если нет сведений относительно вхождения t
             в класс i.
  Вектор t = (t1, t2, ..., tk), построенный указанным об-
  разом, называется вектором класса. Если данный
  термин относится к нескольким классам, его вектор
  класса имеет более одной единицы.
       Теперь для любой пары терминов нетрудно опре-
  делить понятие совпадения (несовпадения) классов,
  используя векторы классов (аналогично определенно-
  му выше совпадению и несовпадению терминов).
  Совпадение (соответственно несовпадение) классов
  определяется, как количество единиц, совместно со-
  держащихся в обоих векторах (соответственно со-
  держащихся только в одном, но не содержащихся
  в другом векторе). В этом случае введение неопре-
  деленного условия а не считается ни совпадением,
  ни несовпадением.
       При определении степени подобия новых доку-
   ментов и документов фонда имеется возможность
   учесть совпадения как терминов, так и классов,
   определив следующим            образом для R и D k-мерные
   вектора классов Rc и Dc:
                  1, если некоторый из терминов R(D) входит
                  в класс i (у терминов при отнесении к клас-
                  су i стоит по меньшей мере одна 1 на месте
                  соответствующей координаты);
                  0, если ни один из терминов R (D) не входит
    rci(dci)= в класс i (терминам присваивается значение
                  0 или а);
                  а, если все термины R(D) относительно клас-
                   са i имеют значение а.
   Другими словами, правило построения координат
   вектора класса документов по координатам вектора
   классов терминов таково:
 202