Математические методы в библиотечной работе. Елизаров А.М - 206 стр.

UptoLike

Составители: 

Рубрика: 

иметь большее сходство с профилем своего класса,
чем с профилями остальных. Таким образом, правиль-
ное определение профилей является важным условием
успешной работы каталога.
Пусть класс С состоит из объектов D
i
: C =
=(D
1
, D
2
, ..., D
n
). Тогда можно выделять следующие
виды профилей:
1. Логический профиль P
1
. Если D
i
= (d
i1
, d
i2
,
..., d
it
) - такой набор терминов, что d
ij
=1, если
термин у относится к объекту D
i
и d
ij
= 0 в против
ном случае, то профиль P
1
определяется в виде
P
1
= (p
11
, p
12
, p
1t
)=D
1
D
2
... D
n
,
т. е. p
1j
= 1 тогда и только тогда, когда по крайней
мере один объект класса содержит термин j. В осталь-
ных случаях P
1j
= 0.
2. Профиль частотности документа Р
2
. Если
каж-
дому документу соответствует одно и то же описа
ние, можно использовать взвешенный профиль, когда
вес каждого термина р
2j
профиля равен числу доку
ментов, содержащих данный термин j. Имеем Р
2
=
= (p
21
,
p
22
,
...,
p
2t
)=D
1
+D
2
+...+D
n
,
где d
ij
= 1 при
условии, что термин у относится к D
i
, в остальных
случаям d
ij
= 0.
3. Профиль частотности термина Р
3
. Если d
ij
значимость (весовой коэффициент), приписанная j-му
термину в D
i
, то Р
3
= (р
31
, р
32
, ..., р
3t
) = D
1
+ D
2
+
+ ... + D
n
, где р
3j
суммарный вес термина у во всех
документах массива.
Можно ввести различные коэффициенты нормали-
зации. Например, можно нормализовать термин в Р
2
и
Р
3
, если делить на число п документов в классе. При
этом получается определение, аналогичное опре-
делению центра масс Р
н
=
.
Другой способ
нормализации предполагает деление каждого доку-
е
мента на его длину | D
i
|, т. е.
.
Оста-
н
новимся на одном способе разбиения массива из n
документов D
1
, D
2
, ..., D
n
на классы. Этот способ
основан на построении полной матрицы подобия раз-
мера п
n
, в которой каждой паре {D
i
, D
j
} ставится
206
 иметь большее сходство с профилем своего класса,
 чем с профилями остальных. Таким образом, правиль-
 ное определение профилей является важным условием
 успешной работы каталога.
      Пусть класс С состоит из объектов D i : C =
 =(D 1 , D 2 , ..., D n ). Тогда можно выделять следующие
 виды профилей:
      1. Логический профиль P1. Если Di = (di1, di2,
..., d it ) - такой набор терминов, что d ij =1, если
термин у относится к объекту D i и d ij = 0 в против
ном случае, то профиль P 1 определяется в виде
            P 1 = (p 11 , p 12 , p 1t )=D 1 D 2 ... Dn,
т. е. p 1j = 1 тогда и только тогда, когда по крайней
мере один объект класса содержит термин j. В осталь-
ных случаях P1j= 0.
      2. Профиль частотности документа Р2. Если
каж-
дому документу соответствует одно и то же описа
ние, можно использовать взвешенный профиль, когда
вес каждого термина р 2j профиля равен числу доку
ментов, содержащих данный термин j. Имеем Р2 =
= (p21, p22, . . . , p2t)=D1 +D 2+...+Dn, где dij = 1 при
условии, что термин у относится к Di, в остальных
случаям dij = 0.
      3. Профиль частотности термина Р3 . Если d ij
—
значимость (весовой коэффициент), приписанная j-му
термину в Di, то Р3 = (р31, р32, ..., р3t) = D1 + D2 +
+ ... + Dn, где р3j — суммарный вес термина у во всех
документах массива.
     Можно ввести различные коэффициенты нормали-
зации. Например, можно нормализовать термин в Р2 и
Р 3 , если делить на число п документов в классе. При
этом получается определение, аналогичное опре-
делению центра масс Р н =        Другой способ
                               .
нормализации предполагает деление каждого доку-
                                                       е
мента на его длину | Di |, т. е.             Оста-
                                           .       н
новимся на одном способе разбиения массива из n
документов D1, D2, ..., Dn на классы. Этот способ
основан на построении полной матрицы подобия раз-
мера п n, в которой каждой паре {Di, Dj} ставится

206