Математические методы в библиотечной работе. Елизаров А.М - 207 стр.

UptoLike

Составители: 

Рубрика: 

в соответствие коэффициент s
ij
подобия документов D
i
и D
j
(табл. 37). Очевидно, матрица симметрична относительно
главной диагонали.
Таблица 37
Обычно выбирают пороговое значение Т
*
и приводят
матрицу подобия к бинарному виду путем замены всех
коэффициентов подобия, больших T
*
единицей, а меньших
T
*
нулем. Далее искомые классы определяются
как клики, которые могут быть получены из бинарной матри-
цы подобия. При этом совершаются следующие опе-
рации:
1) отождествляем документы D
i
и D
j
имеющие
коэффициент s
ij
=l (т. е. соединяем вершины D
i
и
D
j
графа ребрами, если s
ij
= 1);
2) для каждой пары вершин D
i
и D
j
находим все
такие D
k
(k i, j), что s
ik
=S
jk
=1, и соединяем их
с D
i
и D
j
соответственно;
3) затем для полученных троек D
i
, D
j
, D
k
находим
четвертые вершины, которые можно соединить с
ними, исходя из правила равенства 1 соответствую
щего коэффициента в матрице подобия;
4) процесс продолжаем до тех пор, пока не будут
исчерпаны все подграфы максимальной размерности.
Каждый такой подграф (клика) определяет класс
разбиения.
В процессах каталогизации и информационного поиска
большое значение имеют различные методы упорядочения
данных, позволяющие сократить время поиска нужных
сведений и избежать сплошного перебора. Упорядочение
состоит в том, что на исходном множестве тем или иным
способом задается отношение порядка (см. п. 4 § 3). При
этом существенным является то, в какой степени это
отношение упорядочивает исходное множество. С этой
точки зрения мы различали линейный и частичный порядок.
Например, упорядочение записей каталога на основании
алфавитного порядка является линейным упорядочением и
называется лексикографическим. Наиболее интересным
является древесный порядок. Заметим, что линейный
порядок удобен при организациируч-
207
в соответствие коэффициент sij подобия документов Di и Dj
(табл. 37). Очевидно, матрица симметрична относительно
главной диагонали.
Таблица 37




Обычно выбирают пороговое значение Т* и приводят
матрицу подобия к бинарному виду путем замены всех
коэффициентов подобия, больших T*—единицей, а меньших
T*—нулем. Далее искомые                 классы определяются
как клики, которые могут быть получены из бинарной матри-
цы подобия. При этом совершаются следующие опе-
рации:
    1) отождествляем документы D i и D j имеющие
 коэффициент s ij =l (т. е. соединяем вершины Di и
 Dj графа ребрами, если sij = 1);
    2) для каждой пары вершин Di и Dj находим все
 такие D k (k ≠ i, j), что s ik =S j k =1, и соединяем их
 с Di и Dj соответственно;
    3) затем для полученных троек Di, Dj, Dk находим
 четвертые вершины, которые можно соединить с
 ними, исходя из правила равенства 1 соответствую
 щего коэффициента в матрице подобия;
    4) процесс продолжаем до тех пор, пока не будут
 исчерпаны все подграфы максимальной размерности.
 Каждый такой подграф (клика) определяет класс
 разбиения.
     В процессах каталогизации и информационного поиска
 большое значение имеют различные методы упорядочения
 данных, позволяющие сократить время поиска нужных
 сведений и избежать сплошного перебора. Упорядочение
 состоит в том, что на исходном множестве тем или иным
 способом задается отношение порядка (см. п. 4 § 3). При
 этом существенным является то, в какой степени это
 отношение упорядочивает исходное множество. С этой
 точки зрения мы различали линейный и частичный порядок.
 Например, упорядочение записей каталога на основании
 алфавитного порядка является линейным упорядочением и
 называется лексикографическим. Наиболее интересным
 является древесный порядок. Заметим, что линейный
 порядок удобен при организации „руч-
                                                        207