ВУЗ:
Составители:
Рубрика:
в соответствие коэффициент s
ij
подобия документов D
i
и D
j
(табл. 37). Очевидно, матрица симметрична относительно
главной диагонали.
Таблица 37
Обычно выбирают пороговое значение Т
*
и приводят
матрицу подобия к бинарному виду путем замены всех
коэффициентов подобия, больших T
*
—единицей, а меньших
T
*
—нулем. Далее искомые классы определяются
как клики, которые могут быть получены из бинарной матри-
цы подобия. При этом совершаются следующие опе-
рации:
1) отождествляем документы D
i
и D
j
имеющие
коэффициент s
ij
=l (т. е. соединяем вершины D
i
и
D
j
графа ребрами, если s
ij
= 1);
2) для каждой пары вершин D
i
и D
j
находим все
такие D
k
(k ≠ i, j), что s
ik
=S
jk
=1, и соединяем их
с D
i
и D
j
соответственно;
3) затем для полученных троек D
i
, D
j
, D
k
находим
четвертые вершины, которые можно соединить с
ними, исходя из правила равенства 1 соответствую
щего коэффициента в матрице подобия;
4) процесс продолжаем до тех пор, пока не будут
исчерпаны все подграфы максимальной размерности.
Каждый такой подграф (клика) определяет класс
разбиения.
В процессах каталогизации и информационного поиска
большое значение имеют различные методы упорядочения
данных, позволяющие сократить время поиска нужных
сведений и избежать сплошного перебора. Упорядочение
состоит в том, что на исходном множестве тем или иным
способом задается отношение порядка (см. п. 4 § 3). При
этом существенным является то, в какой степени это
отношение упорядочивает исходное множество. С этой
точки зрения мы различали линейный и частичный порядок.
Например, упорядочение записей каталога на основании
алфавитного порядка является линейным упорядочением и
называется лексикографическим. Наиболее интересным
является древесный порядок. Заметим, что линейный
порядок удобен при организации „руч-
207
в соответствие коэффициент sij подобия документов Di и Dj
(табл. 37). Очевидно, матрица симметрична относительно
главной диагонали.
Таблица 37
Обычно выбирают пороговое значение Т* и приводят
матрицу подобия к бинарному виду путем замены всех
коэффициентов подобия, больших T*—единицей, а меньших
T*—нулем. Далее искомые классы определяются
как клики, которые могут быть получены из бинарной матри-
цы подобия. При этом совершаются следующие опе-
рации:
1) отождествляем документы D i и D j имеющие
коэффициент s ij =l (т. е. соединяем вершины Di и
Dj графа ребрами, если sij = 1);
2) для каждой пары вершин Di и Dj находим все
такие D k (k ≠ i, j), что s ik =S j k =1, и соединяем их
с Di и Dj соответственно;
3) затем для полученных троек Di, Dj, Dk находим
четвертые вершины, которые можно соединить с
ними, исходя из правила равенства 1 соответствую
щего коэффициента в матрице подобия;
4) процесс продолжаем до тех пор, пока не будут
исчерпаны все подграфы максимальной размерности.
Каждый такой подграф (клика) определяет класс
разбиения.
В процессах каталогизации и информационного поиска
большое значение имеют различные методы упорядочения
данных, позволяющие сократить время поиска нужных
сведений и избежать сплошного перебора. Упорядочение
состоит в том, что на исходном множестве тем или иным
способом задается отношение порядка (см. п. 4 § 3). При
этом существенным является то, в какой степени это
отношение упорядочивает исходное множество. С этой
точки зрения мы различали линейный и частичный порядок.
Например, упорядочение записей каталога на основании
алфавитного порядка является линейным упорядочением и
называется лексикографическим. Наиболее интересным
является древесный порядок. Заметим, что линейный
порядок удобен при организации „руч-
207
Страницы
- « первая
- ‹ предыдущая
- …
- 205
- 206
- 207
- 208
- 209
- …
- следующая ›
- последняя »
