Прикладные интеллектуальные системы, основанные на мягких вычислениях. Ярушкина Н.Г. - 114 стр.

UptoLike

Составители: 

Рубрика: 

113
5.2.2. Поиск ресурсов
Рост объемов проектной информации, хранимой в электронном виде тре-
бует развития средств поиска нужных ресурсов. Обычно используются сле-
дующие виды поиска:
обычный текстовый поиск по подстроке с некоторыми шаблонами;
поиск, учитывающий морфологию языка;
нечеткий поиск;
браузинг по категориям-каталогам.
При больших объемах и семантической разнородности хранимой инфор-
мации поиска по подстроке с шаблонами и морфологического поиска уже ста-
новится недостаточно. Четкий поиск с заданными критериями сменяется так
называемым «нечетким поиском», позволяющим указывать неточные значения
критериев поиска. Но зачастую нет возможности точно сформулировать крите-
рии поиска. Известно только, что ресурс может принадлежать определенным
(достаточно общим) категориям. В таком случае поиск по категориям в виде
простого выбора категории из дерева с просмотром всех ресурсов, наполняю-
щих ее, бывает значительно удобнее. Этот вид поиска хоть и является истори-
чески самым старым, но до сих пор не имеет отработанных стандартов на авто-
матизированные средства для построения индекса.
Автоматизированная индексация информационных ресурсов для после-
дующего поиска в виде браузинга по категориям требует создания особого вида
индекса. Индекс должен отражать структуру категорий и их взаимосвязь с ин-
формационными ресурсами. Для этого предложен следующий формат:
I
R
={F
R
, NN},
где I
R
индекс ресурса; F
R
относительные частоты слов текста, составляюще-
го ресурс; NNобученная нейронная сеть.
Здесь структура категорий и их взаимосвязь с информационными ресур-
сами будет неявно заключена в матрице весов нейронной сети. Относительные
частоты (F
R)
вычисляются по результатам стемминга и частотного анализа тек-
ста, составляющего ресурс. Нейронная сеть в индексе (NN) это нейронная
сеть Кохонена, обученная в процессе кластеризации ресурсов. То есть процесс
кластеризации ресурсов также дает нам и уникальный по возможностям индекс.
На основе этого индекса мы можем осуществлять все вышеописанные виды
поиска, включая браузинг, а также комбинировать их. Например, можно дать
возможность осуществлять полнотекстовый нечеткий поиск только в опреде-
ленных категориях.
5.2.3. Управление хранилищем
В тени осталась также задача управления хранилищем. При последующем
росте объемов информации, поступающей в хранилище, возможно возникнове-
ние ситуации, когда текущее дерево категорий не будет более покрывать всех