ВУЗ:
Составители:
Рубрика:
113
5.2.2. Поиск ресурсов
Рост объемов проектной информации, хранимой в электронном виде тре-
бует развития средств поиска нужных ресурсов. Обычно используются сле-
дующие виды поиска:
• обычный текстовый поиск по подстроке с некоторыми шаблонами;
• поиск, учитывающий морфологию языка;
• нечеткий поиск;
• браузинг по категориям-каталогам.
При больших объемах и семантической разнородности хранимой инфор-
мации поиска по подстроке с шаблонами и морфологического поиска уже ста-
новится недостаточно. Четкий поиск с заданными критериями сменяется так
называемым «нечетким поиском», позволяющим указывать неточные значения
критериев поиска. Но зачастую нет возможности точно сформулировать крите-
рии поиска. Известно только, что ресурс может принадлежать определенным
(достаточно общим) категориям. В таком случае поиск по категориям в виде
простого выбора категории из дерева с просмотром всех ресурсов, наполняю-
щих ее, бывает значительно удобнее. Этот вид поиска хоть и является истори-
чески самым старым, но до сих пор не имеет отработанных стандартов на авто-
матизированные средства для построения индекса.
Автоматизированная индексация информационных ресурсов для после-
дующего поиска в виде браузинга по категориям требует создания особого вида
индекса. Индекс должен отражать структуру категорий и их взаимосвязь с ин-
формационными ресурсами. Для этого предложен следующий формат:
I
R
={F
R
, NN},
где I
R
– индекс ресурса; F
R
– относительные частоты слов текста, составляюще-
го ресурс; NN – обученная нейронная сеть.
Здесь структура категорий и их взаимосвязь с информационными ресур-
сами будет неявно заключена в матрице весов нейронной сети. Относительные
частоты (F
R)
вычисляются по результатам стемминга и частотного анализа тек-
ста, составляющего ресурс. Нейронная сеть в индексе (NN) – это нейронная
сеть Кохонена, обученная в процессе кластеризации ресурсов. То есть процесс
кластеризации ресурсов также дает нам и уникальный по возможностям индекс.
На основе этого индекса мы можем осуществлять все вышеописанные виды
поиска, включая браузинг, а также комбинировать их. Например, можно дать
возможность осуществлять полнотекстовый нечеткий поиск только в опреде-
ленных категориях.
5.2.3. Управление хранилищем
В тени осталась также задача управления хранилищем. При последующем
росте объемов информации, поступающей в хранилище, возможно возникнове-
ние ситуации, когда текущее дерево категорий не будет более покрывать всех
Страницы
- « первая
- ‹ предыдущая
- …
- 112
- 113
- 114
- 115
- 116
- …
- следующая ›
- последняя »
