ВУЗ:
Составители:
Рубрика:
112
ческого распределения слов. То есть по частотному распределению слов, со-
ставляющих текст ресурса (или аннотации), мы можем определить его семан-
тику.
Согласно этому предположению кластеризация основывается на данных
частотного анализа текста. Процесс частотного анализа связан с морфологиче-
ским анализом слов, составляющих текст. В этом процессе все словоформы од-
ного слова должны быть учтены как одно слово, чтобы снизить шум на входах
сети. Для этого применяется механизм стемминга.
Стемминг – это формальное выделение основы слова – стабильной, гра-
фически неизменной при склонении и спряжении части слова. Задача стеммин-
га – это задача морфологического анализа языка. Словоформа представляется в
виде:
префикс+корень+суффикс+окончание+постфикс
Основу слова составляют префикс и корень. Все словоформы в процессе
стемминга приводятся к их основам, и уже основы участвуют в подсчете отно-
сительных частот.
По результатам подсчета частот выделяются наиболее часто встречаемые
словоформы, так называемые «ключевые слова». Ключевыми словами считают-
ся основы, которые чаще всего встретились в тексте и являются семантически
значащими. Например, ключевыми словами не могут считаться предлоги, час-
тицы, союзные слова, местоимения. Это так называемые «стоп-слова», которые
отбрасываются при частотном анализе.
Основываясь на результаты частотного анализа, строится нейронная сеть
Кохонена, которая, собственно, и проводит кластеризацию ресурсов. На входы
сети подаются относительные частоты встречаемости ключевых слов по каж-
дому ресурсу. Сеть обучается по алгоритму «победитель получает все». Выхо-
ды сети соответствуют списку категорий. После окончания обработки всех ре-
сурсов сеть можно считать обученной. Для завершения построения дерева кате-
горий эксперту необходимо назвать образованные нейронной сетью кластеры.
При этом он может основываться на наборы ключевых слов и ресурсов, отне-
сенных сетью к данной категории.
После кластеризации задача публикации ресурсов решается этой же се-
тью. Она переводится в режим классификатора и выбирается наиболее подхо-
дящая для задачи функция активации. Поступающие ресурсы проходят стем-
минг и частотный анализ. Результаты частотного анализа подаются на входы
сети. По состоянию выходов сети можно принимать решение о принадлежно-
сти ресурса к категориям.
Таким образом мы избавляем публикаторов и экспертов от работы по
созданию дерева категорий и принятия решений о публикации ресурса. Вопрос
«куда публиковать ресурс» решен.
Страницы
- « первая
- ‹ предыдущая
- …
- 111
- 112
- 113
- 114
- 115
- …
- следующая ›
- последняя »
