Прикладные интеллектуальные системы, основанные на мягких вычислениях. Ярушкина Н.Г. - 113 стр.

UptoLike

ВУЗ:

УлГТУ | Ульяновск

Составители:

Ярушкина Н.Г.

Рубрика:

Математика

112

ческого распределения слов. То есть по частотному распределению слов, со-

ставляющих текст ресурса (или аннотации), мы можем определить его семан-

тику.

Согласно этому предположению кластеризация основывается на данных

частотного анализа текста. Процесс частотного анализа связан с морфологиче-

ским анализом слов, составляющих текст. В этом процессе все словоформы од-

ного слова должны быть учтены как одно слово, чтобы снизить шум на входах

сети. Для этого применяется механизм стемминга.

Стемминг – это формальное выделение основы слова – стабильной, гра-

фически неизменной при склонении и спряжении части слова. Задача стеммин-

га – это задача морфологического анализа языка. Словоформа представляется в

виде:

префикс+корень+суффикс+окончание+постфикс

Основу слова составляют префикс и корень. Все словоформы в процессе

стемминга приводятся к их основам, и уже основы участвуют в подсчете отно-

сительных частот.

По результатам подсчета частот выделяются наиболее часто встречаемые

словоформы, так называемые «ключевые слова». Ключевыми словами считают-

ся основы, которые чаще всего встретились в тексте и являются семантически

значащими. Например, ключевыми словами не могут считаться предлоги, час-

тицы, союзные слова, местоимения. Это так называемые «стоп-слова», которые

отбрасываются при частотном анализе.

Основываясь на результаты частотного анализа, строится нейронная сеть

Кохонена, которая, собственно, и проводит кластеризацию ресурсов. На входы

сети подаются относительные частоты встречаемости ключевых слов по каж-

дому ресурсу. Сеть обучается по алгоритму «победитель получает все». Выхо-

ды сети соответствуют списку категорий. После окончания обработки всех ре-

сурсов сеть можно считать обученной. Для завершения построения дерева кате-

горий эксперту необходимо назвать образованные нейронной сетью кластеры.

При этом он может основываться на наборы ключевых слов и ресурсов, отне-

сенных сетью к данной категории.

После кластеризации задача публикации ресурсов решается этой же се-

тью. Она переводится в режим классификатора и выбирается наиболее подхо-

дящая для задачи функция активации. Поступающие ресурсы проходят стем-

минг и частотный анализ. Результаты частотного анализа подаются на входы

сети. По состоянию выходов сети можно принимать решение о принадлежно-

сти ресурса к категориям.

Таким образом мы избавляем публикаторов и экспертов от работы по

созданию дерева категорий и принятия решений о публикации ресурса. Вопрос

«куда публиковать ресурс» решен.

Заказать работу

Вы здесь

Прикладные интеллектуальные системы, основанные на мягких вычислениях. Ярушкина Н.Г. - 113 стр.

UptoLike

ВУЗ:

Ярушкина Н.Г.

Математика

Страницы