ВУЗ:
Составители:
Рубрика:
Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после по-
купки дома в 45 % случаях в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60 % новосе-
лов обзаводятся холодильником.
С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объ-
ект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.
Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации сред-
ства Data Mining самостоятельно выделяют различные однородные группы данных.
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в базе данных (БД)
в виде временных рядов. Если удается построить шаблоны, адекватно отражающие динамику поведения целевых показате-
лей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.
Сегодня существует большое количество разнообразных методов исследования данных. Среди них можно выделить ос-
новные методы, используемые в технологиях Data Mining:
• регрессионный, дисперсионный и корреляционный анализ;
• методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях;
• нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в
том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями меж-
ду «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные дан-
ные. Связи в этом случае создаются с помощью так называемого обучения сети посредством выборки большого объема, со-
держащей как исходные данные, так и правильные ответы;
• выбор близкого аналога исходных данных из уже имеющихся исторических данных называется также методом
«ближайшего соседа»;
• деревья решений – иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или
«Нет». Несмотря на то, что данный способ обработки данных далеко не всегда идеально находит существующие закономер-
ности, он довольно часто используется в системах прогнозирования в силу наглядности получаемого ответа;
• кластерные модели (иногда также называемые моделями сегментации) применяются для объединения сходных со-
бытий в группы на основании сходных значений нескольких полей в наборе данных, также весьма популярны при создании
систем прогнозирования;
• алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах
данных;
• эволюционное программирование – поиск и генерация алгоритма, выражающего взаимозависимость данных, на ос-
новании изначально заданного алгоритма, модифицируемого в процессе поиска. Иногда поиск взаимозависимостей осуще-
ствляется среди каких-либо определенных видов функций (например, полиномов).
Системы Data Mining интегрируют в себе сразу несколько подходов, но, как правило, с преобладанием какого-то одного
компонента.
Рассмотрим примеры некоторых возможных бизнес-приложений Data Mining в различных областях.
Розничная торговля
Типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли, – это анализ покупа-
тельской корзины, исследование временных шаблонов, создание прогнозирующих моделей.
Анализ покупательской корзины (анализ сходства) предназначен для выявления товаров, которые покупатели стремятся
приобретать вместе. Знание покупательской корзины необходимо для улучшения рекламы, выработки стратегии создания
запасов товаров и способов их раскладки в торговых залах.
Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании товарных запасов.
Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего
купит новые батарейки и пленку?».
Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различ-
ных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещаю-
щих распродажи. Эти знания нужны для разработки точно направленных, экономичных мероприятий по продвижению това-
ров.
Банковское дело
Достижения технологии Data Mining используются в банковском деле для решения следующих распространенных за-
дач.
Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии
оказались мошенническими, банк выявляет некоторые стереотипы такого мошенничества.
Сегментация клиентов. Разбивая клиентов на различные категории, банки делают свою маркетинговую политику более
целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов.
Прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих кли-
ентов и соответствующим образом обслуживать каждую категорию.
Страхование
Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь также можно использовать мето-
ды Data Mining для выявления мошенничества и анализа риска.