ВУЗ:
Составители:
Рубрика:
Анализируя некоторый показатель, например, объем продаж, данные можно представить в виде трехмерного (в упро-
щенном примере) куба, гранями которого изображаются массивы данных по товарам, регионам и времени, а внутри куба
находятся значения объема продаж.
Выбирая конкретный товар, регион и временную точку, можно получить соответствующий показатель объема продаж.
Такое простое представление данных обеспечивает мощный механизм для аналитических запросов.
Каждый из массивов данных (граней куба или, как их называют, размерностей) может содержать не просто перечень
значений, а набор деревьев или иерархию значений, где верхнее значение иерархии раскрывается стоящими ниже и т.д. В
каждом кубе обязательно присутствует иерархия времени. На верхнем уровне расположены годы (десятилетия), ниже –
кварталы, затем месяцы, недели, дни.
Для каждой размерности можно задать более одной иерархии и обобщать их с различных точек зрения. Можно созда-
вать связи (отношения) между размерностями, например, различные категории товаров, хранящихся в одной размерности,
связаны с различными подразделениями компании.
Достаточно важной операцией над кубом данных является срез и вращение куба, т.е. фиксация одного или нескольких
значений размерностей и просмотр показателя по другим. Тем самым пользователь получает возможность анализировать
показатель с различных точек зрения – товара или региона. Данные размерностей можно просматривать по различным уров-
ням иерархии (например, время по кварталам и месяцам), а можно задавать и более сложные условия выборки или даже от-
дельные значения. Многие программные средства позволяют накладывать условия на анализируемый показатель, т.е. выби-
рать только значения показателя выше заданного (например, объем продаж более $150 000) или же минимальные и макси-
мальные значения в каждом регионе отмечать отдельным цветом. Наряду с табличным представлением поддерживается и
графическое, со всеми возможными видами графиков: столбчатых, диаграмм, точками и линиями на координатной оси,
двух- и трехмерных.
Наиболее интересные и сложные возможности анализа данных заключаются в прогнозировании и выявлении тенден-
ций. Подобные вычисления основаны на построении функции экстраполяции на базе имеющегося (определяемого пользова-
телем) набора исходных данных. Прогнозирование всегда существенно зависит от особенностей предметной области, по-
этому универсальных алгоритмов экстраполяции не существует. Различные инструменты создания аналитических приложе-
ний содержат несколько алгоритмов, основанных на линейном, экспоненциальном тренде и учете сезонных колебаний. В
ряде систем помимо этого предлагается мощный математический аппарат, позволяющий создавать собственные алгоритмы
на основе известных законов.
8.4. ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ ЗНАНИЙ «Data Mining»
Появление технологии Data Mining связано с необходимостью извлекать знания из накопленных информационными
системами разнородных данных. Возникло понятие, которое по-русски стали называть «добыча», «извлечение» знаний. В
зарубежных источниках утвердился термин «Data Mining».
Ключевое достоинство Data Mining по сравнению с предшествующими методами – возможность автоматического по-
рождения гипотез о взаимосвязи между различными параметрами или компонентами данных. Поиск шаблонов производится
методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений ана-
лизируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в табл. 6.
Еще одна важная особенность систем Data Mining – возможность обработки многомерных запросов и поиска много-
мерных зависимостей. Уникальна также способность систем Data Mining автоматически обнаруживать исключительные
ситуации, т.е. элементы данных, «выпадающие» из общих закономерностей.
Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining:
• ассоциация;
• последовательность;
• классификация;
• кластеризация;
• временные закономерности.
6. Сравнение формулировок задач при использовании методов
OLAP и Data Mining
OLAP Data Mining
Каковы средние показатели травматизма для курящих и
некурящих?
Встречаются ли точные шаблоны в описаниях людей, под-
верженных повышенному травматизму?
Каковы средние размеры телефонных счетов существую-
щих клиентов в сравнении со счетами бывших клиентов
(отказавшихся от услуг телефонной компании)?
Имеются ли характерные портреты клиентов, которые, по
всей вероятности, собираются отказаться от услуг телефонной
компании?
Какова средняя величина ежедневных покупок по украден-
ной и не украденной кредитной карточке?
Существуют ли стереотипные схемы покупок для случаев
мошенничества с кредитными карточками?
Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, прове-
денное в супермаркете, может показать, что 65 % купивших кукурузные чипсы берут также и "кока-колу", а при наличии
скидки за такой комплект "кока-колу" приобретают в 85 % случаях. Располагая сведениями о подобной ассоциации, менед-
жерам легко оценить, насколько действенна предоставляемая скидка.