Информационный менеджмент: краткий курс. Васюхин О.В - 94 стр.

UptoLike

94
различные операции и преобразования над сырыми данными (отбор
признаков, стратификация, кластеризация, визуализация и регрессия),
которые предназначены:
1) для нахождения представлений, которые являются интуитивно
понятными для людей, которые, в свою очередь, лучше понимают бизнес-
процессы, лежащие в основе их деятельности;
2) для нахождения моделей, которые могут предсказать результат или
значение определенных ситуаций
, используя исторические или субъективные
данные.
Английский термин «data mining» не имеет однозначного перевода на
русский язык (добыча данных, вскрытие данных, разведка данных,
информационная проходка, извлечение данных/информации) поэтому в
большинстве случаев используется в оригинале. Наиболее удачным
непрямым переводом считается термин «интеллектуальный анализ данных»
(ИАД).
Важное положение data mining – нетривиальность разыскиваемых
шаблонов. Это означает, что
найденные шаблоны должны отражать
неочевидные, неожиданные регулярности в данных, составляющие так
называемые скрытые знания.
Инструменты data mining позволяют решать следующие задачи:
классификацияотнесение входного вектора (объекта, события,
наблюдения) к одному из заранее известных классов;
кластеризацияразделение множества входных векторов на
группы (кластеры) по степени «похожести» друг на друга;
сокращение
описаниядля визуализации данных, лаконизма
моделей, упрощения счета и интерпретации, сжатия объемов собираемой и
хранимой информации;
ассоциацияпоиск повторяющихся образцов. Например, поиск
«устойчивых связей в корзине покупателя» (англ. market basket analysis) –
вместе с пивом часто покупают орешки;
прогнозирование;
анализ отклоненийнапример, выявление нетипичной сетевой
активности позволяет обнаружить вредоносные программы;
визуализациянаглядное пользователю представление данных.
OLAP (англ. online analytical processing, аналитическая обработка в
реальном времени) – технология обработки информации, включающая
составление и динамическую публикацию отчетов и документов.
Используется аналитиками для быстрой обработки сложных запросов к базе
данных.
Причина использования OLAP для обработки запросовэто скорость.
Реляционные базы данных хранят сущности в отдельных таблицах, которые
обычно хорошо
нормализованы. Эта структура удобна для операционных баз
данных, но сложные многотабличные запросы в ней выполняются
относительно медленно. Более хорошей моделью для запросов, а не для