Интеллектуальный анализ данных в менеджменте. Кричевский М.Л. - 51 стр.

UptoLike

Составители: 

51
следуемый процесс. Ключевые вопросы, на которые должен быть по"
лучен ответ при отборе входных данных, сводятся к следующим:
Какие основные переменные влияют на выход?
Какие переменные предлагают или используют эксперты?
Какие преобразования данных необходимы?
Что предлагают классические статистические методы?
Какова приемлемая частота отсчета данных?
Собранные данные часто неадекватны для обучения нейронных
сетей, вследствие чего анализ и преобразование данных необходимы
для улучшения информации, которая способна обеспечить лучшее
описание трендов или процессов в анализируемых данных. Цель ана"
лиза и преобразования данных – упростить классификацию или пред"
сказание с помощью нейронной сети.
Преобразование данных должно помочь при:
– классификации данных;
– трансформации от нелинейных задач к линейным;
– концентрации усилий только на части входного диапазона.
Наиболее простыми видами преобразований являются процент"
ная разность и логарифмирование; более сложными – статистичес"
кие преобразования. Процентная разность и логарифмирование лег"
ко вычисляются в табличной форме. Например, лаги первого поряд"
ка цен закрытия могут быть вычислены с помощью дополнительного
столбца для нахождения величины
1
ln( / ),
itt
xPP1
где P
t
, P
t–1
соответственно, текущая цена закрытия и цена закры"
тия предыдущего дня.
Примером статистических преобразований служит наклон линии
регрессии, которая измеряет направление трендов в потоке данных.
Более сложные включают преобразования Фурье и вейвлетное, кото"
рые в ряде случаев несут больше информации, чем исходные данные,
однако для применения этих преобразований от менеджеров требует"
ся более глубокое знание математики.
Обычно нейронные сети плохо работают с величинами из широко"
го диапазона значений, встречающихся во входных данных. Для ис"
ключения этого нежелательного явления данные необходимо про"
масштабировать в диапазон [0...+1] или [–1... +1]. Нужно заметить,
что используемые для формирования выхода сети функции (сигмо"
идные или гиперболического тангенса) приводят к трудностям полу"
чения выходных значений, близких к 1 или 0 (–1 в некоторых случа"
ях). Вследствие этого целесообразно проводить масштабирование
таким образом, чтобы выходной диапазон переменных составлял