Корпоративные информационные системы. Борисов Д.Н. - 40 стр.

UptoLike

Составители: 

обучения строится классифицирующее правило на основе обработки
обучающего множества объектов. Процедура проверки (экзамена) состоит
в использовании полученного классифицирующего правила для
распознавания объектов из новой (экзаменационной) выборки. Если
результаты проверки признаны удовлетворительными, то процесс
обучения заканчивается, в противном случае классифицирующее правило
уточняется в процессе повторного обучения.
Кластеризацияэто распределение информации (записей) из БД по
группам (кластерам) или сегментам с одновременным определением этих
групп. В отличие от классификации здесь для проведения анализа не
требуется предварительного задания классов.
Прогнозирование временных рядов является инструментом для
определения тенденций изменения атрибутов рассматриваемых объектов с
течением времени. Анализ поведения временных рядов позволяет
прогнозировать значения исследуемых характеристик.
Для решения таких задач используются различные методы и
алгоритмы Data Mining. Ввиду того, что Data Mining развивалась и
развивается на стыке таких дисциплин, как статистика, теория
информации, машинное обучение, теория баз данных, вполне закономерно,
что большинство алгоритмов и методов Data Mining были разработаны на
основе различных методов из этих дисциплин.
Из многообразия существующих методов исследования данных
можно выделить следующие:
регрессионный, дисперсионный и корреляционный анализ (реализован
в большинстве современных статистических пакетов, в частности, в
продуктах компаний SAS Institute, StatSoft и др.);
методы анализа в конкретной предметной области, базирующиеся
на эмпирических моделях (часто применяются, например, в недорогих
средствах финансового анализа);
нейросетевые алгоритмыметод имитации процессов и явлений,
позволяющий воспроизводить сложные зависимости. Метод основан на
использовании упрощенной модели биологического мозга и заключается в
том, что исходные параметры рассматриваются как сигналы,
преобразующиеся в соответствии с имеющимися связями между
«нейронами», а в качестве ответа, являющегося результатом анализа,
рассматривается отклик всей сети на исходные данные. Связи в этом
случае создаются с помощью так называемого обучения сети посредством
выборки большого объема, содержащей как исходные данные, так и
правильные ответы. Нейронные сети широко применяются для решения
задач классификации;
нечеткая логика применяется для обработки данных с размытыми
значениями истинности, которые могут быть представлены
разнообразными лингвистическими переменными. Нечеткое
40
обучения строится классифицирующее правило на основе обработки
обучающего множества объектов. Процедура проверки (экзамена) состоит
в использовании полученного классифицирующего правила для
распознавания объектов из новой (экзаменационной) выборки. Если
результаты проверки признаны удовлетворительными, то процесс
обучения заканчивается, в противном случае классифицирующее правило
уточняется в процессе повторного обучения.
     Кластеризация – это распределение информации (записей) из БД по
группам (кластерам) или сегментам с одновременным определением этих
групп. В отличие от классификации здесь для проведения анализа не
требуется предварительного задания классов.
     Прогнозирование временных рядов является инструментом для
определения тенденций изменения атрибутов рассматриваемых объектов с
течением времени. Анализ поведения временных рядов позволяет
прогнозировать значения исследуемых характеристик.
     Для решения таких задач используются различные методы и
алгоритмы Data Mining. Ввиду того, что Data Mining развивалась и
развивается на стыке таких дисциплин, как статистика, теория
информации, машинное обучение, теория баз данных, вполне закономерно,
что большинство алгоритмов и методов Data Mining были разработаны на
основе различных методов из этих дисциплин.
     Из многообразия существующих методов исследования данных
можно выделить следующие:
     • регрессионный, дисперсионный и корреляционный анализ (реализован
в большинстве современных статистических пакетов, в частности, в
продуктах компаний SAS Institute, StatSoft и др.);
     • методы анализа в конкретной предметной области, базирующиеся
на эмпирических моделях (часто применяются, например, в недорогих
средствах финансового анализа);
     • нейросетевые алгоритмы – метод имитации процессов и явлений,
позволяющий воспроизводить сложные зависимости. Метод основан на
использовании упрощенной модели биологического мозга и заключается в
том, что исходные параметры рассматриваются как сигналы,
преобразующиеся в соответствии с имеющимися связями между
«нейронами», а в качестве ответа, являющегося результатом анализа,
рассматривается отклик всей сети на исходные данные. Связи в этом
случае создаются с помощью так называемого обучения сети посредством
выборки большого объема, содержащей как исходные данные, так и
правильные ответы. Нейронные сети широко применяются для решения
задач классификации;
     • нечеткая логика применяется для обработки данных с размытыми
значениями      истинности,   которые      могут    быть   представлены
разнообразными        лингвистическими        переменными.     Нечеткое
                                  40