Корпоративные информационные системы. Борисов Д.Н. - 16 стр.

UptoLike

Составители: 

во время загрузки в ХД записи сортируются, очищаются от
ненужной информации и приводят к единому формату. После такой
обработки это уже совсем другие данные.
1.3.2.3. Классификация данных в хранилище данных
Все данные в хранилище данных делятся на три основных категории:
метаданные;
детальные (текущие) данные;
агрегированные данные.
В отличие от ОБД ХД имеет хорошо развитую структуру метаданных
(или данных о данных). Метаданные играют роль справочника,
содержащего сведения об источниках первичных данных, алгоритмах
обработки, которым исходные данные были подвергнуты и т. д. Наличие
метаданных позволяет осуществлять быструю и удобную навигацию по
различным уровням данных, а также сильно упрощает реализацию и
использование средств анализа.
Детальные (текущие) данные в ХД являются денормализованными, по
сравнению с нормализованными данными в большинстве ОБД. Это
свойство ХД позволяет существенно повысить скорость доступа к
необходимым данным, хотя и требует большей емкости носителей
информации.
Наличие хорошо развитой иерархии агрегированных данных по
уровням агрегации является отличительной чертой хранилища данных.
Проведенные исследования показали, что большинство конечных
пользователей не работают с детальными данными, а обращаются в
основном к агрегированным показателям. Структура ХД отражает эту
ситуацию и позволяет конечному пользователю быстро и удобно получать
интересующую его агрегированную информацию с последующей
навигацией по всем уровням агрегирования.
В процессе эксплуатации необходимость в ряде детальных данных
может сильно упасть, что является причиной подразделения детальных
данных на текущие и старые (рис. 1.3). В то время как текущие данные
регулярно используются и поэтому хранятся на накопителях с быстрым
доступом (в основном на жестких дисках), старые детальные данные могут
храниться на более емких накопителях с более медленным доступом
(например, на оптических дисках или магнитных лентах).
При создании хранилища данных крайне нежелательно использование
оптимизированных структур (многомерных, звездообразных и др.), ввиду
свойственной им негибкости. Использование реляционной,
нормализованной модели в качестве основы хранилища данных
максимально облегчит дальнейшее развитие такого хранилища. Если при
этом, запросы пользователя поступают только в витрины данных, то от
хранилища данных потребуется вместо необходимости поддерживать
16
    – во время загрузки в ХД записи сортируются, очищаются от
ненужной информации и приводят к единому формату. После такой
обработки это уже совсем другие данные.

1.3.2.3. Классификация данных в хранилище данных
     Все данные в хранилище данных делятся на три основных категории:
     – метаданные;
     – детальные (текущие) данные;
     – агрегированные данные.
     В отличие от ОБД ХД имеет хорошо развитую структуру метаданных
(или данных о данных). Метаданные играют роль справочника,
содержащего сведения об источниках первичных данных, алгоритмах
обработки, которым исходные данные были подвергнуты и т. д. Наличие
метаданных позволяет осуществлять быструю и удобную навигацию по
различным уровням данных, а также сильно упрощает реализацию и
использование средств анализа.
     Детальные (текущие) данные в ХД являются денормализованными, по
сравнению с нормализованными данными в большинстве ОБД. Это
свойство ХД позволяет существенно повысить скорость доступа к
необходимым данным, хотя и требует большей емкости носителей
информации.
     Наличие хорошо развитой иерархии агрегированных данных по
уровням агрегации является отличительной чертой хранилища данных.
Проведенные исследования показали, что большинство конечных
пользователей не работают с детальными данными, а обращаются в
основном к агрегированным показателям. Структура ХД отражает эту
ситуацию и позволяет конечному пользователю быстро и удобно получать
интересующую его агрегированную информацию с последующей
навигацией по всем уровням агрегирования.
     В процессе эксплуатации необходимость в ряде детальных данных
может сильно упасть, что является причиной подразделения детальных
данных на текущие и старые (рис. 1.3). В то время как текущие данные
регулярно используются и поэтому хранятся на накопителях с быстрым
доступом (в основном на жестких дисках), старые детальные данные могут
храниться на более емких накопителях с более медленным доступом
(например, на оптических дисках или магнитных лентах).
     При создании хранилища данных крайне нежелательно использование
оптимизированных структур (многомерных, звездообразных и др.), ввиду
свойственной      им    негибкости.     Использование     реляционной,
нормализованной модели в качестве основы хранилища данных
максимально облегчит дальнейшее развитие такого хранилища. Если при
этом, запросы пользователя поступают только в витрины данных, то от
хранилища данных потребуется вместо необходимости поддерживать

                                 16