Корпоративные информационные системы. Борисов Д.Н. - 11 стр.

UptoLike

Составители: 

вероятность попадания в них «грязных данных» весьма высока. Более того,
хранилища данных используются в процессе принятия решений,
следовательно, чтобы некорректные данные не привели к некорректным
выводам, необходимо проводить корректировки таких данных. Например,
дублирующаяся или утраченная информация может стать причиной
некорректной или неадекватной статистикимусор на входемусор на
выходе»). Ввиду большого спектра возможных несоответствий в данных и
большого объема данных их очистка считается одной из самых крупных
проблем в технологии хранилищ данных.
Приложения очистки данных обычно выполняют одну или несколько
следующих функций:
1. Парсинг. Имя и адрес клиента часто хранится в текстовых полях
свободного формата. Текст свободного формата иногда труден для
разбиения на самостоятельные подстроки, соответствующие типу поля, к
которому они относятся (индекс, область, город, улица и другие данные
подобного характера). Программное обеспечение, осуществляющее
парсинг, распознает такие подстроки и назначает им соответствующие
поля. Например, приложение Firstlogic I.D. Centic содержит функции
парсинга, включающие в себя возможность идентификации компонент
имени, должности, компании и адреса даже в случае непоследовательно
введенных данных.
2. Стандартизация. Данные имен и адресов могут вводиться в
различных форматах, многие из которых вполне грамматически
корректны. Например, «Улица», «ул и «ул" обозначают одно и то же
очевидное понятие в составе адреса. Программы стандартизации
трансформируют такие поля в согласованный набор обозначений,
подходящих для Почтовой службы.
3. Проверка допустимости. К этой функции относятся средства
распознавания допустимости вводимых данных. Например, приложение
компании Firstlogic, объединенное с программой проверки допустимости и
файлами почтовых адресов (postal address files, PAFs) позволяет проверить
допустимость международных адресных данных.
4. Улучшение. В данной функции используются ряд
дополнительных данных, фактов или записей, изначально не
содержавшиеся в исходных данных. Так, например, программное
обеспечение Firstlogic содержит возможность присвоения клиентам пола
на основании анализа его имени и других данных. Кроме того, многие
производители программ используют географическую информацию,
обозначающую гео-код: долготу и широту указанной местности. Наиболее
же ценным дополнением данных о клиентах являются данные третьих
фирм, содержащие демографическую, психографическую и другие виды
информации. Например, программа Trillium Software специализируется на
внедрении психографической и демографической информации в профайл
клиента.
11
вероятность попадания в них «грязных данных» весьма высока. Более того,
хранилища данных используются в процессе принятия решений,
следовательно, чтобы некорректные данные не привели к некорректным
выводам, необходимо проводить корректировки таких данных. Например,
дублирующаяся или утраченная информация может стать причиной
некорректной или неадекватной статистики («мусор на входе – мусор на
выходе»). Ввиду большого спектра возможных несоответствий в данных и
большого объема данных их очистка считается одной из самых крупных
проблем в технологии хранилищ данных.
    Приложения очистки данных обычно выполняют одну или несколько
следующих функций:
    1. Парсинг. Имя и адрес клиента часто хранится в текстовых полях
свободного формата. Текст свободного формата иногда труден для
разбиения на самостоятельные подстроки, соответствующие типу поля, к
которому они относятся (индекс, область, город, улица и другие данные
подобного характера). Программное обеспечение, осуществляющее
парсинг, распознает такие подстроки и назначает им соответствующие
поля. Например, приложение Firstlogic I.D. Centic содержит функции
парсинга, включающие в себя возможность идентификации компонент
имени, должности, компании и адреса даже в случае непоследовательно
введенных данных.
    2. Стандартизация. Данные имен и адресов могут вводиться в
различных форматах, многие из которых вполне грамматически
корректны. Например, «Улица», «ул.» и «ул" обозначают одно и то же
очевидное понятие в составе адреса. Программы стандартизации
трансформируют такие поля в согласованный набор обозначений,
подходящих для Почтовой службы.
    3. Проверка допустимости. К этой функции относятся средства
распознавания допустимости вводимых данных. Например, приложение
компании Firstlogic, объединенное с программой проверки допустимости и
файлами почтовых адресов (postal address files, PAFs) позволяет проверить
допустимость международных адресных данных.
    4. Улучшение.        В    данной    функции       используются    ряд
дополнительных данных, фактов или записей, изначально не
содержавшиеся в исходных данных. Так, например, программное
обеспечение Firstlogic содержит возможность присвоения клиентам пола
на основании анализа его имени и других данных. Кроме того, многие
производители программ используют географическую информацию,
обозначающую гео-код: долготу и широту указанной местности. Наиболее
же ценным дополнением данных о клиентах являются данные третьих
фирм, содержащие демографическую, психографическую и другие виды
информации. Например, программа Trillium Software специализируется на
внедрении психографической и демографической информации в профайл
клиента.
                                   11