ВУЗ:
Составители:
Рубрика:
вероятность попадания в них «грязных данных» весьма высока. Более того,
хранилища данных используются в процессе принятия решений,
следовательно, чтобы некорректные данные не привели к некорректным
выводам, необходимо проводить корректировки таких данных. Например,
дублирующаяся или утраченная информация может стать причиной
некорректной или неадекватной статистики («мусор на входе – мусор на
выходе»). Ввиду большого спектра возможных несоответствий в данных и
большого объема данных их очистка считается одной из самых крупных
проблем в технологии хранилищ данных.
Приложения очистки данных обычно выполняют одну или несколько
следующих функций:
1. Парсинг. Имя и адрес клиента часто хранится в текстовых полях
свободного формата. Текст свободного формата иногда труден для
разбиения на самостоятельные подстроки, соответствующие типу поля, к
которому они относятся (индекс, область, город, улица и другие данные
подобного характера). Программное обеспечение, осуществляющее
парсинг, распознает такие подстроки и назначает им соответствующие
поля. Например, приложение Firstlogic I.D. Centic содержит функции
парсинга, включающие в себя возможность идентификации компонент
имени, должности, компании и адреса даже в случае непоследовательно
введенных данных.
2. Стандартизация. Данные имен и адресов могут вводиться в
различных форматах, многие из которых вполне грамматически
корректны. Например, «Улица», «ул.» и «ул" обозначают одно и то же
очевидное понятие в составе адреса. Программы стандартизации
трансформируют такие поля в согласованный набор обозначений,
подходящих для Почтовой службы.
3. Проверка допустимости. К этой функции относятся средства
распознавания допустимости вводимых данных. Например, приложение
компании Firstlogic, объединенное с программой проверки допустимости и
файлами почтовых адресов (postal address files, PAFs) позволяет проверить
допустимость международных адресных данных.
4. Улучшение. В данной функции используются ряд
дополнительных данных, фактов или записей, изначально не
содержавшиеся в исходных данных. Так, например, программное
обеспечение Firstlogic содержит возможность присвоения клиентам пола
на основании анализа его имени и других данных. Кроме того, многие
производители программ используют географическую информацию,
обозначающую гео-код: долготу и широту указанной местности. Наиболее
же ценным дополнением данных о клиентах являются данные третьих
фирм, содержащие демографическую, психографическую и другие виды
информации. Например, программа Trillium Software специализируется на
внедрении психографической и демографической информации в профайл
клиента.
11
вероятность попадания в них «грязных данных» весьма высока. Более того, хранилища данных используются в процессе принятия решений, следовательно, чтобы некорректные данные не привели к некорректным выводам, необходимо проводить корректировки таких данных. Например, дублирующаяся или утраченная информация может стать причиной некорректной или неадекватной статистики («мусор на входе мусор на выходе»). Ввиду большого спектра возможных несоответствий в данных и большого объема данных их очистка считается одной из самых крупных проблем в технологии хранилищ данных. Приложения очистки данных обычно выполняют одну или несколько следующих функций: 1. Парсинг. Имя и адрес клиента часто хранится в текстовых полях свободного формата. Текст свободного формата иногда труден для разбиения на самостоятельные подстроки, соответствующие типу поля, к которому они относятся (индекс, область, город, улица и другие данные подобного характера). Программное обеспечение, осуществляющее парсинг, распознает такие подстроки и назначает им соответствующие поля. Например, приложение Firstlogic I.D. Centic содержит функции парсинга, включающие в себя возможность идентификации компонент имени, должности, компании и адреса даже в случае непоследовательно введенных данных. 2. Стандартизация. Данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, «Улица», «ул.» и «ул" обозначают одно и то же очевидное понятие в составе адреса. Программы стандартизации трансформируют такие поля в согласованный набор обозначений, подходящих для Почтовой службы. 3. Проверка допустимости. К этой функции относятся средства распознавания допустимости вводимых данных. Например, приложение компании Firstlogic, объединенное с программой проверки допустимости и файлами почтовых адресов (postal address files, PAFs) позволяет проверить допустимость международных адресных данных. 4. Улучшение. В данной функции используются ряд дополнительных данных, фактов или записей, изначально не содержавшиеся в исходных данных. Так, например, программное обеспечение Firstlogic содержит возможность присвоения клиентам пола на основании анализа его имени и других данных. Кроме того, многие производители программ используют географическую информацию, обозначающую гео-код: долготу и широту указанной местности. Наиболее же ценным дополнением данных о клиентах являются данные третьих фирм, содержащие демографическую, психографическую и другие виды информации. Например, программа Trillium Software специализируется на внедрении психографической и демографической информации в профайл клиента. 11
Страницы
- « первая
- ‹ предыдущая
- …
- 9
- 10
- 11
- 12
- 13
- …
- следующая ›
- последняя »