Информационные системы в науке, образовании и бизнесе. Ефремов О.В - 67 стр.

UptoLike

Составители: 

зультатами работы систем типа Knowledge Discovery и Data Mining и входом систем под-
держки принятия решений.
Такой разрыв устраняется за счет того, что результаты работы программ интерпретирует
эксперт-аналитик. Однако это приводит к тому, что добытые знания "упрятываются" в доку-
менты, теряется их аргументация, и они не могут быть повторно получены. В большинстве
предприятий каждый новый аналитик проходит весь путь накопления профильных знаний
заново, прежде чем он сможет стать экспертом. Собранные факты находятся в головах экс-
пертов, хранятся в разных документах и базах данных, что не позволяет совместно анализи-
ровать разрозненные факты и объединять их в общее пространство фактографической ин-
формации, ведет к потере ценности полученных сведений и вложенных в их разведку
средств.
Для управления пространством фактов в информационных системах бизнес-разведки
используется подсистема обработки фактографической информации. На ее входе из различ-
ных источников формируется не только поток сведений об изучаемых объектах в форме ко-
личественных показателей, видеоклипов и документов, но и выделенный из них поток зна-
ний (т.е. аналитически обработанной, классифицированной и очищенной информации), ос-
новной формой представления которых являются факты и гипотезы. Естественно, факты
проходят очистку, интеграцию и другие стандартные процедуры управления единым инфор-
мационным пространством фактов (ЕИПФ).
Множественность значений факта обусловлена возможностью разной интерпретации
одного и того же явления, а также противоречивостью, неточностью или нечеткостью посту-
пающих из внешних источников сведений. Поэтому инфологическими особенностями ин-
формационной модели ЕИПФ являются поддержка множественных фактов об одном собы-
тии, наличие у факта атрибутов для его тренинга (идентификации автора, времени, источни-
ка факта) в целях его возможного повторного извлечения и поддержка множественных вер-
сий интерпретации фактов. Подсистема обработки фактографических данных находится на
вершине иерархии информационной инфраструктуры компании, поскольку для генерации
фактов использует сервисы разных систем анализа и доставки контента (содержания).
С помощью своих программ извлечения знаний они получают факты из СУБД, храни-
лищ многомерных данных, Internet, подсистем аналитической обработки и моделирования, а
также из прикладных систем, порождают гипотезы или сигнальную информацию.
Разберем концептуальную и базовую информационные модели системы бизнес-
разведки, проиллюстрировав их на примере программы XFiles, разработанной с использова-
нием программных компонентов компаний Oracle, "Гарант-Парк-Интернет", Inxight, ABBYY
Software House и Altova [www.it26.ru]. К этому же классу систем можно отнести продукты
компаний Clear Forest, "Мегапьютер Интеллидженс", Rsoft и "Гарант-Парк-Интернет".
Информационная модель системы
Основные понятия информационной модели системы XFiles таковы:
Фактсобытие (как правило, зафиксированное и произошедшее), сопровождаемое вре-
менной и географической метками, аргументирующей информацией, ссылками на источники
и др. Факт может быть извлечен из текста документов либо определен экспертом. Он может
определять как свойства объекта, так и его связь с другими объектами.
Гипотезааналитическое высказывание (полученное в результате аналитической обра-
ботки данных, например прогнозирования) относительно состояния атрибута досье, которое
сопровождается аргументирующей информацией, ссылками на источники и др. Гипотеза мо-
жет порождаться разными подсистемами извлечения знаний или экспертами.
Объектсущность, информация о которой накапливается в системе. Объект имеет се-
мантический фильтр для самоидентификации в тексте.
Тип досьеописание проблемной области, представленное в виде иерархии атрибутов.
Для каждого объекта должен быть определен хотя бы один тип досье.
Досьереализация типа досье для конкретного объекта.
Атрибутструктурный элемент типа досье, предназначенный для накопления фактов
одного типа (биографические данные, сведения о поездках и др.). Атрибут имеет семантиче-