Информационные системы в науке, образовании и бизнесе. Ефремов О.В - 70 стр.

UptoLike

Составители: 

Рис. 20. Структура источников фактов в системе бизнес-разведки
Автоматическое выделение фактографической информацииэто процесс выделения
фактов для пар (объект, атрибут досье), которые находятся в состоянии автоматического мо-
ниторинга (рис. 21). В зависимости от типа атрибута и источника информации процесс мо-
жет быть выполнен различными методами: с применением инструментов контекстного поис-
ка, синтаксического анализа, методов распознавания образов, статистического анализа и др.
В автоматическом выделении фактов в системе бизнес-разведки задействовано несколько программных
компонентов.
Фактографический модуль предназначен для автоматического выделения фактов из ин-
формационных объектов, доставляемых источником данных. Может обрабатывать структу-
рированные (числовые и символьные данные, пространственная информация из геоинфор-
мационных систем) и неструктурированные (видео, звук, текст) данные. Например, для тек-
стового атрибута Покупка акций фактом является контрольный пакет акций, объектом связи
ОАО "XXX", а свойством фактаобстоятельство времени (май 2004 г.). С помощью се-
мантико-
Рис. 21. Преобразование аномалий процессов, полученных
в системе экономического мониторинга, в А-факты
лингвистических методов выделяются количественная информация, связанные с фактом
объекты, обстоятельства места и времени. Выделенная информация очищается, нормализу-
ется (например, приводится к единому формату даты в системе) и классифицируется. Она со-
храняется в базе и используется для аналитической обработки, скажем для автоматического
выявления прямых, косвенных и транзитивных связей между объектами, а также для построе-
ния семантических сетей объектов.
Источник данных доставляет контент для автоматической обработки фактографическим
модулем. Все источники документов системы поддерживают набор программных интерфей-
сов, с помощью которых фактографический модуль выполняет запросы, получает контент и
его атрибуты.
Задача управляет регламентом и настройками процесса автоматического выделения фак-
тов из текстов.
Агент запуска задач управляет регламентом выполнения задач, производит их запуск и
остановку. Агент определяет задачу, готовую к выполнению. По ее параметрам он устанав-
ливает, какой фактографический модуль необходимо запустить и какие источники докумен-
тов для этого использовать.
Для минимизации времени обработки потока документов используются контекстные
фильтры, предварительно отделяющие потенциально "полезные" для выделения фактов до-
кументы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый
атрибут досье может иметь фактографическое правило, определяющее синтактико-
морфологический шаблон, по которому выделяются факт и его атрибуты в тексте. Шаблоны
строятся специальным модулем на основе обучающих примеров-предложений. На его вход
подается предложение, содержащее факт для определенного атрибута, а на выходе формиру-
ется шаблон факта для всех похожих предложений.
А-факт
А-факт
А-факт
Досье