Информационные системы в науке, образовании и бизнесе. Ефремов О.В - 71 стр.

UptoLike

Составители: 

Технология выделения А-фактов из текста основана на использовании специальных се-
мантико-лингвистических методов, которые позволяют получить А-факты, сопоставимые с
экспертными по точности и полноте. Сначала строится дайджест объекта, который содержит
все предложения документа, содержащие ссылки на объект. Затем создается информацион-
ный портрет документа на основе смысла элементов текста, извлекаемых средствами синтак-
сического анализа и синтеза. Далее он преобразуется в семантическую сеть, обеспечиваю-
щую инвариантность представления смыслов относительно ряда особенностей поверхност-
но-синтаксической организации текста.
Для решения задачи выделения А-фактов полное представление смысла текста в форме се-
мантической сети избыточно; оно имеет большой объем (превышающий объем документа), а его
утилизация требует высокопроизводительного оборудования и развитых нетривиальных средств
для поиска и сравнения структур на графах. Будучи дополнен правилами для генерации канони-
ческой формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой
атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных
фразах. Например, фразам "Транспорт был арендован террористом у автобазы", "Террорист
арендует у автобазы транспорт" и "Аренда транспорта террористом у автобазы" будут соответ-
ствовать одинаковые элементы смысла: "террорист арендует", "аренда транспорта", "аренда у
автобазы".
Выделяемые связи между элементами смысла можно разделить на следующие основные
классы:
связи между ситуациями и их участниками, например (сделать, покупка), (продажа,
акции);
атрибутивные связи внутри именных групп, обычно называющих участников ситуа-
ции, например акт (террористический, боевиков), предприятие (прибыльное, город);
связи между ситуациями, например, покупать (учиться), бороться (искореняя);
связи ситуаций с обстоятельствами или дополнительными атрибутами.
В последней технологической фазе извлечения А-фактов модуль фактографических правил на основе се-
мантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание вы-
деленных фактов в базе данных системы. Еще раз подчеркнем, что выделенный фактэто не только контекст,
но и его свойства. В XFiles алгоритм выделения фактов из текстов наиболее глубоко проработан для русского
языка; для других языков могут использоваться источники документов, поддерживающие многоязычный по-
иск.
Технология формирования досье
При коллективной работе зачастую несколько фактов вводятся в один атрибут одного объекта, после чего
возникает необходимость в экспертной оценке достоверности введенных (возможно, противоречивых) фактов.
Для этого в базе досье хранится дополнительная информация, подтверждающая факты в форме цитат из доку-
ментов, а также прикрепленных к факту документов, почтовых сообщений, заключений экспертов, видеофраг-
ментов и графических файлов. Каждый факт в системе имеет статус "достоверный" или "недостоверный". На
основе дополнительной подтверждающей информации из базы данных эксперт может принять решение об из-
менении статуса факта либо его удалить.
В системе реализован трекинг фактовдля любого факта пользователи имеют возможность вводить и про-
сматривать комментарии и фрагменты контента, а также сами информационные объекты.
Технология пакетного формирования досье весьма актуальна в компаниях, имеющих рас-
пределенную систему офисов, каждый из которых может порождать информацию, например о
действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном
офисе на основании, в том числе, досье на конкурентов. Для разметки удаленно сформирован-
ных сообщений, содержащих новые факты об объектах мониторинга, используется язык XML.
Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье по-
стоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье.
Встроенные в шаблон средства контроля над целостностью документа позволяют передавать
только правильные факты. Автоматический ввод поступающих фактов производится с помо-
щью программы-агента. Она выполняет мониторинг поступления новых сообщений, анализ
корректности и структурный разбор XML-сообщения, формирование списка фактов, содержа-
щихся в сообщении, и ввод фактов в базу данных.
Аналитическая обработка фактов