Информационные системы. Бурцева Е.В - 54 стр.

UptoLike

сис. Морфология совокупность средств и способов построения и изменения
слов. Синтаксис совокупность средств и способов соединения слов в выраже-
ния и фразы.
Требования к ИПЯ.
1. ИПЯ должен располагать лексико-грамматическими средствами для точ-
ного выражения основного содержания (центральной темы или предмета) тек-
ста. Это связано с необходимостью представления текстов на семантическом
уровне и является обязательной предпосылкой обеспечения смысловырази-
тельной способности ИПЯ.
2. ИПЯ не должен быть двусмысленным. Любое выражение ИПЯ должно
пониматься вполне однозначно, что связано с необходимостью устранения
многозначности, присущей естественному языку и недопустимой для ИПЯ в
силу того, что приёмником текстов ИПЯ является ЭВМ, а не человек.
3. ИПЯ должен быть удобным для алгоритмизации.
2.13. Системы индексирования
Индексирование
процесс перевода текстов естественного языка на ИПЯ.
Индексирование базируется на совокупности инструкций, детально описываю-
щих процесс индексирования и представляющих собой комплекс правил,
включающих и правила применения ИПЯ.
Система индексирования
(СИ) совокупность методов и средств перевода
текстов с ЕЯ на ИПЯ в соответствии с заданным набором словарей лексических
единиц и с правилами применения ИПЯ. Помимо правил применения ИПЯ,
система индексирования может включать большое разнообразие инструкций,
положений, методов, регламентирующих те или иные этапы процесса индекси-
рования. Существующие системы индексирования сильно отличаются друг от
друга, и описать их общий состав и структуру не представляется возможным.
Однако наличие общих признаков позволяет дать системное представление о
классах систем индексирования.
Типы систем индексирования.
Рассмотрим технологию систем индексирования по пяти наиболее важным
основаниям.
1.
По степени автоматизации
процесса индексирования можно различать
системы:
а) ручного индексирования;
б) автоматического индексирования;
в) автоматизированного индексирования.
2.
По степени контролируемости
различают СИ:
а) без словаря (может быть факультативное использование словарей);
б) с жёстким словарём;
в) со свободным словарём.
3.
По характеру алгоритма отбора слов текста
могут быть СИ:
а) с последовательным просмотром текста;
б) с эвристическими процедурами выбора слов текста;