ВУЗ:
Составители:
Рубрика:
такой же термин. В качестве иллюстрации приведем слово «мышь», которое означа-
ет и грызуна, и компьютерное устройство [].
Описанные проблемы решает латентное семантическое индексирование
1
[, ].
Суть этого подхода состоит в том, что каждый набор документов имеет неявную, ла-
тентную семантическую структуру
2
. Анализ такой структуры (латентно-семантиче-
ский анализ) позволяет описать каждый документ не только с точки зрения наличия
или отсутствия каких-либо терминов, но и с точки зрения его смысла (семантической
направленности). Например, документ может быть адекватно описан терминами, ко-
торые не входят в его состав, и наоборот – некоторые термины не отражают смысла
документа, и совпадение их с терминами запроса не делает документ релевантным
[].
Таким образом, в результате количественного анализа латентных факторов
веса терминов могут быть скорректированы, и поисковый образ документа станет
более адекватным его содержанию. Качество поиска в ИПС, использующих ЛСИ,
выше, чем в системах, где применяются только частотные методы.
Латентно-семантическое индексирование позволяет также охарактеризовать
документ некоторыми новыми свойствами, которые не связаны с наличием или от-
сутствием терминов (например, количеством библиографических ссылок на данный
документ из остальных документов набора, разметкой документа (обычный текст
или таблица) или, для документов Интернет, частотой обновления и посещаемостью
страницы [, ]).
Математически латентно-семантическое индексирование реализуется с помо-
щью одного из методов линейной алгебры – сингулярного разложения матрицы [, ].
Современные алгоритмы используют также аппарат теории вероятностей (вероят-
ностное латентное семантическое индексирование) [].
Одним из важных направлений ЛСИ является межязыковое латентно-семанти-
ческое индексирование
3
[]. Основным принципом здесь является тот факт, что
запрос на одном языке может возвращать релевантные документы на других языках.
Рассмотрим некоторую группу документов, где каждый документ представлен
на двух языках (например, немецком и английском). После проведения латентно-се-
мантического анализа каждый документ будет описан как немецкими, так и англий-
скими терминами в едином межязыковом семантическом пространстве. Поэтому
запросы к этому набору документов, а также к вновь добавляемым в набор докумен-
там (на каком-то одном языке) можно будет делать на любом из двух языков.
1
Латентное семантическое индексирование (ЛСИ) – англ. Latent Semantic Indexing (LSI)
2
Под семантической структурой здесь имеется в виду некоторая структура, в которую объединены
отдельные термины в документе.
3
Межязыковое ЛСИ – от англ. Cross-language Latent Semantic Indexing
29
Страницы
- « первая
- ‹ предыдущая
- …
- 27
- 28
- 29
- 30
- 31
- …
- следующая ›
- последняя »