Введение в информационно-поисковые системы. Иванов В.К - 15 стр.

UptoLike

ВУЗ:

ТвГТУ | Тверь

Составители:

Рубрика:

Компьютерные сети и телекоммуникации

Описанная модель информационного массива является наиболее широко ис-

пользуемой. В первую очередь это связано с простотой реализации и, как следствие,

возможностью быстрой обработки больших объемов документов. В случае использо-

вания весов терминов информационный массив

может быть представлен в виде

{

}











∈

∉

===∀=

ijij

dtW

bDjNiL

:,1;,1

где

– вес термина

в документе

Матрица информационного массива изображена на рис. Рис. 4.













NDNj2N1N

iDij2i1i

D2j22221

D1j11211

WWWW











Документ 1

Документ 2

Документ i

Документ N

...

Термин 1 Термин 2 Термин j Термин D... ...

Рис. 4. Матрица "термин-документ" информационного массива

Процедура обращения к информационно-поисковой системе может быть опре-

делена следующим образом:

RqL

=×

Здесь

– вектор запроса,

– вектор отклика системы на запрос.

Остановимся подробнее на статистических закономерностях, которые исполь-

зуются в процессе индексирования документов.

2.3. Статистический анализ текстов. Закон Ципфа

Начальным этапом любого метода индексирования является отбор из докумен-

тов терминов, которые бы наилучшим образом характеризовали их содержимое. Та-

кая необходимость вызвана тем, что непосредственное сканирование текстов доку-

ментов во время поиска занимает слишком много времени, особенно в поисковых

системах сети Интернет. С другой стороны, хранение полных текстов документов в

базах данных поисковых систем привело бы, во-первых, к резкому росту их объема,

и, во-вторых, поставило бы проблему соблюдения авторских прав.

Для выделения из документа индексационных терминов используются главным

образом статистические закономерности распределения частоты появления различ-

Заказать работу

Введение в информационно-поисковые системы. Иванов В.К - 15 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Вы здесь

Введение в информационно-поисковые системы. Иванов В.К - 15 стр.

UptoLike

ВУЗ:

Иванов В.К.

Иванов К.В.

Компьютерные сети и телекоммуникации

Страницы