Теория вероятностей и математическая статистика. Блатов И.А - 52 стр.

UptoLike

52
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что
оно спам для множества гипотез.
«гипотезы» это слова, и для каждого слова
«достоверность гипотезы» % этого слова в письме, а
«зависимость события от гипотезы»
i
ABP
вычисленный
ранее «вес» слова.
То есть «вес» письма - усредненный «вес» всех его слов.
Отнесение письма к «спаму» или «не-спаму» производится
по тому, превышает ли его «вес» планку, заданную
пользователем ( 60-80 %). После принятия решения по письму в
базе данных обновляются «веса» для вошедших в него слов.
Недостаток метода :базируется на том, что одни слова чаще
встречаются в спаме, а другие в обычных письмах, и
неэффективен, если данное предположение неверно
Замечание если 80% писем, содержащих
словосочетание "разговорный английский", являлись спамом, то
и следующее письмо с этим словосочетанием - спам, причем с
большой долей вероятности.
Контрольные вопросы
1. Как определяется условная вероятность?
2. При каких условиях применяется формула Байеса?
3. В каких случаях применяется формула полной
вероятности? Каким свойствам должны удовлетворять
гипотезы?
4. Что такое априорные и апостериорные вероятности?
5. Если все априорные вероятности гипотез одинаковы, то
остаются ли их апостериорные вероятности также всегда
одинаковыми?
   Метод фильтрации спама
   При проверке письма вычисляется вероятность того, что
оно — спам для множества гипотез.
   «гипотезы» — это слова, и для каждого слова
«достоверность гипотезы» — % этого слова в письме, а
«зависимость события от гипотезы» P B Ai  — вычисленный
ранее «вес» слова.
   То есть «вес» письма - усредненный «вес» всех его слов.
   Отнесение письма к «спаму» или «не-спаму» производится
по тому, превышает ли его «вес» планку, заданную
пользователем ( 60-80 %). После принятия решения по письму в
базе данных обновляются «веса» для вошедших в него слов.
   Недостаток метода :базируется на том, что одни слова чаще
встречаются в спаме, а другие — в обычных письмах, и
неэффективен, если данное предположение неверно
    Замечание        если     80%     писем,     содержащих
словосочетание "разговорный английский", являлись спамом, то
и следующее письмо с этим словосочетанием - спам, причем с
большой долей вероятности.

   Контрольные вопросы
   1. Как определяется условная вероятность?
   2. При каких условиях применяется формула Байеса?
   3. В каких случаях применяется формула полной
      вероятности? Каким свойствам должны удовлетворять
      гипотезы?
   4. Что такое априорные и апостериорные вероятности?
   5. Если все априорные вероятности гипотез одинаковы, то
      остаются ли их апостериорные вероятности также всегда
      одинаковыми?




   52