ВУЗ:
Составители:
Рубрика:
52
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что
оно — спам для множества гипотез.
«гипотезы» — это слова, и для каждого слова
«достоверность гипотезы» — % этого слова в письме, а
«зависимость события от гипотезы»
i
ABP
— вычисленный
ранее «вес» слова.
То есть «вес» письма - усредненный «вес» всех его слов.
Отнесение письма к «спаму» или «не-спаму» производится
по тому, превышает ли его «вес» планку, заданную
пользователем ( 60-80 %). После принятия решения по письму в
базе данных обновляются «веса» для вошедших в него слов.
Недостаток метода :базируется на том, что одни слова чаще
встречаются в спаме, а другие — в обычных письмах, и
неэффективен, если данное предположение неверно
Замечание если 80% писем, содержащих
словосочетание "разговорный английский", являлись спамом, то
и следующее письмо с этим словосочетанием - спам, причем с
большой долей вероятности.
Контрольные вопросы
1. Как определяется условная вероятность?
2. При каких условиях применяется формула Байеса?
3. В каких случаях применяется формула полной
вероятности? Каким свойствам должны удовлетворять
гипотезы?
4. Что такое априорные и апостериорные вероятности?
5. Если все априорные вероятности гипотез одинаковы, то
остаются ли их апостериорные вероятности также всегда
одинаковыми?
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что
оно — спам для множества гипотез.
«гипотезы» — это слова, и для каждого слова
«достоверность гипотезы» — % этого слова в письме, а
«зависимость события от гипотезы» P B Ai — вычисленный
ранее «вес» слова.
То есть «вес» письма - усредненный «вес» всех его слов.
Отнесение письма к «спаму» или «не-спаму» производится
по тому, превышает ли его «вес» планку, заданную
пользователем ( 60-80 %). После принятия решения по письму в
базе данных обновляются «веса» для вошедших в него слов.
Недостаток метода :базируется на том, что одни слова чаще
встречаются в спаме, а другие — в обычных письмах, и
неэффективен, если данное предположение неверно
Замечание если 80% писем, содержащих
словосочетание "разговорный английский", являлись спамом, то
и следующее письмо с этим словосочетанием - спам, причем с
большой долей вероятности.
Контрольные вопросы
1. Как определяется условная вероятность?
2. При каких условиях применяется формула Байеса?
3. В каких случаях применяется формула полной
вероятности? Каким свойствам должны удовлетворять
гипотезы?
4. Что такое априорные и апостериорные вероятности?
5. Если все априорные вероятности гипотез одинаковы, то
остаются ли их апостериорные вероятности также всегда
одинаковыми?
52
Страницы
- « первая
- ‹ предыдущая
- …
- 50
- 51
- 52
- 53
- 54
- …
- следующая ›
- последняя »
