ВУЗ:
Составители:
Рубрика:
52
Метод фильтрации спама
При проверке письма вычисляется вероятность того, что
оно — спам для множества гипотез.
«гипотезы» — это слова, и для каждого слова
«достоверность гипотезы» — % этого слова в письме, а
«зависимость события от гипотезы»
i
ABP
— вычисленный
ранее «вес» слова.
То есть «вес» письма - усредненный «вес» всех его слов.
Отнесение письма к «спаму» или «не-спаму» производится
по тому, превышает ли его «вес» планку, заданную
пользователем ( 60-80 %). После принятия решения по письму в
базе данных обновляются «веса» для вошедших в него слов.
Недостаток метода :базируется на том, что одни слова чаще
встречаются в спаме, а другие — в обычных письмах, и
неэффективен, если данное предположение неверно
Замечание если 80% писем, содержащих
словосочетание "разговорный английский", являлись спамом, то
и следующее письмо с этим словосочетанием - спам, причем с
большой долей вероятности.
Контрольные вопросы
1. Как определяется условная вероятность?
2. При каких условиях применяется формула Байеса?
3. В каких случаях применяется формула полной
вероятности? Каким свойствам должны удовлетворять
гипотезы?
4. Что такое априорные и апостериорные вероятности?
5. Если все априорные вероятности гипотез одинаковы, то
остаются ли их апостериорные вероятности также всегда
одинаковыми?
Метод фильтрации спама При проверке письма вычисляется вероятность того, что оно — спам для множества гипотез. «гипотезы» — это слова, и для каждого слова «достоверность гипотезы» — % этого слова в письме, а «зависимость события от гипотезы» P B Ai — вычисленный ранее «вес» слова. То есть «вес» письма - усредненный «вес» всех его слов. Отнесение письма к «спаму» или «не-спаму» производится по тому, превышает ли его «вес» планку, заданную пользователем ( 60-80 %). После принятия решения по письму в базе данных обновляются «веса» для вошедших в него слов. Недостаток метода :базируется на том, что одни слова чаще встречаются в спаме, а другие — в обычных письмах, и неэффективен, если данное предположение неверно Замечание если 80% писем, содержащих словосочетание "разговорный английский", являлись спамом, то и следующее письмо с этим словосочетанием - спам, причем с большой долей вероятности. Контрольные вопросы 1. Как определяется условная вероятность? 2. При каких условиях применяется формула Байеса? 3. В каких случаях применяется формула полной вероятности? Каким свойствам должны удовлетворять гипотезы? 4. Что такое априорные и апостериорные вероятности? 5. Если все априорные вероятности гипотез одинаковы, то остаются ли их апостериорные вероятности также всегда одинаковыми? 52
Страницы
- « первая
- ‹ предыдущая
- …
- 50
- 51
- 52
- 53
- 54
- …
- следующая ›
- последняя »