Составители:
279
так и «хороших» фильтров. Эта четвертая методика, предложенная
американским программистом и предпринимателем Полом Грэмом.
Методика основывается на теории вероятностей и использует для
фильтрации спама статистический алгоритм Байеса. По имеющимся оценкам,
этот метод борьбы со спамом является весьма эффективным. Так, в процессе
испытания через фильтр были пропущены 8000 писем, половина из которых
являлась спамом. В результате система не смогла распознать лишь 0,5%
спам-сообщений, а количество ошибочных срабатываний фильтра оказалось
нулевым.
Требование полного разбора письма при решении задачи
категоризации следует дополнить требованием устойчивости.
- Во-первых, система должна быть устойчивой по отношению к
обработке писем с некорректной стрктурой. Структура письма
подчиняется определенным правилам. Разбор письма на
составляющие основан на применении этих правил к конкретному
письму. Возможны случаи, когда почтовая программа автора письма
формирует письмо с нарушением этих правил. В этом случае
письмо не может быть корректно разобрано..
- Во-вторых, система должна надежно определять типы файлов-
вложений. Под «надежностью» имеется в виду определение, не
основанное на имени файла, а также на информации, вписываемой в
письмо почтовым клиентом при прикреплении файла (mime-type).
Такая информация может быть недостоверна либо в результате
сознательных попыток обмануть систему контроля, либо в
результате неправильных настроек почтовой программы
отправителя. Бессмысленно запрещать пересылку файлов типа
JPEG, если файл picture.jpg после переименования в page.txt пройдет
незамеченным.
- В-третьих, система болжна обеспечивать полноту проводимых
проверок, то есть высокое количество и разнообразие критериев
анализа электронной почты. При этом система должна
осуществлять фильтрацию по любым атрибутам сообщений, по
объему сообщений и вложенных файлов, по количеству и типу
вложений, по глубине вложенности, а также уметь анализировать
содержимое прикрепленных файлов вне зависимости от того,
являются ли эти файлы сжатыми или архивными. Существенным
преимуществом многих продуктов является возможность создания
собственного сценария обработки сообщений электронной почты.
При анализе текста нужно иметь возможность работать с
нормализованными словоформами и т.д.
так и «хороших» фильтров. Эта четвертая методика, предложенная
американским программистом и предпринимателем Полом Грэмом.
Методика основывается на теории вероятностей и использует для
фильтрации спама статистический алгоритм Байеса. По имеющимся оценкам,
этот метод борьбы со спамом является весьма эффективным. Так, в процессе
испытания через фильтр были пропущены 8000 писем, половина из которых
являлась спамом. В результате система не смогла распознать лишь 0,5%
спам-сообщений, а количество ошибочных срабатываний фильтра оказалось
нулевым.
Требование полного разбора письма при решении задачи
категоризации следует дополнить требованием устойчивости.
- Во-первых, система должна быть устойчивой по отношению к
обработке писем с некорректной стрктурой. Структура письма
подчиняется определенным правилам. Разбор письма на
составляющие основан на применении этих правил к конкретному
письму. Возможны случаи, когда почтовая программа автора письма
формирует письмо с нарушением этих правил. В этом случае
письмо не может быть корректно разобрано..
- Во-вторых, система должна надежно определять типы файлов-
вложений. Под «надежностью» имеется в виду определение, не
основанное на имени файла, а также на информации, вписываемой в
письмо почтовым клиентом при прикреплении файла (mime-type).
Такая информация может быть недостоверна либо в результате
сознательных попыток обмануть систему контроля, либо в
результате неправильных настроек почтовой программы
отправителя. Бессмысленно запрещать пересылку файлов типа
JPEG, если файл picture.jpg после переименования в page.txt пройдет
незамеченным.
- В-третьих, система болжна обеспечивать полноту проводимых
проверок, то есть высокое количество и разнообразие критериев
анализа электронной почты. При этом система должна
осуществлять фильтрацию по любым атрибутам сообщений, по
объему сообщений и вложенных файлов, по количеству и типу
вложений, по глубине вложенности, а также уметь анализировать
содержимое прикрепленных файлов вне зависимости от того,
являются ли эти файлы сжатыми или архивными. Существенным
преимуществом многих продуктов является возможность создания
собственного сценария обработки сообщений электронной почты.
При анализе текста нужно иметь возможность работать с
нормализованными словоформами и т.д.
279
Страницы
- « первая
- ‹ предыдущая
- …
- 277
- 278
- 279
- 280
- 281
- …
- следующая ›
- последняя »
