01 июня 2004

[soft] Big outlook anti spam plugin

Needs teaching first. At this moment like it.
http://spambayes.sourceforge.net/


Самообучающиеся фильтры. В последнее время довольно много пишут о так называемых статистических байесовских фильтрах, которые сами обучаются распознавать спам на образцах писем пользователя. Можно слышать и мнение, что байесовские фильтры решают проблему фильтрации спама.

Сама по себе технология не представляет собой ничего нового - данный метод известен в кибернетике более 30 лет. Основная идея такова: берутся два эталонных массива, массив спамерских писем и массив "нормальных" сообщений. Для каждого слова из обоих массивов вычисляется частота вхождения в оба массива. Если некоторое слово часто встречается в спамерских письмах и редко - в обычных, то обнаружение такого слова в новом письме с некоторой вероятностью указывает на то, что письмо представляет собой спам. Естественно, большее количество таких слов в письме дает большую уверенность.

При анализе спама остается взять все слова из анализируемого письма и объединить их "спамерские" вероятности, получив таким образом оценку всего письма в целом. Объединение выполняется по известным формулам условных вероятностей Байеса, почему такие фильтры и называются байесовскими. Фактически здесь работа по составлению лингвистических эвристик возложена на саму программу. Наиболее известная программа этого рода - бесплатная Popfile, относящаяся к числу ПО с открытым исходным кодом (загрузить ее можно по адресу http://sourceforge.net/projects/popfile).

Идея автоматически обучать программу поначалу производит сильное впечатление, однако, как обычно, у данного метода есть свои ограничения. Во-первых, борьба со спамом, равно как и с вирусами, - это борьба человека с человеком. Сомнительно, что удастся раз и навсегда заменить одну из сторон довольно простым автоматом. Спамеры постоянно предпринимают энергичные усилия для обмана вероятностных фильтров.

Достаточно упомянуть два приема, чтобы понять, что вероятностные фильтры - не панацея. К примеру, в последнее время спамеры начали применять вставку в письма случайных последовательностей и случайных слов (и даже обширных цитат из Шекспира и Уитмена). Применяется также случайная замена букв на похожие по написанию (например, русских "у", "о", "а" на соответствующие латинские или английских гласных - на немецкие с умляутами). Это дает десятки тысяч новых несуществующих "слов" каждую неделю.

Во-вторых, вероятностные фильтры вообще довольно неустойчивы относительно потока спама. Их приходится постоянно доучивать, и далеко не все пользователи готовы этим заниматься.


//SW

Комментариев нет:

Архив блога

What to do?

Problem:
you have site designed in a dark theme, saying dark background, white font.
By default google toolbar autocomplete cracks html for inputs or selects containg "email" "name" "address" and other buzzwords and changes background to yellow. As a result when visitor fills form, he enters text as white on yellow and can not easy validate his input
What to do?

Таги

Followers

item http://www.voronenko.com/2004/06/soft-big-outlook-anti-spam-plugin.html