Needs teaching first. At this moment like it.
http://spambayes.sourceforge.net/
Самообучающиеся фильтры. В последнее время довольно много пишут о так называемых статистических байесовских фильтрах, которые сами обучаются распознавать спам на образцах писем пользователя. Можно слышать и мнение, что байесовские фильтры решают проблему фильтрации спама.
Сама по себе технология не представляет собой ничего нового - данный метод известен в кибернетике более 30 лет. Основная идея такова: берутся два эталонных массива, массив спамерских писем и массив "нормальных" сообщений. Для каждого слова из обоих массивов вычисляется частота вхождения в оба массива. Если некоторое слово часто встречается в спамерских письмах и редко - в обычных, то обнаружение такого слова в новом письме с некоторой вероятностью указывает на то, что письмо представляет собой спам. Естественно, большее количество таких слов в письме дает большую уверенность.
При анализе спама остается взять все слова из анализируемого письма и объединить их "спамерские" вероятности, получив таким образом оценку всего письма в целом. Объединение выполняется по известным формулам условных вероятностей Байеса, почему такие фильтры и называются байесовскими. Фактически здесь работа по составлению лингвистических эвристик возложена на саму программу. Наиболее известная программа этого рода - бесплатная Popfile, относящаяся к числу ПО с открытым исходным кодом (загрузить ее можно по адресу http://sourceforge.net/projects/popfile).
Идея автоматически обучать программу поначалу производит сильное впечатление, однако, как обычно, у данного метода есть свои ограничения. Во-первых, борьба со спамом, равно как и с вирусами, - это борьба человека с человеком. Сомнительно, что удастся раз и навсегда заменить одну из сторон довольно простым автоматом. Спамеры постоянно предпринимают энергичные усилия для обмана вероятностных фильтров.
Достаточно упомянуть два приема, чтобы понять, что вероятностные фильтры - не панацея. К примеру, в последнее время спамеры начали применять вставку в письма случайных последовательностей и случайных слов (и даже обширных цитат из Шекспира и Уитмена). Применяется также случайная замена букв на похожие по написанию (например, русских "у", "о", "а" на соответствующие латинские или английских гласных - на немецкие с умляутами). Это дает десятки тысяч новых несуществующих "слов" каждую неделю.
Во-вторых, вероятностные фильтры вообще довольно неустойчивы относительно потока спама. Их приходится постоянно доучивать, и далеко не все пользователи готовы этим заниматься.
//SW
Комментариев нет:
Отправить комментарий