Ce trebuie să știți despre filtrul Bayesian Spam

by Heinz Tschabitscher

Aflați cum ajuta statisticile să păstreze cutia dvs. primară curată

Filtrele spam bayesian calculează probabilitatea ca un mesaj să fie spam bazat pe conținutul său. Spre deosebire de filtrele simple bazate pe conținut, filtrarea spam-ului Bayesian învață de la spam și de la poșta bună, ducând la o abordare anti-spam foarte robustă, adaptabilă și eficientă care, cel mai bine, nu întoarce aproape deloc fals pozitive.

Cum recunoașteți e-mailurile nedorite?

Gândiți-vă la modul în care detectați spamul . O scurtă privire este adesea suficientă. Știi cum arată spamul și știi cum arată poșta bună.

Probabilitatea ca spam-ul să arate ca o corespondență bună este în jur de ... zero.

Scorarea filtrelor bazate pe conținut nu se adaptează

Nu ar fi minunat ca filtrele automate de spam să funcționeze așa?

Scorarea filtrelor de spam bazate pe conținut încearcă doar asta. Ei caută cuvinte și alte caracteristici tipice de spam. Fiecărui element caracteristic i se atribuie un punctaj, iar un scor de spam pentru întreg mesajul este calculat din scorurile individuale. Unele filtre de notare caută și caracteristicile poștei legitime, scăzând scorul final al mesajului.

Metoda de filtrare a scorurilor nu funcționează, dar are și câteva dezavantaje:

Lista de caracteristici este construită din spam (și poșta bună), la dispoziția inginerilor filtrului. Pentru a înțelege bine tipul de spam obișnuit, poșta trebuie colectată la sute de adrese de e-mail. Acest lucru slăbește eficiența filtrelor, în special deoarece caracteristicile poștei bune vor fi diferite pentru fiecare persoană , dar acest lucru nu este luat în considerare.
Caracteristicile pe care le căutați sunt mai mult sau mai puțin piatră . În cazul în care spammerii fac efortul de a se adapta (și de a face spam-ul lor să pară ca un mesaj bun pentru filtre), caracteristicile de filtrare trebuie să fie modificate manual - un efort și mai mare.
Scorul atribuit fiecărui cuvânt se bazează, probabil, pe o estimare bună, dar este încă arbitrară. Ca și lista de caracteristici, nu se adaptează nici la lumea schimbătoare de spam în general, nici la nevoile unui utilizator individual.

Bayesian Filtre Spam Tweak-te, Noțiuni de bază mai bine și mai bine

Bayesian filtrele de spam sunt un fel de scoruri de conținut bazate pe filtre, de asemenea. Abordarea lor elimină problemele de filtrare a spamurilor simple, însă se întâmplă atât de radical. Deoarece slăbiciunea filtrelor de notare este în lista manuală de caracteristici și scorurile lor, această listă este eliminată.

În schimb, filtrele Bayesian spam construiesc singură lista. In mod ideal, incepeti cu un buzunar (mare) de e-mailuri pe care le-ati clasificat drept spam, si un alt buchet de mailuri bune. Filtrele se uită la ambele și analizează corespondența legitimă, precum și spam-ul pentru a calcula probabilitatea apariției diferitelor caracteristici care apar în spam și în mesajele bune.

Cum un filtru Bayesian Spam examinează un e-mail

Caracteristicile unui filtru de spam Bayesian se pot uita la:

cuvintele din corpul mesajului, desigur, și
(cum ar fi expeditorii și căile de mesaje , de exemplu!), dar și
alte aspecte, cum ar fi codul HTML / CSS (cum ar fi culorile și alte formate) sau chiar
perechi de cuvinte, fraze și
informații meta (unde apare, de exemplu, o anumită expresie).

Dacă un cuvânt, "cartezian", de exemplu, nu apare niciodată în spam, dar de multe ori în e-mailurile legitime pe care le primiți, probabilitatea că "cartesian" indică spam-ul este aproape de zero. "Toner", pe de altă parte, apare exclusiv, și adesea, în spam. "Toner" are o probabilitate foarte mare de a fi găsit în spam, nu cu mult sub 1 (100%).

Atunci când sosește un mesaj nou, acesta este analizat de filtrul de spam Bayesian, iar probabilitatea ca mesajul complet să fie spam este calculat utilizând caracteristicile individuale.

Să presupunem că un mesaj conține atât cartesian cât și toner. Doar din aceste cuvinte nu este încă clar dacă avem mesaje spam sau legit. Alte caracteristici vor indica (probabil și probabil) o probabilitate care să permită filtrului să clasifice mesajul ca spam sau poștă bună.

Filtrele Bayesian Spam se pot învăța automat

Acum că avem o clasificare, mesajul poate fi folosit pentru a instrui mai departe filtrul. În acest caz, fie că probabilitatea de "carteziană" care indică o corespondență bună este redusă (dacă mesajul care conține atât cartesian, cât și toner este spam) sau probabilitatea ca tonerul care indică spam să fie reconsiderat.

Folosind această tehnică auto-adaptivă, filtrele Bayesian pot învăța atât de la propriile lor, cât și de la decizia utilizatorului (dacă corectează manual o filosofie greșită a filtrelor). Adaptabilitatea filtrării Bayesian se asigură, de asemenea, că acestea sunt cele mai eficiente pentru utilizatorul individual de e-mail. Deși spamul majorității oamenilor poate avea caracteristici similare, poșta legitimă este în mod caracteristic diferită pentru toată lumea.

Cum poate Spammerii să obțină filtre Bayesian din trecut?

Caracteristicile poștei legitime sunt la fel de importante pentru procesul de filtrare a spam-ului ca spam. Dacă filtrele sunt instruite special pentru fiecare utilizator, spam-urile vor avea un timp mult mai greu de lucru în jurul filtrelor de spam ale fiecăruia (sau chiar al celor mai mulți), iar filtrele se pot adapta la aproape tot ce încercuiesc spamerii.

Spamatorii nu vor face decât să treacă prin filtre bayesiene bine pregătite dacă își vor face mesajele de spam să arate perfect ca e-mailurile obișnuite pe care toată lumea le poate obține.

Spamatorii nu trimit de obicei astfel de e-mailuri obișnuite. Să presupunem că acest lucru se datorează faptului că aceste e-mailuri nu funcționează ca e-mail nesolicitat. Deci, șansele sunt că nu o vor face atunci când e-mailurile obișnuite, plictisitoare sunt singura modalitate de a face filtrul de spam.

Dacă spammerii vor trece în majoritatea e-mailurilor cu aspect obișnuit, cu toate acestea, vom vedea din nou mesajele de poștă electronică în Inbox-urile noastre, iar e-mailul poate deveni la fel de frustrant ca în zilele pre-bayesiene (sau chiar mai rău). De asemenea, aceasta va distruge piața pentru cele mai multe tipuri de spam, și astfel nu va dura mult timp.

Indicatori puternici Poate fi un Achilles filtru Bayesian Spam " Toc

O excepție poate fi percepută pentru ca spammerii să se străduiască prin filtre bayesiene chiar și cu conținutul lor obișnuit. Este în natura statisticilor bayesiene că un cuvânt sau o caracteristică care apare foarte frecvent în poșta bună poate fi atât de semnificativă încât să transforme orice mesaj de la aspectul de spam ca fiind considerat ca fiind sunca de către filtru.

Dacă spammerii găsesc o modalitate de a determina cuvintele dvs. de siguranță prin poștă electronică, folosind declarațiile de returnare HTML pentru a vedea ce mesaje ați deschis, de exemplu, aceștia pot include unul dintre ei într-o corespondență nedorită și pot ajunge chiar și printr- un filtru bayesian instruit.

John Graham-Cumming a încercat acest lucru prin a lăsa două filtre bayesiene să funcționeze unul împotriva celuilalt, cel "rău" care se adaptează mesajelor care se găsesc prin filtrul "bun". El spune că funcționează, deși procesul este consumator de timp și complex. Nu credem că vom vedea o mare parte din acest lucru, cel puțin nu pe o scară largă, și nu adaptat caracteristicilor de e-mail ale persoanelor. Spamatorii pot încerca să încerce să găsească câteva cuvinte cheie pentru organizații (cum ar fi "Almaden" pentru unii oameni de la IBM, poate?).

De obicei, spamul va fi întotdeauna (semnificativ) diferit de poșta obișnuită sau nu va fi spam, totuși.

Linia de fund: Forța de filtrare Bayesian poate fi slăbiciunea

Bayesian filtre de spam sunt filtre de conținut care:

sunt special instruiți să recunoască spam-ul individual al utilizatorilor de e-mail și poșta bună , făcându-le să fie extrem de eficiente și dificil de adaptat pentru spammerii.
se pot adapta continuu și fără prea mult efort sau analiză manuală celor mai recente trucuri ale spammerilor.
luați în considerare mail-ul utilizatorului individual și aveți o rată foarte mică de fals pozitive .
Din păcate, dacă acest lucru cauzează oarecare încredere în filtrele Bayesian anti-spam, aceasta face greșeala ocazională și mai gravă . Efectul opus al falselor negative (spam-ul care arată exact ca și poșta obișnuită) are potențialul de a deranja și de a împiedica utilizatorii.