[linux-l] Spambekämpfung?

Lutz Willek willek at gmx.de
Do Feb 1 01:23:09 CET 2007


Steffen Dettmer schrieb:
> * Lutz Willek wrote on Mon, Jan 29, 2007 at 23:22 +0100:
>> Steffen Dettmer schrieb:
>> [..]
>>> Wir waren bei blacklisten der Sender-IP von Mailservern.
>>>
>>> mmm... Versteh ich nicht. Hier mein Angriffsszenario.
>>>
>> wechselnden Absenderadressen 
> 
> <gähn>
> 
> ja, dann meld ich mich also fünfmal an.

dann weise ich dich 5x ab. auch gähn. Das wird so einfach nichts.

> Also kurz: mein Angriffszenario funktioniert und dieses Verfahren wäre
> nix für mich, self-denial-of-service :)

Nee, funktioniert nicht.

>>>>>> ... teergrubing in Verbindung mit Annahmeverzögerung 
[ganz viel ........]

> Da steht aber genau das auch:
> 
>   "Genau das macht jedoch die Teergrube ziemlich unwirtschaftlich:
>    Spammer beenden die Verbindung sofort, normale Versender werden
>    gefangen genommen. Das ist gerade nicht der gewünschte Effekt."

Endlich! Lies und begreife, was da oben steht! Und dann mach Dir 
Gedanken, wie Du dieses Verhalten ausnutzen kannst. Du kommst sicher 
irgendwann drauf.

Tip:
Die Frage ist immer: wie bekomme ich den Spammer dazu, seine Mail nicht 
abzuliefern? Indem ich ihn erkenne und abwehre. Ist das da oben ein 
Erkennungsmerkmal? jetzt etwas heller?

>>> Da müsste man Angst haben, von der Konkurenz geschickt
>>> als Spammer "gemeldet" zu werden.
>> ganz kurz: theoretisch ja, praktisch nein. Diese Filter werden nicht als 
>> einziges Merkmal genommen, nur als Hinweis auf Spam. Erst wenn andere 
>> Methoden anschlagen, wird die Mail gebounct.
> 
> (ja gut, sowas hiess es zu RBL und anderem auch, bloss doof, dass HTML
> und "venture capital" auch mal in normalen Mails auftauchen... :))
Verstehe nicht, was willst Du sagen?

>> Erst in Zusammenarbeit machen diese ganzen Filter Sinn. Machbar sind 
>> etwa 98% Spamerkennung, bei 0,1-0,5% Ham-Erkennung. Das ist aber 
>> wirklich das Ende der Fahnenstange.
>> Wenn ich die Filter etwas weniger agressiv einstelle komme ich auf ca. 
>> 92-94% Spamerkennung bei 0% false positives, auch nicht besser...
> 
> Welch himmlischen Zahlen! Aber glaube 94% ich nicht, inbesondere die "0%
> false positives" sind ja einfach unmöglich, aber klar, dass man sie
> nicht merkt :) Also, ohne trixen (wie schnell alle verseuchten Addressen
> wechseln oder sowas) jedenfalls. Na ja, über 90% geht sicherlich eh
> nicht, weil man nicht wirklich wissen kann, ob der Empfänger
> Amazon-Produktinfos haben möchte, oder nicht. Und alles auf whitelist
> geht auch nicht. mmm... schon gemein.

Die Zahlen erreichst Du auch nicht, wenn Du nur statische Methoden 
einsetzt. Es ist die Kombination, die einiges bringt.

>> Die Erfolge bis ca. 80% stellten sich schnell ein. Darüber muss man um
>> jeden Prozentpunkt kämpfen. Besonders der Bilderspam ist schwer zu
>> filtern. Kaum Bayes, kein DCC, nur image_only, was gerade mal 0.9
>> Punkte bringt.
> mmm... und wie haste die wegbekommen, ohne normale Bilder wegzukriegen?

OCR. Aber das ist mehr Gimmik als Nutzen. Bei einfachen Bildern hilft 
es, bei neuartigen Bilderspam ist es nutzlos. Zudem verbrät es zu viel 
Leistung. Ich würde vorsichtig mal 5% sicher, 30% unscharf 
Erkennungsrate schätzen.




Mehr Informationen über die Mailingliste linux-l