Skip to content

Spamstatistik

Für alle Interessierten hab ich Abfragen der Datenbank mit den Spamkommentaren zusammengeschustert. Erreichbar ist die Auswertung unter rowi.standardleitweg.de/spamlog.php und da ich da auch etwas Text hinterlassen hab binde ich sie einfach mal direkt ein:
Ist eine ganze Menge wie ich finde, aber ich hab’ keine Ahnung ob das nicht vielleicht mittlerweile normal ist. In der Regel wertet man ja nicht aus wie viele Kommentare gar nicht erst bis zur Moderation kommen weil sie z.B. am CAPTCHA scheitern.

Tust Du es? Wie sieht es bei Dir aus?

Nachtrag: Hier der Source, aber nicht wundern, ist wirklich quick und sehr dirty tongue

Bayes Spamschutz in Serendipity

Jahrelang reichten mir relativ lasche Spamfilter Einstellungen hier im Blog. Bei Trackbacks fängt eine Backlink Prüfung alle Spamkommentare (etwa 200 pro Tag) ab; einfache CAPTCHAs ab dem zweiten Tag reichten für Kommentare.

Seit letzter Woche kommen aber täglich etwa ein Dutzend Spamkommentare rein. Standardtexte, offenbar von Menschen als Kommentar ins Blog gesetzt. Die CAPTCHAs sind da keine Hürde. Stärkere CAPTCHAs gar etwas wie ReCAPTCHA falls es doch gut getarnte Automaten sind möchte ich nicht einsetzen, denn darüber ärgere ich mich als Kommentator selbst regelmässig.

Serendipity hat da zum Glück eine andere Alternative: Lernfähige Bayes Filter wie man sie auch vom Spamfilter im E-Mail Programm kennt.
Das Plugin “Spamschutz (Bayes)” analysiert den Kommentar und berechnet eine Wahrscheinlichkeit ob es Spam ist. Ist diese zu hoch wird der Kommentar entweder gelöscht oder kommt in die Moderationsschleife.
In der Administrationsoberfläche sieht das dann so aus:

Spamkommentar im Bayes Filter von Serendipity

Mit den beiden Links “Valid” und “Spam” kann man jeden Kommentar von Hand klassifizieren und den Filter anlernen.
Die Erkennungsrate war aber auch ohne individuelles anlernen über 90%. Ich hatte nur einen Kommentar der ihm entwischt ist und keine falsche Einstufung als Spam.
Ich lasse ihn aber die Kommentare dennoch “nur” moderieren, zumindest solange die Zahl der Spamkommentare nicht so hoch wird dass ich mit dem Kontrollieren nicht mehr hinterherkomme. Jeder echte Kommentar der dadurch verloren ginge ist mehr Wert als das tägliche Überfliegen der Spamkommentare.

Das Plugin Spamschutz (Bayes) ist wie üblich bei Spartacus zu finden bzw. mit aktivem Spartacus-Plugin mit einem Klick installiert.