Hercule Filter

Der Hercule Filter ist ein Detektiv für Spam-typische HTML und gefälschte Mail-Header.
Sie finden die neueste Version auf www.hinzen.de/Spamihilator und erreichen den Autor unter edy@hinzen.de.
Die aktuelle Versionsnummer dieses Plugins wird in der oberen rechten Ecke des Dialogs "Optionen" angezeigt.


Reihenfolge der Validierungen

Beachten Sie bitte, daß 'Hercule' zuerst die einfachen und schnell abzuarbeitenden Prüfungen durchführt, und anschließend solche, welche eventuell mehr Zeit in Anspruch nehnmen.
Zuerst werden die Mail-Header überprüft, da diese von Spamihilator als Erstes übergeben werden.
Wenn in einer der (intern definierten) Testabschnitte eine E-Mail als Spam erkannt wird, dann beendet 'Hercule' seine Verarbeitung.
Dies bedeutet, daß 'Hercule' nur die zuerst gefundenen Merkmale berichtet, obwohl die E-Mail vielleicht noch mehr Anzeichen von Spam-Wahrscheinlichkeit besitzt.


Meldungen

Wenn Sie im Spamihilator Papierkorb auf einen Eintrag klicken, so wird der Grund für die Filtrierung wie gewohnt bei "Spam Wörter" angezeigt.
Dabei wird für manche Optionen auch die Anzahl der Vorkommnisse angezeigt.
Externes Bild (2) bedeutet also zum Beispiel, daß zwei externe Bilder gefunden wurden.

Wenn Sie detaillierte Informationen über den Filtrierungs-Grund benötigen, so benutzen Sie bitte die Logging-Optionen wie nachstehend beschrieben.


Options-Registerkarten

Die Optionen werden auf mehreren Registerkarten im Dialog "Optionen" festgelegt.
Sie können mit dem [Zurücksetzen]-Button die Optionen auf Standardwerte zurück setzen.

Diese Hilfe-Datei erläutert in einzelnen Abschnitten die einzelnen Registerkarten. Sie ist wie folgt strukturiert:

Titel der Registerkarte
Untertitel der Registerkarte ...
Option, wie Sie sie im Dialog sehen Erläuterungen
Meldung, wie sie im Papierkorb von Spamihilator angezeigt wird.
Beispiele



Header
Als SPAM markieren, wenn der Header ...
ein gefälschtes Datum hat Entdeckt falsche Datumsangaben (welche z.B. RFC 2822 verletzen).
Gefälschtes Datum
ein Datum älter als ein Jahr hat Entdeckt Datumsangaben, welche mehr als ein Jahr zurück liegen.
Datum liegt mehr als ein Jahr zurück
einen falschen Zeichensatz angibt Entdeckt falsche Zeichensatz-Definitionen.
Falscher Zeichensatz
einen schlechten Betreff enthält Entdeckt Betreffzeilen, welche mit Leerzeichen oder z.B. "....." aufgefüllt sind.
Schlechte Betreffzeile
einen leeren Betreff enthält Entdeckt E-Mails mit leerer Betreffzeile.
Leere Betreffzeile
eine Echtheits-Warnung enthält Entdeckt E-Mails mit Warnungen (authentication warning) aus dem Programm "sendmail".
Hinweis auf Fälschung (authentication warning)
ungültige IP-Adressen enthält Entdeckt E-Mails mit IP-Adressen, welche Internet-Standards verletzen.
Ungültige IP-Adresse
E-Mail Adressen verrät Entdeckt E-Mails die Ihre E-Mail-Adresse in solchen Header-Angaben verraten, wo eigentlich keine Adressen stehen dürften.
Header verrät Ihre E-Mail Adresse
mehr als ein BCC-Feld hat Im allgemeinen sollte das BCC-Feld (Blind Carbon Copy / Blindkopie) nicht mitgesandt werden. Einige Programme tun dies dennoch. Ein mehrfaches Auftreten des Feldes ist jedoch ein Zeichen für SPAM.
Mehr als ein BCC-Feld vorhanden
gefälschter Mail-Header Diese Option prüft mehrere Arten von Verletzungen der Standards für Mail-Header.
Gefälschter Mail-Header



HTML (1)
Als SPAM markieren, falls entdeckt ...
HTML, die E-Mail-Adresse verbirgt Entdeckt Tricks, welche Ihre E-Mail-Adresse verraten, wenn Sie die Spam-Mail z.B. in Anti-Spam-Newsgroups veröffentlichen.
HTML versteckt Ihre E-Mail Adresse
Link, der E-Mail-Adressen enthält Entdeckt externe Hyperlinks, welche Ihre E-Mail-Adresse enthält (im Klartext oder verschlüsselt).
URL verrät Ihre E-Mail Adresse
Link, der vielleicht Ihre Identität verrät Entdeckt externe Hyperlinks mit Parametern (wie "aff_id=0815_4177") welche möglicherweise Ihre Identität preis geben.
URL verrät die Identität
externe Bilder Entdeckt die Verwendung externer Bilder.
Externes Bild
Bilder mit Größe 0 Entdeckt die Verwendung von Bildern der Größe 0 (welche dann nicht sichtbar sind).
Bildgröße Null
Bild-Hyperlink, der E-Mail Adresse verrät Entdeckt die Verwendung von Bild-Hyperlinks, welche verraten, daß Sie die Mail geöffnet haben.
Bild verrät Ihre E-Mail Adresse
externe Frames Entdeckt die Verwendung von externen Frames. Diese könnten verwendet werden, eine E-Mail derart zu fälschen, sodaß Sie den Eindruck gewinnen, daß diese von einer vertrauenswürdigen Organisation stammt (z.B. Ihrer Bank).
Externer Frame
unsichtbare Frames Entdeckt die Verwendung von unsichtbaren Frames. Diese können benutzt werden, um Ihre Identität zu verraten oder um Schad-Programme herunterzuladen.
Unsichtbarer Frame
Leere Mail Entdeckt leere E-Mails. Manchmal scheinen Spam-Programme abzustürzen und diese senden dann Mails ohne Inhalt ab.
Leere Mail



HTML (2)
Als SPAM markieren, falls entdeckt ...
mehr als ... ungültige HTML-Tags Wenn die Option gesetzt ist, dürfen nicht mehr ungültige HTML Tags (=Anweisungen) enthalten sein, als hier angegeben. Bitte setzen Sie diesen Wert nicht zu niedrig, da manuell eingegebene HTML-Anweisungen Tippfehler enthalten könnten.
Hinweis: Die Liste der gültigen HTML Tags ist in der Datei "HerculeFilter.ini" gespeichert, kann aber im Dialog Optionen nicht verändert werden.
Ungültige HTML-Befehle
mehr als ... überlange HTML-Tags Wenn die Option gesetzt ist, dürfen nicht mehr überlange HTML Tags enthalten sein, als hier angegeben.
Das Tag <blockquote> ist derzeit das längste gültige HTML-Tag mit zehn Zeichen. Ein Tag länger als 12 Zeichen gilt als überlang.
Die Aktivierung dieser Option wird derzeit weniger empfohlen, da Texte wie <www.hinzen.de/Spamihilator> als HTML-Anweisung statt als Text in spitzen Klammern interpretiert würde.
Überlange HTML Tags
mehr als ... schlechte HTML-Tags Entdeckt HTML-Anweisungen, welche typischerweise von Spammern benutzt werden. Beispiel: <S§R>
Falsche HTML Tags
schlechte Zieladressen Entdeckt Hyperlinks z.B. mit Tricks welche das Ziel verstecken oder ein anderes Ziel vortäuschen sollen.
Schlechte URLs
URLS, die enthalten ... Falls markiert, entdeckt diese Option Hyperlinks, welche einen der angegebenen Suchbegriffe enthalten. Prüft normale Links, Bild-, Frame-, Stylesheet-Verknüpfungen und einige mehr.
Suchstring in URL gefunden



Tricks
Als SPAM markieren, falls entdeckt ...
mehr als ... Zufallswörter Entdeckt die Verwendung von Zufallswörtern. Ausgewertet wird z.B. die Anzahl der Wörter, welche ohne Satzzeichen am Ende einer Mail stehen.
Zufallswörter
mehr als ... META-Anweisungen Entdeckt die massenhafte Verwendung von META-Tags, welche Spam-Filter täuschen sollen.
Zu viele META-Angaben
SPAM-typische HTML Entdeckt die Verwendung von HTML-Anweisungen, wie sie typischerweise von Spammern benutzt werden.
SPAM-typische HTML
HTML typisch für Eindringlinge Entdeckt die Verwendung von HTML, die geeignet ist, Viren und Trojaner in Ihr System einzuschleusen. (Entdeckt nicht die Schädlinge selbst, sondern versucht lediglich, die HTML-Techniken zu erkennen.)
HTML typisch für Eindringlinge (Viren, Trojaner)
vergessene Platzhalter Entdeckt wenn ein Spammer einen Zufalls-Wortgenerator benutzen wollte und diesen vielleicht falsch benutzt hat.
Zu erkennen z.B: an Zeichenketten wie %RANDOM_TEXT.
Platzhalter im Mail-Body
URL spoofing (Fälschen) Entdeckt den Versuch von Spammern, Ihnen einen anderen Hyperlink vorzutäuschen.
URL spoofing (Fälschen)
Script-Sprachen Entdeckt die Verwendung von Script-Sprachen für einige Spammer-Tricks.
Enthält Script-Anweisungen



Style
Als SPAM markieren, falls entdeckt ...
winzige Buchstaben Entdeckt die Verwendung von winzigen Buchstaben, die (nicht lesbar sind, aber) Spam-Filter verwirren sollen.
winzige Buchstaben
versteckte Buchstaben Entdeckt die Verwendung von versteckten Buchstaben, die (nicht lesbar sind, aber) Spam-Filter verwirren sollen.
Unsichtbare Buchstaben
weiße Buchstaben Entdeckt die Verwendung von weißen Buchstaben, die (nicht lesbar sind, aber) Spam-Filter verwirren sollen.
Weiße Buchstaben



Graue List
Mail von ... nicht prüfen
yyy zzz



Logging
Modus
Kein Logging Keine Protokollierung.
Standard Standard-Protokollierung. Im Allgemeinen werden nur Fehler protokolliert.
Ausführlich Für jede zurückgewiesene Mail werden der Absender, der Betreff und der Filtrierungs-Grund protokolliert.
Sehr ausführlich Zusätzlich zum vorigen Modus wird die zugehörige Option angegeben, durch welche die Mail zurück gewiesen wurde. Laufzeiten werden angezeigt.
Debug-Modus Nur für die Fehlersuche. Es werden auch Start und Ende von Unterprogrammen, sowie der Inhalt der Mails aufgezeichnet.
Vorherige Einträge entfernen Mit dieser Option bestimmen Sie, wie lange frühere Einträge im Log erhalten bleiben.



Versionsübersicht

Version Bemerkungen
1.2.0.0 "Gray List" hinzugefügt.
1.1.0.3 Erkennt weitere in CSS versteckte Scripte.
  Akzeptiert "?xml"-Notation von xmlns.
1.0.9.7 Fehler der vorigen Version bereinigt, der nahezu alle Funktionen deaktivierte - unabhängig von den Einstellungen des Users.
1.0.9.6 Laufzeiten bei Mails mit grossen Dateianhängen verbessert.
  Logging-Modus "Sehr ausführlich" zeigt jetzt Laufzeiten.
1.0.9.5 Größeren Bug entfernt, der alle Datumsangaben als gefälscht markiert hatte, wenn in den Ländereinstellungen ein anderes Datums-Trennzeichen als "." eingestellt ist.
  Verbesserte Erkennung von externen Dateien (z.B. Bildern).
  Verbesserte Logging Details.
1.0.9.4 Kleinen Bug bereinigt, betreff Header vom Typ message-id, welche Kommentare enthalten.
1.0.9.3 Bug bereinigt, der bei abgeschaltetem Logging keinen Filterungsgrund anzeigte.
1.0.9.1 Verbesserte Erkennung von externen Bildern / Frames.
  Geschwindigkeit des HTML-Scan verbessert.
  Akzeptiert nun XML name spaces (xmlns, wie zum Beispiel von Office-Programmen verwendet) im HTML-Scan.
  Bug entfernt, welcher angegebene Zeitzonen ohne Plus- or Minus-Zeichen ("+" "-") als gefälschtes Datum markiert hatte (z.B. "0100").