11. März 2008

Captcha sind mausetot (aber sie riechen noch)

Category: Internet — Christian @ 15:44

Ich schrieb schon ein paar mal über Captchas, unter anderem wie man Mathe-Captchas knackt und warum Captchas auf Dauer nicht funktionieren werden. Das war am 8. Februar. Inzwischen sind wir von der Realität überholt worden.

Anscheinend ist auch die letzte Antispam-Bastion gefallen, die Captchas die Google Mail vor den Spammern schützen. Moderne Spambots können inzwischen 20-30% der Captchas korrekt erkennen. Das reicht leicht, um flächendeckend Google Mail Spamaccounts anzulegen. Der Vorteil eines Spammers bei Google Mail ist insbesondere, dass diese Domains noch kaum blockiert werden, da bisher das Spamaufkommen relativ niedrig war. Ganz im Gegensatz z.B. zu Yahoo Mail oder Hotmail. In meinem direkten Bekanntenkreis findet sich niemand, der noch Yahoo Mail oder Hotmail verwendet. Alles was von dort kommt, ist 100% Spam. Beide Domains werden daher von mir inzwischen komplett blockiert.

Interessanterweise scheint sich das Problem noch nicht rumgesprochen zu haben. Da gibt es die Seite PWNtcha, die diverse Captchas dekodieren kann (aber keinen Source Code veröffentlicht). Dort ist man immer noch der Meinung, dass es gute Captchas geben kann, die auch in Zukunft funktionieren. Ich widerspreche dieser Ansicht ganz entschieden. Moderne Captchas wie sie z.B. Yahoo einsetzt sind so kompliziert, dass die Erkennungsrate echter Menschen teilweise unter der von Captcha-Dekodern liegt. Da lässt man den Schutz besser ganz weg.

Komplett vernachlässigt wird in der ganzen Diskussion die Barrierefreiheit. Was macht denn ein Anwender, der leider nicht sehen kann? Arschkarte gezogen? Das sollte eigentlich nicht sein. Ich frage mich ja, wann in Amerika die ersten Blindendiskriminierungsprozesse stattfinden, weil sich Blinde bei Google Mail nicht anmelden können.

Ein paar Wirrköpfe glauben zwar noch, das Gelbe vom Ei erfunden zu haben, praktisch steckt aber nur heiße Luft dahinter. Ein Beispiel ist dieser Programmierer, der glaubt durch geschickt benannte Eingabefelder das Spam-Problem zu lösen. Wenn man sich den daraus resultierenden HTML-Code anschaut, dann sind zwar die Formularfeldnamen kodiert, irgendwo muss aber noch eine verständliche Beschreibung stehen denn Menschen müssen die ja auch richtig ausfüllen können.

<tr><td>Name:</td><td><input name="7f0f3f86b0bcd308584728af6ab2335d" 
style="width: 200px;" type="text"></td></tr>
<tr><td>E-Mail:</td><td><input name="dc7b8fd4bf5bc84ea95ce39b7b625bc5" 
style="width: 200px;" type="text"></td></tr>
<tr><td>Betreff:</td><td><input name="2d9f7da47a267ae7d2e69e535ec9315a"
style="width: 200px;" type="text"></td></tr>

Ich schätze, in etwa drei Minuten kann ich einen kleinen Parser schreiben, der die Texte neben den Eingabefeldern richtig den Formularfeldnamen zuordnet.

Der Autor schreibt übrigens ganz stolz, dass noch niemand sein geniales Verfahren überlistet hat und er seither keinerlei Spamprobleme hat. Das hat einen einfachen Grund. Die Seiten auf denen dieses Verfahren eingesetzt wird sind so unwichtig, dass sich kein einziger Spammer bisher die Mühe gemacht hat, drei Minuten in einen Parser zu investieren. Sobald sich das Verfahren jedoch auf mehr Seiten durchsetzen sollte wird es sofort gebrochen und ist auch gleich wieder verschwunden.

Ich persönlich tendiere ja zu mathematischen Rechenaufgaben. „Berechnen Sie den Cosinus des zweiten Logarithmus der vierten Nullstelle der Riemannfunktion!“ oder so wäre z.B. eine Aufgabe die zwei Probleme mit einem Streich löst. Zum einen bleiben die Spammer draußen, zum anderen steigt das Niveau der Kommentare denn die Flachmaten dürften mit dieser Aufgabe leicht überfordert sein.

Aber mal im Ernst … gerade bei Angeboten die sich an die breite Masse richten werden Captchas in Zukunft nicht mehr funktionieren. Für die muss das Captcha so trivial sein, dass es irgendwie noch richtig eingegeben werden kann und das bedeutet, irgendeine Software kann garantiert das gleiche.

Das Problem: Ich sehe keine echte Alternative. Audio-Captchas sind zwar nett aber helfen nicht bei Schwerhörigen, JavaScript-Gelumpe wird mittelfristig auch überlistet, sobald es weiter verbreitet ist (oder die Spammer steuern einfach einen Browser fern). Und dann darf nicht vergessen werden, dass es in China eine Menge Leute gibt die den ganzen Tag vor dem Computer sitzen, World of Warcraft spielen und die gewonnenen Artikel in der realen Welt verkaufen. Die könnten genauso gut auch Captchas eingeben.

Ich fürchte wir haben zumindest technisch den Kampf gegen Spam verloren.

7 Comments

  1. Ich persönlich tendiere ja zu mathematischen Rechenaufgaben […]

    Es könnte sogar schon helfen, einfach nur den Vornamen des Bundespräsidenten abzufragen. Das hält nicht nur Spammer draußen, sondern auch jene Trollköpfe mit etwas unausgegorenen p’litischen „Überzeugungen“…

    Comment by Elias — 11. März 2008 @ 19:34

  2. Wie? Es gibt tatsächlich Weibsvolk Bürger hier, die den Namen unseres Bundespräsidenten Heinz Hans Horst Köhler nicht kennen?

    Ich persönlich halte auch die Mathematikaufgaben für unsinnig denn entweder müssen sie so einfach sein, daß die meisten damit zurecht kommen. Und dann kommen eh nur einfache Additionen (das ist plus) oder Multiplikationen (das ist malnehmen 🙂 ) in Frage. Außerdem läßt sich garantiert auch schnell ein Parser schreiben, der mit „1“, „eins“, „e1ns“ und „oans“ zurechtkommt.

    Aber es freut mich natürlich, daß Du das in Deinem Blog recht ähnlich siehst, auch wenn wir zu den Matheaufgaben unterschiedliche Meinungen vertreten.

    Comment by Christian — 11. März 2008 @ 19:54

  3. Bei Rapidshare ist gerade wunderbar zu beobachten, dass man auch als Sehender immer mehr Probleme bekommt, noch zu entziffern, was da geschrieben steht.

    Comment by Rapider Teiler — 12. März 2008 @ 09:22

  4. Ich verweise da immer auf die Seite PWNtcha, die anschaulich darstellt, welche grafischen Captchas zu trivial sind und daher leicht erkannt werden können und wie schwer auch für Menschen die kniffligeren Grafiken sind.
    Inzwischen beschäftigt sich auch das W3C damit, aber ohne bisher Lösungen anbieten zu können. Die Präsentation von Matt May zeigt jedoch die typischen Probleme und Alternativansätze.

    Comment by Christian — 12. März 2008 @ 10:49

  5. Interessant dass mein kleines Tutorial für so viel Wirbel sorgt *g*. Wenn man es richtig gelesen hätte, wäre die Wirkung der dort beschriebenen Maßnahme auch richtig eingeschätzt worden…

    Wenn man sich den daraus resultierenden HTML-Code anschaut, dann sind zwar die Formularfeldnamen kodiert, irgendwo muß aber noch eine verständliche Beschreibung stehen denn Menschen müssen die ja auch richtig ausfüllen können.

    Im Tutorial wird doch auf diese Problematik eingegangen:

    Hier wurden die Feldbeschriftungen im HTML zur Sicherheit in ASCII „verschlüsselt“. Dies erschwert es Bots, den Feldern eine Bedeutung zuzuordnen. […]
    Eine weitere denkbare Hürde wäre es, die Feldbezeichner per CSS zu platzieren und im Quelltext ganz woanders unterzubringen.

    Das mit dem ACSII ist natürlich Kinderkram, aber wenn du mir in 3 Minuten einen Parser schreibst der eine CSS-Platzierung den Feldern zuordnen kann, dann hast du meinen Respekt! Dass es möglich ist ist klar, aber beim Kampf gegen den Spam geht es doch eh immer nur darum, den Spammern möglichst einen Schritt voraus zu sein.

    Viele Grüße, und danke fürs kommentieren.

    Comment by Crazy Chrissi — 6. April 2008 @ 22:04

  6. Ich kommentiere überall gerne rum @Crazy Chrissi 😉

    Klar, Du hast recht man kann es immer noch komplizierter machen. CSS ist schon sehr komplex, das läßt sich nicht mehr parsen aber ich könnte statt dessen versuchen, die Anfrage des Browsers an den Webserver abzufangen und diese zu analysieren (Paros Proxy oder Achilles als Stichwort). Aber genau das ist ja eigentlich mein Punkt. Es reicht nicht mehr, dem Spammer einen Schritt voraus zu sein, dafür rüsten die Spammer viel zu schnell und viel zu massiv auf.

    Ich habe keine Lust, alle drei Monate hier im Blog neue Antispam-Verfahren zu implementieren, nur weil irgendwelche Idioten meinen, ihren Pr0n-Müll hier abladen zu wollen. Bei meiner Haustüre muß ich auch nicht alle drei Monate neue Schlösser einbauen (obwohl ich inzwischen gelernt habe das Schloß mit einem Pickset in höchstens 10 Minuten zu öffnen … funktioniert übrigens auch bei den Nachbarn). Meiner Ansicht nacht ist der technische Kampf eben verloren, egal wie lange wir noch hinterherrüsten. Es braucht halt jetzt andere Ansätze … politische, strafrechliche, zivilrechtliche, etc. Trackback liefert zu 90% Spam, das habe ich hier im Blog inzwischen komplett wieder abgeschaltet. Aber Kommentare will ich eigentlich offen halten.

    Wenn jeder dumme Contentprovider (d.h. z.B. die Musikindustrie) weitgehende Auskunftsrechte von jedem Provider will um Downloader identifizieren zu können und mit Abmahnungen zu überziehen … dann will ich das auch. Dann wird halt mal ein Anwender der seinen Rechner nicht schützt als Mitstörer beim Spamming mit abgemahnt. Das tut mir dann auch leid, ist halt das Restrisiko im Internet. In die Richtung wird es eh laufen. Sobald die ersten privaten Unternehmen ein Auskunftsrecht beim Provider haben, ist der Damm gebrochen. Dann kriegt das jeder.

    Comment by Christian — 6. April 2008 @ 22:19

  7. Kommentare gesperrt wegen Spam

    Comment by Christian — 25. August 2008 @ 23:18

RSS feed for comments on this post.

Sorry, the comment form is closed at this time.