WA-Marketing | Kontakt

Google übernimmt ReCaptcha

Geschrieben von: Stephanie K.   
20. September 2009
Jetzt ist es offiziell verkündet worden: Google übernimmt den Captcha-Spezialisten ReCaptcha.
Ich weiß, ich habe letzte Woche schon über Captchas erzählt, doch was ich heute erfahren habe, ist es wert, das Thema noch einmal aufzugreifen. Denn dieses Mal geht es nicht um die Vermarktung von Captcha-Ads sondern um den "Sondereinsatz" der kleinen, verzogenen Buchstabenabfolgen.

Die zukünftige Google-Tochter ReCaptcha war ursprünglich ein Projekt der School of Computer Science der Carnegie Mellon University. Das besondere an ReCaptcha ist die Idee hinter der Captcha-Abfrage. Denn Recaptcha wählt für seine Text-Captchas Wörter aus, an denen zuvor schon ein gutes OCR-Programm (Optical Character Recognition), ein Programm zur automatischen Texterkennung von einer gedruckten Vorlage, verzweifelt ist.

Die ReCaptcha-Methode gibt dem Nutzer zwei verzogene "Wörter", wobei der User eigentlich nur ein Wort richtig eintippen müsste und das zweite Wort sogar erfinden könnte. Da der User dies in der Regel jedoch nicht weiß, tippt er immer beide Wörter richtig ein. Wozu die Doppelabfrage, werden Sie sich nun vielleicht fragen. Nun, während das eine Wort vom System bereits bekannt ist, handelt es sich bei der zweiten Buchstabenfolge um ein Wort, das dem System noch nicht bekannt ist. Nicht bekannt heißt in diesem Fall, dass der Computer eine verzogene Zeichenabfolge nicht als eine echte Buchstaben oder Zahlenabfolge erkennen kann. Und genau hier hilft der Internetnutzer, er entziffert für den Computer die krüptische Buchstabenfolge durch die händische Eingabe.


Aber warum macht das ReCaptcha? Nun neben den reinen Captcha-Abfragen betreibt das Unternehmen auch noch das Einscannen von Büchern und Zeitungen für das Internet-Archiv. Sie erkennen schon eine Gemeinsamkeit mit Google, dem Suchmaschinengiganten, der mit Google Bücher ebenfalls begonnen hat, Bücher für die Suchergebnisse einzuscannen?

Derzeit scannt die Firma ReCaptcha zum Beispiel alte Ausgaben der New York Times ein. Bei diesem Prozedere kommt es immer wieder einmal vor, dass die intelligenten OCR-Programme an bestimmten Wörtern verzweifeln und einfach nicht mehr weiter kommen. Da der Aufwand des Einscannen oder Entziffern für Menschen viel zu groß wäre, kam dem Unternehmen genau die Idee, solche Wörter dann in die Captchas einfließen zu lassen und diese von den Usern entziffern zu lassen. Kostenlos! -Sehr schlau!

Google profitiert nun mit dieser Übernahme gleich in mehrerer Hinsicht. Zum einen kann das Unternehmen seine eigenen Captcha-Systeme durch eine bessere Lösung ersetzen, zum anderen ergeben sich Synergien mit eigenen Aktivitäten zur Digitalisierung von Handschriften und Büchern, so bei Google Books oder der Newsarchiv-Suche. Über das Know-How und das Crowd-Sourcing-Konzept von ReCaptcha, also die Auslagerung auf die Intelligenz und die Arbeitskraft einer Masse von Usern im Internet, dürften sich höchstwahrscheinlich auch die eigenen OCR-Erkennungsraten deutlich verbessern.

In Zukunft können wir uns alle wahrscheinlich schön auf die Schultern klopfen, da es passieren wird, dass jeder von uns seinen Teil zum Google-Erfolg beiträgt - oder vielleicht haben Sie dies schon indirekt dank der Abfrage von ReCaptcha getan...