• Weblog
  • Lexikon
  • Tools
  • Suche
  • Kontakt


  • Google: Webcrawler füllt Formulare aus

    Große Teile des Webs waren bisher für Suchmaschinen unauffindbar, weil sie nur über Formulare erreichbar waren (womit Webcrawler bisher nicht umgehen konnten). Nun hat der Googlebot gelernt, auch Formulare auszufüllen. Google will so auch Teile des Deep Webs indexieren.

    Alle großen Suchmaschinen haben mittlerweile mehrere Milliarden Webseiten in ihrem Suchindex aufgenommen. Dennoch stellt dies nur einen relativ kleinen Teil des Webs dar. Das was fehlt, wird als das Deep Web (auch Invisible Web, Hidden Web) bezeichnet.

    Unter dem Deep Web wird jener Teil des Webs verstanden, welcher über Suchmaschinen nicht auffindbar ist, weil deren Inhalte von den Webcrawler der Suchmaschinen nicht erfasst werden können. Die Gründe hierfür können vielfältig sein. Meistens sind das Datenbank-generierte Inhalte, welche nur über mehr oder weniger komplexe Formulare zugänglich sind. Aber auch nicht auslesbare Dateiformate, Flash-Inhalte (mittlerweile können diese von Google teilweise indexiert werden), oder bewusst ausgeschlossene Inhalte zählen dazu.

    Für Google, deren erklärtes Ziel darin besteht, die Informationen der Welt zu organisieren und allgemein nutzbar und zugänglich zu machen, ist das natürlich unbefriedigend. Und so kommt es nicht überraschend, dass der Googlebot Formulare ausfüllen soll. Bereits in den letzten Wochen und Monaten gab es Beobachtungen, die darauf hingedeutet haben, jetzt wurde es offiziell bestätigt. Derzeit stellt das aber nur ein Experiment dar.

    Funktionsweise

    Doch unter welchen Umständen wird ein Formular ausgefüllt und woher weiß der Webcrawler eigentlich, was er eingeben soll? Die Fragen beantwortet Google selbst: Prinzipiell werden nur auf hochqualitativen Seiten Formulare ausgefüllt, schließlich soll der Index nicht mit belanglosen Seiten vollgemüllt werden.

    Was eingegeben wird, hängt vom Typ des Eingabefeldes ab. Bei Checkboxen oder Select-Feldern versucht es der Webcrawler mit einem der vorgegeben Werte im HTML-Code. Passwort-Felder werden niemals ausgefüllt. Bei normalen Texteingaben versucht es der Googlebot mit Wörtern, welche auf der Website besonders häufig vorkommen.

    Dass der Webcrawler über Kontaktformulare oder Kommentarfunktionen Spam verursacht, ist bei korrekter Gestaltung von Formularen nicht zu befürchten. Es werden ausschließlich Formulare ausgefüllt, welche die GET-Methode verwenden. GET wird korrekterweise nur verwendet, um Informationen zu bekommen. POST hingegen umfasst Benutzereingaben wie Registrierungen, Beiträge, Kommentare oder die Kontaktaufnahme. Für weitere Informationen hierzu kann ich den Artikel Methods GET and POST in HTML forms empfehlen.

    Auswirkungen

    Für Website-Betreiber soll es keine negativen Auswirkungen geben. Um die Server der Websites nicht unnötig zu belasten, wird es der Googlebot immer nur mit wenigen einzelnen Eingaben versuchen. Außerdem können jene Seiten, die nur über ein Formular erreichbar sind (wie jede andere Seite auch) über die Robots.txt von der Indexierung ausgeschlossen werden.

    Auch werden von Google die Befürchtungen zerstreut, dass dadurch normale Seiten schlechter gestellt werden könnten (etwa wegen Duplicate Content oder durch weniger PageRank). Das wird nicht der Fall sein. Sämtliche über Formulare gefundenen Seiten würden laut dem offiziellen Google Webmaster Central Blog in dieser Hinsicht anders behandelt werden als normale Seiten.

    Profitieren von der Neuerung wird hoffentlich der Informationssuchende. Ebenfalls positiv ist der Schritt für alle Website-Betreiber, die bisher nicht beachtet haben, dass Formulare für Webcrawler tote Enden sind. Die Suchmaschinenoptimierer hingegen werden nicht sonderlich viel davon haben, weil diese sowieso Wege kennen, wie die gesamte Seite für den Googlebot durchsuchbar wird. Eventuell lässt sich aber mit der unterschiedlichen Behandlung von Duplicate Content etwas machen ...

    Artikel veröffentlicht von am 13. April 2008 |


    Dietmar
    30. Juli 2008 [#]
    alles schön und gut - man freut sich über jede seite die im gindex steht
    ist bloß blöd das jetzt die seiten hinterm formular besser stehen als die eigentliche seite und dadurch i.d.r. der inhalt nicht mit der abfrage aus google zusammenpasst

    Kommentar verfassen

    Name (*)
    Homepage
    E-Mail
    Twitter-Name
    Sicherheitscode (*)
    Tippe den Stadtnamen Berlin ab.