Rückwärtssuchen nach Ad- und Tracking-IDs ermöglichen es, weitere Websiten eines Website-Betreibers ausfindig zu machen. Nach AdShadow gibt es mit Viswoo eine weitere derartige Suchmaschine. Deren Crawler können aber auch ausgesperrt werden, um in solchen Datenbanken nicht aufzuscheinen.
Vor einigen Wochen hat der bekannte Internetunternehmer Thomas Promny eine Rückwärtssuche für AdSense-IDs online gestellt: Mit AdShadow lassen sich deutschsprachige Websites suchen, welche zu einem bestimmten AdSense-Account gehören. Mit dem Tool kann man also herausfinden, an welchen Projekten der Besitzer einer Website noch beteiligt ist.
Seit Anfang August 2008 sind nach Eigenangaben von AdShadow über 260000 Einträge in der Datenbank. Mittlerweile werden auch IDs von den Werbenetzwerken Zanox und Affilinet sowie Google Analytics indexiert. AdShadow kennt bei weitem nicht alle deutschen Websites, aber die meisten der Domains, die auch eine signifikante Anzahl Besucher haben
.
Vor Kurzem hat AdShadow hat Konkurrenz bekommen. Mit Viswoo ging eine weitere derartige Suchmaschine an den Start. Diese schaut optisch ansprechender aus, verfügt derzeit aber nur über 15000 Einträge – diese Zahl soll aber schon bald anwachsen. Derzeit wird nach IDs von AdSense, AdConion, Affilinet und Google Analytics gesucht. Der Anbieter arbeitet laut eigenen Aussagen aber an der Erkennung der IDs von Zanox, Amazon PartnerNet, Sedo Parking, eTracker und SedoTracker.
Zugegeben, es kann durchaus interessant sein, bei welchen Websites andere Website-Betreiber ihre Finger im Spiel haben. Aus der Sicht des Datenschutzes sind derartige Rückwärtssuchen aber nicht unbedenklich. Nicht jeder ist damit einverstanden, dass derartige Daten öffentlich zugänglich sind. Für diesen Fall gibt es Möglichkeiten, die Spider (auch Crawler oder Bots genannt) der Suchmaschinen auszusperren:
Wie Everflux herausgefunden hat, trägt der Bot von AdShadow den Namen Penthesilea
. Auch wenn sich Penthesilea in seiner Beschreibung als Spider für ein Buchprojekt über Suchmaschinen
ausgibt, dürfte diese Information stimmen – sie wurde mittlerweile von Thomas Promny in einem Blogkommentar bestätigt. Der Bot hält sich nach Angaben von Promny an die Anweisungen der Robots.txt und kann mit folgender Anweisung ausgesperrt werden:
User-agent: penthesilea Disallow: /
Ein Unsicherheitsfaktor ist natürlich immer, ob der Crawler die Anweisungen richtig interpretieren kann – Fehler können hier immer wieder auftreten. Es empfielt sich also, den Crawler zusätzlich noch über die .htaccess-Datei aussperren. Mit der folgenden Anweisung bekommt der Crawler nur einen HTTP-Error 403 (Access Denied) zu sehen, falls er auf eine andere Datei als die robots.txt zugreift:
RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^.*penthesilea.*
RewriteRule ^.*$ - [F,L]
Um Herauszufinden, wie man Viswoo effektiv aussperren kann, waren keine aufwändigen Recherchen notwendig. Der Betreiber der Suche hat diesbezüglich auf eine Anfrage per E-Mail umgehend Auskunft gegeben.
Derzeit stünde nur eine kleine Anzahl an Test-Datensätzen zur Verfügung. Nach Angaben des Betreibers soll Viswoo demnächst auf den Open-Source-Crawler Heritrix umsteigen, welcher die Anweisungen der Robots.txt befolgt. Folgende Zeilen in den robots.txt müssten also den Bot ausperren:
User-agent: Heritrix Disallow: /
Der User-Agent des Spiders lautet Mozilla/5.0 (compatible; viswoo-heritrix/0.05.0 +http://viswoo.com)
, die aktuelle IP-Adresse ist 88.198.37.153. Die zuverlässigste Variante zum Ausperren dürfte also folgende .htaccess-Anweisung in Kombination mit der oben genannten Robots.txt-Anweisung sein:
RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^.*viswoo.*
RewriteRule ^.*$ - [F,L]
Artikel kommentieren |
Tweet versenden |
Bookmark setzen |
manueller Trackback
RSS-Feed abonnieren
Sämtliche Artikel im Full-Feed.
Kurznachrichten bei Twitter
Für Kurznachrichten, die im Blog keinen Platz finden.
AdSense AdShadow Crawler Heritrix Penthesilea robots.txt Rückwärtssuche Suchmaschine Thomas Promny Viswoo .htaccess