Rückwärtssuche für Ad- und Tracking-IDs
Rückwärtssuchen nach Ad- und Tracking-IDs ermöglichen es, weitere Websiten eines Website-Betreibers ausfindig zu machen. Nach AdShadow gibt es mit Viswoo eine weitere derartige Suchmaschine. Deren Crawler können aber auch ausgesperrt werden, um in solchen Datenbanken nicht aufzuscheinen.
Vor einigen Wochen hat der bekannte Internetunternehmer Thomas Promny eine Rückwärtssuche für AdSense-IDs online gestellt: Mit AdShadow lassen sich deutschsprachige Websites suchen, welche zu einem bestimmten AdSense-Account gehören. Mit dem Tool kann man also herausfinden, an welchen Projekten der Besitzer einer Website noch beteiligt ist.
Seit Anfang August 2008 sind nach Eigenangaben von AdShadow über 260000 Einträge in der Datenbank. Mittlerweile werden auch IDs von den Werbenetzwerken Zanox und Affilinet sowie Google Analytics indexiert. AdShadow kennt bei weitem nicht alle deutschen Websites, aber die meisten der Domains, die auch eine signifikante Anzahl Besucher haben
.
Vor Kurzem hat AdShadow hat Konkurrenz bekommen. Mit Viswoo ging eine weitere derartige Suchmaschine an den Start. Diese schaut optisch ansprechender aus, verfügt derzeit aber nur über 15000 Einträge – diese Zahl soll aber schon bald anwachsen. Derzeit wird nach IDs von AdSense, AdConion, Affilinet und Google Analytics gesucht. Der Anbieter arbeitet laut eigenen Aussagen aber an der Erkennung der IDs von Zanox, Amazon PartnerNet, Sedo Parking, eTracker und SedoTracker.
Suchmaschinen-Spider aussperren
Zugegeben, es kann durchaus interessant sein, bei welchen Websites andere Website-Betreiber ihre Finger im Spiel haben. Aus der Sicht des Datenschutzes sind derartige Rückwärtssuchen aber nicht unbedenklich. Nicht jeder ist damit einverstanden, dass derartige Daten öffentlich zugänglich sind. Für diesen Fall gibt es Möglichkeiten, die Spider (auch Crawler oder Bots genannt) der Suchmaschinen auszusperren:
AdShadow
Wie Everflux herausgefunden hat, trägt der Bot von AdShadow den Namen Penthesilea
. Auch wenn sich Penthesilea in seiner Beschreibung als Spider für ein Buchprojekt über Suchmaschinen
ausgibt, dürfte diese Information stimmen – sie wurde mittlerweile von Thomas Promny in einem Blogkommentar bestätigt. Der Bot hält sich nach Angaben von Promny an die Anweisungen der Robots.txt und kann mit folgender Anweisung ausgesperrt werden:
User-agent: penthesilea Disallow: /
Ein Unsicherheitsfaktor ist natürlich immer, ob der Crawler die Anweisungen richtig interpretieren kann – Fehler können hier immer wieder auftreten. Es empfielt sich also, den Crawler zusätzlich noch über die .htaccess-Datei aussperren. Mit der folgenden Anweisung bekommt der Crawler nur einen HTTP-Error 403 (Access Denied) zu sehen, falls er auf eine andere Datei als die robots.txt zugreift:
RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC] RewriteCond %{HTTP_USER_AGENT} ^.*penthesilea.* RewriteRule ^.*$ - [F,L]
Viswoo
Um Herauszufinden, wie man Viswoo effektiv aussperren kann, waren keine aufwändigen Recherchen notwendig. Der Betreiber der Suche hat diesbezüglich auf eine Anfrage per E-Mail umgehend Auskunft gegeben.
Derzeit stünde nur eine kleine Anzahl an Test-Datensätzen zur Verfügung. Nach Angaben des Betreibers soll Viswoo demnächst auf den Open-Source-Crawler Heritrix umsteigen, welcher die Anweisungen der Robots.txt befolgt. Folgende Zeilen in den robots.txt müssten also den Bot ausperren:
User-agent: Heritrix Disallow: /
Der User-Agent des Spiders lautet Mozilla/5.0 (compatible; viswoo-heritrix/0.05.0 +http://viswoo.com)
, die aktuelle IP-Adresse ist 88.198.37.153. Die zuverlässigste Variante zum Ausperren dürfte also folgende .htaccess-Anweisung in Kombination mit der oben genannten Robots.txt-Anweisung sein:
RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC] RewriteCond %{HTTP_USER_AGENT} ^.*viswoo.* RewriteRule ^.*$ - [F,L]
Artikel ver�ffentlicht von Thomas Graf am 01. September 2008 | Tweet
Daniel 05. September 2008 [#] |
Toller Bericht. Endlich kann man die Biester, falls gewünscht, sauber von der HP fernhalten. Vorbildlich von Viswoo, dass man auf Anfrage alle notwendigen Infos bereitstellt. AdShadow war da weniger gesprächig bzw. antwortete man auf meine Anfrage überhaupt nicht...was mich wiederum bei dem Laden (adfire) nicht mal wundert! |
Jörg Nieß 23. November 2008 [#] |
Das sind hier sehr gute Informationen, die einem nur allzu deutlich vor Augen führen, wie das Ausspähen von Daten, über das Internet erfolgen kann. Wenn man jetzt diese Gedanken weiter spinnt, fragt man sich natürlich, welche Aktionen und vor allen Dingen, wie viele schon in diese Richtung inzwischen gelaufen sind. Partiell ausgerichtete Spider, die sich auch noch tarnen können, über bestimmte Knoten zum Einsatz zu bringen dürfte ja das geringste Problem dabei sein. MfG |
trinita 03. September 2009 [#] |
Vielen Dank für den wirklich hilfreichen Artikel! |
Max 23. Dezember 2009 [#] |
Das Tool adshadow ffunktioniert nicht mehr. Gibt es eine Alternative? |