• Weblog
  • Lexikon
  • Tools
  • Suche
  • Kontakt


  • Rückwärtssuche für Ad- und Tracking-IDs

    Rückwärtssuchen nach Ad- und Tracking-IDs ermöglichen es, weitere Websiten eines Website-Betreibers ausfindig zu machen. Nach AdShadow gibt es mit Viswoo eine weitere derartige Suchmaschine. Deren Crawler können aber auch ausgesperrt werden, um in solchen Datenbanken nicht aufzuscheinen.

    Vor einigen Wochen hat der bekannte Internetunternehmer Thomas Promny eine Rückwärtssuche für AdSense-IDs online gestellt: Mit AdShadow lassen sich deutschsprachige Websites suchen, welche zu einem bestimmten AdSense-Account gehören. Mit dem Tool kann man also herausfinden, an welchen Projekten der Besitzer einer Website noch beteiligt ist.

    Seit Anfang August 2008 sind nach Eigenangaben von AdShadow über 260000 Einträge in der Datenbank. Mittlerweile werden auch IDs von den Werbenetzwerken Zanox und Affilinet sowie Google Analytics indexiert. AdShadow kennt bei weitem nicht alle deutschen Websites, aber die meisten der Domains, die auch eine signifikante Anzahl Besucher haben.

    Vor Kurzem hat AdShadow hat Konkurrenz bekommen. Mit Viswoo ging eine weitere derartige Suchmaschine an den Start. Diese schaut optisch ansprechender aus, verfügt derzeit aber nur über 15000 Einträge – diese Zahl soll aber schon bald anwachsen. Derzeit wird nach IDs von AdSense, AdConion, Affilinet und Google Analytics gesucht. Der Anbieter arbeitet laut eigenen Aussagen aber an der Erkennung der IDs von Zanox, Amazon PartnerNet, Sedo Parking, eTracker und SedoTracker.

    Suchmaschinen-Spider aussperren

    Zugegeben, es kann durchaus interessant sein, bei welchen Websites andere Website-Betreiber ihre Finger im Spiel haben. Aus der Sicht des Datenschutzes sind derartige Rückwärtssuchen aber nicht unbedenklich. Nicht jeder ist damit einverstanden, dass derartige Daten öffentlich zugänglich sind. Für diesen Fall gibt es Möglichkeiten, die Spider (auch Crawler oder Bots genannt) der Suchmaschinen auszusperren:

    AdShadow

    Wie Everflux herausgefunden hat, trägt der Bot von AdShadow den Namen Penthesilea. Auch wenn sich Penthesilea in seiner Beschreibung als Spider für ein Buchprojekt über Suchmaschinen ausgibt, dürfte diese Information stimmen – sie wurde mittlerweile von Thomas Promny in einem Blogkommentar bestätigt. Der Bot hält sich nach Angaben von Promny an die Anweisungen der Robots.txt und kann mit folgender Anweisung ausgesperrt werden:

    User-agent: penthesilea
    Disallow: /

    Ein Unsicherheitsfaktor ist natürlich immer, ob der Crawler die Anweisungen richtig interpretieren kann – Fehler können hier immer wieder auftreten. Es empfielt sich also, den Crawler zusätzlich noch über die .htaccess-Datei aussperren. Mit der folgenden Anweisung bekommt der Crawler nur einen HTTP-Error 403 (Access Denied) zu sehen, falls er auf eine andere Datei als die robots.txt zugreift:

    RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC] 
    RewriteCond %{HTTP_USER_AGENT} ^.*penthesilea.* 
    RewriteRule ^.*$ - [F,L]

    Viswoo

    Um Herauszufinden, wie man Viswoo effektiv aussperren kann, waren keine aufwändigen Recherchen notwendig. Der Betreiber der Suche hat diesbezüglich auf eine Anfrage per E-Mail umgehend Auskunft gegeben.

    Derzeit stünde nur eine kleine Anzahl an Test-Datensätzen zur Verfügung. Nach Angaben des Betreibers soll Viswoo demnächst auf den Open-Source-Crawler Heritrix umsteigen, welcher die Anweisungen der Robots.txt befolgt. Folgende Zeilen in den robots.txt müssten also den Bot ausperren:

    User-agent: Heritrix
    Disallow: /

    Der User-Agent des Spiders lautet Mozilla/5.0 (compatible; viswoo-heritrix/0.05.0 +http://viswoo.com), die aktuelle IP-Adresse ist 88.198.37.153. Die zuverlässigste Variante zum Ausperren dürfte also folgende .htaccess-Anweisung in Kombination mit der oben genannten Robots.txt-Anweisung sein:

    RewriteCond %{REQUEST_URI} !^/robots.txt$ [NC] 
    RewriteCond %{HTTP_USER_AGENT} ^.*viswoo.* 
    RewriteRule ^.*$ - [F,L]

    Artikel ver�ffentlicht von am 01. September 2008 |


    Daniel
    05. September 2008 [#]
    Toller Bericht. Endlich kann man die Biester, falls gewünscht, sauber von der HP fernhalten.

    Vorbildlich von Viswoo, dass man auf Anfrage alle notwendigen Infos bereitstellt. AdShadow war da weniger gesprächig bzw. antwortete man auf meine Anfrage überhaupt nicht...was mich wiederum bei dem Laden (adfire) nicht mal wundert!
    Jörg Nieß
    23. November 2008 [#]
    Das sind hier sehr gute Informationen, die einem nur allzu deutlich vor Augen führen, wie das Ausspähen von Daten, über das Internet erfolgen kann. Wenn man jetzt diese Gedanken weiter spinnt, fragt man sich natürlich, welche Aktionen und vor allen Dingen, wie viele schon in diese Richtung inzwischen gelaufen sind. Partiell ausgerichtete Spider, die sich auch noch tarnen können, über bestimmte Knoten zum Einsatz zu bringen dürfte ja das geringste Problem dabei sein.
    MfG
    trinita
    03. September 2009 [#]
    Vielen Dank für den wirklich hilfreichen Artikel!
    Max
    23. Dezember 2009 [#]
    Das Tool adshadow ffunktioniert nicht mehr. Gibt es eine Alternative?

    Kommentar verfassen

    Name (*)
    Homepage
    E-Mail
    Twitter-Name
    Sicherheitscode (*)
    Tippe den Stadtnamen Madrid ab.