Microsoft: Algorithmus zur Blog-Erkennung
Letzte Woche wurde ein Patent von Microsoft unter dem Namen Identifying a web page as belonging to a blog veröffentlicht. Das Patent wurde im Juli 2006 beantragt. Aus diesem geht hervor, dass wie Microsoft Blogs erkennen will, und dass die Zahl der Blogs in den Suchergebnissen limitiert werden soll. So beschreibt Microsoft die Hintergründe dieses Patents:
Blogging has grown rapidly on the internet over the last few years. Weblogs, referred to as blogs, span a wide range, from personal journals read by a few people, to niche sites for small communities, to widely popular blogs frequented by millions of visitors, for example. Collectively, these blogs form a distinct subset of the internet known as blogspace, which is increasingly valuable as a source of information for everyday users.
Search engines are increasingly implementing features that restrict the results for queries to be from blog pages. The website www.blogcensus.net gives information on an effort to index blogs, though this was apparently discontinued in late 2003. At that time, the site stated that it had indexed 2.8 million blogs. Currently, Technorati claims to be tracking 43.2 million blog sites. It is currently difficult for search engines to identify blog pages, regardless of the source of the content in a blog page.
Interessant ist vor allem die hervorgehobene Aussage, dass Suchmaschinen versuchen würden, die Anzahl der Resultate von Blogs zu limitieren. Ganz verstehe ich das aber nicht, denn spontan fällt mir kein wirklicher Grund ein, Blogs künstlich aus den Suchergebnissen zu streichen. Viel nützlicher wäre es doch, diese Technik dafür zu nutzen, endlich eine gute Blogsuche auf die Beine zu stellen?!
Dass dies in einem Patentantrag steht muss allerdings noch lange nicht heißen, dass Microsoft Live Search tatsächlich derartige Funktionen implementiert hat. Bekanntlicherweise wird heutzutage jede Menge patentiert, was dann nie verwendet wird.
Erkennungsmerkmale
Im Folgenden gehe ich die wichtigsten beschriebenen Erkennungsmerkmale (bzw. Heuristiken) durch, in der Patentbeschreibung unter Absatz 16 bis 20 zu finden. Je mehr dieser Merkmale vorliegen, desto eher liegt ein Weblog vor.
- Domain/Host: Eine einfache Erkennungsmöglichkeit ist der Host der Seite. Wenn die Seite unter der Domain eines bekannten Bloghosters zu erreichen ist, handelt es sich ziemlich sicher um einen Blog. Als Beispiele sind MSN Spaces, Blogspot, Yahoo 360, LiveJournal, Typepad, Xanga, MySpace, Multiply und Wunderblogs angeführt.
- Blog-Vokabular: Weiters soll der Text einer Seite auf bestimmte Wörter oder Phrasen abgesucht werden. Im Patentantrag heißt es wenn eine Seite die beispielsweise die Wörter
Blogroll
oderMetaphilter
enthält, gehört sie wahrscheinlich zu einem Weblog. Außerdem gibt es weitere Wörter, die auf einen Blog hinweisen. Je mehr dieser Wörter gezählt werden, desto eher handelt es sich hierbei tatsächlich um einen Blog. Als Beispiele werdeBlog
,Permalink
,Trackback
,Comment(s)
,Blogad
undpost at
genannt. Natürlich sollen auch gleichbedeutende Wörter in anderen Sprachen berücksichtigt werden. - Ausgehende Links: Auch ausgehende Links werden analysiert. Links zu movabletype.com, wordpress.org und anderen Anbietern von Blog-Software geben hier Anhaltspunkte.
- URL: Wenn
blog
in der URL bzw. an einer ganz bestimmten Stelle einer URL steht, verbirgt sich dahinter meisten wohl auch ein Blog. Vor allem unmittelbar nach der Domain, also inpixelfolk.net/blogund nichtpixelfolk.net/artikel/123/blog-bekannt-machen, lässt dies relativ eindeutige Schlüsse zu. - Feeds: Was gibt es bei so gut wie jedem Blog? Natürlich einen RSS-oder Atom-Feed. Natürlich deutet auch das auf einen Blog hin, auch wenn sich mittlerweile auch bei Foren oder klassischen Nachrichten-Seiten Feeds schon verbreitet haben.
Die große Frage ist, ob es bei Live oder anderen Suchmaschinen tatsächlich schadet, als Blog erkannt zu werden? Ich glaube es ehrlich gesagt nicht, aber dennoch könnte man die einen oder anderen Erkennungsmerkmale etwas retuschieren (so mancher SEO prophezeit ja schon, dass Google bald Wordpress-Seiten abwerten könnte, weil diese häufig als Grundlage für Artikelverzeichnisse verwendet werden). Oder man legt es eines Tages darauf an, eben schon in einer Blogsuche aufzuscheinen, und baut sie bewusst ein ...
Artikel veröffentlicht am 27. Dezember 2007 | Tweet