Blogsuchmaschinen

|

Christopher Laux' Motivation zur Arbeit an einer eigenen Suchmaschine für Blogs stammt aus der Unzufriedenheit mit der Qualität von Blogsuchmaschinen: Die Ergebnisse von Suchen innerhalb von Blogs waren über Dienste wie Technorati oder die Blogsuche von Google oder Yahoo nicht zu erreichen. Beim Barcamp Berlin diskutierte er seine Erfahrungen bei den ersten Schritten, eine eigene Blogsuchmaschine zu bauen.

Die Maschine funktioniert so: Während ein "Spider" Blogs findet, hat ein "Visitor" die Aufgabe, aktuelle Einträge zu finden. Diese beiden Elemente sind bereits implementiert. Noch zu bauen sind Suchalgorithmen und ein Webinterface, das Nutzern die eigentliche Suche erlaubt.

Im Spiderkonzept werden Bäume entsprechend bewertet, beispielsweise als "Spam-Zweig" (kappt man den, so werden auch viele andere Spamquellen "gekappt") oder als "Such-Zweig auf Italienisch". Sofern die Blogsuchmaschine monolingual (also beispielsweise englisch) spidern soll, müssen auch fremdsprachige Blogs ausgeblendet werden. Die Blogs in der Wunschsprache lassen sich recht einfach über einen hohen Anteil an Wörtern aus einem passenden Lexikon ermitteln.

Vermeiden muss man auch, dass der Spider "im Kreis läuft", denn unter Millionen Blogs im Index solche Kreise zu ermitteln ist von der Rechenkapazität her problematisch. Generell wird auch versucht zu ermitteln, welche Teile des Blogs welche Infos (Archivlink, interne Links, Blogroll) enthalten, und im Prinzip können aus diesen Strukturen auch semantische Schlussfolgerungen gezogen werden. Blogs selbst werden erkannt anhand ihrer typischen URL-Struktur: Anhand von 30 Regeln werden bisher 80% der Blogs erkannt. RSS als Indikator zu nehmen hat sich nicht bewährt.

Im Betrieb zieht der Spider 1 GB/Stunde, es empfiehlt sich also ein Server mit unlimitiertem Traffic. Ein Bloom-Filter erübrigt es, alle bisher erfassten URLs im Speicher zu halten, und die Datenfiles werden linear strukturiert.

Der Visitor ist ähnlich strukturiert wie der Spider. Hier fallen allerdings 30 GB/h an - wahrscheinlich weil die dafür vorgesehene Maschine schneller ist. Statt 30 Connections wie beim Spider werden hier parallel 50 Verbindungen gefahren.

Ein Problem war, dass nach einer halben Million Blogs dem System nach einiger Zeit die Blogs ausgingen: Die Datenbank umfasst lediglich eine halbe Million Blogs und ... geht davon aus, dass das die halbe Million 'besten' Blogs sind. Aus den 'Wer linkt auf wen"-Statistiken lässt sich ableiten, dass die Long-Tail-Relation in der Tat umgekehrt exponentiell zueinander verhält: Es gibt weniger und weniger Blogs mit immer mehr und mehr Links, die auf sie zeigen. Für die Statistiker unter den Lesenden: Bei einer doppelt logarithmischen Darstellung ergibt sich eine angenäherte Gerade.

Timo Derstappen hat auf der Basis von Technorati-Daten ein ähnliches System als Alert-System für PR-Abteilungen gebaut, deren eigentliches Ziel die Auslösung eines PR-Alarms war, wenn bestimmte Begriffe 'peaken'. Begriffe wurden in von Hand erstellten Topic-Maps semantisch miteinander verknüpft und können so benutzt werden, um Texte inhaltlich zu bewerten. Die Hardware-Anforderungen sind relativ hoch und schwer im Rahmen eines Hobbyprojekts zu realisieren. Invalides HTML oder RSS und Spamblogs waren auch für dieses System – das aktuell nirgends installiert ist – ein Problem.

Buchtipp: "Mining the Web – Discovering Knowledge from Hypertext Data" von S. Chakrabarti

Digitaler Frischfisch

Der interaktive Konsument revolutioniert das Marketing.

TwitterCounter for @fischmarkt

Anderswo aufgelesen

Blogroll