Wie sagte schon seinerzeit Albert Einstein: „Alles ist relativ“. Und so ist das auch beim SEO. Alles ist relativ kompliziert und hängt von der Lage des Betrachters ab. Auch im Internet gelten die Regeln der Relativitätstheorie. Die Lichtgeschwindigkeit ist überall gleich und konstant und Informationen können nicht schneller als das Licht übertragen werden. Eine elementare Erkenntnis, deren Folgen sich selbst auf die Existenz des GoogleBots auswirken kann. Ich möchte hier am Beispiel von „Duplicate Content“ zeigen, welche Folgen das für Google und die Optimierung von Suchmaschinen hat.
Im Web gibt es keine absolute Gleichzeitigkeit. Aufgrund der endlichen Ausbreitungsgeschwindigkeit elektrischer Ströme und elektromagnetischer Wellen hängt es deshalb immer vom Betrachter ab, ob Inhalte an verschiedenen Stellen im Raum gleich sind oder nicht. Gerade für Suchmaschinen ist das ein Problem. Wie will Googles Robot erkennen, ob zwei Seiten an verschiedenen Stellen im Web identisch sind oder nicht, wenn diese Seiten jeweils in sehr kurzen Abständen verändert werden?
Unter Vernachlässigung der Lorentz-Kontraktion ist es mir aufgrund meiner relativistischen Überlegungen gelungen, eine Strategie zur Vermeidung von Duplicate Content in Weblogs zu entwickeln! Die Vorgehensweise ist ganz einfach, man muss nur schneller sein als der Bot, d.h. man muss schneller den Content ändern als der Bot die Seiten ziehen kann.
Angenommen es gäbe auf der eigenen Präsenz zwei identische Seiten. Der Bot erkennt diese Seiten nur als gleich, wenn er beide innerhalb so kurzer Zeit erwischt, dass sich an den Inhalten noch nichts verändern konnte. Doch in Weblogs kann man durch Schreiben neuer Artikel, dem Auftauchen neuer Trackbacks und Kommentare, Änderungen an Kategorien, Aufblähen von Tag-Wolken und eines sich immer wieder selber aktualisierenden Kalenders dafür sorgen, dass sich faktisch jede Seite verändert, sobald eines dieser Ereignisse eintritt. Passiert also solch ein Ereignis nach Zugriff auf die erste Seite, so hat der Bot keine Chance zu erfahren, ob die zweite Seite eine völlig eigenständige Seite ist oder ein Klon der ersten Seite darstellt.
Damit haben wir hier auch eine optimale Strategie gegen Content-Klau. Möglichst schnell für Content-Änderungen sorgen und der geklaute Content bleibt auf der Strecke, da der Bot aufgrund des schnellen Content-Wechsels die Inhalte nicht mehr in der selben Form erfassen kann. Wer es also schafft, schneller als der Bot zu sein, der muss sich keine Gedanken mehr zu Duplicate Content und Suchmaschinen-Problemen machen.
Ein Blogger hat es aufgrund seiner hohen Blogfrequenz schon geschafft, über Jahre hinweg jenseits des Ereignishorizonts der Suchmaschinen-Bots zu agieren. Sein Name ist Robert Basic und wer genau hinschaut wird feststellen, das Robert noch nie wegen doppelten Inhalten jammern musste ;-)
Naja, wenn der Bot schon bei 90 % Übereinstimmung Alarm schlägt, bringt das nichts. Weiß man denn, wie gleich es sein darf?
Meiner Meinung nach kommt es da aber auch ganz sehr auf den jeweiligen vorhanden Trust des Blogs an, also auf die hochwertigen eingehenden Links. Tags meide ich mittlerweile wie die Pest, da das einen meiner Blogs richtig heftig nach unten gezogen hat. Weniger ist da manchmal mehr. ;)
Köstlich Gerald ;-) einfach nur köstlich…
Geht es um die Struktur oder dem reinen Content, z.B. einen Artikel? Dieser ändert sich bei Content-Klau bekanntlich nicht. Obwohl, Textgeneratoren mit Thesaurus erfreuen sich bei den einfallslosen Zeitgenossen höchster Beliebtheit. Würde mich nicht wundern wenn Google in seinem Algo ebenfalls einen Synonyme-Erkennungs-und-Auswertungs-Skript einbaut.
Ich sehe ein Licht!
Schöne Grüße aus Tübingen
@henning – wenn google auf 90% gleichheit checken wollte, dann würden die mit dem rechnen nie fertig werden. abgesehen davon wäre es schon schwer genug überhaupt 90% übereinstimmung zu definieren. und es dürfte auch keinen sinn machen.
schon die suche und erkennung nahezu identischer seiten überfordert google ja oft genug, wie man an den ganzen üblen proxy-klau konstrukten sehen kann.
@walid – wer weiss schon, wie gut google inhalte von navigation, werbung und anderen elementen unterscheiden kann. aber es könnte durchaus sinn machen die eigenen inhalte auch nachträglich zu verändern, um 1-1 klone zu unterlaufen.
Nette Analyse. Allerdings vergisst du in deiner Berechnung den Dopplereffekt.
Und ob Content als „duplicate“ läuft, weiß wohl bis die Kiste geöffnet wird auch nur die Katze… ähm…der Content selbst. :-)
Also so einfach ist das mit dem double content nicht. Wir entwickeln und betreiben Suchmaschinen für Firmen und kennen das Thema des double Content nur zugut. Es gibt verschiedene Strategien, doppelten Content zu erkennen. U.a. redurziert man den Inhalt nur auf den Text, d.h. alles was Javascript, Styling o.ä. ist bleibt eh erstmal außen vor. Dann kann man zusätzlich noch versuchen, alle Links inkl. deren Anchor-Texten auch gleich mit rauszufiltern – damit kann man Missbrauch von anderen Seiten für Keyword-Text sehr schön umgehen.
Schließlich muss man per Fuzzy ein gewissen Unschärfe beim Vergleichen nutzen. Diese Unschärfe sollte entsprechend der Dokumentgröße angepasst sein – ein nur pauschal 10% Unschärfe reicht nicht aus. Hier die richtigen Werte zu finden ist halt Erfahrung. Ich kann nur sagen, dass wir ziemlich zuverlässig doppelte Seiten mit üblichen Abweichungen (man denke an Produktseiten, die sich nur durch exakte Firmennamen und -adressen unterscheiden) erkennen.
Und solch eine Erkennung dauert – abhängig vom Index auch nicht so lange – man kann da mit unscharfen Hashes arbeiten.
Außerdem hat der Vorschlag mit dem schneller als der Bot sein noch einen gründlichen Nachteil – man weiss nämlich nicht, wo der Bot zuerst wieder lang kommt. Eventuell auf der Seite wo man es nicht möchte – das ist nämlich das wirkliche Google-Duplicate-Content-Problem.
christian, du hast vollkommen recht. insbesondere der hinweis auf schrödingers katze erinnert mich daran, dass ich noch eine quantentheoretische erweiterung meiner speziellen relativistischen theorie nachliefern sollte. gerade die quantelung des contents in verbindung mit dem spin der durchs web geschickten elektronen birgt manch seltsame überraschung für den forschenden seologen. neue begriffswelten kommen ins spiel, so wird die keyworddichte von der teilchendichte abgelöst und die zugehörigen text elemente gehen im zug der string theorie in dimensionen über, die noch nie zuvor ein mensch gesehen hat.
olaf, danke für die erklärungen. genau solche kommentare erhoffe ich mir immer ;-)
Uui uiu, mit welch wissenschaftlichen knoff hoff ihr da an die Sache geht … man kümmet sich richtig klein vor .. Fuzzi Logi: dabei habe habe ich mich so gefreut es nie wieder nach mathe zu hören
Haha, wirklich geiler Artikel!
Allerdings muss man dazusagen, dass die meisten Splogs keine eigenständige Bots, sondern einfach RSS Feed Scrapers haben. Daher ist es egal, wie schnell sich eine Seite ändert ;-) Aber der Text ist wirklich nett geschrieben! :-)