Die Gerüchteküche brodelt mal wieder, seitdem Garett Rogers einige neue Google Domain-Registrierungen ausgegraben hat. Eine Liste bietet das GoogleWatchBlog. Bei Namen wie google-archive-search.com oder google-archive.com ist der Schluss naheliegend, dass Google vielleicht etwas ähnliches wie die Wayback Machine von Archiv.org dort platzieren könnte.
Ein Google Archiv und insbesondere eine Google Archiv Suche, das hätte Charme. Und da Google den anderen Suchmaschinen und Archivierern bezüglich Datenvolumen, Reichweite und Datenhandling einiges voraus hat, dürfte solch ein Service ganz schnell konkurrenzlos sein. Die Wayback-Machine ist doch ziemlich lückenhaft und inhaltlich broken, während Google mit seinem Cache bzw. Supplemental Index schon früh bewiesen hat, wie gut man als Archiv-Service zu missbrauchen ist ;-)
Passend hierzu noch eine Meldung vom Webmasterblog über ein Tool zum Websites ohne Backup wiederherstellen.
Ein Recherchieren nach Datum oder innerhalb gewisser Zeitschranken erlaubt sicherlich einige interessante Anwendungen. Im einfachsten Fall dient solch ein Archiv der Datenrettung, in anderen Fällen zur Recherche oder Konkurrenzanalyse und am Ende kann es sogar helfen den Zeitgeist vergangener Jahre einzufangen. Für Google selber sind die alten Daten natürlich auch sehr wichtig. Nicht umsonst hat der Googleguy einst im WMW Forum die folgende Äußerung getätigt:
… we are packrats at Google. We never seem to throw out information about the link structure of the web. :)
Google hat nämlich noch Daten zu Inhalten, Verlinkungen und Strukturen, als SEOs und Webmaster noch nicht das halbe Internet verbogen hatten. Ein echter Schatz, wenn es um das Einschätzen von Verlinkungen und Qualitäten geht. Alleine diese fürchterlichen Footerlinks und Index-Seiten Verlinkungen. Wie hoch die Quoten dafür wohl früher waren? Oder die zeitlichen Entwicklungen bei Verlinkungen. Google kann verschiedene Schnitte durch die Zeit legen und sich nur die Differenzen bei den Verlinkungen oder den Seiteninhalten ansehen. Mit genügend Intelligenz ausgestattet, könnte Google damit ziemlich fiese Dinge machen. Zum Beispiel SEOs und optimierte Seiten herausschälen.
Das kann Google sicher heute schon alles. Aber wäre schon nett, wenn wir alle die Gelegenheit erhielten, in kleinerem Rahmen ähnliche Nachforschungen anstellen zu können. Einen interessanten Beitrag von q48 möchte ich zum Schluss auch noch erwähnen, denn hier hat Pascal noch ein Patent aus dem Mai dieses Jahres ausgegraben, das in diesem Zusammenhang von Interesse sein könnte. Hier ein Auszug:
Another embodiment of the present invention allows the capability to store and maintain historical documents in the indices, and thereby enable archival retrieval of date specific instances (versions) of individual documents or pages. This capability has various beneficial uses, including enabling a user may search for documents within a specific range of dates, enabling the search system 120 to use date or version related relevance information in evaluating documents in response to a search query, and in organizing search results.
Nicht unspannend die Geschichte. Aber einen Pferdefuß hat die Sache, wie auch Pascal anmerkt. Bei Copyright und Lizenzrechten könnte Google mit Usern oder Agenturen aneinander rasseln, die ihre Inhalte lieber für sich behalten oder kontrollieren wollen.
Vermutlich wird es erstmal eine Erweiterung des Google Cache sein (Beta selbstverständlich).
Und dann schauen wir mal, wie google das Vermarkten kann. Man muss ja immer bedenken, google weiß wonach Menschen suchen..