Mega Spam revisited

Ein paar Tage nach der Mega-Spam Attacke lichten sich die Schleier und wir werfen noch einmal einen Blick auf die kuriose Spam-Aktion. Was ist in der Zwischenzeit passiert?

1:0 für Google, zumindest was den Vergleich mit der Konkurrenz angeht. Außerdem hat sich jetzt der Google Mitarbeiter Adam Lasnik aus dem Umfeld von Matt Cutts zu Wort gemeldet und darauf hingewiesen, dass die aberwitzigen Milliardenzahlen weit entfernt von den realen Zahlen gelegen wären und aufgrund eines missratenen Data-Pushs zustande gekommen wären. Die Original-Kommentare dazu finden sich bei Digg sowie im Weblog von John Battelle.

Ok, vertrauenseinflößend sind solche korrupten Dateneinspielungen nicht – alte SEO-Hasen dürfte es aber auch nicht verwundern, wenn man die vielen Merkwürdigkeiten im Google Index der letzten Wochen und Monate betrachtet – aber plausibel scheinen die Aussagen und Zahlen schon:

Compounding the issue, our result count estimates in these contexts was MANY orders of magnitude off. For example, the one site that supposedly had 5.5 billion pages in the index actually had under 1/100,000th of that.

Adam nimmt mit seiner Aussage Bezug auf die Domain eiqz2q.org, demzufolge es also nur rund 50.000 Seiten in den Google Index geschafft haben sollen. Die 5 Milliarden konnte ich mir sowieso nicht erklären, insbesondere weil ich mir den Aufbau des Konstruktes schon ziemlich genau angesehen habe. Man will ja was lernen ;-)

So, Scherz beiseite, ich hatte bei meiner Analyse nur 11 verschiedene Haupt-Subdomains feststellen können und wie man anhand der Liste leicht schlussfolgern kann, wurden diese Hauptbestandteile noch einmal in tausende durchnumerierte Sub-Subdomains unterteilt.

  1. 695.water.eiqz2q.org
  2. 3790.war.eiqz2q.org
  3. 12935.trucks.eiqz2q.org
  4. 790.sandals.eiqz2q.org
  5. 1039.question.eiqz2q.org
  6. 1096.quake.eiqz2q.org
  7. 6966.music.eiqz2q.org
  8. 2823.manager.eiqz2q.org
  9. 2912.playstation.eiqz2q.org
  10. 1728.pizza.eiqz2q.org
  11. 1376.places.eiqz2q.org

Die meisten der hier gefundenen Subdomains rangierten in 4-stelligen Ziffern-Regionen, aber auch einige Exemplare bis nahe an die 20.000 scheint es gegeben zu haben. Wenn ich mich recht entsinne habe ich keine Sub-Subdomain von eiqz2q.org jenseits der Zahl 22000 im Index einer der 3 großen Suchmaschinen finden können. Eine simple Überschlagsrechnung würde damit 11*22000 = 242000 Seiten als Obergrenze für die Spamseiten unter eiqz2q.org ergeben. Das ist sicherlich zu optimistisch gerechnet, wahrscheinlich sind unter einigen Subdomains weniger als 10.000 Ziffernkombinationen zum Einsatz gekommen. Zudem müssen nicht alle denkbaren Zahlenkombination mit Inhalten belegt gewesen sein bzw. könnten aufgrund von Fehlern oder Duplicate Content etliche Seiten gefehlt haben etc.

Nun hat der Googlebot das Konstrukt sicher auch nicht zu 100% erfasst, somit dürften tatsächlich nicht mehr als 50.000 dieser Seiten in den Google Index gelangt sein. Also halb so schlimm, wie’s scheint. Zumindest was den Fall eiqz2q.org angeht.

Was mich aber immer wieder amüsiert (und stört) ist das, was nicht gesagt wird. Neben der Domain eiqz2q.org war auch die Domain t1ps2see.com in der Spam-Diskussion, auf diese ist der gute Adam aber mit keinem Wort eingegangen. Ganz zu schweigen von einigen Dutzend weiterer Spamdomains, deren Ziffern sich oftmals über ganz andere Bereiche erstreckten:

  • 110558.d.t1ps2see.com
  • 423006.xp.wxfuu3.org
  • 320933.pc.ovu22c.org
  • 119624.m.qge6f7.org
  • Wenn man sich diese Größenordnungen ansieht und eine Überschlagsrechnung veranstaltet, dann kommt man locker auf ein paar Millionen Spamseiten im Index. Nicht ganz so spektaklär wie die Milliardenzahlen, aber vertrauenerweckend ist das sicherlich nicht. Insbesondere wegen der erstaunlichen Geschwindigkeit, mit der die Seiten in den Index gelangt sind und aufgrund der Tatsache, dass es sich um brandneue, gerade frisch registrierte Domains gehandelt hat. Da muss Google noch ein wenig am Algo und den Filtern schleifen, damit das besser läuft.

    PS: Über MSN und Yahoo sage ich mal besser nichts ;-)

    2 Gedanken zu „Mega Spam revisited“

    Schreibe einen Kommentar