gulli: Spider der Copyrightindustrie mit Datenmüll füttern

Anzeige

gulli:Newsbox

15. Dezember 2005

Spider der Copyrightindustrie mit Datenmüll füttern

Script generiert Apache-Fakedirs

Wer php-fähigen Wepspace hat und die Spider der einschlägigen Piraterieverfolger ein wenig ausbremsen mag, bekommt mit dem Dirindexfaker ein hübsches Tool in die Hand. Sinn der Übung: die Copyrightindustrie durchsucht unter anderem mit Spidern das Web, um Seiten mit möglicherweise unliebsamen Inhalten zu finden. Deren Inhaber werden - wenn möglich - ermittelt und - wenn möglich - angezeigt. Das automatisierte Durchforsten des Webs ergibt jedoch nur Sinn, wenn tatsächlich auch überwiegend echte Angebote gefunden werden. Fallen die Bots auf Massen von Fakematerial herein, steigt der Aufwand, echte von falschen Seiten zu sortieren, erheblich an. Und: diese Sortierung muss von Menschen gemacht werden, wenn es der Spider nicht kann.

Fake Apache DirectoryDie Lösung: ein Script, das ohne viel Serverlast Directories erzeugt, die nach außen hin als Sammlung urheberrechtlich bedenklich scheinender Dateiangebote scheinen, tasächlich aber nur Datenmüll enthalten, dabei für einen Spider wie eine "echte" Seite erscheinen. Der DirIndexFaker setzt auf einem früheren Versuch auf, ein solches Skript zu schreiben. Der "DMCA Bot Killer" wies jedoch einige Schwächen auf, die ihn leicht maschinell erkennbar machten.

Der Dirindexfaker erzeugt Seiten, die wie Directorylistings eines Apache-Webservers aussehen, tatsächlich aber nur auf Fakedateien verweisen. Dazu kann das Skript die dahinterstehenden Files dynamisch erzeugen: man muss nicht 2 Gigabyte Plattenplatz mit Datenmüll füllen, um eine Reihe von Downloads zu simulieren, sondern die Files werden dynamisch vom Script generiert, wenn ein Bot versucht, selbige abzurufen.

Das Skript läuft auf php-fähigem Webspace, ein Rootaccount auf dem Server ist nicht notwendig.

  • Die Liste mein ich nicht. Ich meine die Liste die ich über dir schon meinte. ...was meinst du mit Suchmaschinenspamming?

    BellaBong am 17.12.2005 13:23
  • Ich dachte das spricht vl. die Spider der RIAA und co an, aber du hast recht Ich hab nun bei den Metatags nun bis auf Robots NOINDEX, FOLLOW alles weggetan

    xxxstereoxxx am 17.12.2005 13:25
  • Wieso, lass das doch drin. Ist doch gerade gut. Man kann die Filelist.txt aber immernoch nicht downloaden.

    BellaBong am 17.12.2005 13:29
  • *g* das liegt daran das ich mich verschrieben habe, die datei heißt nicht filelist.txt sondern filenames.txt sorry

    xxxstereoxxx am 17.12.2005 13:49
  • © copyright 1998-2009 gulli.com  | home | sitemap | kontakt | impressum | partner | downloads |