Spider der Copyrightindustrie mit Datenmüll füttern

Spider der Copyrightindustrie mit Datenmüll füttern

gullinews am Donnerstag, 15.12.2005 16:49 Uhr

Seite druckenArtikel empfehlengulli RSS News Feedsgulli twittertgulli:Newsletter

Script generiert Apache-Fakedirs

Wer php-fähigen Wepspace hat und die Spider der einschlägigen Piraterieverfolger ein wenig ausbremsen mag, bekommt mit dem Dirindexfaker ein hübsches Tool in die Hand. Sinn der Übung: die Copyrightindustrie durchsucht unter anderem mit Spidern das Web, um Seiten mit möglicherweise unliebsamen Inhalten zu finden. Deren Inhaber werden - wenn möglich - ermittelt und - wenn möglich - angezeigt. Das automatisierte Durchforsten des Webs ergibt jedoch nur Sinn, wenn tatsächlich auch überwiegend echte Angebote gefunden werden. Fallen die Bots auf Massen von Fakematerial herein, steigt der Aufwand, echte von falschen Seiten zu sortieren, erheblich an. Und: diese Sortierung muss von Menschen gemacht werden, wenn es der Spider nicht kann.

Die Lösung: ein Script, das ohne viel Serverlast Directories erzeugt, die nach außen hin als Sammlung urheberrechtlich bedenklich scheinender Dateiangebote scheinen, tasächlich aber nur Datenmüll enthalten, dabei für einen Spider wie eine "echte" Seite erscheinen. Der DirIndexFaker setzt auf einem früheren Versuch auf, ein solches Skript zu schreiben. Der "DMCA Bot Killer" wies jedoch einige Schwächen auf, die ihn leicht maschinell erkennbar machten.

Der Dirindexfaker erzeugt Seiten, die wie Directorylistings eines Apache-Webservers aussehen, tatsächlich aber nur auf Fakedateien verweisen. Dazu kann das Skript die dahinterstehenden Files dynamisch erzeugen: man muss nicht 2 Gigabyte Plattenplatz mit Datenmüll füllen, um eine Reihe von Downloads zu simulieren, sondern die Files werden dynamisch vom Script generiert, wenn ein Bot versucht, selbige abzurufen.

Das Skript läuft auf php-fähigem Webspace, ein Rootaccount auf dem Server ist nicht notwendig.

Bookmark and Share

47 Reaktionen aus dem gulli:Board

xxxstereoxxx am 17.12.2005 13:25:34:
Ich dachte das spricht vl. die Spider der RIAA und co an, aber du hast recht ;) Ich hab nun bei den Metatags nun bis auf Robots NOINDEX, FOLLOW alles weggetan ;)...

BellaBong am 17.12.2005 13:29:08:
Wieso, lass das doch drin. Ist doch gerade gut. Man kann die Filelist.txt aber immernoch nicht downloaden....

xxxstereoxxx am 17.12.2005 13:49:37:
*g* das liegt daran das ich mich verschrieben habe, die datei heißt nicht filelist.txt sondern filenames.txt ;) sorry...

 

© 1998-2010 gulli.com | Suche

Seite druckenArtikel empfehlengulli RSS News Feedsgulli twittertgulli:NewsletterSeitenanfang

Suche

gulli:IT-Glossar

NFS
Bridge
Image Hoster
Anti-Viren Programm
The Onion Router (TOR)
Dial-Up
Serielle Schnittstelle
Malware
Makro
Werk (Urheberrecht)