mediengestalter.info
FAQ :: Mitgliederliste :: MGi Team

Willkommen auf dem Portal für Mediengestalter

Aktuelles Datum und Uhrzeit: Mi 24.04.2024 07:19 Benutzername: Passwort: Auto-Login

Thema: Webseite vor unerwünschten Bots schützen vom 16.02.2007


Neues Thema eröffnen   Neue Antwort erstellen MGi Foren-Übersicht -> Tipps & Tricks für Nonprint -> Webseite vor unerwünschten Bots schützen
Autor Nachricht
seal
Threadersteller

Dabei seit: 31.07.2005
Ort: Pfalz
Alter: 41
Geschlecht: Männlich
Verfasst Fr 16.02.2007 21:15
Titel

Webseite vor unerwünschten Bots schützen

Antworten mit Zitat Zum Seitenanfang

Die folgende „Lösung“ bietet zwar keinen Schutz gegen das unrechtmäßige kopieren
von Texten, Layouts und Bildern (wenn es den gäbe, könnte kein Besucher etwas sehen),
aber er erschwert das „klauen“ mit Hilfe von Software (zum Beispiel „Website Copier HTTrack“),
Bots und Spidern.

Den nachfolgenden Code in einen Editor deiner Wahl kopieren
und als „.htaccess“ speichern, anschließend via FTP auf den zu schützenden
Webspace hochladen. Das Apache-Modul „mod_rewrite“ muss auf deinem Webserver laufen!


Code:
# Zugriff für Bots und Spider verweigern
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GASI_GORENG [OR]
RewriteCond %{HTTP_USER_AGENT} ^gazz [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Holmes/1.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Irvine [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia-archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^HeinrichderMiragorobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^MSNBOT [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^MVAClient [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^oegp [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SearchExpress [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteKiosk [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Schmozilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^sherlock/1.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^TheSuBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^TurnitinBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebBandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9]\.[0-9]{1,2}$
RewriteRule ^.* - [F,L]
# Download-Robots den Zugriff verweigern
RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [NC]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^GoZilla.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^wget.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTrack.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCapture.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Scooter-W3.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGe.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Webdupe.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DiscoPump.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [NC,OR]
RewriteRule .* - [F,L]


Den kompletten Artikel gibts beim DTP-Blog
  View user's profile Private Nachricht senden
grafzahl

Dabei seit: 13.04.2006
Ort: Magdeburg
Alter: 39
Geschlecht: Männlich
Verfasst Sa 17.02.2007 13:46
Titel

Antworten mit Zitat Zum Seitenanfang

Es sollte jedoch dazu gesagt werden, das dies bei gut besuchten Seiten schon einiges an Performance wegnehmen kann.
Und noch was, warum macht es Sinn Downloadmanager von einer Seite auszusperren, schreibt man das ganze nämlich in die htaccess hat das den nachteil das es möglichweise auch für den Downloadbereich der Seite gilt.


Zuletzt bearbeitet von grafzahl am Sa 17.02.2007 13:48, insgesamt 1-mal bearbeitet
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Anzeige
Anzeige
dastef

Dabei seit: 03.11.2003
Ort: -
Alter: -
Geschlecht: Männlich
Verfasst Sa 17.02.2007 17:00
Titel

Antworten mit Zitat Zum Seitenanfang

Fraglich ist - ob man das hören mag, oder nicht - eh ob das Sinn-
voll ist .. wer wget nutzt dem traue ich auch zu, dass er fähig ist
den user-agent zu ändern .. und ein wget welches sich als ff/ie
oder auch immer ausgibt .. zieht dir auch alles runter.
  View user's profile Private Nachricht senden
seal
Threadersteller

Dabei seit: 31.07.2005
Ort: Pfalz
Alter: 41
Geschlecht: Männlich
Verfasst So 18.02.2007 15:17
Titel

Antworten mit Zitat Zum Seitenanfang

grafzahl hat geschrieben:
Es sollte jedoch dazu gesagt werden, das dies bei gut besuchten Seiten schon einiges an Performance wegnehmen kann.

Guter Kritikpunkt. Von welchen Dimensionen sprechen wir hier? Könnte man ja als Hinweis dazuschreiben. Quellen?

grafzahl hat geschrieben:
Und noch was, warum macht es Sinn Downloadmanager von einer Seite auszusperren, schreibt man das ganze nämlich in die htaccess hat das den nachteil das es möglichweise auch für den Downloadbereich der Seite gilt.

Wer einen Download-Bereich hat und diese (in meinen Augen unnötigen, da in aktuellen Browsern vorhandenen) Download-Managern den Zugriff erlauben möchte, kann das ja gerne tun.

dastef hat geschrieben:
Fraglich ist - ob man das hören mag, oder nicht - eh ob das Sinn-
voll ist .. wer wget nutzt dem traue ich auch zu, dass er fähig ist
den user-agent zu ändern .. und ein wget welches sich als ff/ie
oder auch immer ausgibt .. zieht dir auch alles runter.


Von Usern, die wissen wie man User-Agent Angaben ändert, sprechen wir hier doch garnicht.
Wie ich oben schon geschrieben habe, ist diese Methode kein Schutz davor, „beklaut“ zu werden. Sie soll es einfach nur schwerer machen, komplette Seiten automatisiert zu laden!
Anlaß war eigentlich ein fast täglicher Besucher meines Blogs, „HTTrack Website Copier“, der von Beginn an alle Inhalte abgraste. Um ihm nicht ganz kampflos das Feld zu überlassen, habe ich nach einer Möglichkeit gesucht, diesem (warscheinlich stinknormalem Benutzer ohne große Ahnung) das autom. „rippen“ zu untersagen, und es funktioniert.

Aber nochmal: wer Inhalte klauen möchte, kann dies trotz der .htaccess weiterhin tun, nur eben nicht mehr ganz so einfach! Wer die Arbeit (User-Agent ändern, „per Hand“ kopieren, etc.) investieren möchte, bitte.
  View user's profile Private Nachricht senden
Astro

Dabei seit: 14.04.2003
Ort: Lost Valley
Alter: 48
Geschlecht: Männlich
Verfasst So 18.02.2007 16:57
Titel

Antworten mit Zitat Zum Seitenanfang

Find ich ja irgendwie paranoid.
  View user's profile Private Nachricht senden
grafzahl

Dabei seit: 13.04.2006
Ort: Magdeburg
Alter: 39
Geschlecht: Männlich
Verfasst Mo 19.02.2007 12:13
Titel

Antworten mit Zitat Zum Seitenanfang

seal hat geschrieben:
grafzahl hat geschrieben:
Es sollte jedoch dazu gesagt werden, das dies bei gut besuchten Seiten schon einiges an Performance wegnehmen kann.

Guter Kritikpunkt. Von welchen Dimensionen sprechen wir hier? Könnte man ja als Hinweis dazuschreiben. Quellen?


Das wird für den Otto-Normal-Blogger mit unter ein paar tausend Usern nicht wirklich interessant sein, es ist jetzt sicherlich nix was derbe ins Gewicht fällt, aber ich hab vor einiger Zeit mal ähnlichen Blödsinn in eine htaccess geschmissen und konnte bei einer doch gut besuchten Seite (ca. 2000U/D) einen kleinen Geschwindigkeitsverlust merken.

seal hat geschrieben:
grafzahl hat geschrieben:
Und noch was, warum macht es Sinn Downloadmanager von einer Seite auszusperren, schreibt man das ganze nämlich in die htaccess hat das den nachteil das es möglichweise auch für den Downloadbereich der Seite gilt.

Wer einen Download-Bereich hat und diese (in meinen Augen unnötigen, da in aktuellen Browsern vorhandenen) Download-Managern den Zugriff erlauben möchte, kann das ja gerne tun.


Klar, aber das solltest du den unwissenden Usern auch mitteilen das diese dadurch gesperrt werden, und Flashget an sich würde ich auch nicht als ROBOT bezeichnen, da er wie ein DL-Manager auch nur auf Anweisungen hört.
Und unnötig oder nicht, wenn es nach mir ginge wär das Internet Explorer auch schon seit Jahren unnötig, hey, lass uns den doch auch gleich mit sperren...


Zuletzt bearbeitet von grafzahl am Mo 19.02.2007 12:14, insgesamt 2-mal bearbeitet
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
 
Ähnliche Themen webseite vor kopieren schützen
PHP Bots erkennen
Film in pdf-Datei hat beim Abspielen einen unerwünschten Rah
SWF vor decompiling schützen?
pdf für website schützen
Datei schützen
Neues Thema eröffnen   Neue Antwort erstellen
MGi Foren-Übersicht -> Tipps & Tricks für Nonprint


Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst an Umfragen in diesem Forum nicht mitmachen.