Das Problem an robots.txt ist, dass brave Bots, die in der Regel auch nicht zu aggresiv sind, diese auch honorieren, wohingegen die bösen bots, die viel Bandbreite brauchen, das robots.txt file einfach ignorieren.
Deshalb empfiehlt es sich auf jeden Fall eine .htacccess Lösung zu verwenden. Dafür gibt es die verschiedensten Lösungen, hier ein paar der gängigsten:
- mod_throttle
- manuelle Logfile-Analyse
- Spider-Fallen, die htaccess Einträge auslösen |