Zurück   Online Marketing Talk > Suchmaschinenmarketing > Suchmaschinenoptimierung > Suchmaschinenoptimierung allgemein
Benutzername
Kennwort
Registrieren Hilfe Feed Kalender Suchen Heutige Beiträge Alle Foren als gelesen markieren

Suchmaschinenoptimierung allgemein Allgemeines Wissen um bei Suchmaschinen an die Spitze zu kommen kann man hier erlangen.

Antwort
 
Themen-Optionen Thema durchsuchen Ansicht
  #1  
Alt 29-11-2005, 00:37
jr-ewing jr-ewing is offline
Moderator
 
Registrierungsdatum: Nov 2005
Beiträge: 599
Standard Robots.txt

Hallo,
Hab da bisher nie so richtig drauf geachtet, aber nach der Aktion von WMW überlege ich jetzt auch bei neuen Projekte was ich in die Robots.txt reinschreiben soll.

Google will ich ja nicht gerade ausschließen. Aber wie heißt es so schön. Die guten Bots halten sich alle an die Robots.txt.

Was schreibt ihr so rein bzw. wäre ja eine Kombination aus htaccess und robots.txt denkbar. Welche Lösungsansätze habt ihr da ?

Bei mir steht z.B immer drin:
User-agent: HenryTheMiragoRobot
Disallow: /
Mit Zitat antworten
  #2  
Alt 29-11-2005, 00:42
Mario670 Mario670 is offline
Online Marketing Trainee
 
Registrierungsdatum: Nov 2005
Beiträge: 33
Standard

baue da voll und ganz auf http://disallow.de/ ;-)
Mit Zitat antworten
  #3  
Alt 29-11-2005, 00:46
ThomasB ThomasB is offline
Administrator
 
Registrierungsdatum: Nov 2005
Ort: München
Beiträge: 426
Standard

Das Problem an robots.txt ist, dass brave Bots, die in der Regel auch nicht zu aggresiv sind, diese auch honorieren, wohingegen die bösen bots, die viel Bandbreite brauchen, das robots.txt file einfach ignorieren.

Deshalb empfiehlt es sich auf jeden Fall eine .htacccess Lösung zu verwenden. Dafür gibt es die verschiedensten Lösungen, hier ein paar der gängigsten:
- mod_throttle
- manuelle Logfile-Analyse
- Spider-Fallen, die htaccess Einträge auslösen
Mit Zitat antworten
  #4  
Alt 29-11-2005, 00:52
jr-ewing jr-ewing is offline
Moderator
 
Registrierungsdatum: Nov 2005
Beiträge: 599
Standard

@mario
und wie setzt du das ein ?

Eine manuelle Logfile-Analyse ist ziemlich Zeitaufwendig und daher nicht sinnvoll.
mod_throttle hab ich noch garnicht gehört....

Und Spider-Fallen gefällt mir - da werd ich mal bei MSN suchen ;-)
Mit Zitat antworten
  #5  
Alt 29-11-2005, 00:58
Mario670 Mario670 is offline
Online Marketing Trainee
 
Registrierungsdatum: Nov 2005
Beiträge: 33
Wink

>> und wie setzt du das ein ?
garnicht, Jan und Bull kommen da ja nicht in die Strümpfe
Mit Zitat antworten
  #6  
Alt 29-11-2005, 01:00
ThomasB ThomasB is offline
Administrator
 
Registrierungsdatum: Nov 2005
Ort: München
Beiträge: 426
Standard

mod_throttle ist im Prinzip dazu da, Nutzer zu sperren/verlangsamen, die in einem gewissen Zeitraum zuviele Anfragen senden. Damit kann man zB Bots erkennen, die einfach nur so schnell wie möglich eine Seite spidern wollen ohne Rücksicht auf Verluste. Die meisten großen Suchmaschinen versuchen ja maximal 1 request/Sekunde zu machen.

Spider-Traps funktionieren ganz einfach:
Eine Seite per robots.txt sperren, diese sehr unauffällig irgendwo verlinken wo kein Mensch klicken würde und sobald jemand diese Seite besucht die IP dem .htaccess File hinzufügen.
Mit Zitat antworten
  #7  
Alt 29-11-2005, 01:13
jr-ewing jr-ewing is offline
Moderator
 
Registrierungsdatum: Nov 2005
Beiträge: 599
Standard

@ThomasB
Merci, das klingt gut mit der Spider Trap. Werd ich mal proggen am Wochenende.

@mario
<<...in die Strümpfe
:-) wenn das Forum jetzt vor mir in den Serps steht bist du schuld !!!!
Mit Zitat antworten
Antwort


Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge anzufügen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

vB Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.
Gehe zu

Ähnliche Themen
Thema Erstellt von Forum Antworten Letzter Beitrag
Ausschluß dynamischer Seiten per robots.txt Mario670 Google 3 01-12-2005 01:14


Alle Zeitangaben in WEZ +2. Es ist jetzt 10:08 Uhr.


SEO by vBSEO