Detaillierte Einführung in Robots.txt

Robots.txt ist eine reine Textdatei, in der Website-Administratoren Teile der Website angeben können, auf die Roboter nicht zugreifen sollen, oder festlegen können, dass Suchmaschinen nur bestimmte Inhalte indizieren. Grundlegende Einführung in robots.txt
Robots.txt ist eine reine Textdatei, in der Website-Administratoren Teile der Website angeben können, auf die Roboter nicht zugreifen sollen, oder festlegen können, dass Suchmaschinen nur bestimmte Inhalte indizieren.
Wenn ein Suchroboter (manchmal auch Suchspider genannt) eine Site besucht, prüft er zunächst, ob im Stammverzeichnis der Site eine robots.txt-Datei vorhanden ist. Wenn dies der Fall ist, bestimmt der Suchroboter den Zugriffsbereich anhand des Inhalts der Datei. Wenn die Datei nicht vorhanden ist, durchsucht der Suchroboter den Link.
Darüber hinaus muss robots.txt im Stammverzeichnis einer Site abgelegt werden und der Dateiname muss vollständig aus Kleinbuchstaben bestehen.
Syntax zum Schreiben von Robots.txt <br />Sehen wir uns zunächst ein Beispiel für Robots.txt an: http://www.csswebs.org/robots.txt
Besuchen Sie die oben angegebene Adresse. Wir können den spezifischen Inhalt von robots.txt wie folgt sehen:
# Robots.txt-Datei von http://www.csswebs.org
# Alle Roboter durchsuchen die Domain
Benutzeragent: *
Nicht zulassen:
Der obige Text bedeutet, dass alle Suchroboter auf alle Dateien auf der Site www.csswebs.org zugreifen dürfen.
Spezifische Syntaxanalyse: Der Text nach # ist eine erklärende Information; Auf User-agent: folgt der Name des Suchroboters. Folgt darauf ein *, bezieht es sich auf alle Suchroboter; Auf Disallow: folgt das Dateiverzeichnis, auf das nicht zugegriffen werden darf.
Nachfolgend werde ich einige spezifische Verwendungsmöglichkeiten von robots.txt auflisten:
Allen Robotern den Zugriff erlauben
Benutzeragent: *
Nicht zulassen:
Oder Sie können eine leere Datei "/robots.txt" erstellen
Blockieren Sie den Zugriff aller Suchmaschinen auf Teile der Website
Benutzeragent: *
Nicht zulassen: /
Blockieren Sie den Zugriff aller Suchmaschinen auf bestimmte Bereiche der Site (Verzeichnisse 01, 02, 03 im folgenden Beispiel).

Benutzeragent: *
Nicht zulassen: /01/
Nicht zulassen: /02/
Nicht zulassen: /03/
Blockieren Sie den Zugriff auf eine Suchmaschine (BadBot im Beispiel unten).
Benutzeragent: BadBot
Nicht zulassen: /
Nur Zugriff von einer bestimmten Suchmaschine zulassen (Crawler im Beispiel unten)
Benutzeragent: Crawler
Nicht zulassen:
Benutzeragent: *
Nicht zulassen: /
Darüber hinaus halte ich es für notwendig, dies zu erweitern und Roboter-Meta einzuführen:
Der Robots-META-Tag zielt hauptsächlich auf bestimmte Seiten ab. Wie andere META-Tags (z. B. die verwendete Sprache, Seitenbeschreibung, Schlüsselwörter usw.) wird auch der Robots-META-Tag im <head> </head> der Seite platziert und dient speziell dazu, den Suchmaschinen-ROBOTS mitzuteilen, wie sie den Inhalt der Seite crawlen sollen.
So schreiben Sie den Robots-META-Tag:
Im Robots-META-Tag wird nicht zwischen Groß- und Kleinschreibung unterschieden. name="Robots" steht für alle Suchmaschinen und kann für eine bestimmte Suchmaschine als name="BaiduSpider" geschrieben werden. Der Inhaltsteil hat vier Befehlsoptionen: index, noindex, follow und nofollow. Die Befehle sind durch "," getrennt.
Die INDEX-Direktive weist den Suchroboter an, die Seite zu crawlen.
Die FOLLOW-Anweisung gibt an, dass der Suchroboter weiterhin die Links auf der Seite durchsuchen kann.
Die Standardwerte für das Robots-Meta-Tag sind INDEX und FOLLOW, mit Ausnahme von inktomi, für das der Standardwert INDEX, NOFOLLOW ist.
Es gibt also vier Kombinationen:
＜META NAME=”ROBOTS” INHALT=”INDEX,FOLLOW”＞
<META NAME="ROBOTS" INHALT="NOINDEX,FOLLOW">
＜META NAME=”ROBOTS” INHALT=”INDEX,NOFOLLOW”＞
<META NAME="ROBOTS" INHALT="NOINDEX,NOFOLLOW">
Darunter kann <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> als <META NAME=”ROBOTS” CONTENT=”ALL”> geschrieben werden;
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> kann geschrieben werden als <META NAME="ROBOTS" CONTENT="NONE">
Derzeit scheint sich die überwiegende Mehrheit der Suchmaschinenroboter an die Regeln von robots.txt zu halten. Was das Robots-META-Tag betrifft, gibt es derzeit nicht viel Unterstützung, aber die Unterstützung nimmt allmählich zu. Beispielsweise unterstützt die bekannte Suchmaschine GOOGLE es vollständig und GOOGLE hat außerdem einen Befehl „Archiv“ hinzugefügt, mit dem eingeschränkt werden kann, ob GOOGLE Schnappschüsse von Webseiten beibehält. Zum Beispiel:
＜META NAME=”googlebot” INHALT=”index,follow,noarchive”＞

<<: Beispiel zum Erstellen von Tabellenanweisungen für den Benutzer Scott in der MySQL-Version von Oracle

>>: Sechs Methoden zur Nginx-Optimierung

Entwickeln Sie eine Vue-Komponente, die Iframe kapselt

Artikel empfehlen

So verwenden Sie ein Feld in einer Tabelle, um ein Feld in einer anderen Tabelle in MySQL zu aktualisieren

1. 1 Spalte ändern Update Student S, Stadt C setz...

Verwenden Sie CSS, um 3D-konvexe und konkave Effekte auf Bildern zu erzielen (konvex aus dem Rahmen heraus oder konkav im Rahmen).

Ⅰ. Problembeschreibung: Verwenden Sie CSS, um kon...

Detaillierte Einführung in Robots.txt

Entwickeln Sie eine Vue-Komponente, die Iframe kapselt

Ein einfaches Beispiel zum Erstellen einer dünnen Linientabelle in HTML

Eine kurze Diskussion über React Native APP-Updates

Details und Beispielcode der MySQL-Replikationstabelle

XHTML-Einführungstutorial: Verwendung von Listen-Tags

Einführung und Analyse von drei Binlog-Formaten in MySQL

Regeln für die Verwendung gemeinsamer MySQL-Indizes

Detailliertes Tutorial zur Neuinstallation von Python 3.6.6 auf CentOS 7.5

So richten Sie geplante Sicherungsaufgaben in Linux CentOS ein

Verwendung von MySQL-Triggern

Artikel empfehlen

So verwenden Sie ein Feld in einer Tabelle, um ein Feld in einer anderen Tabelle in MySQL zu aktualisieren

Verwenden Sie CSS, um 3D-konvexe und konkave Effekte auf Bildern zu erzielen (konvex aus dem Rahmen heraus oder konkav im Rahmen).

Zusammenfassung einiger gängiger Methoden von JavaScript-Arrays

Detaillierte Erklärung einiger Einstellungen für Tabellenanpassung und Überlauf

InnerHTML verstehen

Detaillierte Erläuterung des Lernens von CSS-Zählerattributen

Dieser Artikel zeigt Ihnen, wie Sie CSS wie JS-Module importieren

So setzen Sie den Anfangswert der Auto-Increment-Spalte in der MySQL-Tabelle zurück

MySQL Serie 13 MySQL-Replikation

Zwei Arten von Tab-Anwendungen im Webdesign

5 Möglichkeiten, Ihre JavaScript-Codebasis sauberer zu machen

CentOS7 verwendet yum zur Installation von MySQL 8.0.12

Die Verwendung von Textbereichen in HTML und häufige Probleme und Fallanalyse

Einführung in MySQL-Trigger, Erstellen von Triggern und Analyse von Nutzungsbeschränkungen

Grafisches Tutorial zur Kompilierung des MySQL 5.7.13-Quellcodes sowie zur Installations- und Konfigurationsmethode