Normalerweise besteht das Ziel beim Erstellen einer Website darin, sie von Suchmaschinen indizieren zu lassen und ihre Werbung zu erweitern. Aber was sollten Sie tun, wenn es auf Ihrer Website um persönliche Privatsphäre oder vertrauliche, nicht öffentliche Webseiten geht und Sie Suchmaschinen daran hindern müssen, sie zu indizieren und zu crawlen? Taobao ist beispielsweise ein Beispiel für eine Website, die von Suchmaschinen nicht indexiert werden darf. In diesem Artikel erfahren Sie, wie Sie Suchmaschinen daran hindern oder ihnen verbieten können, Website-Inhalte zu indexieren und zu crawlen. Suchmaschinen-Spider durchsuchen ständig das Internet. Wenn unsere Website keine Maßnahmen ergreift, um die Indizierung durch Suchmaschinen zu verhindern, wird sie problemlos von Suchmaschinen indiziert. So verhindern Sie, dass Suchmaschinen Website-Inhalte indizieren. Erstens die robots.txt-Methode Suchmaschinen befolgen standardmäßig das robots.txt-Protokoll (einige betrügerische Suchmaschinen nicht ausgenommen). Erstellen Sie eine robots.txt-Textdatei und legen Sie sie im Stammverzeichnis der Website ab. Bearbeiten Sie den Code wie folgt:
Mit dem obigen Code können Sie Suchmaschinen anweisen, diese Website nicht zu crawlen und zu indexieren. Seien Sie bei der Verwendung des obigen Codes vorsichtig: Dadurch wird allen Suchmaschinen der Zugriff auf Teile der Website verweigert. Wenn Sie der Suchmaschine Baidu nur das Indizieren und Crawlen von Webseiten verbieten 1. Bearbeiten Sie die Datei robots.txt und gestalten Sie das Markup wie folgt:
Die obige Robots-Datei verhindert jegliches Crawling von Baidu. Lassen Sie uns hier über den User-Agent von Baidu sprechen. Was ist der User-Agent von Baiduspider? Baidu verwendet für verschiedene Produkte unterschiedliche Benutzeragenten:
Sie können unterschiedliche Crawling-Regeln basierend auf den unterschiedlichen User-Agents der einzelnen Produkte festlegen. Die folgende Robots-Implementierung untersagt das gesamte Crawling von Baidu, erlaubt aber der Bildersuche das Crawlen des Verzeichnisses /image/:
Bitte beachten Sie: Die von Baiduspider-cpro und Baiduspider-ads gecrawlten Webseiten werden nicht indexiert. Sie führen lediglich die mit dem Kunden vereinbarten Vorgänge aus und entsprechen daher nicht dem Robots-Protokoll. Dieses Problem kann nur durch Kontaktaufnahme mit Baidu gelöst werden. Wie kann man der Google-Suchmaschine lediglich das Indizieren und Crawlen von Webseiten verbieten? Die Methode ist wie folgt: Bearbeiten Sie die Datei robots.txt und markieren Sie sie als:
Zweitens die Methode des Webseitencodes Fügen Sie den Code <meta name="robots" content="noarchive"> zwischen <head> und </head> des Homepage-Codes der Website ein. Dieses Tag verhindert, dass Suchmaschinen die Website crawlen und Webseiten-Schnappschüsse anzeigen. Fügen Sie zwischen den Codes <head> und </head> auf der Homepage der Website <meta name="Baiduspider" content="noarchive"> hinzu, um zu verhindern, dass die Suchmaschine Baidu die Website crawlen und Schnappschüsse der Webseite anzeigen kann. Fügen Sie zwischen den Codes <head> und </head> auf der Homepage der Website <meta name="googlebot" content="noarchive"> hinzu, um zu verhindern, dass die Google-Suchmaschine die Website crawlt und Schnappschüsse der Webseite anzeigt. Darüber hinaus, wenn unsere Bedürfnisse sehr ungewöhnlich sind, wie in den folgenden Situationen: 1. Die Website hat robots.txt hinzugefügt. Kann sie weiterhin in der Baidu-Suche gefunden werden? Weil das Aktualisieren der Indexdatenbank der Suchmaschine Zeit in Anspruch nimmt. Obwohl Baiduspider den Zugriff auf die Webseiten Ihrer Website beendet hat, kann es mehrere Monate dauern, bis die in der Datenbank der Baidu-Suchmaschine festgelegten Webseiten-Indexinformationen gelöscht werden. Bitte überprüfen Sie auch, ob die Konfiguration Ihres Roboters korrekt ist. Wenn Ihr Ablehnungsgrund sehr dringend ist, können Sie Ihren Antrag auch über die Beschwerdeplattform einreichen. 2. Ich möchte, dass die Inhalte meiner Website von Baidu indiziert, aber nicht als Snapshots gespeichert werden. Was soll ich tun? Baiduspider entspricht dem Internet-Meta-Robots-Protokoll. Sie können die Metaeinstellungen einer Webseite verwenden, damit Baidu nur diese Seite indiziert, aber keinen Snapshot dieser Seite in den Suchergebnissen anzeigt. Genau wie das Aktualisieren von Robotern dauert es einige Zeit, die Indexdatenbank der Suchmaschine zu aktualisieren. Selbst wenn Sie Baidu also durch Metadaten auf der Webseite untersagt haben, Schnappschüsse der Seite in Suchergebnissen anzuzeigen, kann es zwei bis vier Wochen dauern, bis das Update online wirksam wird, wenn die Indexinformationen der Webseite bereits in der Datenbank der Suchmaschine Baidu festgelegt wurden. 3. Wenn Sie von Baidu indiziert werden möchten, aber keine Website-Snapshots speichern möchten, kann der folgende Code das Problem lösen: 4. Wenn Sie allen Suchmaschinen verbieten möchten, Schnappschüsse Ihrer Webseiten zu speichern, lautet der Code wie folgt: Hier sind einige häufig verwendete Codekombinationen:
Zusammenfassen Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, dass der Inhalt dieses Artikels einen gewissen Lernwert für Ihr Studium oder Ihre Arbeit hat. Vielen Dank für Ihre Unterstützung von 123WORDPRESS.COM. Wenn Sie mehr darüber erfahren möchten, schauen Sie sich bitte die folgenden Links an Das könnte Sie auch interessieren:
|
<<: So verwenden Sie die Baidu Map API im Vue-Projekt
>>: So fügen Sie Batchdaten unter Node.js in eine MySQL-Datenbank ein
1. Schritte zur Installation des RPM-Pakets: 1. S...
Inhaltsverzeichnis Spezifikation a. Die Auslageru...
Inhaltsverzeichnis brauchen: Ideen: Lektion: Teil...
Frage Frage 1: Wie kann der Leistungsverlust beho...
Wenn Ihre MySQL-Datenbank auf einem CentOS7-Syste...
Beim Schreiben von Animationen mit JS wird häufig...
Inhaltsverzeichnis 1. Anfrage erhalten: 2. Anfrag...
Unter Linux können die Befehle cat, more und less...
In diesem Artikel wird der spezifische JavaScript...
HTML: Titel Überschriften werden durch Tags wie &...
Ich habe online nach vielen Möglichkeiten gesucht...
Da ich dieses Plugin beim Schreiben einer Demo ve...
Beim Schreiben einer Seite kommt es häufig vor, d...
Die Docker-Images, die wir normalerweise erstelle...
Vorwort Vor kurzem hat unsere Firma MBP konfiguri...