So verhindern Sie, dass Website-Inhalte in Suchmaschinen aufgenommen werden

So verhindern Sie, dass Website-Inhalte in Suchmaschinen aufgenommen werden

Normalerweise besteht das Ziel beim Erstellen einer Website darin, sie von Suchmaschinen indizieren zu lassen und ihre Werbung zu erweitern. Aber was sollten Sie tun, wenn es auf Ihrer Website um persönliche Privatsphäre oder vertrauliche, nicht öffentliche Webseiten geht und Sie Suchmaschinen daran hindern müssen, sie zu indizieren und zu crawlen? Taobao ist beispielsweise ein Beispiel für eine Website, die von Suchmaschinen nicht indexiert werden darf. In diesem Artikel erfahren Sie, wie Sie Suchmaschinen daran hindern oder ihnen verbieten können, Website-Inhalte zu indexieren und zu crawlen.

Suchmaschinen-Spider durchsuchen ständig das Internet. Wenn unsere Website keine Maßnahmen ergreift, um die Indizierung durch Suchmaschinen zu verhindern, wird sie problemlos von Suchmaschinen indiziert. So verhindern Sie, dass Suchmaschinen Website-Inhalte indizieren.

Erstens die robots.txt-Methode

Suchmaschinen befolgen standardmäßig das robots.txt-Protokoll (einige betrügerische Suchmaschinen nicht ausgenommen). Erstellen Sie eine robots.txt-Textdatei und legen Sie sie im Stammverzeichnis der Website ab. Bearbeiten Sie den Code wie folgt:

Benutzeragent: *
Nicht zulassen: /

Mit dem obigen Code können Sie Suchmaschinen anweisen, diese Website nicht zu crawlen und zu indexieren. Seien Sie bei der Verwendung des obigen Codes vorsichtig: Dadurch wird allen Suchmaschinen der Zugriff auf Teile der Website verweigert.

Wenn Sie der Suchmaschine Baidu nur das Indizieren und Crawlen von Webseiten verbieten

1. Bearbeiten Sie die Datei robots.txt und gestalten Sie das Markup wie folgt:

Benutzeragent: Baiduspider
Nicht zulassen: /

Die obige Robots-Datei verhindert jegliches Crawling von Baidu.

Lassen Sie uns hier über den User-Agent von Baidu sprechen. Was ist der User-Agent von Baiduspider?

Baidu verwendet für verschiedene Produkte unterschiedliche Benutzeragenten:

  • Produktname entspricht User-Agent
  • Drahtlose Suche Baiduspider
  • Bildersuche Baiduspider-image
  • Videosuche Baiduspider-video
  • Nachrichtensuche Baiduspider-news
  • Baidu-Sammlung Baiduspider-favo
  • Baidu Alliance Baiduspider-cpro
  • Unternehmenssuche Baiduspider-ads
  • Web- und andere Suchen Baiduspider

Sie können unterschiedliche Crawling-Regeln basierend auf den unterschiedlichen User-Agents der einzelnen Produkte festlegen. Die folgende Robots-Implementierung untersagt das gesamte Crawling von Baidu, erlaubt aber der Bildersuche das Crawlen des Verzeichnisses /image/:

Benutzeragent: Baiduspider
Nicht zulassen: /

Benutzeragent: Baiduspider-image
Erlauben: /image/

Bitte beachten Sie: Die von Baiduspider-cpro und Baiduspider-ads gecrawlten Webseiten werden nicht indexiert. Sie führen lediglich die mit dem Kunden vereinbarten Vorgänge aus und entsprechen daher nicht dem Robots-Protokoll. Dieses Problem kann nur durch Kontaktaufnahme mit Baidu gelöst werden.

Wie kann man der Google-Suchmaschine lediglich das Indizieren und Crawlen von Webseiten verbieten? Die Methode ist wie folgt:

Bearbeiten Sie die Datei robots.txt und markieren Sie sie als:

Benutzeragent: Googlebot
Nicht zulassen: /

Zweitens die Methode des Webseitencodes

Fügen Sie den Code <meta name="robots" content="noarchive"> zwischen <head> und </head> des Homepage-Codes der Website ein. Dieses Tag verhindert, dass Suchmaschinen die Website crawlen und Webseiten-Schnappschüsse anzeigen.

Fügen Sie zwischen den Codes <head> und </head> auf der Homepage der Website <meta name="Baiduspider" content="noarchive"> hinzu, um zu verhindern, dass die Suchmaschine Baidu die Website crawlen und Schnappschüsse der Webseite anzeigen kann.

Fügen Sie zwischen den Codes <head> und </head> auf der Homepage der Website <meta name="googlebot" content="noarchive"> hinzu, um zu verhindern, dass die Google-Suchmaschine die Website crawlt und Schnappschüsse der Webseite anzeigt.

Darüber hinaus, wenn unsere Bedürfnisse sehr ungewöhnlich sind, wie in den folgenden Situationen:

1. Die Website hat robots.txt hinzugefügt. Kann sie weiterhin in der Baidu-Suche gefunden werden?

Weil das Aktualisieren der Indexdatenbank der Suchmaschine Zeit in Anspruch nimmt. Obwohl Baiduspider den Zugriff auf die Webseiten Ihrer Website beendet hat, kann es mehrere Monate dauern, bis die in der Datenbank der Baidu-Suchmaschine festgelegten Webseiten-Indexinformationen gelöscht werden. Bitte überprüfen Sie auch, ob die Konfiguration Ihres Roboters korrekt ist. Wenn Ihr Ablehnungsgrund sehr dringend ist, können Sie Ihren Antrag auch über die Beschwerdeplattform einreichen.

2. Ich möchte, dass die Inhalte meiner Website von Baidu indiziert, aber nicht als Snapshots gespeichert werden. Was soll ich tun?

Baiduspider entspricht dem Internet-Meta-Robots-Protokoll. Sie können die Metaeinstellungen einer Webseite verwenden, damit Baidu nur diese Seite indiziert, aber keinen Snapshot dieser Seite in den Suchergebnissen anzeigt. Genau wie das Aktualisieren von Robotern dauert es einige Zeit, die Indexdatenbank der Suchmaschine zu aktualisieren. Selbst wenn Sie Baidu also durch Metadaten auf der Webseite untersagt haben, Schnappschüsse der Seite in Suchergebnissen anzuzeigen, kann es zwei bis vier Wochen dauern, bis das Update online wirksam wird, wenn die Indexinformationen der Webseite bereits in der Datenbank der Suchmaschine Baidu festgelegt wurden.

3. Wenn Sie von Baidu indiziert werden möchten, aber keine Website-Snapshots speichern möchten, kann der folgende Code das Problem lösen:

<meta name="Baiduspider" content="noarchive">

4. Wenn Sie allen Suchmaschinen verbieten möchten, Schnappschüsse Ihrer Webseiten zu speichern, lautet der Code wie folgt:

<meta name="robots" content="noarchive">

Hier sind einige häufig verwendete Codekombinationen:

  • <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">: Diese Seite kann gecrawlt werden und andere Links können entlang dieser Seite indexiert werden
  • <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">: Diese Seite nicht crawlen, aber Sie können andere Links auf dieser Seite crawlen und indexieren.
  • <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">: Diese Seite kann gecrawlt werden, aber andere Links auf dieser Seite können nicht gecrawlt und indexiert werden.
  • <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">: Diese Seite nicht crawlen und andere Links auf dieser Seite nicht crawlen und indexieren

Zusammenfassen

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, dass der Inhalt dieses Artikels einen gewissen Lernwert für Ihr Studium oder Ihre Arbeit hat. Vielen Dank für Ihre Unterstützung von 123WORDPRESS.COM. Wenn Sie mehr darüber erfahren möchten, schauen Sie sich bitte die folgenden Links an

Das könnte Sie auch interessieren:
  • So blockieren und verbieten Sie Webcrawler im Nginx-Server
  • Zusammenfassung häufig verwendeter Analysemethoden für den Python-Crawler beautifulsoup4
  • Python Common Crawler Code-Zusammenfassung für einfache Abfrage
  • Python implementiert den Tencent News Crawler durch Anfragen
  • Der Python3-Crawler fragt automatisch das Wetter ab und realisiert die Sprachübertragung
  • Python-Crawler – UserAgent-Nutzungsbeispiel
  • Erläuterung zur Implementierung von Crawlern basierend auf node.js
  • Eine kurze Diskussion über das Funktionsprinzip und die Datenerfassung des Scrapy-Webcrawler-Frameworks
  • So verwenden Sie Electron, um einen Node.js-Crawler mit einer Schnittstelle zu schreiben
  • So verdienen Sie Geld mit Python-Crawlern

<<:  So verwenden Sie die Baidu Map API im Vue-Projekt

>>:  So fügen Sie Batchdaten unter Node.js in eine MySQL-Datenbank ein

Artikel empfehlen

Eine kurze Einführung in die Kernkenntnisse der VUE uni-app

Inhaltsverzeichnis Spezifikation a. Die Auslageru...

Zusammenfassung einiger Gedanken zur Binlog-Optimierung in MySQL

Frage Frage 1: Wie kann der Leistungsverlust beho...

Lösung zum Hinzufügen einer iptables-Firewall-Richtlinie zum MySQL-Dienst

Wenn Ihre MySQL-Datenbank auf einem CentOS7-Syste...

JS implementiert Layoutkonvertierung in Animation

Beim Schreiben von Animationen mit JS wird häufig...

Verwenden Sie die Befehle more, less und cat in Linux, um Dateiinhalte anzuzeigen

Unter Linux können die Befehle cat, more und less...

HTML-Grundlagen-Zusammenfassungsempfehlung (Titel)

HTML: Titel Überschriften werden durch Tags wie &...

Lösen Sie das Problem der Verwendung des Swiper-Plugins in Vue

Da ich dieses Plugin beim Schreiben einer Demo ve...

Detaillierte Erläuterung von acht Methoden zum Korrigieren des CSS-Seitenendes

Beim Schreiben einer Seite kommt es häufig vor, d...

Gängige Methoden zur Optimierung der Docker-Imagegröße

Die Docker-Images, die wir normalerweise erstelle...

Zusammenfassung zur Verwendung des Ausrufezeichen-Befehls (!) unter Linux

Vorwort Vor kurzem hat unsere Firma MBP konfiguri...