So verhindern Sie, dass Website-Inhalte in Suchmaschinen aufgenommen werden

Normalerweise besteht das Ziel beim Erstellen einer Website darin, sie von Suchmaschinen indizieren zu lassen und ihre Werbung zu erweitern. Aber was sollten Sie tun, wenn es auf Ihrer Website um persönliche Privatsphäre oder vertrauliche, nicht öffentliche Webseiten geht und Sie Suchmaschinen daran hindern müssen, sie zu indizieren und zu crawlen? Taobao ist beispielsweise ein Beispiel für eine Website, die von Suchmaschinen nicht indexiert werden darf. In diesem Artikel erfahren Sie, wie Sie Suchmaschinen daran hindern oder ihnen verbieten können, Website-Inhalte zu indexieren und zu crawlen.

Suchmaschinen-Spider durchsuchen ständig das Internet. Wenn unsere Website keine Maßnahmen ergreift, um die Indizierung durch Suchmaschinen zu verhindern, wird sie problemlos von Suchmaschinen indiziert. So verhindern Sie, dass Suchmaschinen Website-Inhalte indizieren.

Erstens die robots.txt-Methode

Suchmaschinen befolgen standardmäßig das robots.txt-Protokoll (einige betrügerische Suchmaschinen nicht ausgenommen). Erstellen Sie eine robots.txt-Textdatei und legen Sie sie im Stammverzeichnis der Website ab. Bearbeiten Sie den Code wie folgt:

Benutzeragent: *
Nicht zulassen: /

Mit dem obigen Code können Sie Suchmaschinen anweisen, diese Website nicht zu crawlen und zu indexieren. Seien Sie bei der Verwendung des obigen Codes vorsichtig: Dadurch wird allen Suchmaschinen der Zugriff auf Teile der Website verweigert.

Wenn Sie der Suchmaschine Baidu nur das Indizieren und Crawlen von Webseiten verbieten

1. Bearbeiten Sie die Datei robots.txt und gestalten Sie das Markup wie folgt:

Benutzeragent: Baiduspider
Nicht zulassen: /

Die obige Robots-Datei verhindert jegliches Crawling von Baidu.

Lassen Sie uns hier über den User-Agent von Baidu sprechen. Was ist der User-Agent von Baiduspider?

Baidu verwendet für verschiedene Produkte unterschiedliche Benutzeragenten:

Produktname entspricht User-Agent
Drahtlose Suche Baiduspider
Bildersuche Baiduspider-image
Videosuche Baiduspider-video
Nachrichtensuche Baiduspider-news
Baidu-Sammlung Baiduspider-favo
Baidu Alliance Baiduspider-cpro
Unternehmenssuche Baiduspider-ads
Web- und andere Suchen Baiduspider

Sie können unterschiedliche Crawling-Regeln basierend auf den unterschiedlichen User-Agents der einzelnen Produkte festlegen. Die folgende Robots-Implementierung untersagt das gesamte Crawling von Baidu, erlaubt aber der Bildersuche das Crawlen des Verzeichnisses /image/:

Benutzeragent: Baiduspider
Nicht zulassen: /
Benutzeragent: Baiduspider-image
Erlauben: /image/

Bitte beachten Sie: Die von Baiduspider-cpro und Baiduspider-ads gecrawlten Webseiten werden nicht indexiert. Sie führen lediglich die mit dem Kunden vereinbarten Vorgänge aus und entsprechen daher nicht dem Robots-Protokoll. Dieses Problem kann nur durch Kontaktaufnahme mit Baidu gelöst werden.

Wie kann man der Google-Suchmaschine lediglich das Indizieren und Crawlen von Webseiten verbieten? Die Methode ist wie folgt:

Bearbeiten Sie die Datei robots.txt und markieren Sie sie als:

Benutzeragent: Googlebot
Nicht zulassen: /

Zweitens die Methode des Webseitencodes

Fügen Sie den Code <meta name="robots" content="noarchive"> zwischen <head> und </head> des Homepage-Codes der Website ein. Dieses Tag verhindert, dass Suchmaschinen die Website crawlen und Webseiten-Schnappschüsse anzeigen.

Fügen Sie zwischen den Codes <head> und </head> auf der Homepage der Website <meta name="Baiduspider" content="noarchive"> hinzu, um zu verhindern, dass die Suchmaschine Baidu die Website crawlen und Schnappschüsse der Webseite anzeigen kann.

Fügen Sie zwischen den Codes <head> und </head> auf der Homepage der Website <meta name="googlebot" content="noarchive"> hinzu, um zu verhindern, dass die Google-Suchmaschine die Website crawlt und Schnappschüsse der Webseite anzeigt.

Darüber hinaus, wenn unsere Bedürfnisse sehr ungewöhnlich sind, wie in den folgenden Situationen:

1. Die Website hat robots.txt hinzugefügt. Kann sie weiterhin in der Baidu-Suche gefunden werden?

Weil das Aktualisieren der Indexdatenbank der Suchmaschine Zeit in Anspruch nimmt. Obwohl Baiduspider den Zugriff auf die Webseiten Ihrer Website beendet hat, kann es mehrere Monate dauern, bis die in der Datenbank der Baidu-Suchmaschine festgelegten Webseiten-Indexinformationen gelöscht werden. Bitte überprüfen Sie auch, ob die Konfiguration Ihres Roboters korrekt ist. Wenn Ihr Ablehnungsgrund sehr dringend ist, können Sie Ihren Antrag auch über die Beschwerdeplattform einreichen.

2. Ich möchte, dass die Inhalte meiner Website von Baidu indiziert, aber nicht als Snapshots gespeichert werden. Was soll ich tun?

Baiduspider entspricht dem Internet-Meta-Robots-Protokoll. Sie können die Metaeinstellungen einer Webseite verwenden, damit Baidu nur diese Seite indiziert, aber keinen Snapshot dieser Seite in den Suchergebnissen anzeigt. Genau wie das Aktualisieren von Robotern dauert es einige Zeit, die Indexdatenbank der Suchmaschine zu aktualisieren. Selbst wenn Sie Baidu also durch Metadaten auf der Webseite untersagt haben, Schnappschüsse der Seite in Suchergebnissen anzuzeigen, kann es zwei bis vier Wochen dauern, bis das Update online wirksam wird, wenn die Indexinformationen der Webseite bereits in der Datenbank der Suchmaschine Baidu festgelegt wurden.

3. Wenn Sie von Baidu indiziert werden möchten, aber keine Website-Snapshots speichern möchten, kann der folgende Code das Problem lösen:

<meta name="Baiduspider" content="noarchive">

4. Wenn Sie allen Suchmaschinen verbieten möchten, Schnappschüsse Ihrer Webseiten zu speichern, lautet der Code wie folgt:

<meta name="robots" content="noarchive">

Hier sind einige häufig verwendete Codekombinationen:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">: Diese Seite kann gecrawlt werden und andere Links können entlang dieser Seite indexiert werden
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">: Diese Seite nicht crawlen, aber Sie können andere Links auf dieser Seite crawlen und indexieren.
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">: Diese Seite kann gecrawlt werden, aber andere Links auf dieser Seite können nicht gecrawlt und indexiert werden.
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">: Diese Seite nicht crawlen und andere Links auf dieser Seite nicht crawlen und indexieren

Zusammenfassen

Das Obige ist der vollständige Inhalt dieses Artikels. Ich hoffe, dass der Inhalt dieses Artikels einen gewissen Lernwert für Ihr Studium oder Ihre Arbeit hat. Vielen Dank für Ihre Unterstützung von 123WORDPRESS.COM. Wenn Sie mehr darüber erfahren möchten, schauen Sie sich bitte die folgenden Links an

Das könnte Sie auch interessieren:

So blockieren und verbieten Sie Webcrawler im Nginx-Server
Zusammenfassung häufig verwendeter Analysemethoden für den Python-Crawler beautifulsoup4
Python Common Crawler Code-Zusammenfassung für einfache Abfrage
Python implementiert den Tencent News Crawler durch Anfragen
Der Python3-Crawler fragt automatisch das Wetter ab und realisiert die Sprachübertragung
Python-Crawler – UserAgent-Nutzungsbeispiel
Erläuterung zur Implementierung von Crawlern basierend auf node.js
Eine kurze Diskussion über das Funktionsprinzip und die Datenerfassung des Scrapy-Webcrawler-Frameworks
So verwenden Sie Electron, um einen Node.js-Crawler mit einer Schnittstelle zu schreiben
So verdienen Sie Geld mit Python-Crawlern

<<: So verwenden Sie die Baidu Map API im Vue-Projekt

>>: So fügen Sie Batchdaten unter Node.js in eine MySQL-Datenbank ein

Zusammenfassung und Beispiele der Kommunikationsmethoden für Vue3-Komponenten

Artikel

Schritt-für-Schritt-Anleitung zur Installation von VMware Workstation und des Betriebssystems WIN10 zur Verbindung mit dem externen Netzwerk (sehr ausführliches Tutorial)

Artikel

Detaillierte Erläuterung mehrerer Beispiele für Insert- und Batch-Anweisungen in MySQL

So verhindern Sie, dass Website-Inhalte in Suchmaschinen aufgenommen werden

Zusammenfassung und Beispiele der Kommunikationsmethoden für Vue3-Komponenten

Schritt-für-Schritt-Anleitung zur Installation von VMware Workstation und des Betriebssystems WIN10 zur Verbindung mit dem externen Netzwerk (sehr ausführliches Tutorial)

Detaillierte Erläuterung mehrerer Beispiele für Insert- und Batch-Anweisungen in MySQL

Detaillierte Erklärung der Zusammenhänge zwischen Bildformat und Design im Webdesign

Der Unterschied zwischen MySQL execute, executeUpdate und executeQuery

Detailliertes Tutorial zur Installation von MySQL 8.0.20 auf CentOS7.8

Die 10 wichtigsten zeitsparenden Tipps zur Verkürzung der Web-App-Entwicklung (grafisches Tutorial)

CSS3 implementiert horizontale Zentrierung, vertikale Zentrierung, horizontale und vertikale Zentrierung Beispielcode

Untersuchung der Wirkung der durch JS realisierten Seitenseitenleiste

vue + springboot realisiert die Login-Funktion

Artikel empfehlen

Einige Hinweise zum Ändern des innodb_data_file_path-Parameters von MySQL

SQL-Fuzzy-Abfragebericht: ORA-00909: Lösung: Ungültige Anzahl von Parametern

Grafisches Tutorial zur Installation und Konfiguration von MySQL 8.0.20 winx64

So importieren und exportieren Sie Docker-Images

Website User Experience Design (UE)

Implementierung der Remote-Linux-Entwicklung mit vscode

So stellen Sie eine Datenbank und eine Tabelle aus einer vollständigen MySQL-Datenbanksicherung wieder her

Verwenden Sie Smart CSS, um Stile basierend auf der Scrollposition des Benutzers anzuwenden

Beispielcode zur Verwendung der Elementkalenderkomponente in Vue

Verwenden Sie Schaltflächenauslöserereignisse, um einen blinkenden Hintergrundfarbeffekt zu erzielen

Vue Grundlagen Listener Detaillierte Erklärung

3 Codes zur automatischen Aktualisierung von Webseiten

Verwenden Sie CSS3-Hintergrundsteuerungseigenschaften + Farbübergang, um einen Farbverlaufseffekt zu erzielen

Detaillierte Erklärung zum effizienten MySQL-Paging

Verwendung und Analyse des Mysql Explain-Befehls