【Such-FAQ-Szene】, die Ihnen eine umfassende Analyse der "Baidu-Spider" bietet, um Ihnen ein klares Verständnis der Rolle der "Baidu-Spider" in verschiedenen Szenarien zu vermitteln und eine Grundlage für den Betrieb Ihrer Website zu schaffen.
A: Baiduspider, auch bekannt als Baidu-Spider, ist ein automatisiertes Programm der Baidu-Suchmaschine. Seine Aufgabe ist es, Webseiten im Internet zu besuchen und eine Indexdatenbank aufzubauen, damit Nutzer relevante Inhalte Ihrer Website über die Baidu-Suchmaschine finden können.
A: Es gibt zwei Methoden, um den Baidu-Spider zu identifizieren.
Methode 1: Überprüfen der UA-Informationen
Wenn die UA-Informationen nicht korrekt sind, kann direkt auf einen nicht von Baidu stammenden Spider geschlossen werden. Derzeit gibt es drei Anwendungsszenarien für UA: Mobil, PC und Mini-Programm, deren jeweilige Kanäle wie folgt lauten:
Mobil-UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
oder
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
PC-UA:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
oder
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
Mini-Programm-UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
Methode 2: Bidirektionale DNS-Auflösungsvalidierung
Schritt 1: DNS-Reverse-IP-Prüfung, Entwickler können durch eine Reverse-DNS-Abfrage der IP-Adresse des Servers in den Logs feststellen, ob ein Spider von der Baidu-Suchmaschine stammt. Der Hostname von Baiduspider folgt dem Format *.baidu.com oder *.baidu.jp, alles andere ist eine Fälschung.
Je nach Plattform unterscheiden sich die Validierungsmethoden, z.B. für Linux/Windows/OS wie folgt:
①Unter Linux kann der Befehl host ip verwendet werden, um die IP aufzulösen und festzustellen, ob die Erfassung von Baiduspider stammt. Der Hostname von Baiduspider folgt dem Format *.baidu.com oder *.baidu.jp, alles andere ist eine Fälschung.
②Unter Windows oder IBM OS/2 kann der Befehl nslookup ip verwendet werden, um die IP aufzulösen und festzustellen, ob die Erfassung von Baiduspider stammt.
③Unter Mac OS kann der Befehl dig verwendet werden, um die IP aufzulösen und festzustellen, ob die Erfassung von Baiduspider stammt.
Schritt 2: Durchführung einer Forward-DNS-Abfrage für die Domain. Führen Sie für die in Schritt 1 ermittelte Domain eine Forward-DNS-Abfrage durch und validieren Sie, ob die Domain mit der ursprünglichen IP-Adresse Ihres Servers in den Logs übereinstimmt. Bei Übereinstimmung kann bestätigt werden, dass der Spider von der Baidu-Suchmaschine stammt, bei Nichtübereinstimmung handelt es sich um eine Fälschung.
Details finden Sie im Dokument: „Schnell in zwei Schritten: So erkennen Sie den Baidu-Spider“
A: In der Regel ja, wenn Ihre Website kontinuierlich neue Ressourcen und Inhalte produziert, wird der Spider weiter crawlen. Es ist jedoch wichtig zu beachten, dass Sie keine Sperrmaßnahmen ergreifen sollten, wenn der Baidu-Spider Ihre Website crawlen soll. (Details zu Sperrmaßnahmen finden Sie weiter unten.)
Zudem können Sie die Zugriffslogs Ihrer Website überprüfen, um echte Baidu-Spider zu identifizieren und zu verhindern, dass bösartige Akteure den Baidu-Spider vortäuschen und Ihre Website übermäßig crawlen.
A: Wenn der Baidu-Spider zu häufig crawlt, könnte dies folgende Gründe haben:
① Neue Ressourcen oder aktualisierte Inhalte auf Ihrer Website, die gecrawlt werden müssen;
② Bösartige Imitationen des Baidu-Spiders, die Sie mit der Methode aus Q2 „Wie erkenne ich einen echten Baidu-Spider?“ überprüfen können;
Wenn die Crawling-Frequenz des Baidu-Spiders zu hoch ist und Ihre Website beeinträchtigt, können Sie die Frequenz über das Suchressourcen-Portal – Tool „Crawling-Frequenz“ anpassen.
A: Der Baidu-Spider befolgt das Robots-Protokoll des Internets. Website-Betreiber können die robots.txt-Datei aktualisieren, um anzugeben, welche Ressourcen oder Verzeichnisse nicht vom Baidu-Spider besucht werden sollen, und die Datei dann über das Suchressourcen-Portal – Tool „Robots“ einreichen.
Hinweis: Nach der Aktualisierung und Einreichung der robots.txt-Datei benötigt die Suchmaschine Zeit, um die Änderungen zu verarbeiten. Der Baidu-Spider wird nicht sofort mit dem Crawling aufhören, bitte haben Sie Geduld.
A: Wenn Ihre Website hochwertige Inhalte hat und keine anderen Regelverstöße vorliegen, aber Folgendes auftritt:
① Keine Crawling-Aktivitäten des Baidu-Spiders in den Logs,
② Keine Aufnahme oder Darstellung in den Baidu-Suchergebnissen,
③ Ein ungewöhnlicher Rückgang des Traffics auf Ihrer Website/Verzeichnis,
④ In den Suchergebnissen wird „Robots-Sperre vorhanden“ angezeigt.
Falls Sie solche Probleme feststellen, überprüfen Sie zunächst, ob der Baidu-Spider gesperrt wurde, und heben Sie die Sperrung gegebenenfalls auf (siehe QA7), um die Wiederherstellung abzuwarten.
A: Häufige Sperrmaßnahmen umfassen Robots-Sperren, Sperren der Baidu-UA und Sperren der Baidu-IP. Diese können schrittweise überprüft und behoben werden:
(1) Überprüfen der robots.txt-Datei, ob Sperreinträge vorhanden sind. (Die robots.txt-Datei befindet sich normalerweise im Stammverzeichnis der Website.)
(2) Falls die robots.txt-Datei in Ordnung ist, prüfen Sie, ob eine Sperrung der Baidu-UA vorliegt;
Lösung 1: Führen Sie den Befehl curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx' aus
Hinweis: Ein normaler Rückgabecode ist 200, alles andere ist abnormal.
Lösung 2: Ändern Sie den Browser-UA zur Validierung;
(3) Falls auch hier keine Auffälligkeiten bestehen, prüfen Sie abschließend auf IP-basierte Sperren;
Häufige IP-Sperren stammen von der Firewall-Konfiguration Ihrer Website. Überprüfen Sie die Firewall-Einstellungen, ob IP-basierte Sperren für den Baidu-Spider vorhanden sind.
Details finden Sie unter „Wie Entwickler die Sperrung des Baidu-Spiders aufheben können“
Verwandte Artikel



Verwandte Produkte