Décryptage complet de 'l'araignée Baidu'

Date de publication :2022-09-09

Easy Treasure

Nombre de vues :

【Scène de questions-réponses sur la recherche】, qui vous apporte une "analyse complète de l'araignée Baidu", vous aidant à comprendre clairement le rôle de "l'araignée Baidu" dans différents scénarios, jetant ainsi les bases du fonctionnement global du site web.

【Section sur l'exploration】

1. Qu'est-ce que Baiduspider ?

R : Baiduspider, également appelée araignée Baidu, est un programme automatique du moteur de recherche Baidu. Son rôle est de visiter les pages web sur Internet, de construire une base de données d'index, permettant aux utilisateurs de trouver du contenu pertinent sur leur site via le moteur de recherche Baidu.

2. Q : Comment identifier si l'exploration actuelle provient bien de l'araignée Baidu ?

R : Deux méthodes permettent d'identifier l'araignée Baidu.

Méthode 1 : Vérifier les informations UA

Si les informations UA ne correspondent pas, vous pouvez directement conclure qu'il ne s'agit pas de l'araignée Baidu. Actuellement, les UA sont divisés en mobile, PC et mini-programmes selon trois scénarios d'application. Les UA de ces trois canaux sont les suivants :

UA mobile :

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

UA PC :

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

UA mini-programmes :

Méthode 2 : Validation par résolution DNS bidirectionnelle

Étape 1 : Recherche DNS inverse par IP. Les développeurs peuvent effectuer une recherche DNS inverse sur les adresses IP des serveurs visités dans les journaux pour déterminer si un spider provient du moteur de recherche Baidu. Les noms d'hôte de Baiduspider suivent le format *.baidu.com ou *.baidu.jp. Tout ce qui ne correspond pas à ces formats est une usurpation.

Les méthodes de validation varient selon les plateformes. Voici les méthodes pour Linux, Windows et OS :

① Sous Linux, utilisez la commande host ip pour résoudre l'IP et déterminer si l'exploration provient de Baiduspider. Les noms d'hôte de Baiduspider suivent le format *.baidu.com ou *.baidu.jp. Tout ce qui ne correspond pas à ces formats est une usurpation.

② Sous Windows ou IBM OS/2, utilisez la commande nslookup ip pour résoudre l'IP et déterminer si l'exploration provient de Baiduspider.

③ Sous Mac OS, utilisez la commande dig pour résoudre l'IP et déterminer si l'exploration provient de Baiduspider.

Étape 2 : Effectuez une recherche DNS directe sur le domaine. Pour le domaine obtenu à l'étape 1, effectuez une recherche DNS directe pour vérifier si le domaine correspond à l'adresse IP originale du serveur visité dans vos journaux. Si les adresses IP correspondent, vous pouvez confirmer que le spider provient du moteur de recherche Baidu. Sinon, il s'agit d'une usurpation.

Pour plus de détails, consultez le document : 《Deux étapes simples pour identifier rapidement l'araignée Baidu》

3. Q : L'araignée Baidu continuera-t-elle à explorer mon site indéfiniment ?

R : Généralement, oui. Si votre site continue à produire de nouvelles ressources ou à mettre à jour son contenu, l'araignée continuera à l'explorer. Il est important de noter que si vous souhaitez que l'araignée Baidu explore votre site, évitez toute forme de blocage (voir les références ci-dessous pour plus de détails sur le blocage).

De plus, vous pouvez consulter les journaux d'accès de votre site pour identifier rapidement les explorations légitimes de l'araignée Baidu et prévenir les usurpations malveillantes qui pourraient surcharger votre site avec des explorations fréquentes.

4. Q : L'araignée Baidu visite fréquemment mon site, causant une pression importante sur le serveur. Que faire ?

R : Si vous constatez que l'araignée Baidu explore votre site trop fréquemment, cela peut être dû à :

① De nouvelles ressources ou mises à jour de contenu sur votre site nécessitant une exploration ;

② Une usurpation malveillante de l'araignée Baidu. Vous pouvez utiliser la méthode décrite dans Q2 pour identifier les explorations légitimes ;

Si la fréquence d'exploration de l'araignée Baidu est trop élevée et affecte votre site, vous pouvez ajuster cette fréquence via l'outil 【Fréquence d'exploration】 de la plateforme de ressources de recherche.

【Section sur le blocage】

1. Q : Comment empêcher l'araignée Baidu d'accéder à certaines ressources de mon site ?

R : L'araignée Baidu respecte le protocole robots de l'Internet. Les webmasters peuvent mettre à jour le fichier robots.txt pour spécifier les ressources ou répertoires qu'ils ne souhaitent pas voir explorés par l'araignée Baidu, puis soumettre ce fichier via l'outil 【Robots】 de la plateforme de ressources de recherche.

Notez qu'après la mise à jour et la soumission du fichier robots.txt, le moteur de recherche a besoin de temps pour intégrer ces modifications. L'araignée Baidu ne cessera donc pas immédiatement d'explorer les pages concernées. Merci de patienter.

2. Q : Quels impacts peut avoir le blocage de l'araignée Baidu sur mon site ?

R : Même si les ressources de votre site sont de qualité et ne présentent pas d'autres problèmes de conformité, le blocage peut entraîner les situations suivantes :

① Aucun enregistrement d'exploration par l'araignée Baidu n'est trouvé ;

② Votre site n'est pas indexé ni affiché dans les résultats de recherche Baidu ;

③ Votre site/répertoire connaît une baisse anormale de trafic ;

④ L'extrait affiché dans les résultats de recherche indique "Soumis à un blocage robots".

Si vous constatez l'une de ces situations, vérifiez d'abord si un blocage de l'araignée Baidu est en place, puis débloquez-la si nécessaire (voir Q7 pour les instructions de déblocage) et attendez la récupération.

3. Q : Comment débloquer l'araignée Baidu ?

R : Les actions de blocage courantes incluent le blocage via robots.txt, le blocage par UA Baidu et le blocage par IP Baidu. Vous pouvez les résoudre une par une :

(1) Vérifiez le fichier robots.txt pour détecter d'éventuelles règles de blocage. (Le fichier robots.txt se trouve généralement à la racine de votre site.)

(2) Si le fichier robots.txt est normal, vérifiez s'il existe un blocage par UA Baidu :

Option 1 : Exécutez curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

Note : Un code de retour normal est 200, tout autre code indique une anomalie.

Option 2 : Changez l'UA du navigateur pour valider ;

(3) Si les validations ci-dessus ne révèlent aucune anomalie, vérifiez enfin s'il existe un blocage au niveau des IP :

Les blocages par IP proviennent généralement des configurations du pare-feu de votre site. Consultez l'interface d'administration de votre pare-feu pour vérifier si des règles de blocage des IP de l'araignée Baidu sont en place.

Pour plus de détails, consultez 《Comment les développeurs peuvent débloquer l'araignée Baidu》

Page précédente :Brève introduction à la refonte des sites web

Page suivante :Super pratique ! 8 extensions de navigateur indispensables pour le commerce extérieur, pas besoin de rivaliser avec les autres