【Escena de preguntas y respuestas de búsqueda】, para brindar a todos un "araña de Baidu" explicado de manera integral, ayudando a todos a comprender claramente el papel que desempeña la "araña de Baidu" en diversos escenarios, sentando las bases para la operación general del sitio web.
R: Baiduspider, también conocida como araña de Baidu, es un programa automatizado del motor de búsqueda de Baidu, su función es visitar páginas web en Internet, construir una base de datos de índices, permitiendo a los usuarios buscar contenido relevante del sitio web en el motor de búsqueda de Baidu.
R: Hay dos formas de identificar la araña de Baidu.
Método uno: Verificar la información UA
Si la información UA no coincide, se puede determinar directamente que no es la araña del motor de búsqueda de Baidu. Actualmente, UA se divide en móvil, PC y mini programas en tres escenarios de aplicación, los UA de estos tres canales son los siguientes:
UA móvil:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
o
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
UA PC:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
o
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
UA mini programa:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
Método dos: Verificación de resolución DNS bidireccional
Paso uno: Búsqueda DNS inversa de IP, los desarrolladores pueden ejecutar una búsqueda DNS inversa en las direcciones IP del servidor de acceso en los registros, para determinar si un spider proviene del motor de búsqueda de Baidu, el hostname de Baiduspider se nombra en formato *.baidu.com o *.baidu.jp, cualquier otro que no sea *.baidu.com o *.baidu.jp es una suplantación.
Según la plataforma, los métodos de verificación varían, como en linux/windows/os tres plataformas, los métodos de verificación son los siguientes:
①En plataforma linux, se puede usar el comando host ip para resolver inversamente la IP y determinar si la captura proviene de Baiduspider. El hostname de Baiduspider se nombra en formato *.baidu.com o *.baidu.jp, cualquier otro que no sea *.baidu.com o *.baidu.jp es una suplantación.
②En plataforma windows o IBM OS/2, se puede usar el comando nslookup ip para resolver inversamente la IP y determinar si la captura proviene de Baiduspider.
③En plataforma mac os, se puede usar el comando dig para resolver inversamente la IP y determinar si la captura proviene de Baiduspider.
Paso dos: Ejecutar una búsqueda DNS directa del dominio. Para el dominio encontrado en el paso 1, ejecutar una búsqueda DNS directa, verificar si el dominio coincide con la dirección IP original del servidor de acceso en sus registros, si las direcciones IP coinciden se puede confirmar que el spider proviene del motor de búsqueda de Baidu, si no coinciden es una suplantación.
Para más detalles, consultar el documento: 《Dos sencillos pasos para identificar rápidamente la araña de Baidu》
R: Generalmente sí, si el sitio web sigue generando nuevos recursos, actualizando contenido, etc., la araña seguirá capturando. Es importante recordar que si el sitio web necesita que la araña de Baidu capture, no debe aplicar ningún bloqueo. (Para referencias relacionadas con el bloqueo, consultar el contenido a continuación)
Además, también puede revisar los registros de acceso del sitio web, identificar oportunamente la araña de Baidu correcta, para evitar que alguien suplante maliciosamente la araña de Baidu y capture frecuentemente su sitio web.
R: Si se descubre que la araña de Baidu captura con frecuencia, puede ser porque
① El sitio web tiene nuevos recursos generados, contenido actualizado pendiente de captura;
② Puede existir suplantación maliciosa de la araña de Baidu, se puede usar el método de P2 "Cómo identificar la araña de Baidu normal" para solucionar el problema;
Si la frecuencia de captura de la araña de Baidu es demasiado alta, causando anomalías en el sitio web, se puede ajustar la frecuencia mediante la plataforma de recursos de búsqueda - herramienta 【Frecuencia de captura】.
R: La araña de Baidu cumple con el protocolo robots de Internet. El webmaster puede actualizar el archivo robots.txt, especificando claramente en el archivo los recursos o directorios que no desea que la araña de Baidu acceda, y enviar oportunamente el archivo robots a través de la plataforma de recursos de búsqueda - herramienta 【Robots】.
Nota: Después de actualizar y enviar el archivo robots, el motor de búsqueda necesita actualizarse gradualmente, por lo que la araña de Baidu no detendrá inmediatamente la captura de páginas web, tenga paciencia y espere.
R: Los recursos del sitio web son de calidad y no tienen otros problemas de incumplimiento, pero pueden ocurrir las siguientes situaciones
① No se encuentra ningún registro de captura de la araña de Baidu,
② En las búsquedas de Baidu no se obtiene indexación ni visualización,
③ El sitio web/directorio experimenta una caída anormal en el tráfico,
④ En los resultados de búsqueda, el resumen muestra "Existe bloqueo robots".
Si se detectan las situaciones anteriores, primero verifique si existe algún problema de bloqueo de la araña de Baidu, y levante el bloqueo oportunamente (para levantar el bloqueo, consultar QA7), espere a que se recupere.
R: Los comportamientos de bloqueo comunes incluyen bloqueo robots, bloqueo UA de Baidu, bloqueo IP de Baidu, se pueden solucionar uno por uno:
(1) Verificar el archivo robots.txt, si existe algún registro de bloqueo. (Generalmente el archivo robots.txt se coloca en el directorio raíz del sitio web).
(2) Si el archivo robots no tiene anomalías, verificar si existe bloqueo del UA de Baidu;
Opción uno: Ejecutar curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'
Nota: El código de retorno normal es 200, cualquier otro caso es anormal.
Opción dos: Cambiar el UA del navegador para verificar;
(3) Si las verificaciones anteriores no muestran anomalías, finalmente verificar si existe bloqueo a nivel de IP;
Los bloqueos de IP comunes provienen de la configuración del sistema de firewall del sitio web, es necesario revisar la configuración del sistema de firewall para verificar si existen medidas de bloqueo a nivel de IP para la araña de Baidu.
Para más detalles, consultar 《Cómo los desarrolladores pueden levantar el bloqueo de la araña de Baidu》
Artículos relacionados



Productos relacionados