¡Plataforma de sistema de marketing y creación de sitios web inteligentes de Eyingbao Cloud!

Español





Iniciar sesión

Registrarse



Ubicación actual: Página principal > Noticias > Información de la industria > Análisis completo de la 'araña de Baidu'

Recomendaciones relacionadas

¿Qué incluye el ecosistema de servicios transfronterizos? ¿Cómo se coordinan sitio web, promoción, pagos y cumplimiento?
22-06-2026
Ver detalles
¿Cómo cambiarán los gastos de email marketing en 2026
22-06-2026
Ver detalles
Estados Unidos y China han alcanzado un consenso positivo sobre los aranceles; la reunión comercial se establecerá
15-06-2026
Ver detalles
¿Marketing de salida al exterior de marca: publicidad primero o contenido primero?
21-06-2026
Ver detalles
¿Qué determina el costo de desarrollo de una tienda B2C transfronteriza? Desglose de funciones, interfaces e implementación
17-06-2026
Ver detalles
El arancel cero entre China y Marruecos impulsa las exportaciones chinas a Marruecos, con una caída en los costos.
11-06-2026
Ver detalles
¿Qué señal de ejecución libera la suspensión de las exportaciones a Japón?
10-06-2026
Ver detalles
Las importaciones de GNL de China repuntaron en mayo, y el aumento marginal de Rusia y Canadá compensó el déficit de Oriente Medio.
10-06-2026
Ver detalles

Análisis completo de la 'araña de Baidu'

Fecha de publicación:09-09-2022

Yiyingbao

Número de visitas:

【Escena de preguntas y respuestas de búsqueda】, para brindar a todos un "araña de Baidu" explicado de manera integral, ayudando a todos a comprender claramente el papel que desempeña la "araña de Baidu" en diversos escenarios, sentando las bases para la operación general del sitio web.

【Sección de captura】

1. ¿Qué es Baiduspider?

R: Baiduspider, también conocida como araña de Baidu, es un programa automatizado del motor de búsqueda de Baidu, su función es visitar páginas web en Internet, construir una base de datos de índices, permitiendo a los usuarios buscar contenido relevante del sitio web en el motor de búsqueda de Baidu.

2. P: ¿Cómo identificar si la captura actual es la araña de Baidu correcta?

R: Hay dos formas de identificar la araña de Baidu.

Método uno: Verificar la información UA

Si la información UA no coincide, se puede determinar directamente que no es la araña del motor de búsqueda de Baidu. Actualmente, UA se divide en móvil, PC y mini programas en tres escenarios de aplicación, los UA de estos tres canales son los siguientes:

UA móvil:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

UA PC:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

UA mini programa:

Método dos: Verificación de resolución DNS bidireccional

Paso uno: Búsqueda DNS inversa de IP, los desarrolladores pueden ejecutar una búsqueda DNS inversa en las direcciones IP del servidor de acceso en los registros, para determinar si un spider proviene del motor de búsqueda de Baidu, el hostname de Baiduspider se nombra en formato *.baidu.com o *.baidu.jp, cualquier otro que no sea *.baidu.com o *.baidu.jp es una suplantación.

Según la plataforma, los métodos de verificación varían, como en linux/windows/os tres plataformas, los métodos de verificación son los siguientes:

①En plataforma linux, se puede usar el comando host ip para resolver inversamente la IP y determinar si la captura proviene de Baiduspider. El hostname de Baiduspider se nombra en formato *.baidu.com o *.baidu.jp, cualquier otro que no sea *.baidu.com o *.baidu.jp es una suplantación.

②En plataforma windows o IBM OS/2, se puede usar el comando nslookup ip para resolver inversamente la IP y determinar si la captura proviene de Baiduspider.

③En plataforma mac os, se puede usar el comando dig para resolver inversamente la IP y determinar si la captura proviene de Baiduspider.

Paso dos: Ejecutar una búsqueda DNS directa del dominio. Para el dominio encontrado en el paso 1, ejecutar una búsqueda DNS directa, verificar si el dominio coincide con la dirección IP original del servidor de acceso en sus registros, si las direcciones IP coinciden se puede confirmar que el spider proviene del motor de búsqueda de Baidu, si no coinciden es una suplantación.

Para más detalles, consultar el documento: 《Dos sencillos pasos para identificar rápidamente la araña de Baidu》

3. P: ¿La araña de Baidu seguirá capturando mi sitio web?

R: Generalmente sí, si el sitio web sigue generando nuevos recursos, actualizando contenido, etc., la araña seguirá capturando. Es importante recordar que si el sitio web necesita que la araña de Baidu capture, no debe aplicar ningún bloqueo. (Para referencias relacionadas con el bloqueo, consultar el contenido a continuación)

Además, también puede revisar los registros de acceso del sitio web, identificar oportunamente la araña de Baidu correcta, para evitar que alguien suplante maliciosamente la araña de Baidu y capture frecuentemente su sitio web.

4. P: La araña de Baidu visita frecuentemente el sitio web, causando alta carga en el servidor, ¿qué hacer?

R: Si se descubre que la araña de Baidu captura con frecuencia, puede ser porque

① El sitio web tiene nuevos recursos generados, contenido actualizado pendiente de captura;

② Puede existir suplantación maliciosa de la araña de Baidu, se puede usar el método de P2 "Cómo identificar la araña de Baidu normal" para solucionar el problema;

Si la frecuencia de captura de la araña de Baidu es demasiado alta, causando anomalías en el sitio web, se puede ajustar la frecuencia mediante la plataforma de recursos de búsqueda - herramienta 【Frecuencia de captura】.

【Sección de bloqueo】

1. P: No deseo que la araña de Baidu acceda a ciertos recursos del sitio web, ¿qué debo hacer?

R: La araña de Baidu cumple con el protocolo robots de Internet. El webmaster puede actualizar el archivo robots.txt, especificando claramente en el archivo los recursos o directorios que no desea que la araña de Baidu acceda, y enviar oportunamente el archivo robots a través de la plataforma de recursos de búsqueda - herramienta 【Robots】.

Nota: Después de actualizar y enviar el archivo robots, el motor de búsqueda necesita actualizarse gradualmente, por lo que la araña de Baidu no detendrá inmediatamente la captura de páginas web, tenga paciencia y espere.

2. P: Si bloqueo la araña de Baidu, ¿qué impactos podría tener?

R: Los recursos del sitio web son de calidad y no tienen otros problemas de incumplimiento, pero pueden ocurrir las siguientes situaciones

① No se encuentra ningún registro de captura de la araña de Baidu,

② En las búsquedas de Baidu no se obtiene indexación ni visualización,

③ El sitio web/directorio experimenta una caída anormal en el tráfico,

④ En los resultados de búsqueda, el resumen muestra "Existe bloqueo robots".

Si se detectan las situaciones anteriores, primero verifique si existe algún problema de bloqueo de la araña de Baidu, y levante el bloqueo oportunamente (para levantar el bloqueo, consultar QA7), espere a que se recupere.

3. P: ¿Cómo levantar el bloqueo de la araña de Baidu?

R: Los comportamientos de bloqueo comunes incluyen bloqueo robots, bloqueo UA de Baidu, bloqueo IP de Baidu, se pueden solucionar uno por uno:

(1) Verificar el archivo robots.txt, si existe algún registro de bloqueo. (Generalmente el archivo robots.txt se coloca en el directorio raíz del sitio web).

(2) Si el archivo robots no tiene anomalías, verificar si existe bloqueo del UA de Baidu;

Opción uno: Ejecutar curl --head --user-agent 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)' --request GET 'xxxxxxx'

Nota: El código de retorno normal es 200, cualquier otro caso es anormal.

Opción dos: Cambiar el UA del navegador para verificar;

(3) Si las verificaciones anteriores no muestran anomalías, finalmente verificar si existe bloqueo a nivel de IP;

Los bloqueos de IP comunes provienen de la configuración del sistema de firewall del sitio web, es necesario revisar la configuración del sistema de firewall para verificar si existen medidas de bloqueo a nivel de IP para la araña de Baidu.

Para más detalles, consultar 《Cómo los desarrolladores pueden levantar el bloqueo de la araña de Baidu》

Página anterior:Breve introducción a la revisión del sitio web

Página siguiente:¡Superpráctico! 8 complementos de navegador esenciales para comercio exterior, sin necesidad de esforzarse para superar a otros