El uso del archivo robots.txt en un sitio web es un método para controlar el acceso de los rastreadores de motores de búsqueda al contenido del sitio. A continuación, se detallan los pasos y consideraciones sobre cómo utilizar robots.txt en un sitio web:

Usar un editor de texto: Abre un editor de texto (como Notepad++, Sublime Text o el Bloc de notas) y prepara el contenido del archivo robots.txt.
Escribir las reglas: Según las necesidades del sitio web, escribe las reglas correspondientes. Normalmente, estas reglas incluyen especificar qué rastreadores de motores de búsqueda (User-agent), permitir (Allow) o prohibir (Disallow) el acceso a ciertas rutas URL.
Guardar el archivo: Guarda el archivo como robots.txt, asegurándote de que la extensión sea .txt y que el nombre del archivo esté en minúsculas. Además, asegúrate de que la codificación del archivo sea UTF-8 para evitar problemas de caracteres en diferentes servidores o navegadores.
Subir al directorio raíz del sitio web: Usa un software FTP o el panel de administración del sitio web para subir el archivo robots.txt al directorio raíz del sitio. Por ejemplo, si tu dominio es www.example.com, el archivo robots.txt debe estar ubicado en http://www.example.com/robots.txt.
Una vez que el sitio web esté en línea, el sistema generará automáticamente el archivo robots. La URL del archivo robots es: dominio/robots.txt;
Si necesitas personalizar el archivo robots, puedes modificarlo en el panel de administración del CMS, en la sección SEO - archivo robots. Si después de personalizarlo deseas volver al archivo robots predeterminado del sistema, haz clic en el botón de inicialización a la derecha para restaurar el contenido predeterminado. Guarda y publica los cambios después de modificarlos.
Si hay una página en el sitio que no deseas que sea indexada, por ejemplo, una página con el enlace https://www.abc.com/fuwutiaokuan.html, puedes agregar la parte después del dominio/ al contenido del archivo robots, como se muestra en la siguiente imagen:

El contenido del archivo robots.txt consiste principalmente en una serie de agentes de usuario (User-agent) y directivas (como Disallow, Allow). A continuación, se presentan algunas reglas básicas y ejemplos:
User-agent: Especifica a qué rastreador de motor de búsqueda se aplican las reglas. Por ejemplo, User-agent: * significa que las reglas se aplican a todos los rastreadores; User-agent: Googlebot indica que las reglas solo se aplican al rastreador de Google.
Disallow: Especifica las rutas URL que no deseas que sean accedidas. Por ejemplo, Disallow: /admin/ prohíbe el acceso al directorio /admin/ y sus subdirectorios y archivos.
Allow (opcional): Al contrario que Disallow, especifica las rutas URL que sí permiten el acceso. Ten en cuenta que no todos los motores de búsqueda admiten la directiva Allow, y suele usarse en combinación con Disallow para un control más preciso.

En este ejemplo:
Todos los rastreadores tienen prohibido acceder a los directorios /admin/ y /cgi-bin/.
Googlebot tiene permitido acceder al directorio /special-content/, pero se le prohíbe acceder al resto del sitio (nota: Disallow: / después de Allow puede anular la directiva Allow, a menos que el motor de búsqueda admita Allow y procese correctamente esta situación). Sin embargo, esto es solo un ejemplo; en la práctica, es posible que necesites ajustarlo para evitar conflictos.
La directiva Sitemap proporciona la URL del mapa del sitio, lo que ayuda a los motores de búsqueda a entender mejor la estructura del sitio.
Asegurar que el nombre y la ubicación del archivo sean correctos: El archivo robots.txt debe estar en el directorio raíz del sitio web, y su nombre debe estar en minúsculas.
Escribir las reglas con cuidado: Las reglas incorrectas pueden hacer que páginas importantes sean ignoradas o eliminadas por los motores de búsqueda, afectando el SEO del sitio.
Revisar y actualizar periódicamente: A medida que el contenido del sitio web se actualiza y cambia, es posible que necesites revisar y actualizar el archivo robots.txt para asegurarte de que siga cumpliendo con los requisitos del sitio.
Conocer el soporte de los motores de búsqueda: Diferentes motores de búsqueda pueden tener distintos niveles de soporte para el archivo robots.txt, por lo que debes tenerlo en cuenta al escribir las reglas.
Usar herramientas de verificación: Puedes usar herramientas en línea para verificar que la sintaxis y la lógica del archivo robots.txt sean correctas, asegurando que los motores de búsqueda puedan entender y aplicar estas reglas correctamente.
Si tienes alguna pregunta sobre la construcción u operación de un sitio web de comercio exterior, no dudes en consultar al servicio técnico de Yiyingbao en WeChat: Ieyingbao18661939702. ¡Nuestro personal estará encantado de ayudarte!

Las imágenes provienen de Internet. Si hay algún problema de derechos, por favor contacta al 400-655-2477.
Artículos relacionados
Productos relacionados


