▷ Configurar Robots.txt | Todo lo que tienes que conocer

Hoy queremos mostraros todo lo que debes saber sobre el archivo robots.txt. ¿Qué es? ¿Cómo se configura? ¿Puedo configurarlo desde cero? Consejos y demás, vamos a ello:

¿Qué es el Archivo Robots.txt?

El archivo robots.txt es un archivo de texto plano que se utiliza para indicar a los motores de búsqueda qué páginas o secciones de un sitio web deben o no deben indexar. Es importante tener en cuenta que el archivo robots.txt es una sugerencia para los motores de búsqueda y no una instrucción definitiva. Los motores de búsqueda pueden ignorar estas sugerencias y seguir indexando las páginas de todos modos.

Para rellenar el archivo robots.txt, debes seguir los siguientes pasos:

Abre un editor de texto plano en tu ordenador.
Escribe la siguiente línea al principio del archivo: User-agent: *. Esto le indicará a los motores de búsqueda que la instrucción que sigue se aplica a todos los robots.
A continuación, escribe una o varias líneas con la instrucción Disallow: seguida de la ruta de la página o sección que deseas excluir de la indexación. Por ejemplo: Disallow: /admin/. Esto le indicará a los motores de búsqueda que no deben indexar la página /admin/.
Si deseas excluir varias páginas o secciones, escribe una instrucción Disallow: por cada una de ellas en una línea separada.
Guarda el archivo con el nombre robots.txt y súbelo a la raíz de tu sitio web.

Es importante tener en cuenta que el archivo robots.txt es sensible a mayúsculas y minúsculas, por lo que debes asegurarte de escribir las instrucciones en minúsculas. Además, asegúrate de no utilizar caracteres especiales o espacios en las rutas que incluyas en el archivo.

¿Conoces la importancia de configurar correctamente los archivos Robots.txt de tus páginas web?

¿Cuál es la mejor configuración del Robots.txt para Google?

A continuación, te presento un ejemplo de la configuración óptima del archivo robots.txt para Google:

User-agent: Googlebot

Disallow:

User-agent: *

Disallow: /search

Disallow: /groups

Disallow: /images

Disallow: /catalogs

Allow: /

En este ejemplo, se está permitiendo a Googlebot, el robot de Google, el acceso a todas las páginas del sitio. Además, se están excluyendo de la indexación las páginas de búsqueda, grupos, imágenes y catálogos. Esto es útil si estas páginas no son relevantes para los usuarios y sólo se utilizan para el funcionamiento interno del sitio.

Es importante tener en cuenta que el archivo robots.txt es una sugerencia para los motores de búsqueda y no una instrucción definitiva. Los motores de búsqueda pueden ignorar estas sugerencias y seguir indexando las páginas de todos modos.

Además de las páginas mencionadas anteriormente, hay algunos otros tipos de contenido que es recomendable excluir de la indexación mediante el archivo robots.txt, como:

Páginas de prueba o de desarrollo: Si tienes una versión de prueba o de desarrollo de tu sitio, es posible que no quieras que se indexe.
Páginas duplicadas: Si hay páginas duplicadas en tu sitio, es recomendable excluir una de ellas para evitar problemas de SEO.
Páginas de baja calidad: Si hay páginas en tu sitio que no aportan valor a los usuarios o que tienen contenido de baja calidad, es posible que quieras excluirlas de la indexación.
Páginas con contenido sensible o confidencial: Si hay páginas en tu sitio con información sensible o confidencial, es recomendable excluirlas de la indexación para proteger la privacidad de los usuarios.

Ejemplo: No indexar PDF´s

Para excluir la indexación de archivos PDF en un sitio web mediante el archivo robots.txt, puedes utilizar la siguiente instrucción:

User-agent: *

Disallow: /*.pdf$

Esto le indicará a los motores de búsqueda que no deben indexar ningún archivo que tenga una URL que termine en .pdf.

Es importante tener en cuenta que el archivo robots.txt es una sugerencia para los motores de búsqueda y no es una instrucción definitiva. Los motores de búsqueda pueden ignorar estas sugerencias y seguir indexando los archivos de todos modos. Además, cualquier persona que conozca la URL de un archivo excluido mediante robots.txt todavía podrá acceder a él. Por lo tanto, si deseas evitar que se acceda a ciertos archivos de manera segura, es mejor utilizar medidas de seguridad adicionales, como la autenticación de usuario o la autorización.

Características principales de Robots.txt

El archivo robots.txt es un archivo de texto que se coloca en el directorio raíz de un sitio web y se utiliza para indicar a los robots web (también conocidos como rastreadores o arañas) cómo rastrear las páginas del sitio web. Aquí hay algunos comandos comunes que se pueden utilizar en un archivo robots.txt:

User-agent: Este comando especifica a qué robots web se aplican las siguientes reglas. Por ejemplo, puede usar User-agent: Googlebot para especificar reglas para el rastreador web de Google.
Allow: Este comando permite a los robots web rastrear una URL o directorio específicos del sitio web. Por ejemplo, puede usar Allow: /directory/ para permitir que los robots web rastreen el directorio «directory» en su sitio web.
Disallow: Este comando evita que los robots web rastreen una URL o directorio específicos del sitio web. Por ejemplo, puede usar Disallow: /private/ para evitar que los robots web rastreen el directorio «private» en su sitio web.
Sitemap: Este comando especifica la ubicación de un archivo de mapa del sitio en el sitio web. Un mapa del sitio es un archivo que enumera todas las páginas de un sitio web y puede ser utilizado por los robots web para descubrir nuevas páginas.

Es importante tener en cuenta que las reglas en un archivo robots.txt son solo sugerencias y no todos los robots web necesariamente las seguirán. Algunos robots web pueden ignorar las reglas en un archivo robots.txt, especialmente si creen que es en el mejor interés de sus usuarios hacerlo.

¿Eres SEO y no tocas el Robots.txt para nada? Igual deberías empezar…

Blog MR

Configurar Robots.txt

¿Qué es el Archivo Robots.txt?

¿Cuál es la mejor configuración del Robots.txt para Google?

Ejemplo: No indexar PDF´s

Características principales de Robots.txt

Deja un comentario