El archivo robots.txt indica qué se debe indexar o no en los motores de búsqueda, es decir, qué se guardará y se pondrá a disposición del público como resultado de la búsqueda. Sepa más:
- Ubicación del archivo robots.txt
- Comandos
- Cómo bloquear robots y motores de búsqueda de seguimiento
- Cómo bloquear acceso de robots en carpeta y directorios específicos
Ubicación del archivo robots.txt
El archivo robots.txt debe estar siempre en la carpeta raíz del documento.
Usted puede crear un archivo en blanco y nombrarlo robots.txt. Esto reducirá los errores del sitio y permitirá a todos los motores de búsqueda clasificar lo que quieran.
Comandos
User-agent
El comando User-agent determina a qué robot de búsqueda usted se refiere. Para conocer el nombre de cada User-agent, acceda al Web Robots Database
Disallow
El comando Disallow describe qué páginas, directorios o sitios no deben incluirse en los resultados de búsqueda.
Allow
El comando Allow informa a los robots de búsqueda qué páginas y directorios del sitio usted desea que sean indexadas.
El uso de este comando se recomienda cuando usted bloquea una carpeta o directorio a través de Disallow y desea indexar solo un archivo o carpeta específico que está dentro de la carpeta/directorio bloqueado.
Cómo bloquear robots y motores de búsqueda de seguimiento
Si desea desactivar la visita de los bots en el sitio web y evitar la indexación, utilice el código:
User-agent: *
Disallow: /
Cómo bloquear acceso de robots en carpeta y directorios específicos
También es posible evitar que los robots rastreen partes de su sitio web, permitiéndoles rastrear otras secciones.
En el siguiente ejemplo se pedirá a los motores de búsqueda y robots que no rastreen la carpeta cgi-bin y otras carpetas del sitio:
User-agent: *
Disallow: /cgi-bin/
Disallow: /nombre-de-la-carpeta/
Disallow: /nombre-de-la-carpeta-2/