1 .
User-Agent
2 .
Disallow
3 .
Ejemplos
Los buscadores tipo "araña", como Google o Altavista, siempre buscan
en el directorio raíz de un sitio web el fichero "robots.txt". Este fichero les indica qué
archivos deben incluir en su base de datos. En la mayoría de los casos no lo
utilizaremos, pero si deseamos excluir parte de nuestro web de la mirada
inquisitiva de estas arañas, deberemos crear un fichero con este nombre. Estará formado
por uno o varios registros, cada uno de los cuales está formado por dos campos: una línea
User-Agent y una o más líneas
Disallow. El formato de cada línea es como sigue:
Campo : Valor
Podemos incluir comentarios empleando la almohadilla. Todo lo que haya desde que pongamos el carácter # hasta el final de la línea será ignorado.
User-Agent
Esta línea indica la araña a la que queremos impedir el acceso a ciertas
zonas de nuestra web. La mayoría de los buscadores tienen nombres cortos para sus
arañas. Google utiliza el googlebot y Altavista el scooter, por ejemplo. No obstante, aqui
tenéis una lista completa de arañas. Un ejemplo:
User-agent: googlebot
También se puede utilizar el asterisco como caracter comodín para indicar que lo siguiente será aplicable a todas las arañas:
User-agent: *
Si tienes acceso a los ficheros log de tu web, puedes buscar en ellos posibles arañas observando las peticiones que se realicen al fichero robots.txt.
Disallow
Después de User-agent se deben especificar una o más líneas Disallow. Como valor de este campos se pueden especificar nombres de directorios:
Disallow: /imagenes/
O de ficheros:
Disallow: index.htm
Incluso podemos especificarlos a la vez. Si ponemos:
Disallow: /roma
Impediremos el acceso tanto a los ficheros que empiecen por roma como al directorio del mismo nombre. También podemos usar asteriscos
Ejemplos
El primer ejemplo impide a cualquier araña acceder a los directorios de los CGI y las imágenes:
User-agent: *
Disallow: /cgi-bin/
Disallow: /imagenes/
El siguiente ejemplo permitiría la entrada al robot de Google pero no al de Altavista:
User-agent: googlebot
Disallow:
User-agent: scooter
Disallow: /
De este modo podremos impedir que los buscadores metan la nariz más de lo deseable. Si deseas comprobar si tu fichero cumple las especificaciones puedes emplear un validador.
Últimos comentarios
Últimos 5 comentarios
mas informacion (26/06/2005)
Por
quiero recibir mas informacion sobre robots.txt, gracias ;)
mas informacion (26/06/2005)
Por
quiero recibir mas informacion sobre robots.txt, gracias ;)
mas informacion (26/06/2005)
Por
quiero recibir mas informacion sobre robots.txt, gracias ;)
Robots (11/09/2003)
Por
Como puedo crear un robot para mi buscador, de manera que encuentre y actualice constantemente mi base de datos..?
Saludos...!!!
Necesito un colega (01/08/2003)
Por
ando en busca de un colega para compartir programas hack y sobre todo alguien colabore conmigo en la creación de mi web, ya está pero le faltan algunas cosas para modificar,,, ahora está en construcción pero bueno algo es algo hoy es 31.07.2003l http://es.geocities.com/darfel12002