Haz un uso efectivo del robots.txt
Restingir a los rastreadores (bots) donde no sea necesario con el robots.txt
El archivo “robots.txt” les dice a los motores de búsqueda a qué partes de tu sitio (1) pueden acceder y consecuentemente rastrear. Este archivo se debe llamar “robots.txt”, y tiene que estar en el directorio raíz de tu sitio. (2)
Puede que haya algunas páginas de tu sitio que no quieras que sean rastreadas si no van a ser útiles para los usuarios cuando las encuentren en los resultados de búsqueda. Si quieres evitar que los motores de búsqueda rastreen tus páginas, las Herramientas para webmasters de Google tienen un sencillo generador de robots. txt para ayudarte a crear el archivo. Hay que tener en cuenta que si tu sitio usa subdominios y quieres que algunas páginas no sean rastreadas para ese subdominio, tendrás que crear un archivo robots.txt específico de ese subdominio. Para más información sobre robots.txt, te recomendamos esta guía del Centro de asistencia: cómo usar los archivos robots.txt.
Hay unas cuantas maneras más de impedir que tu contenido aparezca en los resultados de búsqueda, como por ejemplo añadir la metaetiqueta “NOINDEX”, usar .htaccess para proteger directorios con contraseña o usar las Herramientas para webmasters de Google para quitar contenido que ya ha sido rastreado. Matt Cutts, un ingeniero de Google, nos guía sobre las características de cada método de bloqueo en este video tan útil.

(1) Los robots de cualquier motor de búsqueda (señalados con el carácter comodín *) que siguen las normas no deberían acceder ni rastrear el contenido bajo el directorio /imagenes/ ni cualquier URL que empiece con /busqueda

(2) La dirección de nuestro archivo robots.txt

Glosario
Robots Exclusion Standard:
Convención que se utiliza para evitar que rastreadores como el robot de Google accedan a un sitio web o parte del mismo que, por otra parte, son visibles públicamente.
Servicios de proxy: Ordenador que sustituye la conexión en aquellos casos en que se conectan una red interna y otra externa, o software que dispone de funcionalidades con el mismo propósito.
Servicios de proxy: Ordenador que sustituye la conexión en aquellos casos en que se conectan una red interna y otra externa, o software que dispone de funcionalidades con el mismo propósito.