Pregunta:
¿Es posible excluir un nombre de dominio en robots.txt?
Tengo un solo sitio Drupal con varios dominios apuntando a él. Por ejemplo, Google está rastreando nuestro servidor de desarrollo y de ensayo cuando nuestra protección con contraseña .htaccess está desactivada.
No pretendo bloquear ningún acceso en nuestro servidor de desarrollo, sino decirle a los bots de los motores de búsqueda que dejen de indexar todo el contenido cuando el dominio esté en desarrollo o en fase de prueba.
Básicamente, veo algunos de los enlaces que apuntan a servidores de desarrollo cuando busco parte de mi contenido en Google.
¿Hay alguna forma o módulo que pueda manejar esto?
EDITAR:
Así es como terminé. Dentro de theme_preprocess_html()
.
// Avoid search engines to index dev and stage domains.
$restricted_domains = array('dev.mydomain.com', 'stage.mydomain.com', 'editorial.mydomain.com');
if (in_array($_SERVER['HTTP_HOST'], $restricted_domains)) {
$meta_robot = array(
'#tag' => 'meta',
'#attributes' => array(
'name' => 'robots',
'content' => 'noindex, nofollow'
),
);
drupal_add_html_head($meta_robot);
}
Respuesta:
Robots.txt no ayudará a que su sitio sea rastreado (técnicamente) por nada. Son solo pautas que los bots deben seguir. Debe limitar el acceso al servidor de desarrollo y prueba mediante las reglas de Firewall, o como ha mencionado por httpauth.