¡¡De verdad que no se cómo narices indexa Google una nueva web!!
He creado una página para una empresa de material dental nuevo y de segunda mano (
www.equipamientoodontologicogms.com), y estuve trabajando en la web unas semanas con el fichero robots.txt y la meta robots "capando" a Google: NOINDEX, NOFOLLOW.
Bueno, pues para mi sorpresa me he dado cuenta de que esto no vale absolutamente para nada. Google ha indexado todo el contenido, incluido el de una carpeta llamada beta que estaba bloqueada expresamente.
¿Esto es normal? ¿Para que sirve entonces configurar robots.txt?
El fichero robots es una "recomendación" ,además a muchos bots tienes que decirles dónde esta ese fichero. (edito.., o era el sitemap)
Pero no deja de ser una "recomendación" que los bots harán caso o no....según les convenga,
Personalmente, pensaba que Google hacía casa a esta recomendación, pero parece que no es así.
Yo recuerdo que en alguna web me decía que había bloqueado demasiadas cosas en el fichero robots y que no podía llegar el bot, por eso pienso que Google debería hacer caso al fichero robots.txt
y otra cosa, robots.txt tiene permisos de lectura?, entiendo que si.
Igual esto es el problema, que haya seguido los enlaces antes de hacerle caso al fichero robots
De la página de Google
"Es posible que Googlebot tarde un tiempo en detectar los cambios una vez que hayas creado el archivo robots.txt. Si Googlebot sigue rastreando contenido bloqueado en el archivo robots.txt, comprueba que la ubicación de este archivo sea correcta."
Yo no veo que en robots.txt tengas bloqueado nada, y el meta noindex nofollow no bloquea a los robots, simplemente le dice a google que los enlaces sean nofollow.
Bloquea lo que necesites en robots.txt y seguro que en unos días el contenido desaparece.
(24-03-2015, 03:43 PM)chicoperro escribió: [ -> ]Yo no veo que en robots.txt tengas bloqueado nada, y el meta noindex nofollow no bloquea a los robots, simplemente le dice a google que los enlaces sean nofollow.
Bloquea lo que necesites en robots.txt y seguro que en unos días el contenido desaparece.
Yo entendía que ahora el robots lo había cambiado por otro para que se indexase la web, pero si el fichero robots ha sido siempre el que tiene ahora, entonces no busques más la solución!! ya te lo ha dicho @
chicoperro
No me he explicado entonces,
Hoy martes, he cambiado el robots.txt y la meta robots para que Google empezara a indexar porque hemos dado la web por finalizada, pero la página ya estaba indexada por lo menos desde hace una semana.
Pensé que se me había pasado y que lo había dejado abierto, pero no es así. Google ha pasado por encima del robots.txt y de la meta y me ha indexado el contenido... ¿es normal?
Pues no es lo más normal, yo le pase un sitemap a google con "directorios" que no podía ver porque el fichero "robots" lo bloqueaba, y me envió una alerta, diciéndome que no podía verlos por el fichero robots.
Yo entiendo que no es lo más normal, supongo que algo fallaría, de todas maneras Google tiene un "sitio" dónde puedes hacer pruebas en tiempo real de lo que ve o no el bot.
No es normal, si que puede ser que te indexe la url, pero si está bloqueada por robots.txt en google sale un mensaje en la descripción que dice que no puede mostrar el contenido porque está bloqueado, igual eso es lo que te ha pasado, no sé.
Consulta en Herramientas para webmasters de Google errores de rastreo actualiza sitemap y en la seccion Explorar como Google actualiza tu indice y tus url
debe indexarte
Yo he probado en varias de mis webs en wordpress bloqueando el acceso desde "Disuade a los motores de búsqueda de indexar este sitio" y no las indexa para nada