(20-02-2015, 07:52 PM)dislikeit escribió:Cita:Sí, ya había leído ese artículo, aunque realmente no me convence la hipótesis de que usen las IPs de los usuarios en activo ya que he probado a usarlo en local y no ha habido baneos por parte de Google.
No recuerdo ahora en qué lugar estaba la opción de guardar en un fichero al vuelo pero sé que se podía hacer con ambos programas, o incluso con cualquier otro scrapper de proxies públicos listados como el que comentas.
Por cierto, deberías echarle un ojo a Scraper Bandit si no lo conoces, el primer scraper en la nube.
Suena muy "descarado" es cierto, pero no sería la primera vez que lo hacen, como por ejemplo el JingLing.
Echa cálculos @Peisithanatos : 100k URLs por minuto por cliente. Partimos de la base de que es cierto lo que nos dicen y que solo usan un proxy por consulta. Eso requiere 100k Proxies únicos por cliente por minuto!
Puede que le metan algo extra para evitar que G banee las IPs, puede que hagan las consultas enviando cabeceras distintas cada vez... ¡Quién sabe!
En cuanto a guardar los proxies cada x tiempo en los GSAs, yo nunca he visto esa opción, pero eso no significa que no esté escondida en un lugar recóndito! Vamos que creo que le voy a mandar un MP a Sven en el foro de GSA para que lo implemente, si al final no está, o si lo quitó en alguna actualización (qué también puede pasar), jajajaja :p
Si usas scrapeadores de proxies públicos, yo los que he probado te permiten guardar al vuelo los resultados en su versión de pago, pero seguro que hay alguno que lo hace en su versión gratuita. También es importante trabajar con uno que no sólo te encuentre proxies públicos, sino también semi-privados.
En cuanto al Scraper Bandit suena bien el concepto, habrá que probarlo a ver qué tal se porta bajo presión, si ya tienes datos/estadísticas concretos se agradece si los puedes compartir
Yo en realidad pienso que mienten en lo que es la fuente de los proxies y en realidad no se trata de servers scrapeadores de proxies abiertos sino backconnect proxies, un poco al estilo de Microleaves o Proxy Bandit, ya que los chinos son la élite en temas de hacking.
En cuanto al Scraper Bandit, no tengo ahora los datos, pero es más rápido que GScraper, y más cómodo de usar claro está. Lo único que todavía no tiene tantas opciones como los scrappers de escritorio en lo referente a geolocalización, uso de footprints avanzadas y demás. Pero promete.