Perlitas De Scraping

Hace unos días un amigo me mandó un link a este artículo del New York Times que habla de un reciente "blooper" de la bolsa a causa de un error en el algoritmo de scraping de Google News que hizo caer el valor de United Airlines unos mil millones de dólares.

La típica expresión en estos casos es: "Whooops!" :)

Y es que hay que tener cuidado con lo que se escrapea. El problema con Google News es su propia escalabilidad, ya que en definitiva no es más que el buscador de Google ligeramente modificado estéticamente y funcionalmente (en cuanto al algoritmo de crawling y scraping) y restringido a ciertos sitios. Algo muy similar a lo que es el Google Blog Search para los blogs. La gran diferencia es que, tanto para el buscador principal como para el Blog Search, este tipo de "bloopers" pasan desapercibidos. Quién no ha visto alguna página totalmente irrelevante colarse en los resultados de búsqueda de Google?. Pasa todo el tiempo, y nadie pierde mil millones por eso :).

Pero con Google News es diferente, porque la calidad importa mucho más, y ésta se ha venido sacrificando a costa de la escalabilidad.

Por eso Froogle (ahora Google Product Search) nunca progresó mucho como servicio, ya que los sitios de "Shopping Aggregation" tienen los mismos requisitos de calidad, y Google se enfoca en escalabilidad, que es lo mejor sabe hacer.

Pero bueno, Google es asi. Tiene muchos proyectos, algunos germinan, otros se secan, y otros quedan es un estado latente intermedio, como es el caso de Google News o Google Product Search actualmente.