Big Data está lejos de ser infalible

Las continuas mejoras, avances y logros que se van alcanzando en el área de inteligencia artificial y aprendizaje automático no deben cegarnos hasta el punto de ignorar los riesgos de Big Data. Lejos de ser una tecnología fiable, lo que tenemos en estas noticias es algo que se conoce como el “sesgo del superviviente” y es que sólo se nos cuentan las historias de éxito, sin mencionar los numerosos fracasos que se han producido antes o después.

En las actividades de la escuela se mencionan a menudo debilidades de la tecnología Big Data, como puede ser la falta de control en la calidad de los datos o el uso de lenguajes como R que no hacen una comprobación estricta de la información que manejan. Un artículo de Ernest Davis enumera muy bien una serie de situaciones en las que rápidamente se han encontrado formas de engañar y falsear los resultados de sistemas Big Data.

Por ejemplo, la búsqueda “professional hairstyles for work” devuelve imágenes en las que dominan las personas de raza blanca, mientras que “unprofessional” lo hace con personas de raza negra. ¿El motivo? No tiene nada que ver con las preferencias de Google, sino con la forma en que los usuarios etiquetan sus publicaciones.

Más información en Newsday.