5 críticas al empleo del Big Data

30 junio, 2014 by in category Técnicas cuantitativas tagged as with 2 and 0
Home > Noticias > 5 críticas al empleo del Big Data

La aparición de nuevas técnicas para llegar a cabo investigaciones suele ir acompañada de la promesa de infalibilidad en su capacidad de generar insights. Ya sea a través de los medios de comunicación, o amparándose en “embajadores” encargados de darlas a conocer, las nuevas tecnologías de investigación se convierten en tendencias a las que uno no puede dar la espalda.

Fijémonos en el caso del Big Data… un ejemplo claro de cómo, pese a su relativamente incipiente aplicación en el ámbito de la investigación comercial, una técnica ha llegado a calar hondo en las conversaciones que mantienen los investigadores, sobre todo en el contexto online. Pero, ¿realmente es infalible, el Big Data? Quizás no sea la técnica lo importante… sino el uso que de ella se hace.

En un reciente artículo publicado por The New York Times, Gary Marcus y Ernest Davis esgrimieron algunas razones para hacernos dudar acerca de la capacidad del Big Data para proporcionar información útil en el proceso de toma de decisiones empresariales. Aquí van estas críticas:

1. Correlaciones casuales (que no causales): las grandes muestras que caracterizan el Big Data son especialmente efectivas en el momento de encontrar correlaciones entre hechos u acontecimientos. Pero estas correlaciones no tienen por qué estar fundamentadas en una causa-efecto o en una asociación de variables mediada por una tercera variable. Pueden ser debidas, simplemente, a la casualidad. Un ejemplo obvio: si alguien analizara bases de Big Data sin aplicar el sentido común o sus conocimientos científicos, podría llegar a la conclusión que existe una clara relación positiva entre el gasto público en I+D y la cantidad de suicidios llevados a cabo según la técnica del ahorcamiento.  De buenas a primeras, no se me ocurriría ninguna hipótesis capaz de explicar satisfactoriamente dicha correlación… En este link podrás encontrar una página en la que Tyler Vigen presenta correlaciones absurdas que ha detectado mediante análisis de Big Data.

En este caso los investigadores podemos aportar luz a estos datos gracias a la experiencia acumulada en estudios sociológicos y de mercados, al conocimiento de las personas y de su comportamiento.

2. La medida orienta el comportamiento: Existe software de Big Data que sirve para puntuar los ensayos académicos de los alumnos… no he vista nunca nada de esto, pero se ve que sí funciona en Estados Unidos. Después de analizar cantidades ingentes de información, a través del Big Data se llegó a la conclusión que las variables que mejor se correlacionan con una buena nota son la longitud de las oraciones y el abanico de léxico empleado… ¿Resultado? Los alumnos, lejos de intentar crear textos coherentes, ricos en cuanto a exposición de ideas, pretenden satisfacer los deseos del algoritmo: crea frases largas y con muchas palabras raras. Seguro que así te sacas la asignatura. Otro ejemplo de ello es el Google bombing o el spamdexing, métodos para conseguir un buen posicionamiento SEO en los buscadores.

Este es otro ejemplo de que no podemos dejar en manos del Big Data, la inteligencia artificial, el análisis semántico… aquellas tareas que necesitan de la interpretación humana, ya que el funcionamiento a través de patrones lógicos siempre deja una vía a aquellos que buscan alcanzar un objetivo de formas menos meritorias u honestas. Por otro lado, sí que pueden ser grandes herramientas de apoyo que faciliten el trabajo humano del analista.

3. Poca solidez de los resultados: un claro ejemplo de ello es la poquísima precisión con la que Google Flu Trends, una herramienta de Big Data, ha predecido el esparcimiento del virus de la gripe entre la población norteamericana: sobrestimó en gran medida el número de pacientes que sufrirían esta enfermedad. Quizás aquí el problema real no sea el empleo del Big Data… sino del uso que de ello se hace. Haber construido un algoritmo más preciso y eficiente, fundamentado en una teoría robusta, hubiera podido evitar este descalabro.

4. Efecto echo-chamber: Se trata de una espiral viciosa ascendente en la que se reproducen, en cada etapa con más vigor, los errores del pasado. El Big Data analiza, en la gran mayoría de veces, la información disponible en la red que es, el mismo tiempo, una fuente per se de Big Data. Supongamos el ejemplo de Google Translate que, a través de analizar en paralelo los mismos textos en diferentes lenguas, llega a descubrir los patrones de utilización de las mismas. En el caso de lenguas minoritarias, sin embargo, se puede dar el caso que se reproduzcan artículos en Wikipedia utilizando el propio Google Translate. Un error inicial en la traducción infecta Wikipedia… mientras que Google Translate, posteriormente, habiendo analizado el contenido de Wikipedia, refuerza el error y se orienta hacia una traducción siempre equivocada del texto en cuestión.

5. Poca profundidad de los datos menos comunes: Emplear Big Data puede ser muy útil cuando se analizan patrones de comportamiento comunes entre la población… pero su capacidad de generación de insights se ve muy reducida cuando de lo que se trata es de descubrir patrones poco comunes o que están empezando a generar una corriente de viralidad. Marcus y Davis ponen el ejemplo de los trigramas: secuencias de tres palabras en una misma línea de texto, base a partir de la cual los software de traducción realizan su tarea. Un trigrama poco utilizado entre los internautas puede llevar, por parte de Google Translate, a deducir traducciones erróneas de los contenidos traducidos.

Algunos de estos problemas en el empleo del Big Data totalmente superables: de su utilización y de sus fracasos se puede aprender cómo mejorar los algoritmos, cómo evitar que los actores “jueguen” con las reglas de los robots para conseguir los outputs deseados (de hecho, hace ya tiempo que Google lucha contra el spamdexing o el Google bombing). Pero difícilmente el Big Data superará el primero de los errores expuestos: sin la mano del científico que interprete adecuadamente la información, el Big Data no sirve de nada. El Big Data es un apoyo para el investigador y no el agente investigador en si mismo.

Fotografía: infocux Technologies

2 Comments

  • Joan Carles
    on 3 julio, 2014 Responder

    Todo lo comentado es cierto y un indicio claro de que sin inteligencia el aumento de potencia en las herramientas aumenta la estulticia de los resultados.

  • jsalos
    on 4 agosto, 2014 Responder

    El gran Big Data es el propio Universo, se puede fantasear mucho pero hasta que una hipótesis no se verifica de forma independiente, la conclusión no es válida.
    Pero claro nos gustan las explicaciones fáciles. Antes de que se pusiera de moda el big data ya se habia puesto de manifiesto la gran «correlación» entre el cáncer y el consumo de patatas.

Add comment

© 2019 Empirica Influentials & Research