Respuesta rápida:

Para evitar que una nave espacial estalle. Sí, esto es solamente una exageración (o no) para atraer tu atención y que sigas leyendo.

Empecemos por el principio. Imagina que comienzas a explorar un montón de datos sobre los que no tienes ni idea. Quizás lo primero que hagas sea ver qué variables hay y de qué tipo son (numéricas, categóricas, cadenas de caracteres, etc.). A continuación, posiblemente calcules algunas medidas de estadística descriptiva para cada una de las variables, como los valores mínimos y máximos, la media o la varianza, entre otras. Más adelante querrás analizar las relaciones entre las distintas variables (análisis multivariante) para comprobar si dependen unas de otras. La forma más común de hacerlo es calculando el coeficiente de correlación de Pearson entre cada par de variables.

Bien, supón que entre tu montón de datos hay cuatro conjuntos, de dos variables cada uno (X e Y). Sigues el proceso descrito y ves que las X de los cuatro conjuntos tienen la misma media e igual varianza. Lo mismo sucede para las Y. La correlación entre X e Y también es idéntica para los cuatro conjuntos. Además, ¡la recta ajustada de regresión lineal también coincide! Ya te estarás haciendo a la idea de que tus cuatro conjuntos se deben parecer bastante… pues no… o al menos no tiene por qué. Los conjuntos representados en la siguiente imagen, denominados Cuarteto de Anscombe en honor a Francis Anscombe, cumplen todas las condiciones anteriores pero es evidente que no son tan parecidos como podía pensarse.

Visualizar Cuarteto de Anscombe

De aquí sacamos varias lecciones:

  • La primera, que es muy importante visualizar los datos (podía haber titulado el post “La importancia de visualizar los datos” para seguir con la mini-saga de posts anteriores). Mediante la visualización, ves de un vistazo, valga toda la redundancia, cómo están distribuidos tus datos y te ayuda a enfocar mejor los siguientes pasos del análisis. Eso sí, hay que escoger el gráfico apropiado en cada caso, entre barras, líneas, dispersión (scatter plot), histogramas, cajas (box plot), etcétera, etcétera…
  • La segunda, que a veces hay que ir más allá de la relación lineal entre las variables. Para ello, o bien se calculan medidas de correlación con otros métodos, como la distancia de correlación, capaces de ver más allá de la linealidad; o bien se transforma alguna de las variables, por ejemplo aplicando un logaritmo, para que la relación sea más lineal.
  • La tercera, que los outliers, esos puntos aislados y lejanos al resto que se observan en las dos gráficas inferiores, pueden afectar significativamente a los cálculos. En algunas ocasiones convendrá ignorarlos, si se deben a un error en la captura de datos, y en otras, habrá que tratarlos adecuadamente porque son relevantes para el problema abordado.

 

Vamos a salir del caso de “laboratorio” para demostrar que esto tiene trascendencia en la vida real, con un caso muy sonado de hecho. En enero del 86, el transbordador espacial Challenger estallaba poco después de su lanzamiento, acabando con la vida de los siete tripulantes.

Los ingenieros tenían registrados datos de mediciones y pruebas anteriores en tablas numéricas como estas:

Visualizar tablas del Challenger

U organizados en orden cronológico de las pruebas realizadas, como estos:

Visualizar histórico de pruebas del Challenger

Los ingenieros indicaron los riesgos que existían si se producía el lanzamiento a muy baja temperatura ambiente pero no fue suficiente para convencer a los que tenían que tomar la decisión. Posteriormente, Edward Tufte argumenta en un libro que el poder de persuasión habría sido mucho mayor si hubieran presentado la relación entre la temperatura y el riesgo en un gráfico como este:

Visualizar Scatterplot del Challenger

En el eje horizontal se sitúa la temperatura y en el vertical el daño producido en una de las piezas críticas del transbordador. Aunque no hay un gran volumen de datos, se puede ver la tendencia de que a menor temperatura, más daño y por tanto mayor riesgo. La temperatura del día del lanzamiento estaba en la franja indicada en la esquina inferior izquierda, muy por debajo de cualquiera de las pruebas realizadas.

Hubo gente que criticó a Tufte alegando que transmitía la sensación de que la culpa fue de los ingenieros, cuando en realidad ellos habían hecho sus recomendaciones oportunas. Aún más, dichos críticos aseguran que los ingenieros no disponían de todos los datos que tuvo Tufte después, y que éste incluso mezclaba algunos conceptos y se confundía ente las distintas temperaturas medidas. Sin entrar más en estas polémicas, lo que es innegable, es que una visualización como la de Tufte es mucho más potente que leer tablas de datos, texto escrito o números en cohetes.

Aunque normalmente no te vas a encontrar con situaciones tan críticas en tu día a día, no está de más tener presente la importancia de visualizar los datos, tanto para llevar a cabo mejores análisis como para presentar resultados y conclusiones.

Para cerrar, me quedo con una frase pronunciada (o no) por un mítico personaje que seguro reconoceréis:

“Tus datos visualizar debes”.            _ _ _ _

Atribución de las imágenes:

«Anscombe’s quartet 3» by Anscombe.svg: Schutzderivative work (label using subscripts): Avenue (talk) – Anscombe.svg. Licensed under CC BY-SA 3.0 via Wikimedia Commons – http://commons.wikimedia.org/wiki/File:Anscombe%27s_quartet_3.svg#/media/File:Anscombe%27s_quartet_3.svg

Las relativas al caso del Challenger las he tomado de la charla que dio Javier Cañada en el Databeers del 23/04/2015.