¿Os acordáis de José Luis? Nos lo presentaba Jaime en este post y le explicaba de forma genial cómo podría explotar los datos de su empresa. Si ya eso le parecía sorprendente a José Luis, alucinaría si le planteamos que puede obtener más valor dando un paso más y teniendo en cuenta información externa; datos externos, como el calendario, la meteorología o la actividad en redes sociales, entre otras muchas posibilidades. Ahondemos un poco más en el asunto.

¿Por qué son importantes los datos externos?

Vamos a verlo empezando con un ejemplo sencillo. Imaginemos que estamos analizando el coSol - Helado. Datos externosmportamiento de la gente a lo largo del año. Seguramente observaremos que en verano se comen más helados y también que se usa menos ropa y prendas más cortas o bañadores. ¿Significa esto que cuando comes helado te entran unas ganas locas de quitarte la ropa o que después de quitarte una sudadera lo primero que dices es “¡Voy a comprarme un helado!”? Pues quizás a alguien le ocurra pero no es así en general.

Se puede decir que el consumo de helados y el uso de prendas cortas están correlacionados pero ¡OJO!, esto no quiere decir que una sea la causa de la otra. Que correlación no implica causalidad es un hecho bien conocido, lo cual no es impedimento para que “haya que decirlo más”, como propone este post, que te ilustra a la par que te entretiene. No os confundáis porque en la URL no aparezca el “no” ;).

Seguro que a estas alturas ya estaréis pensando que si en nuestro análisis hubiéramos incluido la variable externa temperatura, habríamos observado que también está altamente correlacionada con las dos anteriores y podríamos concluir que lo más probable es que la explicación del aumento del consumo de helados y el uso de prendas cortas sea que hace más calor.

Fácil, ¿no? Pues aunque sea un ejemplo sencillo, como prometí, a toro pasado todo se ve, justamente, más fácil. No obstante, el hecho de que las conclusiones suenen totalmente lógicas o puedan parecer evidentes, no quiere decir que lo fueran a priori.

Quizás por este motivo haya gente que afirma que el Big Data y el análisis de datos no le han enseñado nada que no supiera. Si no tenían otras evidencias, yo les diría que antes lo que hacían no era “saber”, sino “intuir o creer” y que los datos les aportan la prueba o al menos un refuerzo de que eso es así. Además, les diría que si algún estudio (que esté correctamente hecho, claro) contradice las ideas que tenían a priori, tendrían que estar dispuestos a cambiar de opinión.

También puede ser que no les hayan presentado nunca resultados tan originales como el que se presenta en este artículo, en el que nuestro compañero Alejandro, junto a otros colegas, explican cómo se puede estimar con bastante precisión el paro en las regiones de España a partir de datos extraídos de una red social como Twitter. Estos datos no figuran entre los que disponen normalmente las administraciones públicas u organismos encargados de realizar estudios de paro. Por tanto, se puede decir que son datos externos al problema original pero revelan claramente su valor cuando se incorporan hábilmente al análisis.

Si nos quedamos solamente con las conclusiones a nivel cualitativo, seguirá habiendo gente que no le dé la importancia que tiene por lo que comentaba anteriormente (aunque en realidad nunca se les hubiera ocurrido previamente que pudiera existir una relación así). Sin embargo, a esas conclusiones se llega mediante fuertes análisis cuantitativos, que no solamente producen dichos resultados, sino que permiten crear modelos estadísticos concretos.

Con dichos modelos se puede hacer algo que estoy seguro que nadie puede “saber” a priori con certeza y es cuantificar en qué medida un aumento de temperatura repercute en un aumento en las ventas de helados, siguiendo con el ejemplo anterior. Aún más, de una variable como la temperatura se tienen previsiones bastante precisas de su comportamiento en los siguientes días o semanas. Esto permite, aplicando el modelo, anticipar con bastante precisión el comportamiento de las ventas de helados o la variable que estemos analizando en cada momento.

Back view of businessman drawing sketch on wall

Para atar los últimos cabos, nos queda por citar el calendario, de las tres fuentes externas que destacaba al comienzo. Alguien podrá decir que, por mucho calor que haga, si no estás de vacaciones no tomas tantos helados. Pues puede ser, así que también podemos incorporar esta información a nuestros modelos, cuantas más variables (relevantes) mejor. Eso sí, también pueden estar correlacionadas entre ellas y la cosa se va complicando… ¿Te ayudamos?

¿De dónde obtenerlos?

No siempre es fácil encontrar bases de datos externas para incorporar a tus análisis. Aquí os dejamos unos pocos enlaces que esperamos que os resulten de interés:

  • En esta página figuran a su vez enlaces a 7 fuentes de datos gratuitas de primer nivel. Por mencionar dos de ellas, está el portal de datos abiertos de la Unión Europea, en el que se incluyen datos relativos a diversos sectores: trabajo y empleo, asuntos sociales, economía y finanzas, comercio, educación y comunicación, industria, tecnología e investigación. También encontramos la “Graph API” de Facebook, que permite acceder a información pública sobre usuarios, grupos, páginas, links compartidos en esta red social, etc.
  • Podrían haberse incluido en la página anterior las APIs REST y Streaming de Twitter. Con la primera se puede acceder a información ya almacenada y con la segunda se puede monitorizar en tiempo real el flujo de nuevas publicaciones que cumplan ciertos criterios.
  • La versión nacional del portal europeo de Open Data lo encontramos en la página de DatosGob.
  • En los Boletines Oficiales del Estado o los distintos niveles de administración autonómica y local, se puede encontrar información de los calendarios laborales. En función del problema abordado, hay que codificar de forma inteligente esta información para integrarla con tus datos de forma práctica.
  • Se puede encontrar información meteorológica, por ejemplo, en el portal de la AEMET.
  • Por último, y por destacar que no solamente organismos públicos o empresas como Facebook o Twitter, que por su propia naturaleza y desde sus comienzos viven de la información que recopilan de sus usuarios, vemos que BBVA empieza a ofrecer APIs de acceso a sus datos. ¡Que nadie se alarme!, estarán lo suficientemente agregados para que no permitan la identificación de individuos.

Si conoces otras fuentes y quieres compartirlas, déjanos un comentario.

Open Data - Fuentes de datos externos

 

¿Cómo te podemos ayudar?

Los datos de tu empresa son (seguramente) muy abundantes y, desde luego, muy valiosos pero los datos externos, aprovechados sabiamente, te pueden ayudar a entenderlos y explotarlos aún mejor.

En PiperLab conocemos el valor que puede aportar esa información externa y cómo extraerlo. De hecho, hacemos constantes referencias a ello además del presente post dedicado. En nuestra web decimos desde el comienzo: “Cruzamos datos, tuyos o externos a tu empresa, y…”.

También Maite nos decía en su post, en referencia a los consumidores: “Combinando estos datos [los que disponga la empresa de la que son clientes] con su perfil, intereses, actividad y repercusión en redes sociales, la meteorología o el tráfico, la existencia de eventos concretos o la estacionalidad del año, podemos analizar cómo todo esto influye en sus impulsos de consumo.”

Si crees que te podemos ayudar, contáctanos.

Si quieres leer más sobre el uso y el valor de los datos externos y abiertos, lee este post: