Cuando hablamos de Open Data, o datos abiertos, nos referimos a datos públicos de acceso libre, que en muchos casos son datos publicados por organizaciones gubernamentales sobre diferentes aspectos de la sociedad y economía de un país. Aunque también existen datos de acceso libre publicados por entidades no gubernamentales, como instituciones académicas. 

Gobiernos como fuentes de datos

En este post nos vamos a centrar en los datos abiertos gubernamentales y su función en los proyectos de Data Science que realizamos en PiperLab. Las empresas, como todo lo que nos rodea, no son entes aislados que se valen de sí mismos para realizar sus funciones, sino que existe una interoperabilidad con la sociedad y otras entidades. Esta interoperabilidad implica que hay un contexto ajeno a la empresa que tiene un efecto en sus funciones y resultados, y que es necesario capturar o representar si queremos comprender y anticipar las posibles situaciones a las que nos enfrentemos en el futuro. 

Una de las principales fuentes capaces de proveer este contexto externo son los gobiernos que actúan como entidades centralizadoras de datos por sus funciones. Las organizaciones gubernamentales tienen acceso a datos tanto de los residentes como de las empresas que residen u operan en el país, y, además, sus decisiones influyen en el contexto de todos ellos.  

Por ejemplo, los días festivos a los diferentes niveles gubernamentales (nacionales, autonómicos y locales), tienen un impacto directo en la producción de bienes y servicios, lo cual es importante cuando vamos a llevar a cabo un proyecto de previsión de demanda. Otros datos relevantes para proveer de contexto pueden ser: la renta por hogar en diferentes áreas, el gasto medio por hogar en diferentes categorías, el PIB, la localización de servicios públicos en la zona, el nivel de paro, la creación o destrucción de empresas y muchos otros datos más. 

Una de las principales fuentes capaces de proveer este contexto externo son los gobiernos que actúan como entidades centralizadoras de datos por sus funciones. Las organizaciones gubernamentales tienen acceso a datos tanto de los residentes como de las empresas que residen u operan en el país, y, además, sus decisiones influyen en el contexto de todos ellos.  

Pero, aunque sean datos públicos de acceso libre, no significa que sea fácil acceder a ellos. En general no hay una centralización de la información a nivel gobiernos, sino que cada entidad gubernamental tiene sus propias publicaciones de datos. El INE (Instituto Nacional de Estadística) posiblemente sea la entidad en España más transversal, pero luego cada ministerio tiene sus propias publicaciones de datos que, en muchos casos, no están recogidas por el INE.  

En PiperLab llevamos desde nuestros inicios incorporando está información a nuestros proyectos. Tras mucho esfuerzo dedicado en buscar, organizar y preparar este OpenData, hemos creado un repositorio dónde disponemos de forma centralizada de información actualizada y normalizada de diferentes entidades gubernamentales de España.  

OPEN DATA, by PiperLab 

Este repositorio recoge la información más utilizada en nuestros proyectos: festivos de España a todos los niveles gubernamentales, datos de renta media por hogar, indicadores de consumo y de precio de la vivienda, datos sociodemográficos, de paro, estadísticas sobre sociedades mercantiles, entre otros. 

En PiperLab llevamos desde nuestros inicios incorporando está información a nuestros proyectos. Tras mucho esfuerzo dedicado en buscar, organizar y preparar este OpenData, hemos creado un repositorio dónde disponemos de forma centralizada de información actualizada y normalizada de diferentes entidades gubernamentales de España.  

La columna vertebral del repositorio es una jerarquía geográfica que unifica la división gubernamental de sección censal, municipio, provincias y comunidades autónomas con los códigos postales y un nivel adicional que indica la isla en los casos de las Islas Baleares y Canarias. Esto facilita la relación de datos emitidos por el gobierno (sección censal) con la información normalmente disponible en las empresas (Códigos Postales). 

Mejorando la disponibilidad de datos

Este repositorio también intenta paliar la disponibilidad de datos a todos los niveles geográficos o temporales. Para ello se realizan conversiones tanto de nivel (agregación y desagregación) como temporal (proyección) cuando es posible. Por ejemplo, los datos de renta por hogar o per cápita se actualizan en base al IPC cuando no están actualizados. 

Finalmente, toda la información se almacena normalizada en un esquema indexado por id geográfico, variable (por ejemplo, Renta), subvariable (por ejemplo, renta media hogar), valor y unidad; y particionada por año y nivel geográfica. 

Recientemente hemos añadido un nuevo punto de acceso a esta información mediante el desarrollo de una API que permitirá incluir procesos de actualización de información en la puesta en producción de los desarrollos, reduciendo el factor humano en los procesos en producción. 

El desarrollo de este repositorio nos ha permitido disponer de la información para nuestros proyectos y clientes de una forma rápida y sencilla, liberando al data scientist de repetir trabajo que otros han hecho previamente, unificando la información de contexto que se utiliza en los diferentes proyectos y reduciendo los tiempos de desarrollo de los mismos. 

Categories: Open Data / Tags: , /