El ciclo de vida de los datos: las 5 fases para llevar a éxito un proyecto de Big Data

En muchas ocasiones, las organizaciones son conscientes del valor que tienen los datos que generan, pero la mayoría de ellas no han realizado análisis en profundidad de cuál es la mejor estrategia para extraer todo su valor.

En PiperLab ayudamos a nuestros clientes a definir y a aterrizar su estrategia de Big Data y Data Science, lo que les permite visualizar toda la cadena de valor del dato, desde su generación hasta su explotación final.

Pero, ¿qué fases son estas? Nosotros identificamos el ciclo de vida de los datos en 5:

  1. Detección y análisis de fuentes de información

Si comenzamos a analizar las fuentes de información, las primeras pregunta que nos hacemos son: ¿están identificadas? ¿Cómo se puede extraer la información de esas fuentes? ¿Cuánto volumen generan?

La generación de los datos puede tener muchísimos orígenes diferentes. En PiperLab somos reutilizadores de todas las fuentes de datos posibles que nos podamos imaginar: datos internos de las empresas procedentes de sus sistemas de gestión, datos procedentes de sensores (todo lo relacionado con IOT), datos de RRSS, datos abiertos procedentes de AA.PP….

Si nos centramos en la semántica de la información: ¿hay solapamiento entre fuentes de información? ¿es posible rastrear una unidad de información en todas las fuentes?, si nos centramos en la parte de la monetización de los datos puedo preguntarme: con la información que genero y recojo, ¿qué otros servicios podría dar a mis clientes? ¿qué otras líneas de negocio basadas en datos podría desarrollar?

En PiperLab ayudamos a nuestros clientes a definir y a aterrizar su estrategia de Big Data y Data Science, lo que les permite visualizar toda la cadena de valor del dato, desde su generación hasta su explotación final.

2. Almacenamiento y Organización de los Datos

En esta primera fase desde PiperLab comenzamos la puesta en marcha de Data Lakes. Un Data Lake Analítico es un entorno de datos compartidos en su formato original que comprende múltiples repositorios y aprovecha las tecnologías de Big Data, generalmente, a través de infraestructura en la nube. Un data Lake es capaz de proporcionar datos a la organización para una gran variedad de procesos analíticos diferentes. El objetivo es que los datos se almacenan en “crudo” para ser en el momento de realizar análisis sobre ellos cuando se procesan y se aplican las transformaciones necesarias. Esto permite crear repositorios con grandes volúmenes de información sin invertir mucho tiempo en estructura, construyendo repositorios de información automatizados, accesibles, disponibles y consumibles para toda la organización.

En PiperLab cubrimos desde la definición de la arquitectura del sistema y su diseño, hasta la implementación de los procesos de ingesta de información, su automatización y su mantenimiento. También generamos todo el ecosistema necesario de analítica alrededor del Data Lake

 

3. Pre-procesado y Calidad del Dato:

En la fase de preprocesado y análisis de calidad del dato hacemos dos labores fundamentales:

  • Por un lado todo lo que tiene que ver con la Quality Assurance , es decir, conocer la calidad de nuestros datos desde el punto de vista técnico (formatos, completitud, disponibilidad, integridad de fuentes, etc.)
  • Por otro lado, hacemos un análisis descriptivo: entender el pasado en profundidad para comprender cuáles son los factores que más influyen, tanto internos como externos. Los análisis descriptivos se abordan tanto desde una perspectiva numérica y estadística, como desde un enfoque de representación gráfica de los datos para facilitar la inspección visual de la información y evolución temporal. El objetivo es entender cómo están distribuidas las variables, cómo se comportan los data sets, o cómo se relacionan unas variables con otras.

4. Analítica Predictiva y Prescriptiva

La analítica predictiva y prescriptiva pretende anticipar lo que ocurrirá (predictiva) para proporcionar alternativas de actuación sobre esta previsión (prescriptiva). Es en esta fase donde los algoritmos de Machine Learning e Inteligencia Artificial entran en juego ya que son capaces de aprender de todos los históricos de información para abordar objetivos concretos. En particular, podemos abordar proyectos de analítica predictiva como modelos de clasificación, modelos de regresión, modelos de segmentación o modelos de recomendación.

Una vez tenemos el output de los modelos predictivos, queremos plantar qué acciones son las mejores a tomar, desarrollando con ello proyectos de analítica prescriptiva. Para ello, llevamos a cabo dos tipos de soluciones: algoritmos de optimización y escenarios “what-if”, para crear simulaciones sobre las previsiones y prescripciones generadas de forma que podamos medir el impacto .

5. Explotación de resultados

La explotación de los resultados de los análisis la adaptamos a las necesidades de cada cliente o conjunto de usuarios siempre con el objetivo de que se apliquen en el día a día de nuestros clientes. Esta explotación de resultados puede ser a través de informes interactivos, herramientas de visualización, ficheros de integración o soluciones integradas.

En definitiva, hacemos un análisis completo de todo el ciclo de vida de los datos para identificar en qué fase se encuentra cada negocio, y a partir de la detección de dicha fase, comenzamos a trabajar para aportar valor a nuestros clientes.

Y tu empresa, ¿en qué fase se encuentra?

 

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Maite Gilarranz

Autor: Maite Gilarranz

Co-fundadora de Piperlab