Otra vez lo del ‘petróleo del s.XXI’

Una de las frases que se suelen repetir hasta la saciedad en el mundo Big Data es que los datos son el petróleo del siglo XXI, reflejando el valor que tienen para las compañías, tanto para mejorar procesos de negocio como para crear nuevas líneas de negocio, a través de la comercialización de la información que generan o incluso por generar nuevas líneas de negocio con ellos. Pero esta no es la única analogía entre el oro negro y los datos que se nos pueden ocurrir.

Desde que el petróleo se encuentra bajo tierra, aproximadamente entre 900 y 7.000 metros de profundidad, hasta que llega a nuestras gasolineras en productos derivados, se sigue un proceso muy complicado, cuyos pasos a alto nivel tienen mucho que ver con lo que sucede con los datos dentro de las compañías. El primer paso consiste en la perforación de la tierra hasta conseguir penetrar en los niveles en los que se encuentra el material deseado y el uso de bombas de balancín (la imagen que seguramente se nos viene a todos a la mente cuando hemos visto en películas torres de perforación) para extraer el petróleo en bruto. Lógicamente, este material recién extraído no es consumible y utilizable en aplicaciones reales por lo que requiere de un proceso posterior. Típicamente, este material es almacenado en unos estanques que contienen el material para que, posteriormente pueda ser llevado, normalmente en grandes buques mercantes, a distintas partes del mundo, donde se refinará.

El refinado del petróleo es el proceso químico, (simplificando mucho, una destilación) que nos permite pasar de un material bruto y no consumible a algo que se compenetra bien con los distintos motores que pueden consumir los productos derivados, generando en el proceso diferentes subproductos como queroseno, gasolina, gas licuado,.. entre otros. Finalmente, estos productos son llevados, según el uso que les vayamos a dar, a los distintos puntos de consumición.

Cuando hablamos de proyectos Big Data, entendiéndolo como aquellos donde buscamos organizar la información, gobernarla y disponibilizarla para toda la compañía, el proceso es similar al de la extracción del petróleo, con una serie de decisiones clave

Con los datos sucede lo mismo: en primer lugar, en muchas compañías, pensar en crear un repositorio de datos en la organización requiere una primera fase de prospección, para saber dónde están los datos que me interesan, en qué fuentes, internas o externas, e identificar cómo pudo conectarme a ellas. Muy a menudo, las compañías tienen que sumergirse en las profundidades de sus sistemas operacionales y herramientas para llegar al dato, no pensado para ser consumido por analistas de negocio o data scientists, sino en bruto y, demasiado frecuentemente sin interoperabilidad y entendimiento entre distintas fuentes. El primer objetivo es extraer esa información y ubicarla en una primera capa de nuestro repositorio analítico de información que, en los últimos años, toma la forma de un Data Lake en las compañías. Este dato es como el petróleo recién salido de la tierra, ya lo tenemos ahí, pero no es apto todavía para ser consumido. A la hora de crear nuestro repositorio de datos, tenemos que establecer determinadas normas que permitan el entendimiento futuro de los datos: formatos, identificadores, semántica de los datos,… en definitiva, tenemos que llamar a cosas que son iguales de la misma manera para posteriormente facilitar el análisis de la información. Este es un primer proceso de refinamiento, una destilación como la del petróleo, que nos permita, sin cambiar la lógica de la información, facilitar el análisis posterior. Por último, tenemos que buscar la mejor manera de llevar el dato a nuestros consumidores, en qué gasolineras tenemos que poner nuestros datos, para que estos sean aprovechados por todos los niveles de la organización. Aquí entrará en juego no solamente aspectos tecnológicos que implementar, sino las capacidades técnicas de los distintos equipos y la forma en que los datos pueden ayudarles a conseguir sus objetivos del día a día.

Cuando hablamos de proyectos Big Data, entendiéndolo como aquellos donde buscamos organizar la información, gobernarla y disponibilizarla para toda la compañía, el proceso es similar al descrito, con decisiones clave que tomar en el proceso:

  1. Elección de los datos que vamos a incorporar: siempre es tentador pensar en subir todos los datos posibles pero quizás no sea lo más práctico. Buscamos el mínimo conjunto de datos con el que podemos empezar a desarrollar proyectos de análisis de datos y machine learning, para minimizar el time to market de todo el proceso.
  2. Capacidades y roles: debemos pensar en las capacidades técnicas y tecnológicas de la compañía y, a partir de ello, diseñar la forma de consumir la información de acuerdo a estas capacidades o a las nuevas que queramos generar.
  3. Tecnología: acertar en la elección de las tecnologías involucradas en el proceso es clave para que un repositorio de estas características no solamente funciones cuando acabe el proyecto, sino que sea escalable y perdure en el tiempo.
  4. Sensibilidad: no consiste solamente en disponer de mucha información sino el disponer de buena información. Pensar en las aplicaciones futuras desde el primer momento ayuda a discernir cómo hacerlo de manera sensata y en que los datos tengan ese entendimiento, independientemente de la fuente de la que provengan.

En PiperLab tenemos una metodología clara para abordar los proyectos de creación de infraestructuras Big Data, tratando de ser ágiles la construcción de las mismas, y buscando obtener valor para el cliente desde el primer día

Esta es la manera de abordar los proyectos de creación de infraestructuras Big Data que tenemos en PiperLab, intentando ser ágiles en la construcción de las mismas, incurriendo en costes controlados para nuestros clientes y buscando obtener el valor desde el primer día. ¿Estás preparado para extraer el petróleo de tu compañía?

 

Deja tu comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Alejandro Llorente

Autor: Alejandro Llorente

Co-Fundador & Data Scientist en PiperLab