En muchos proyectos de Datos retumban grandes palabras como Inteligencia Artificial, Big Data, Machine Learning… Pero ¿sabemos qué significa todo esto y el trabajo que hay realmente detrás del éxito de un caso de uso?

Lo más común en un proyecto es encontrar ingenieros de datos que, a partir de un origen, limpian y transforman la información en datos puros. Con ellos los científicos de datos convierten esa información en variables que puedan ser comprendidas por modelos matemáticos. Este proceso parece sencillo, pero por el camino se deben tomar muchas decisiones críticas que, en caso de resultar erróneas, podrían acarrear graves consecuencias e impactos imprevistos en el negocio. 

gráfico de análisis de datos

Entra en juego el Análisis de Datos. Gracias a él, podemos tomar estas decisiones de una manera informada, anteponiéndonos a las posibles consecuencias e incluso simulando el resultado final de cada una. También nos permite conocer el rendimiento de un caso de uso ya productivo y diagnosticar los fallos para detectar posibles mejoras. Si impacta entonces en todas las fases de un proyecto, ¿por qué parece ser el gran olvidado en los proyectos de Big Data?   

En PiperLab abogamos por el uso del análisis de datos como aliado en todas las etapas de un proyecto. Veamos un ejemplo de análisis de datos que aplica a sectores tan importantes como banca y seguros, telecomunicaciones o comercio digital: un proyecto de predicción de propensión a la compra de diversos productos y servicios.

Fase 1: Planteamiento del caso de uso

Los componentes del equipo técnico y de negocio se reúnen para comprobar la utilidad y el beneficio del mismo, así como para acotar los objetivos y definir métricas que permitan establecer el éxito o no del proyecto. Un científico de datos debe comprobar la disponibilidad de los datos necesarios para la creación de modelos y analizar las distintas alternativas para conseguir el mejor rendimiento.

En este punto, es necesario analizar la calidad de los datos, realizar análisis exploratorios para la creación de variables… Aquí también se puede plantear la creación de grupos de control para ver el efecto de recomendarle a un cliente un producto u otro, y se debe establecer un volumen de dichos grupos según la confianza obtenida de la predicción. Se puede establecer, dada toda la información anterior, un umbral mínimo de rendimiento que debería alcanzar un modelo para ser considerado “bueno”. 

Fase 2: Creación de modelos

El científico de datos utilizará las variables para entrenar y validar el modelo. En este punto es sencillo observar los
resultados más técnicos: precisión, recall, AUC… pero es muy importante saber cómo se va a usar en la realidad y validar el rendimiento también en base a ese escenario.

Un análisis de datos adicional podría responder a las siguientes preguntas:

¿Mi modelo ha sido entrenado con clientes parecidos a los que voy a aplicarlo? ¿El rendimiento sigue siendo bueno si tengo en cuenta el volumen de clientes sobre los que voy a actuar? ¿Cómo de sensible es mi modelo a cambios en el precio de la cuota de los clientes?  

Fase 3: Monitorización de modelos

Hemos llevado a cabo los pasos anteriores y ya tenemos un modelo de propensión a la compra en producción. ¿Cómo podemos saber si está funcionando como esperábamos? Es de vital importancia llevar a cabo un seguimiento de los modelos productivos, que puede realizarse de forma manual a través de análisis puntuales, o de forma automática mediante la programación de monitorizaciones en base a ciertas métricas a vigilar. Por ejemplo, podríamos querer seguir la cantidad de clientes a los que el modelo recomienda cada producto semanalmente, o cómo de precisa es la predicción según el tiempo que pasa hasta la compra, o ver si existe un producto que sea especialmente atractivo para cierta tipología de clientes… entre muchas otras cosas.

Como se puede apreciar, en el trabajo de un científico de datos se debe dedicar una gran parte del tiempo a la realización de análisis, que aportan insights muy relevantes sobre el caso de uso, ayudan a detectar fallos y a mejorarlo de una manera segura y continuada.

El análisis de datos es la piedra angular de todo lo que hacemos, lo que da sentido y es capaz de responder preguntas concretas de negocio. Por ello, en PiperLab siempre apostamos por realizar análisis de datos exhaustivos en cada proyecto que realizamos. 

Categories: Datos / Tags: , , /