En PiperLab, empresa de Big Data y Data Science, llevamos desde el 2015 desarrollando soluciones basadas en datos, análisis, estadística y algoritmos que permiten dar respuesta a retos complejos de negocio. En todo este tiempo, nos hemos encontrado con proyectos que nos han permitido dar rienda suelta a nuestra capacidad de entender la información, de ser creativos y profundos a la hora de analizarla o para aplicar toda la batería de algoritmos de Machine Learning para modelizar distintos fenómenos y obtener la mejor solución posible.
Sin embargo, no es la parte técnica la que supone el mayor reto hoy en día. Abordamos más de 40 proyectos, en más de 25 clientes, gestionamos un equipo con 30 perfiles técnicos… en ocasiones, son proyectos completamente nuevos pero, en otras ocasiones, tienen similitudes con otros ya realizados; a veces, son proyectos con poca complejidad de datos y en otras ocasiones con una variedad de información tremenda; en otros, la infraestructura es muy estándar mientras que en otros es necesario manejar tal volumen de información que necesita de una componente de arquitectura muy fuerte. En definitiva, el reto a día de hoy es manejar la complejidad que supone un equipo grande de científicos e ingenieros de datos, un gran número de clientes y proyectos y, sobre todo, la gestión del conocimiento que se genera en los proyectos.
El reto a día de hoy es manejar la complejidad que supone un equipo grande de científicos e ingenieros de datos, un gran número de clientes y proyectos y, sobre todo, la gestión del conocimiento que se genera en los proyectos.
Cómo manejar grandes equipos y el conocimiento que se genera
Somos muy conscientes que esto no es algo que sucede en PiperLab exclusivamente. Sabemos que es algo que sucede a otras empresas de nuestro sector, equipos de data scientists de nuestros clientes e, incluso, empresas de desarrollo software o consultoría tecnológica más tradicional. De todos ellos, hemos oído frases como:
- “Queremos hacer un proyecto de segmentación de clientes. Sí, sabemos que ya se han hecho en otros departamentos de la compañía, pero no sabemos los detalles y tenemos que hacer uno nuevo.»
- “Tenemos un problema porque la persona que estaba haciendo un proyecto de Machine Learning se ha ido de la compañía y nadie del equipo quiere responsabilizarse para darle continuidad, por desconocimiento de lo generado y por no tener tracking de las decisiones que se han ido tomando.»
- “En nuestros procesos de desarrollo de proyectos con datos, no es sencillo validar o reproducir los resultados intermedios. En muchas ocasiones, parece que el software generado funciona y que los datos son razonables, pero es un proceso muy poco transparente.»
- “Es complicado gestionar la autonomía que requieren los data scientists con la estandarización del proceso de desarrollo de los proyectos de Machine Learning.»
Hasta ahora, estos riesgos, tanto de proyectos con clientes como internos, los mitigamos con metodología: tener una documentación adecuada en cada una de las fases del proyecto, una cierta estandarización de entornos y formas de despliegue de proyectos según la tipología, abstracción de ciertos componentes software reutilizables, etc. Pero, desde hace algún tiempo le damos vueltas a la siguiente pregunta: ¿puede la tecnología ayudarnos a resolver estos problemas? ¿Existen herramientas en el mercado que aborden toda esta problemática de una forma integral?
Esta reflexión la llevamos teniendo durante más de 2 años… y pronto contaremos cómo lo resolvemos en PiperLab ;)