(Con la publicación de este post, Rosa Elvira Lillo, catedrática de estadística en el departamento de estadística de la UC3M, y directora de IBiDaT (Instituto de Big DATA UC3M-Santander) y Rubén Cuevas, profesor titular del departamento de ingeniería telemática de UC3M y subdirector de IBiDAT, colaboran con el proyecto «Ingeniería Genética para pacientes con leucemias y linfomas» a través de la plataforma Precipita de la Fundación Española para la Ciencia y la Tecnología)
El desarrollo de nuevas tecnologías para el almacenamiento y procesado de datos masivos, ha permitido la generación de nuevas técnicas de analítica de datos en el ámbito del Machine Learning e Inteligencia Artificial, que ha conducido a que el fenómeno, comúnmente conocido como Big Data, adquiera una gran relevancia por lo halagüeñas que son las soluciones que proporciona.
Deep Learning
Una de estas técnicas, que tiene una inspiración grande en desarrollos teóricos sobre Redes Neuronales de los años 50, es lo que se conoce hoy como Deep Learning (Conocimiento Profundo). Estas redes están formadas por varias capas de neuronas que tratan de emular el comportamiento de las neuronas del cerebro. Las técnicas Deep Learning, son a nivel teórico Redes Neuronales con un número de capas superior al de las redes neuronales tradicionales y ha sido precisamente el desarrollo de la tecnología y en concreto de la capacidad computacional, lo que ha permitido pasar ese conocimiento teórico a una implementación práctica de esta opción analítica usada en predicción.
Las técnicas Deep Learning se aplican en un gran número de situaciones reales. Por mencionar dos de las más relevantes: Diagnóstico de enfermedades en análisis de imágenes u otras pruebas clínicas o Sistemas de conducción en el vehículo autónomo.
La ventaja que ofrecen las técnicas Deep Learning frente a otras técnicas tradicionales de Machine Learning es que es capaz de identificar correlaciones entre combinaciones no lineales entre las variables que analizamos mejorando la predictibilidad de las mismas.
Expliquemos esto con un ejemplo sencillo. Imaginemos que queremos predecir la velocidad que puede alcanzar una persona corriendo. Para ello usamos un conjunto de variables: altura, peso, calorías ingeridas en su dieta, temperatura ambiente y humedad. Los modelos de analítica tradicional tratarán de buscar una combinación lineal de esas variables que den una estimación de la velocidad del tipo:
Velocidad = α1 altura + α2 peso + α3 calorías ingeridas + α4 temperatura ambiente + α5 humedad + error
De esta forma el resultado es un modelo interpretable en el que se puede cuantificar la influencia de cada variable en el fenómeno que se trata de predecir (Velocidad), lo cual tiene beneficios evidentes para los gestores del modelo. En este ejemplo, un modelo de Deep Learning tratará de buscar una combinación, no necesariamente lineal, de las variables que mejor prediga la velocidad a cambio de prescindir de la explicabilidad anteriormente mencionada.
Los modelos resultantes de estas técnicas Deep Learning son en principio muy difíciles de interpretar/explicar por un ser humano porque el resultado final es normalmente muy bueno predictivamente, pero no necesariamente liga funcionalmente a las covariables con la variable respuesta. Debido al uso de estas técnicas en aplicaciones de gran sensibilidad como la detección precoz de enfermedades o los sistemas de navegación de vehículos autónomos, esta falta de interpretabilidad suponen un reto muy importante a abordar. Este punto flaco de los modelos de Deep Learning lo comparten la mayoría de las técnicas atribuibles, hoy en día, al Machine Learning o a la Inteligencia Artificial.
Caso Hospital Gregorio Marañón
Consideremos el siguiente ejemplo real con el que estamos trabajando en IBiDat en colaboración con el Hospital Gregorio Marañón: se tiene información genética (mucha) y clínica de mujeres (pocas) que han desarrollado el cáncer de mama triple negativo que es muy agresivo. Se quiere investigar si un nuevo tratamiento de quimioterapia resulta beneficioso antes de realizar la pertinente cirugía, con la información disponible de esa muestra de mujeres de tamaño pequeño en comparación con el número de variables. Esto es lo que se denomina un problema de alta dimensión donde n (tamaño muestral) es mucho menor que p (número de variables). El abordaje de este problema utilizando Deep Learning o otros métodos de clasificación binaria (responde o no responde al tratamiento) típicos de la Inteligencia Artificial o Machine Learning como Random Forest o Support Vector Machine seguramente puede arrojar buenos resultados predictivos pero los oncólogos y biólogos inmersos en la investigación quieren respuestas a cuestiones cómo estas:
¿Cuáles son los genes (unos pocos) cuya presencia influyen en una respuesta positiva al tratamiento de quimioterapia? ¿Se puede medir esa influencia? ¿Tienen una interpretación semántica?
Las respuestas a estas preguntas desde el punto de vista de la analítica de datos requiere, enfrentar el problema a través de modelos interpretables y que a la par seleccionen las variables (genes) que realmente importan en el problema.
Este ejemplo paradigmático ilustra la importancia de desarrollar métodos que nos permitan entender y explicar el funcionamiento de los algoritmos generados mediante el uso de técnicas que comúnmente se llaman de caja negra. La comunidad científica, consciente de este gran problema, ha comenzado a trabajar en esta línea de investigación que se conoce como Interpretabilidad de modelos Machine Learning.
Proyectos de IBiDat
IBiDat no ha sido ajeno a esta necesidad y poco a poco, a través de proyectos de I+D+I motivados por empresas, como el Banco Santander, o por entes públicos, como el Hospital Gregorio Marañón, ha emprendido una línea de trabajo muy intensa dado que para todos estos entes, tanto los financieros o los ligados al marketing como los sanitarios, es imprescindible disponer de modelos interpretables en sus quehaceres predictivos. La investigación que hemos desarrollado ha arrojado mucha luz en el avance de la interpretabilidad global o local de modelos de clasificación supervisada o modelos de clustering o en la relación que se puede establecer tanto a nivel teórico como computacional entre redes neuronales y regresión polinómica (técnica clásica de estadística).
También se ha desarrollado una investigación muy prolífica en lo que se conoce como modelos de regresión penalizada en los que se aborda de forma conjunta la predicción con la selección de variables e incluso el agrupamiento de las mismas. Todo este ecosistema de conocimiento no es posible sin el desarrollo en paralelo de algoritmos que requieren computación intensiva y por tanto, demandan mucha matemática y programación avanzada, competencias en las que IBiDat se ha convertido en un referente a nivel nacional e internacional y que nos permite poder acometer lo que nos gusta llamar “proyectos boutique” por la complejidad, aplicabilidad y vanguardismo de las temáticas que abordamos.
Avanzamos hacia un mundo que ha democratizado los algoritmos por la accesibilidad a los repositorios en los que se exponen hoy en día a la comunidad que utiliza datos, pero ha llegado el momento de pararse a meditar sobre la estructura de sus tripas y lo qué nos quieren decir, ha llegado el momento de hacerlos interpretables y para eso es necesario poner cabeza y no sólo computación o magia.