El auge del dato en la actualidad ha llegado a la industria del deporte y, en particular, al fútbol, con mucha fuerza y con una clara apuesta por su utilidad. Cada vez más presente en las retransmisiones de los partidos, el dato trata de darle al aficionado un conocimiento más científico y exacto de lo que está ocurriendo en el terreno de juego.

Hablaremos en este artículo de dos de los temas más populares en la industria del Sport Science: las métricas avanzadas, que vienen a ayudarnos a entender aspectos más complejos del juego, y los análisis de similitud que servirán como complemento a las direcciones deportivas en los procesos de Scouting (búsqueda de un jugador para remplazar a uno del equipo propio). Utilizaremos la aplicación Soccer Pelican Search para la creación de los estudios y gráficos del artículo.

Métricas avanzadas

Todo aficionado a este deporte entiende estadísticas como los disparos a puerta, goles encajados, porcentaje de paradas de los porteros o disparos que necesita un delantero para hacer gol. Con las métricas avanzadas, se busca ir más allá, por ejemplo, determinar la eficacia de un jugador de cara a puerta a partir de la calidad de sus ocasiones o determinar los goles que un portero ha evitado en función de los que se esperaba que encajase. Estamos hablando de las métricas Expected Goals (xG) y Post-Shot Expected Goals (PSxG), respectivamente. Nos interesaremos por la primera de ellas pues es la que mayor importancia está adquiriendo en la actualidad.

Expected Goals (xG)

La métrica xG se define como la probabilidad de que un disparo sea gol, en función del contexto que rodea al jugador previo al momento del tiro, considerando variables como: distancia y ángulo del balón a la portería, posición del portero, jugadores entre balón y portería, etc. así como un indicador de la calidad del jugador en dicho contexto. Etiquetados un subconjunto suficientemente amplio de disparos, un modelo de ML aprenderá a predecir, correctamente, la probabilidad de gol asociada a un nuevo disparo. Este es el xG.

Las variables distancia, ángulo del balón a la portería, posición del portero, jugadores entre balón y portería, y la calidad del jugador, definen la probabilidad de que un disparo sea gol.

La imagen adjunta muestra el mapa de disparos del clásico del Bernabéu en la 21/22 que acabó con la victoria del conjunto de Xavi Hernández frente a un Madrid debilitado por la baja de Benzema. Cada circulo representa un tiro, el tamaño es el valor de xG y el color representa el resultado del lanzamiento. Disparando prácticamente el mismo número de veces, el Barcelona tuvo una mayor calidad y eficacia en sus ocasiones generando un total de 4.26 xG en los 90’.

El valor de los goles esperados también permite analizar la eficacia y la capacidad de un futbolista de cara a puerta. El ejemplo de Vinicius Junior es muy ilustrativo comparando su rendimiento de cara a puerta de la temporada 20/21 vs. 21/22, generando más y siendo más eficaz en esta última temporada:

Otra aplicación que tiene el modelo de goles esperados es su utilidad para medir el rendimiento de los equipos. Analizando de forma conjunta a los equipos de las 5 grandes ligas, vemos que en la temporada 21/22, la Real Sociedad tuvo grandes problemas en la definición, siendo el equipo con mayor diferencia negativa de G-xG (-13.80 G-xG), anotando menos goles de lo esperado.

Análisis de similitud

Dentro del marco del fútbol, el mundo de la secretaría técnica es la que más involucrada se encuentra en el tratamiento del dato, siendo un complemento en su toma de decisiones. Los algoritmos de similitud vienen a darnos un indicador de cuánto de parecido es un jugador con otro en base a unas métricas de rendimiento seleccionadas. El rendimiento futuro de ese jugador en su nuevo club dependerá de muchos otros parámetros y de cómo ese jugador se adapte a su nuevo contexto, pero el análisis de similitud nos dará una idea objetiva de cómo de similares son ambos jugadores en el terreno de juego. Es el caso de Casemiro, para el que el Madrid, aún sin conocer su marcha del club, ya estaba barajando diferentes opciones de mercado. Y ahí aparece Tchouaméni, flamante jugador del Real Madrid por 80 millones de euros, como uno de los centrocampistas más prometedores del futuro.

Analizando las principales métricas que definen a un centrocampista defensivo, Tchouaméni, fue el centrocampista menor de 25 años de las 5 grandes ligas más similar a Casemiro en la temporada 21/22, con un 70.15 % de similitud entre ellos.

El siguiente gráfico (Gráfico de Radar) nos permite comprobar, de forma gráfica, la alta semejanza entre ambos jugadores representando, de forma conjunta, las diferentes métricas de estudio. ¿Será capaz el francés de rendir como lo ha hecho el brasileño? Fácil no será, pero, sin duda, el Madrid ha encontrado el sustituto perfecto de Casemiro.

Estos son algunos de los múltiples ejemplos en los que el dato está teniendo su influencia en el mundo del fútbol. La clave es trabajar, entender y contextualizar el dato, entenderlo como un complemento y no pensar que vaya a apartar la subjetividad en la toma de decisiones. “Nunca voy a firmar a un jugador sólo por los datos, y nunca voy a dejar de firmar a un jugador sin revisar antes sus datos”, dice Víctor Orta, director deportivo del Leeds United de la Premier League.