Con motivo de la participación de PiperLab en el IX Congreso Internacional de la Lengua Española, celebrado en Cádiz del 27 al 30 de marzo de 2023, en el que nuestra socia Esther Morales participó en un desayuno con el Ministro de Asuntos Exteriores, UE y Cooperación para hablar sobre la importancia del lenguaje y su impulso a través de la Inteligencia Artificial, hemos querido hacer un recorrido sobre la evolución y el impacto en los últimos años de la IA y de las últimas técnicas de PLN en este área del lenguaje.

Y es que es una realidad que la Inteligencia Artificial (IA) ha experimentado un rápido avance en los últimos años, y diríamos semanas, especialmente en el campo del Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Desde sus primeros intentos hasta llegar a los modelos de lenguaje a gran escala (LLMs), la IA ha transformado la forma en que las máquinas comprenden y procesan el lenguaje humano. En este post, exploraremos la evolución de la IA en el ámbito del NLP y cómo ha llevado al desarrollo de los LLMs, los modelos que, en la actualidad, están revolucionando este campo y que podrían dar lugar a una inteligencia artificial general.

Los inicios

La Inteligencia Artificial (IA) ha experimentado un rápido avance en los últimos años, y diríamos semanas, especialmente en el campo del Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Desde sus primeros intentos hasta llegar a los modelos de lenguaje a gran escala (LLMs), la IA ha transformado la forma en que las máquinas comprenden y procesan el lenguaje humano.

El procesamiento del lenguaje natural es un subcampo de la IA y la lingüística que busca enseñar a las máquinas a comprender, interpretar y generar texto en lenguaje humano. Sus primeras etapas se remontan a la década de 1950 con el nacimiento de la IA como disciplina. En aquel entonces, los investigadores trabajaban con enfoques basados en reglas y gramáticas formales para analizar y generar texto. Sin embargo, estos sistemas eran limitados, ya que dependían de un conjunto de reglas predefinidas y no podían adaptarse a las variaciones y ambigüedades del lenguaje natural.

A mediados de la década de 1980, cuando se empezó a hacer común el uso de las redes neuronales artificiales, principalmente en el ámbito académico, el enfoque en el NLP comenzó a cambiar. Estas redes neuronales se inspiraron en la estructura y el funcionamiento del cerebro humano, y permitieron el desarrollo de modelos capaces de aprender patrones y estructuras complejas en los datos. A medida que aumentaba la disponibilidad de grandes cantidades de texto digitalizado y la capacidad de cómputo, el aprendizaje automático se convirtió en una herramienta esencial para el avance del NLP.

Un cambio de enfoque que lleva a un nuevo paradigma

A principios del siglo XXI, el NLP experimentó un crecimiento significativo gracias a la aplicación de algoritmos de aprendizaje profundo y la disponibilidad de grandes corpus de texto. El aprendizaje profundo (Deep Learning), en particular, permitió a los investigadores desarrollar arquitecturas de redes neuronales más avanzadas y eficientes, como las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN). Estos modelos mejoraron la capacidad de las máquinas para comprender y generar texto en lenguaje natural, y condujeron al desarrollo de sistemas más precisos y robustos para tareas como la traducción automática, el resumen de texto, la generación de texto y la clasificación de documentos.

Este tipo de aproximación desembocó en una revolución con el advenimiento de los Modelos de Lenguaje Preentrenados (PLMs, por sus siglas en inglés) y, más recientemente, con los Modelos de Lenguaje a Gran Escala (LLMs). Los PLMs, como Word2Vec y GloVe, proporcionaron una representación vectorial del significado de las palabras, lo que permitió a las máquinas aprender y entender mejor el contexto semántico en el texto. Estos modelos se entrenaron en grandes corpus de texto y se utilizaron como punto de partida para muchas tareas de NLP. El cambió técnico que ha llevado a los modelos disponibles hoy en día fue la introducción de los Transformadores (Transformers), una arquitectura de red neuronal desarrollada en 2017. Los Transformers superaron las limitaciones de las RNN y las CNN al abordar de manera eficiente las relaciones de largo alcance entre las palabras en el texto. Esta arquitectura se convirtió en la base para modelos de lenguaje más avanzados y potentes como BERT, GPT y sus sucesores.

BERT (Bidirectional Encoder Representations from Transformers), desarrollado por Google en 2018, fue un hito en la evolución del NLP. Este modelo preentrenado bidireccional permitió a las máquinas entender el contexto de las palabras tanto a la izquierda como a la derecha, mejorando significativamente el rendimiento en múltiples tareas de NLP. BERT y sus variantes, como RoBERTa y DistilBERT, lideraron una nueva ola de modelos preentrenados en el campo del NLP, estableciendo nuevos estándares de rendimiento en una amplia variedad de aplicaciones, desde el análisis de sentimientos hasta la respuesta a preguntas.

Por qué funcionan y cuáles son sus riesgos

El éxito de los LLMs se basa en gran medida en la idea de que, al entrenar un modelo en una cantidad masiva de datos, se puede aprender a representar y generar lenguaje humano de manera más efectiva y natural. Los LLMs han demostrado ser capaces de generar texto coherente y relevante en múltiples idiomas, resolver problemas complejos y realizar tareas que antes requerían sistemas de NLP altamente especializados. La sorpresa ha sido que, por primera vez, disponemos de modelos multitarea, esto es, un mismo modelo se puede utilizar para resolver problemas radicalmente distintos. Esto ha sido así ya que, al ser entrenado para generar texto coherente con multitud de temáticas y tipos de texto (escritos, código, etc.), es capaz de resolver muchas cuestiones diferentes simplemente intentando predecir cuál es la siguiente mejor palabra posible. Esto abre también una pregunta más filosófica y existencia que es si la inteligencia humana es simplemente un artilugio que busca decidir cuál es la siguiente mejor acción o el siguiente mejor pensamiento que podemos tener.

Sin embargo, a pesar de sus impresionantes logros, los LLMs también plantean preocupaciones y desafíos. Por un lado, estos modelos requieren una cantidad enorme de recursos computacionales y energéticos para ser entrenados y desplegados, lo que plantea preguntas sobre su sostenibilidad y accesibilidad. Además, los LLMs pueden perpetuar y amplificar sesgos presentes en los datos de entrenamiento, lo que puede resultar en resultados discriminatorios o inapropiados. Esto ha llevado a un creciente interés en la investigación de métodos para mitigar los sesgos y garantizar que estos modelos sean más justos y éticos.

Otro desafío es el problema de la interpretación y explicabilidad de los LLMs. Dada su complejidad y el gran número de parámetros, es difícil entender cómo estos modelos llegan a sus conclusiones y cómo se pueden mejorar o corregir. La investigación en explicabilidad e interpretabilidad es fundamental para desarrollar sistemas de IA en los que podamos confiar y que sean socialmente responsables.

Los LLMs pueden perpetuar y amplificar sesgos presentes en los datos de entrenamiento, lo que puede resultar en resultados discriminatorios o inapropiados.

En resumen, la evolución de la inteligencia artificial en el ámbito del NLP ha sido un camino emocionante y transformador, que ha llevado al desarrollo de los Modelos de Lenguaje a Gran Escala. Estos LLMs han demostrado un gran potencial para mejorar la comprensión y generación de lenguaje humano por parte de las máquinas. Sin embargo, a medida que avanzamos hacia el futuro, es crucial abordar los nuevos desafíos que se plantean.