En el bullicioso ámbito de la inteligencia artificial (IA), la carrera por crear modelos lingüísticos cada vez más eficientes no deja de sorprender. Un ambicioso proyecto llamado Beyond the Imitation Game benchmark (BIG-bench) se centró en esta carrera, involucrando a 450 investigadores en el desarrollo de 204 tareas destinadas a superar los límites de los grandes modelos lingüísticos. Estos modelos, que dan vida a chatbots como ChatGPT, han mostrado un rendimiento variable, oscilando entre mejoras predecibles y avances repentinos. Un fenómeno que los investigadores han calificado de comportamiento “revolucionario”, que recuerda a las transiciones de fase observadas en la física.
**Los modelos de lenguajes grandes (LLM)**, como los famosos GPT-2, GPT-3.5 y el muy reciente GPT-4, han demostrado la capacidad de procesar y comprender enormes cantidades de texto estableciendo conexiones entre palabras. La capacidad de estos modelos para realizar tareas complejas, incluso inesperadas, reside en su número de parámetros, esencialmente en las diversas formas en que se pueden interconectar las palabras. GPT-3.5, por ejemplo, utiliza 350 mil millones de parámetros, mientras que el recién llegado GPT-4 tiene la friolera de 1,75 billones de parámetros.
El aumento del rendimiento con el tamaño del modelo parece lógico, pero algunos comportamientos desafiaron las expectativas. Observamos niveles de rendimiento casi nulos durante un tiempo, seguidos de una mejora espectacular, un fenómeno que intrigó a la comunidad científica. Algunos investigadores han visto en estos “saltos” de capacidad signos de emergencia, estos comportamientos colectivos que surgen en un sistema que alcanza un alto nivel de complejidad.
Sin embargo, un equipo de la Universidad de Stanford ofrece una visión diferente de estos fenómenos. Según ellos, la aparente imprevisibilidad de estos saltos en la capacidad es menos una cuestión de aparición repentina que de la forma en que se mide el desempeño. Sanmi Koyejo, autor principal de un estudio sobre el tema, sostiene que las llamadas « transiciones de fase » en las habilidades de LLM pueden ser mucho más predecibles de lo que muchos creen, y atribuye la confusión a la metodología de medición más que a las verdaderas capacidades de los modelos.
Esta visión contrasta con la idea de un progreso fluido y lineal en la IA. Sugiere que nuestra comprensión de los saltos cualitativos en las capacidades de LLM depende estrechamente de cómo elegimos evaluarlos y comprenderlos. Si bien los principales modelos de lenguaje continúan avanzando y ofrecen mejoras impresionantes en eficiencia y rendimiento, la interpretación de estos avances sigue siendo un tema de debate. Los hallazgos del equipo de Stanford desafían la noción de la emergencia como un espejismo, ofreciendo una perspectiva revolucionaria sobre cómo percibimos el progreso en el campo en constante evolución de la IA.