Nella vivace arena dell’intelligenza artificiale (AI), la corsa alla creazione di modelli linguistici sempre più efficienti non smette mai di sorprendere. Un ambizioso progetto chiamato Beyond the Imitation Game benchmark (BIG-bench) si è concentrato su questa corsa, coinvolgendo 450 ricercatori nello sviluppo di 204 compiti destinati a superare i limiti dei grandi modelli linguistici. Questi modelli, che danno vita a chatbot come ChatGPT, hanno mostrato prestazioni variabili, oscillando tra miglioramenti prevedibili e improvvisi balzi in avanti. Un fenomeno che i ricercatori hanno descritto come un comportamento “rivoluzionario”, che ricorda le transizioni di fase osservate in fisica.
I **Large Language Models (LLM)**, come i famosi GPT-2, GPT-3.5 e il recentissimo GPT-4, hanno dimostrato la capacità di elaborare e comprendere enormi quantità di testo stabilendo connessioni tra le parole. La capacità di questi modelli di svolgere compiti complessi, anche inaspettati, risiede nel numero di parametri, essenzialmente nei vari modi in cui le parole possono essere interconnesse. GPT-3.5, ad esempio, utilizza 350 miliardi di parametri, mentre il nuovo arrivato GPT-4 ha ben 1,75 trilioni di parametri.
L’aumento delle prestazioni con la dimensione del modello sembra logico, ma alcuni comportamenti hanno superato le aspettative. Per un certo periodo abbiamo osservato livelli di prestazione quasi pari a zero, seguiti da un miglioramento spettacolare, un fenomeno che ha incuriosito la comunità scientifica. Alcuni ricercatori hanno visto in questi “salti” di capacità segni di emergenza, questi comportamenti collettivi che nascono in un sistema che raggiunge un alto livello di complessità.
Tuttavia, un team dell’Università di Stanford offre una visione diversa di questi fenomeni. Secondo loro, l’apparente imprevedibilità di questi salti di capacità non è tanto una questione di emergenza improvvisa quanto il modo in cui viene misurata la prestazione. Sanmi Koyejo, autore principale di uno studio sull’argomento, sostiene che le cosiddette « transizioni di fase » nelle abilità LLM possono essere molto più prevedibili di quanto molti credano, attribuendo la confusione alla metodologia di misurazione piuttosto che alle reali capacità dei modelli.
Questa visione contrasta con l’idea di un progresso fluido e lineare nell’IA. Ciò suggerisce che la nostra comprensione dei salti qualitativi nelle capacità LLM dipende strettamente da come scegliamo di valutarli e comprenderli. Sebbene i principali modelli linguistici continuino ad avanzare, offrendo notevoli miglioramenti in termini di efficienza e prestazioni, l’interpretazione di questi progressi rimane oggetto di dibattito. Le scoperte del team di Stanford sfidano la nozione di emergenza come miraggio, offrendo una prospettiva rivoluzionaria su come percepiamo il progresso nel campo in continua evoluzione dell’intelligenza artificiale.