Na tętniącej życiem sztucznej inteligencji (AI) wyścig w tworzeniu coraz wydajniejszych modeli językowych nie przestaje zaskakiwać. Na tym wyścigu skupił się ambitny projekt o nazwie Beyond the Imitation Game benchmark (BIG-bench), w którym 450 badaczy wzięło udział w opracowaniu 204 zadań mających na celu przesunięcie granic dużych modeli językowych. Modele te, które ożywiają chatboty takie jak ChatGPT, wykazały zmienną wydajność, oscylującą pomiędzy przewidywalnymi ulepszeniami a nagłymi skokami do przodu. Zjawisko, które badacze określili jako zachowanie „rewolucyjne”, przypominające przejścia fazowe obserwowane w fizyce.
**Duże modele językowe (LLM)**, takie jak słynne GPT-2, GPT-3.5 i najnowszy GPT-4, wykazały zdolność przetwarzania i rozumienia ogromnych ilości tekstu poprzez ustanawianie połączeń między słowami. Zdolność tych modeli do realizacji złożonych, a nawet nieoczekiwanych zadań polega na ich liczbie parametrów, zasadniczo na różnych sposobach łączenia słów. Na przykład GPT-3.5 wykorzystuje 350 miliardów parametrów, podczas gdy nowy GPT-4 ma aż 1,75 biliona parametrów.
Wzrost wydajności wraz z rozmiarem modelu wydaje się logiczny, ale niektóre zachowania przekroczyły oczekiwania. Przez pewien czas obserwowaliśmy prawie zerowy poziom wydajności, po którym nastąpiła spektakularna poprawa, co zaintrygowało społeczność naukową. Niektórzy badacze widzieli w tych „skokach” zdolności oznaki wyłonienia się, zbiorowych zachowań, które pojawiają się w systemie osiągającym wysoki poziom złożoności.
Jednak zespół z Uniwersytetu Stanforda oferuje inną wizję tych zjawisk. Według nich pozorna nieprzewidywalność tych skoków wydajności nie wynika z nagłego pojawienia się, ale ze sposobu pomiaru wydajności. Sanmi Koyejo, główna autorka badania na ten temat, argumentuje, że tak zwane „przejścia fazowe” w umiejętnościach LLM mogą być znacznie bardziej przewidywalne, niż wielu sądzi, przypisując zamieszanie raczej metodologii pomiaru niż prawdziwym możliwościom modeli.
Wizja ta kontrastuje z ideą płynnego, liniowego postępu w AI. Sugeruje to, że nasze zrozumienie skoków jakościowych w możliwościach LLM zależy ściśle od tego, jak zdecydujemy się je ocenić i zrozumieć. Chociaż główne modele językowe stale się rozwijają, oferując imponującą poprawę wydajności i wydajności, interpretacja tych postępów pozostaje przedmiotem dyskusji. Odkrycia zespołu ze Stanford podważają pogląd, że pojawienie się jest mirażem, oferując rewolucyjną perspektywę na to, jak postrzegamy postęp w stale rozwijającej się dziedzinie sztucznej inteligencji.