분주한 인공 지능(AI) 분야에서 더욱 효율적인 언어 모델을 만들기 위한 경쟁은 결코 멈추지 않습니다. Beyond the Imitation Game 벤치마크(BIG-bench)라는 야심찬 프로젝트는 이 경주에 중점을 두었으며 대규모 언어 모델의 한계를 뛰어넘기 위한 204개 작업 개발에 450명의 연구원이 참여했습니다. ChatGPT와 같은 챗봇에 생명을 불어넣는 이러한 모델은 예측 가능한 개선과 갑작스러운 도약 사이를 오가며 가변적인 성능을 보여주었습니다. 연구자들은 물리학에서 관찰되는 상전이를 연상시키는 « 혁명적인 » 행동으로 묘사한 현상입니다.
유명한 GPT-2, GPT-3.5 및 최신 GPT-4와 같은 **LLM(대형 언어 모델)**은 단어 간의 연결을 설정하여 엄청난 양의 텍스트를 처리하고 이해하는 능력을 보여주었습니다. 복잡하고 예상치 못한 작업을 수행하는 이러한 모델의 능력은 매개변수의 수, 즉 본질적으로 단어가 상호 연결될 수 있는 다양한 방식에 있습니다. 예를 들어 GPT-3.5는 3,500억 개의 매개변수를 사용하는 반면 새로 출시된 GPT-4는 무려 1조 7,500억 개의 매개변수를 사용합니다.
모델 크기에 따른 성능 향상은 논리적인 것처럼 보이지만 일부 동작은 기대치를 뛰어넘었습니다. 우리는 한동안 거의 0에 가까운 성능 수준을 관찰한 후 놀라운 개선을 보였으며 이는 과학계의 흥미를 끌었습니다. 일부 연구자들은 이러한 용량의 « 점프 »에서 출현의 징후, 즉 높은 수준의 복잡성에 도달하는 시스템에서 발생하는 이러한 집단적 행동을 보았습니다.
그러나 스탠포드 대학의 한 팀은 이러한 현상에 대해 다른 비전을 제시합니다. 그들에 따르면 이러한 용량 증가의 명백한 예측 불가능성은 갑작스러운 출현의 문제라기보다는 성능을 측정하는 방식의 문제입니다. 이 주제에 대한 연구의 수석 저자인 Sanmi Koyejo는 LLM 능력의 소위 « 단계 전환 »이 많은 사람들이 생각하는 것보다 훨씬 더 예측 가능하며, 이는 모델의 실제 기능보다는 측정 방법론에 혼란이 따른다고 주장합니다.
이 비전은 AI의 유동적이고 선형적인 발전이라는 아이디어와 대조됩니다. 이는 LLM 역량의 질적 도약에 대한 우리의 이해가 우리가 이를 평가하고 이해하는 방법을 선택하는 방식에 밀접하게 달려 있음을 시사합니다. 주요 언어 모델이 지속적으로 발전하여 효율성과 성능이 크게 향상되었지만 이러한 발전에 대한 해석은 여전히 논쟁의 여지가 있습니다. 스탠포드 팀의 연구 결과는 신기루로서의 출현이라는 개념에 도전하여 끊임없이 진화하는 AI 분야의 진보를 우리가 어떻게 인식하는지에 대한 혁신적인 관점을 제공합니다.