人工知能 (AI) の活気に満ちた分野では、より効率的な言語モデルを作成する競争が常に行われており、驚きが絶えません。 Beyond the Imitation Game ベンチマーク (BIG ベンチ) と呼ばれる野心的なプロジェクトはこの競争に焦点を当てており、大規模な言語モデルの限界を押し上げることを目的とした 204 のタスクの開発に 450 人の研究者が参加しました。 ChatGPT のようなチャットボットに命を吹き込むこれらのモデルは、予測可能な改善と突然の飛躍の間で揺れ動く、パフォーマンスにばらつきを示しています。研究者らは、物理学で観察される相転移を彷彿とさせる「革命的な」動作と表現している現象です。
有名な GPT-2、GPT-3.5、ごく最近の GPT-4 などの **大規模言語モデル (LLM)** は、単語間のつながりを確立することによって、膨大な量のテキストを処理および理解する能力を実証しています。これらのモデルが複雑な、さらには予期せぬタスクを実行できるかどうかは、パラメーターの数、つまり単語を相互接続できるさまざまな方法にあります。たとえば、GPT-3.5 は 3,500 億個のパラメーターを使用しますが、新しく登場した GPT-4 には 1 兆 7,500 億個ものパラメーターがあります。
モデル サイズに応じてパフォーマンスが向上するのは当然のことのように思えますが、一部の動作は予想を裏切るものでした。しばらくの間、ほぼゼロのパフォーマンス レベルが観察されましたが、その後、目覚ましい改善が見られ、科学界の興味をそそる現象でした。研究者の中には、こうした能力の「飛躍」の中に、システム内で発生する集合的な行動が高レベルの複雑さに達する、出現の兆候を見た人もいます。
しかし、スタンフォード大学のチームは、これらの現象について異なる見解を示しています。彼らによれば、このような能力の飛躍的な明らかな予測不可能性は、突然現れるというよりも、パフォーマンスの測定方法に問題があるとのことです。この主題に関する研究の筆頭著者である Sanmi Koyejo は、LLM 能力におけるいわゆる「相転移」は、多くの人が信じているよりもはるかに予測可能である可能性があり、混乱の原因はモデルの真の能力ではなく測定方法にあると主張しています。
このビジョンは、AI の流動的で直線的な進歩という考え方とは対照的です。これは、LLM 機能の質的飛躍についての私たちの理解は、それを評価し理解する方法を選択することに密接に依存していることを示唆しています。主要な言語モデルは進歩を続けており、効率とパフォーマンスが大幅に向上していますが、これらの進歩の解釈については依然として議論の余地があります。スタンフォード大学チームの研究結果は、蜃気楼としての創発という概念に疑問を投げかけ、進化し続ける AI 分野における進歩を私たちがどのように認識するかについて革新的な視点を提供します。