人工知能 (AI) の状況は急速に成長しており、ほぼ毎週新しいモデルが発表されています。ただし、この急速な進歩により、これらの AI モデルの評価を含む多くの課題が生じています。既存の評価フレームワークは、AI システムの進化と規模に追いつくのに苦労しています。
マークが付けられておらず、常に更新されています、これらの AI 構成を完全かつ一貫して判断することは困難です。の結果 合成ベンチマーク 明確に定義された機能の抽象的な概要を提供することにのみ貢献します。 Google や OpenAI などの AI 企業は、自社の優位性を強調するためにこの課題を利用しており、消費者がこれらの企業の主張のみに依存する必要性を強調しています。
AIモデルは、 多すぎる、広大すぎる、そして不透明すぎる。これらのモデルのリリース頻度は非常に高いため、その長所と短所を真剣に評価するのは困難です。これらのそれぞれには、リリース レベル、アクセス要件、プラットフォーム、コードベースなどが複雑に絡み合っています。
ただし、これらのモデルは、デバイスやクラウド サービスのように、すぐにテストして評価できる単なるソフトウェアやハードウェアの一部ではありません。これらは実際にはプラットフォームであり、数十の個別のモデルと、組み込まれたり追加されたりするサービスで構成されます。その結果、これらのシステムの評価には定性的研究が必要になります。これは、この豊かで絶えず進化する状況の中で、本物と偽物を区別しようとする消費者にとって非常に価値があることがわかります。
大企業は社内のトレーニング方法やデータベースを企業秘密として保管しています。したがって、これらのプロセスを可視化しないと、それらを客観的に評価することは困難です。企業は謝罪ではない声明を出しますが、実際にカーテンの後ろを覗くよう私たちを招くことはありません。
AI システムには、その作成者が予期していなかったタスクも含め、実行するよう求められるタスクが多岐にわたるため、徹底的なテストは不可能です。さらに、何を、誰が、どのようにテストできるかは常に進化しています。控えめに言っても現場は混沌としているが、それでも誰かが調停者として行動しなければならない。
E.S News では、毎日私たちが受け取る AI ナンセンスの雪崩を祝福します。 改訂 特定の AI モデル。消費者は大企業の言うことをまったく信用できません。彼らは製品を販売するか、あなたを製品としてパッケージ化します。彼らはこの事実を隠すために何でもするし、言うでしょう。そこで、この実践的な経験を積むために、主要モデルに対して独自のテストを実施することにしました。
ユーザーが重要だと考える可能性のあるさまざまな品質を特定し、一連のテストを使用して AI の機能の概要を把握します。私たちは、進化するニュース記事の更新能力から、医学的アドバイスの提供、具体的な製品説明の作成など、あらゆる能力をテストします。次に、ベンチマーク スコアだけでなく、モデルが実際にどのようにパフォーマンスするかを確認できるように、私たちの経験を共有します。
ただし、マルチメディア機能のテスト、モデルにコーディングを依頼する、モデルにタスクの「理由」を与える、他のアプリとの統合を試す、モデルをジェイルブレイクするなど、私たちが行わないこともいくつかあります。
全体として、とらえどころのない信頼性の低い詳細を掘り下げることなく、AI の機能の概要を提供することが目標です。急速に進化する他の業界と同様に、私たちのアプローチも進化する必要があります。私たちは最新の視点を維持することに尽力しています。