Why it's impossible to review AIs, and why TechCrunch is doing it anyway

Pourquoi il est impossible de critiquer les IA et pourquoi E.S News le fait malgré tout

Le paysage de l’Intelligence Artificielle (IA) connaît une croissance rapide, avec de nouveaux modèles dévoilés pratiquement chaque semaine. Cependant, cette progression rapide soulève de nombreux défis, notamment celui de l’évaluation de ces modèles d’IA. Les cadres d’évaluation existants ont du mal à suivre le rythme de l’évolution et de l’ampleur des systèmes d’IA.

Banalisés et constamment mis à jour, ces configurations d’IA sont difficiles à juger de manière complète et cohérente. Les résultats des benchmarks synthétiques ne contribuent qu’à donner un aperçu abstrait des capacités bien définies. Les entreprises exploitation l’IA, telles que Google et OpenAI, misent sur ce défi pour souligner leur avantage, soulignant ainsi la nécessité pour les consommateurs de s’appuyer uniquement sur les affirmations de ces entreprises.

Les modèles d’IA sont trop nombreux, trop vastes et trop opaques. La fréquence de sortie de ces modèles est si élevée qu’une évaluation sérieuse de leurs mérites et de leurs faiblesses relève du défi. Chacun d’entre eux possède un réseau complexe de niveaux de publication, d’exigences d’accès, de plateformes, de bases de code, etc.

Cependant, ces modèles ne sont pas simplement des pièces de logiciels ou de matériel que l’on peut tester et évaluer rapidement, comme un appareil ou un service cloud. Ils sont en réalité des plateformes, comprenant des dizaines de modèles individuels et de services incorporés ou y ajoutés. De ce fait, l’évaluation de ces systèmes nécessite une étude qualitative, qui se révèle très précieuse pour des consommateurs qui, dans ce contexte riche et en constante évolution, cherchent à distinguer le vrai du faux.

Les grandes entreprises conservent leurs méthodes d’entraînement internes et leurs bases de données comme des secrets commerciaux. Par conséquent, sans visibilité sur ces processus, il est difficile de les évaluer de manière objective. Les entreprises fournissent des déclarations non-apologia, mais ne nous invitent jamais réellement à jeter un œil derrière le rideau.

La grande variété de tâches qu’un système d’IA peut être sollicité à accomplir, y compris celles que ses créateurs n’ont pas anticipées, rend impossible un test exhaustif. De plus, tout ce qui peut être testé, par qui et comment, est en constante évolution. Le domaine est chaotique, pour le dire au moins, mais quelqu’un doit encore officier en tant qu’arbitre.

A lire également  Prévisions de vente : comment l’IA vient en aide aux retailers pour les cas les plus difficiles ?

Chez E.S News, béni soit l’avalanche de non-sens AI que nous recevons tous les jours, nous avons décidé de réviser certains modèles d’IA. Les consommateurs ne peuvent tout simplement pas faire confiance à ce que disent les grandes entreprises. Ils vendent un produit, ou ils vous emballent pour être un produit. Ils feront et diront n’importe quoi pour cacher ce fait. Par conséquent, nous avons décidé de réaliser nos propres tests sur les modèles principaux, afin d’obtenir cette expérience pratique.

Identifiant un éventail de qualités que les utilisateurs pourraient trouver importantes, nous utilisons une série de tests pour obtenir un sens général des capacités d’une IA. Nous testons tout, depuis leur capacité à mettre à jour une histoire d’actualité évolutive, à donner des conseils médicaux, à produire une description de produit spécifique, et plus encore. Nous partageons ensuite notre expérience afin que vous puissiez voir comment les modèles se comportent réellement, et pas seulement ce que leur score de référence est.

Cependant, il existe certaines choses que nous ne faisons pas, comme tester les capacités multimédia, demander à un modèle de coder, donner un modèle « raisons » des tâches, essayer des intégrations avec d’autres applications, tenter de jailbreaker les modèles, etc.

Dans l’ensemble, le but est de fournir une vue générale des capacités d’une IA sans plonger dans les détails insaisissables et peu fiables. Comme toute industrie en rapide évolution, notre approche doit se mouvoir aussi. Nous nous engageons à maintenir une perspective actualisée.

Yohann G.