Why it's impossible to review AIs, and why TechCrunch is doing it anyway

Perché è impossibile criticare l’intelligenza artificiale e perché E.S News lo fa comunque

Il panorama dell’intelligenza artificiale (AI) è in rapida crescita, con nuovi modelli svelati praticamente ogni settimana. Tuttavia, questo rapido progresso solleva molte sfide, inclusa quella relativa alla valutazione di questi modelli di intelligenza artificiale. I quadri di valutazione esistenti faticano a tenere il passo con l’evoluzione e la portata dei sistemi di intelligenza artificiale.

Non contrassegnato e costantemente aggiornato, queste configurazioni dell’IA sono difficili da giudicare in modo completo e coerente. I risultati di benchmark sintetici contribuiscono solo a fornire una panoramica astratta di capacità ben definite. Le aziende di intelligenza artificiale, come Google e OpenAI, puntano su questa sfida per enfatizzare il proprio vantaggio, sottolineando la necessità che i consumatori facciano affidamento esclusivamente sulle affermazioni di queste aziende.

I modelli di intelligenza artificiale lo sono troppo numerosi, troppo vasti e troppo opachi. La frequenza di pubblicazione di questi modelli è così elevata che una seria valutazione dei loro pregi e difetti rappresenta una sfida. Ognuno di questi ha una complessa rete di livelli di rilascio, requisiti di accesso, piattaforme, basi di codice e altro ancora.

Tuttavia, questi modelli non sono semplicemente componenti software o hardware che è possibile testare e valutare rapidamente, come un dispositivo o un servizio cloud. Si tratta in realtà di piattaforme che comprendono decine di modelli e servizi individuali incorporati o aggiunti ad esse. Di conseguenza, la valutazione di questi sistemi richiede uno studio qualitativo, che si rivela molto prezioso per i consumatori che, in questo contesto ricco e in continua evoluzione, cercano di distinguere il vero dal falso.

Le grandi aziende mantengono i propri metodi di formazione interna e i propri database come segreti commerciali. Pertanto, senza visibilità su questi processi, è difficile valutarli oggettivamente. Le aziende forniscono dichiarazioni senza scuse, ma non ci invitano mai a sbirciare dietro le quinte.

A lire également  Il capo di Stability AI lascia il suo incarico, affermando che è inutile cercare di superare un sistema di IA centralizzato con un’IA ancora più centralizzata.

L’ampia varietà di compiti che un sistema di intelligenza artificiale può essere chiamato a svolgere, compresi quelli che i suoi creatori non avevano previsto, rende impossibili test esaustivi. Inoltre, ciò che può essere testato, da chi e come, è in continua evoluzione. Il campo è caotico, per usare un eufemismo, ma qualcuno deve ancora fare da arbitro.

Noi di E.S News, che sia benedetta la valanga di sciocchezze sull’intelligenza artificiale che riceviamo ogni giorno, abbiamo deciso di farlo rivedere alcuni modelli di intelligenza artificiale. I consumatori semplicemente non possono fidarsi di ciò che dicono le grandi aziende. Vendono un prodotto o ti confezionano per essere un prodotto. Faranno e diranno qualsiasi cosa per nascondere questo fatto. Abbiamo quindi deciso di effettuare i nostri test sui principali modelli, per fare questa esperienza pratica.

Identificando una serie di qualità che gli utenti potrebbero trovare importanti, utilizziamo una serie di test per avere un’idea generale delle capacità di un’intelligenza artificiale. Testiamo tutto, dalla loro capacità di aggiornare una notizia in evoluzione, a fornire consigli medici, a produrre una descrizione specifica del prodotto e altro ancora. Condividiamo quindi la nostra esperienza in modo che tu possa vedere come si comportano effettivamente i modelli, non solo qual è il loro punteggio di riferimento.

Tuttavia, ci sono alcune cose che non facciamo, come testare le capacità multimediali, chiedere a un modello di codificare, fornire “ragioni” al modello per le attività, provare integrazioni con altre app, tentare di eseguire il jailbreak dei modelli, ecc.

Nel complesso, l’obiettivo è fornire una visione generale delle capacità di un’intelligenza artificiale senza approfondire dettagli sfuggenti e inaffidabili. Come ogni settore in rapida evoluzione, anche il nostro approccio deve evolversi. Ci impegniamo a mantenere una prospettiva aggiornata.