Why it's impossible to review AIs, and why TechCrunch is doing it anyway

Dlaczego nie można krytykować sztucznej inteligencji i dlaczego E.S News w ogóle to robi

Krajobraz sztucznej inteligencji (AI) szybko się rozwija, a nowe modele są ujawniane praktycznie co tydzień. Ten szybki postęp stwarza jednak wiele wyzwań, w tym związanych z oceną modeli sztucznej inteligencji. Istniejące ramy oceny z trudem dotrzymują kroku ewolucji i skali systemów sztucznej inteligencji.

Nieoznaczone i stale aktualizowane, te konfiguracje AI są trudne do całkowitej i spójnej oceny. Wyniki syntetyczne benchmarki przyczyniają się jedynie do zapewnienia abstrakcyjnego przeglądu dobrze zdefiniowanych możliwości. Firmy zajmujące się sztuczną inteligencją, takie jak Google i OpenAI, podejmują to wyzwanie, aby podkreślić swoją przewagę, podkreślając potrzebę polegania przez konsumentów wyłącznie na twierdzeniach tych firm.

Modele AI są zbyt liczne, zbyt rozległe i zbyt nieprzejrzyste. Częstotliwość wypuszczania tych modeli jest tak duża, że ​​poważna ocena ich zalet i wad stanowi wyzwanie. Każdy z nich ma złożoną sieć poziomów wydań, wymagań dostępu, platform, baz kodu i nie tylko.

Jednak modele te nie są po prostu fragmentami oprogramowania lub sprzętu, które można szybko przetestować i ocenić, jak na przykład urządzenie lub usługa w chmurze. W rzeczywistości są to platformy, na które składają się dziesiątki pojedynczych modeli i usług wbudowanych lub do nich dodanych. W rezultacie ocena tych systemów wymaga badań jakościowych, co jest bardzo cenne dla konsumentów, którzy w tym bogatym i stale zmieniającym się kontekście starają się odróżnić prawdę od fałszu.

Duże firmy zachowują swoje wewnętrzne metody szkoleniowe i bazy danych jako tajemnicę handlową. Dlatego bez wglądu w te procesy trudno jest je obiektywnie ocenić. Firmy składają oświadczenia bez przeprosin, ale tak naprawdę nigdy nie zapraszają nas do zaglądania za kurtynę.

Różnorodność zadań, jakie może zostać poproszony o wykonanie systemu AI, w tym także tych, których nie przewidzieli jego twórcy, uniemożliwia przeprowadzenie wyczerpujących testów. Dodatkowo, co można testować, przez kogo i w jaki sposób, stale się rozwija. Na boisku jest, delikatnie mówiąc, chaotycznie, ale ktoś i tak musi pełnić rolę arbitra.

A lire également  Kolejny krok NVIDIA w dziedzinie sztucznej inteligencji dzięki przejęciu ARM za 40 miliardów dolarów

W E.S News postanowiliśmy pobłogosławić lawinę nonsensów związanych ze sztuczną inteligencją, którą otrzymujemy każdego dnia poprawiać niektóre modele sztucznej inteligencji. Konsumenci po prostu nie mogą ufać temu, co mówią duże firmy. Sprzedają produkt lub pakują Cię tak, abyś był produktem. Zrobią i powiedzą wszystko, żeby ukryć ten fakt. Dlatego postanowiliśmy przeprowadzić własne testy na głównych modelach, aby zdobyć praktyczne doświadczenia.

Identyfikując szereg cech, które użytkownicy mogą uznać za ważne, przeprowadzamy serię testów, aby uzyskać ogólny obraz możliwości sztucznej inteligencji. Testujemy wszystko, od ich zdolności do aktualizowania zmieniających się wiadomości, przez udzielanie porad medycznych, po tworzenie konkretnego opisu produktu i nie tylko. Następnie dzielimy się naszym doświadczeniem, dzięki czemu możesz zobaczyć, jak faktycznie działają modele, a nie tylko jaki jest ich wynik w testach porównawczych.

Są jednak pewne rzeczy, których nie robimy, jak testowanie możliwości multimedialnych, proszenie modelu o kodowanie, podawanie modelowi „powodów” do wykonania zadań, próby integracji z innymi aplikacjami, próby jailbreakowania modeli itp.

Ogólnie rzecz biorąc, celem jest przedstawienie ogólnego obrazu możliwości sztucznej inteligencji bez zagłębiania się w nieuchwytne i zawodne szczegóły. Jak każda szybko rozwijająca się branża, nasze podejście również musi ewoluować. Zależy nam na utrzymaniu aktualnej perspektywy.