Why it's impossible to review AIs, and why TechCrunch is doing it anyway

Warum es unmöglich ist, KI zu kritisieren und warum E.S News es trotzdem tut

Die Landschaft der künstlichen Intelligenz (KI) wächst rasant und fast jede Woche werden neue Modelle vorgestellt. Dieser rasante Fortschritt bringt jedoch viele Herausforderungen mit sich, darunter auch die Bewertung dieser KI-Modelle. Bestehende Bewertungsrahmen haben Schwierigkeiten, mit der Entwicklung und dem Umfang von KI-Systemen Schritt zu halten.

Ohne Markierung und ständig aktualisiertAllerdings ist es schwierig, diese KI-Konfigurationen vollständig und konsistent zu beurteilen. Die ergebnisse von synthetische Benchmarks tragen nur dazu bei, einen abstrakten Überblick über genau definierte Fähigkeiten zu geben. KI-Unternehmen wie Google und OpenAI setzen auf diese Herausforderung, um ihren Vorteil hervorzuheben, und unterstreichen die Notwendigkeit, dass sich Verbraucher ausschließlich auf die Behauptungen dieser Unternehmen verlassen müssen.

KI-Modelle sind zu zahlreich, zu groß und zu undurchsichtig. Die Häufigkeit der Veröffentlichung dieser Modelle ist so hoch, dass eine ernsthafte Bewertung ihrer Vorzüge und Schwächen eine Herausforderung darstellt. Jedes davon verfügt über ein komplexes Netz aus Release-Levels, Zugriffsanforderungen, Plattformen, Codebasen und mehr.

Bei diesen Modellen handelt es sich jedoch nicht einfach um Software- oder Hardwareteile, die man schnell testen und bewerten kann, wie etwa ein Gerät oder einen Cloud-Dienst. Es handelt sich eigentlich um Plattformen, die aus Dutzenden einzelner Modelle und Dienste bestehen, die in sie integriert oder hinzugefügt werden. Daher erfordert die Bewertung dieser Systeme eine qualitative Studie, die sich als sehr wertvoll für Verbraucher erweist, die in diesem reichhaltigen und sich ständig weiterentwickelnden Kontext versuchen, das Wahre vom Falschen zu unterscheiden.

Große Unternehmen behalten ihre internen Schulungsmethoden und Datenbanken als Geschäftsgeheimnis. Ohne Einblick in diese Prozesse ist es daher schwierig, sie objektiv zu bewerten. Unternehmen geben keine entschuldigenden Erklärungen ab, laden uns jedoch nie dazu ein, einen Blick hinter die Kulissen zu werfen.

Die große Vielfalt an Aufgaben, die ein KI-System möglicherweise ausführen muss, einschließlich solcher, mit denen seine Entwickler nicht gerechnet haben, macht umfassende Tests unmöglich. Darüber hinaus entwickelt sich die Frage, was von wem und wie getestet werden kann, ständig weiter. Das Feld ist, gelinde gesagt, chaotisch, aber jemand muss trotzdem als Schiedsrichter fungieren.

A lire également  Poe führt ein Preis-pro-Nachricht-Umsatzmodell für KI-Bot-Entwickler ein

Bei E.S News haben wir uns dazu entschlossen, die Lawine an KI-Unsinn zu segnen, die wir jeden Tag erhalten überarbeiten bestimmte KI-Modelle. Verbraucher können den Aussagen großer Unternehmen einfach nicht vertrauen. Sie verkaufen ein Produkt oder sie verpacken Sie als Produkt. Sie werden alles tun und sagen, um diese Tatsache zu verbergen. Daher haben wir uns entschieden, eigene Tests an den Hauptmodellen durchzuführen, um diese praktischen Erfahrungen zu sammeln.

Wir identifizieren eine Reihe von Eigenschaften, die für Benutzer wichtig sein könnten, und verwenden eine Reihe von Tests, um einen allgemeinen Eindruck von den Fähigkeiten einer KI zu bekommen. Wir testen alles von ihrer Fähigkeit, eine sich entwickelnde Nachrichtenmeldung zu aktualisieren, über medizinische Ratschläge bis hin zur Erstellung einer spezifischen Produktbeschreibung und mehr. Anschließend teilen wir unsere Erfahrungen, damit Sie sehen können, wie die Modelle tatsächlich abschneiden und nicht nur, wie hoch ihr Benchmark-Score ist.

Es gibt jedoch einige Dinge, die wir nicht tun, wie zum Beispiel das Testen von Multimedia-Fähigkeiten, das Auffordern eines Modells zum Codieren, das Angeben von „Gründen“ für das Modell für Aufgaben, das Ausprobieren von Integrationen mit anderen Apps, der Versuch, Modelle zu jailbreaken usw.

Insgesamt besteht das Ziel darin, einen allgemeinen Überblick über die Fähigkeiten einer KI zu geben, ohne sich mit schwer fassbaren und unzuverlässigen Details zu befassen. Wie jede sich schnell entwickelnde Branche muss sich auch unser Ansatz weiterentwickeln. Wir sind bestrebt, eine aktuelle Perspektive zu wahren.