Why it's impossible to review AIs, and why TechCrunch is doing it anyway

Por qué es imposible criticar la IA y por qué E.S News lo hace de todos modos

El panorama de la inteligencia artificial (IA) está creciendo rápidamente y prácticamente todas las semanas se presentan nuevos modelos. Sin embargo, este rápido progreso plantea muchos desafíos, incluido el de evaluar estos modelos de IA. Los marcos de evaluación existentes luchan por seguir el ritmo de la evolución y escala de los sistemas de IA.

Sin marcar y constantemente actualizado, estas configuraciones de IA son difíciles de juzgar de manera completa y consistente. Los resultados de puntos de referencia sintéticos sólo contribuyen a proporcionar una visión abstracta de capacidades bien definidas. Las empresas de inteligencia artificial, como Google y OpenAI, apuestan por este desafío para enfatizar su ventaja, subrayando la necesidad de que los consumidores confíen únicamente en las afirmaciones de estas empresas.

Los modelos de IA son demasiado numerosos, demasiado vastos y demasiado opacos. La frecuencia de lanzamiento de estos modelos es tan alta que una evaluación seria de sus ventajas y desventajas es un desafío. Cada uno de ellos tiene una red compleja de niveles de lanzamiento, requisitos de acceso, plataformas, bases de código y más.

Sin embargo, estos modelos no son simplemente piezas de software o hardware que se puedan probar y evaluar rápidamente, como un dispositivo o un servicio en la nube. En realidad, son plataformas que comprenden decenas de modelos individuales y servicios incorporados o añadidos a ellas. Por ello, la evaluación de estos sistemas requiere un estudio cualitativo, que resulta muy valioso para los consumidores que, en este contexto rico y en constante evolución, buscan distinguir lo verdadero de lo falso.

Las grandes empresas mantienen sus métodos de formación internos y sus bases de datos como secretos comerciales. Por tanto, sin visibilidad de estos procesos, es difícil evaluarlos objetivamente. Las empresas hacen declaraciones sin disculpas, pero nunca nos invitan a mirar detrás de la cortina.

A lire également  El jefe de Estabilidad de IA deja su puesto, diciendo que es inútil intentar superar un sistema de IA centralizado con una IA aún más centralizada.

La amplia variedad de tareas que se le puede pedir a un sistema de IA que realice, incluidas aquellas que sus creadores no anticiparon, hace imposible realizar pruebas exhaustivas. Además, lo que se puede probar, quién y cómo se puede probar está en constante evolución. El campo es caótico, por decirlo suavemente, pero todavía alguien tiene que actuar como árbitro.

En E.S News, bendita la avalancha de tonterías sobre IA que recibimos todos los días, hemos decidido revisar ciertos modelos de IA. Los consumidores simplemente no pueden confiar en lo que dicen las grandes empresas. Venden un producto o te empaquetan para que seas un producto. Harán y dirán cualquier cosa para ocultar este hecho. Por lo tanto, decidimos realizar nuestras propias pruebas en los modelos principales para obtener esta experiencia práctica.

Al identificar una variedad de cualidades que los usuarios pueden considerar importantes, utilizamos una serie de pruebas para tener una idea general de las capacidades de una IA. Probamos todo, desde su capacidad para actualizar una noticia en evolución, hasta dar consejos médicos, producir una descripción de producto específica y más. Luego compartimos nuestra experiencia para que pueda ver cómo se desempeñan realmente los modelos, no solo cuál es su puntaje de referencia.

Sin embargo, hay algunas cosas que no hacemos, como probar capacidades multimedia, pedirle a un modelo que codifique, darle «razones» al modelo para las tareas, intentar integraciones con otras aplicaciones, intentar hacer jailbreak a los modelos, etc.

En general, el objetivo es proporcionar una visión general de las capacidades de una IA sin profundizar en detalles esquivos y poco fiables. Como cualquier industria en rápida evolución, nuestro enfoque también debe evolucionar. Estamos comprometidos a mantener una perspectiva actualizada.