Casi dos docenas de investigadores de la Universidad de Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley colaboraron para crear un método para medir las capacidades de los modelos grandes de lenguaje (LLM) como agentes del mundo real.
Los LLM como ChatGPT de OpenAI y Claude de Anthropic han conquistado el mundo de la tecnología durante el año pasado, ya que los "chatbots" de vanguardia han demostrado ser útiles en una variedad de tareas, incluida la codificación, el comercio de criptomonedas y la generación de texto.
Por lo general, estos modelos se comparan en función de su capacidad para generar texto percibido como humano o por sus puntajes en pruebas de lenguaje sencillo diseñadas para humanos. En comparación, se han publicado muchos menos artículos sobre el tema de los modelos LLM como agentes.
Los agentes de inteligencia artificial realizan tareas específicas, como seguir un conjunto de instrucciones dentro de un entorno específico. Por ejemplo, los investigadores a menudo entrenarán a un agente de IA para navegar en un entorno digital complejo como método para estudiar el uso del aprendizaje automático para desarrollar robots autónomos de manera segura.
Los agentes de aprendizaje automático tradicionales, como el del video anterior, generalmente no se crean como LLM debido a los costos prohibitivos que implican los modelos de capacitación como ChatGPT y Claude. Sin embargo, los LLM más grandes se han mostrado prometedores como agentes.
El equipo de Tsinghua, Ohio State, y UC Berkeley desarrollaron una herramienta llamada AgentBench para evaluar y medir las capacidades de los modelos LLM como agentes del mundo real, algo que afirman es el primero de su tipo.
Según el artículo preliminar de los investigadores, el principal desafío en la creación de AgentBench fue ir más allá de los entornos tradicionales de aprendizaje de IA (videojuegos y simuladores de física) y encontrar formas de aplicar las habilidades de LLM a problemas del mundo real para que pudieran medirse de manera efectiva.

Lo que idearon fue un conjunto multidimensional de pruebas que mide la capacidad de un modelo para realizar tareas desafiantes en diversas situaciones.
Estas pruebas incluyen hacer que los modelos realicen funciones en una base de datos SQL, trabajar dentro de un sistema operativo, planificar y realizar tareas de limpieza doméstica, comprar en línea y varios otros trabajos de alto nivel que requieren resolución de problemas paso a paso.
Según el artículo, los modelos más grandes y costosos superaron en gran medida a los modelos de código abierto:
“Hemos realizado una evaluación exhaustiva de 25 LLM diferentes utilizando AgentBench, incluidos modelos basados en API y de código abierto. Nuestros resultados revelan que los modelos de primer nivel como GPT-4 son capaces de manejar una amplia gama de tareas del mundo real, lo que indica el potencial para desarrollar un potente agente de aprendizaje continuo”.
Los investigadores llegaron a afirmar que "los mejores LLM se están volviendo capaces de abordar misiones complejas del mundo real", pero agregaron que los competidores de código abierto todavía tienen un "largo camino por recorrer".
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.
Sigue leyendo:
- Zoom actualiza sus términos tras la polémica y no entrenará modelos de IA sin el consentimiento de los usuarios
- AI21 Labs estrena función contra las alucinaciones para los chatbots de GPT
- Organismo francés de control de la privacidad cuestiona el método de recopilación de datos de Worldcoin
- OpenAI cierra el detector de IA por su baja precisión
- La nueva IA "Voicebox" de Meta es una herramienta de texto a voz que aprende como ChatGPT
- El órgano irlandés de control de datos impide a Google lanzar Bard en la UE: Informe
- Bitstamp suspenderá el trading de importantes altcoins para usuarios estadounidenses