Lograr que ChatGPT opere de manera autónoma dentro de los confines de un sistema operativo ha demostrado ser una tarea difícil por numerosas razones, pero un equipo compuesto por científicos de Microsoft Research y la Universidad de Pekín puede haber descubierto el ingrediente secreto.

El equipo realizó un estudio para determinar por qué los modelos de lenguaje grandes de inteligencia artificial (IA) como GPT-4 fallan en tareas que requieren la manipulación de un sistema operativo.

Sistemas de última generación como ChatGPT funcionando en GPT-4 establecen el punto de referencia para tareas generativas como redactar un correo electrónico o escribir un poema. Pero lograr que actúen como agentes dentro de un entorno general presenta un desafío significativo.

Tradicionalmente, los modelos de IA se entrenan para explorar a través del aprendizaje por refuerzo en un entorno virtual. Los desarrolladores de IA han utilizado versiones modificadas de videojuegos populares como Super Mario Bros. y Minecraft para "enseñar" a los modelos conceptos como la exploración autoguiada y la búsqueda de objetivos.

Pero los sistemas operativos son un terreno completamente diferente para los modelos de IA. Como agentes, realizar funciones dentro de un SO a menudo se presenta como un desafío multimodal que requiere el intercambio de información entre diferentes componentes, programas y aplicaciones.

En términos generales, el enfoque de entrenamiento por refuerzo requiere ensayo y error. Sin embargo, como cualquier persona que haya ingresado incorrectamente su contraseña demasiadas veces, o haya olvidado qué accesos directos funcionan en qué aplicaciones sabe, los datos pueden perderse fácilmente al usar dicho enfoque en un entorno de sistema operativo.

Los investigadores trabajaron con varios LLMs incluyendo Llama2 70B de código abierto de Meta y GPT-3.5 y GPT-4 de OpenAI. Según la investigación, ninguno de ellos funcionó particularmente bien.

Según el documento del equipo, esto se debe a que el desafío actualmente supera las capacidades de la IA actual:

“En primer lugar, el espacio de acción es vasto y dinámico. … En segundo lugar, las tareas del mundo real a menudo requieren cooperación entre aplicaciones, exigiendo una planificación previsora de los agentes LLM. En tercer lugar, los agentes deben identificar soluciones óptimas que se alineen con las restricciones del usuario, como preocupaciones de seguridad y preferencias”.

Para que los investigadores encontraran una manera de superar estos desafíos, primero tuvieron que entender por qué los LLMs fallaban al manipular sistemas operativos cuando algunos modelos de IA eran capaces de hazañas sobrehumanas como vencer a todos en ajedrez y Go.

El equipo desarrolló un entorno de entrenamiento novedoso llamado AndroidArena que permitió a los LLMs explorar un entorno similar al sistema operativo Android. Luego, después de crear tareas de prueba y un sistema de referencia, identificaron la falta de cuatro capacidades clave como responsables: comprensión, razonamiento, exploración y reflexión.

Aunque el alcance del trabajo estaba específicamente destinado a cubrir la identificación del problema, durante el proceso de investigación el equipo identificó en realidad un método "simple" para aumentar la precisión de un modelo en un 27%.

Esencialmente, el equipo proporcionó al modelo información automatizada relacionada con la cantidad de intentos que había realizado anteriormente y qué había intentado durante esos intentos. Esto abordó el problema de la falta de "reflexión" al incrustar de alguna manera la memoria dentro de los estímulos utilizados para activarlo.

Esta investigación podría ser significativa en la búsqueda de construir un mejor asistente de IA.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión