El chatbot ChatGPT de OpenAI, basado en inteligencia artificial, parece empeorar con el paso del tiempo, y los investigadores no consiguen averiguar por qué.
En un estudio publicado el 18 de julio, investigadores de Stanford y la Universidad de Berkeley descubrieron que los modelos más recientes de ChatGPT eran mucho menos capaces de dar respuestas precisas a una serie idéntica de preguntas en el plazo de unos pocos meses.
Los autores del estudio no pudieron dar una respuesta clara a por qué se habían deteriorado las capacidades del chatbot de IA.
Para comprobar la fiabilidad de los distintos modelos de ChatGPT, los investigadores Lingjiao Chen, Matei Zaharia y James Zou pidieron a los modelos ChatGPT-3.5 y ChatGPT-4 que resolvieran una serie de problemas matemáticos, respondieran a preguntas delicadas, escribieran nuevas líneas de código y realizaran razonamientos espaciales a partir de indicaciones.
We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023
Evaluamos el comportamiento de #ChatGPT a lo largo del tiempo y encontramos diferencias sustanciales en sus respuestas a las *mismas preguntas* entre la versión de junio de GPT4 y GPT3.5 y las versiones de marzo. Las versiones más recientes empeoraron en algunas tareas. Con Lingjiao Chen @matei_zaharia
Según la investigación, en marzo ChatGPT-4 fue capaz de identificar números primos con una tasa de precisión del 97.6%. En la misma prueba realizada en junio, la precisión de GPT-4 se había desplomado a sólo el 2.4%.
En cambio, el modelo anterior GPT-3.5 había mejorado en la identificación de números primos en el mismo periodo de tiempo.
A la hora de generar líneas de código nuevo, las capacidades de ambos modelos se deterioraron sustancialmente entre marzo y junio.
El estudio también descubrió que las respuestas de ChatGPT a preguntas delicadas -algunos ejemplos estaban centrados en el origen étnico y el género- se volvieron más concisas al negarse a responder.
Las primeras versiones del chatbot explicaban detalladamente por qué no podían responder a determinadas preguntas delicadas. En junio, sin embargo, los modelos simplemente se disculparon con el usuario y se negaron a responder.
"El comportamiento del 'mismo' servicio [de grandes modelos lingüísticos] puede cambiar sustancialmente en un periodo de tiempo relativamente corto", escribieron los investigadores, señalando la necesidad de una supervisión continua de la calidad de los modelos de IA.
Los investigadores recomendaron a los usuarios y a las empresas que confían en los servicios de gran modelo lingüístico como componente de sus flujos de trabajo que apliquen algún tipo de análisis de supervisión para garantizar que el chatbot se mantiene al día.
El 6 de junio, OpenAI desveló sus planes para crear un equipo que ayude a gestionar los riesgos que podrían surgir de un sistema de IA superinteligente, algo que espera que llegue dentro de una década.
Colecciona este artículo como NFT para preservar este momento de la historia y mostrar tu apoyo al periodismo independiente en el criptoespacio.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión
Sigue leyendo:
- Apple tiene su propio sistema GPT de AI, pero no tiene planes de lanzarlo al público
- La inteligencia artificial optimiza las funciones de los exchanges de criptomonedas - ejecutivo de Bitget
- Meta y Microsoft lanzan "Llama 2", un modelo de IA de código abierto
- CFTC: estamos trabajando 'diligentemente' en todas las aplicaciones relacionadas con criptomonedas, incluida la de Bakkt
- Ministerio de TI de China dice que Blockchain debería desarrollarse a escala industrial
- Las criptomonedas no se puede usar como dinero, concluye la Agencia de calificación rusa
- Las pruebas de conocimiento cero podrían cambiar toda la Internet, no sólo la Web3, dice un ejecutivo de Aleo