Nvidia lanzó sin ceremonias un nuevo modelo de inteligencia artificial el 15 de octubre, que supuestamente supera a los sistemas de inteligencia artificial más avanzados, incluidos GPT-4o y Claude-3. 

Según una publicación en la plataforma de redes sociales X.com desde la cuenta de Nvidia AI Developer, el nuevo modelo, llamado Llama-3.1-Nemotron-70B-Instruct, “es un modelo líder” en el Chatbot Arena de lmarena.AI. 

NVidia, Technology, Meta, ChatGPT, OpenAI

Nvidia AI anuncia la puntuación de Nemotron. Fuente: Nvidia AI

Nemotron

Llama-3.1-Nemotron-70B-Instruct es, esencialmente, una versión modificada del modelo de código abierto Llama-3.1-70B-Instruct de Meta. La parte "Nemotron" del nombre del modelo encapsula la contribución de Nvidia al resultado final. 

La “manada” de modelos de IA Llama, como los denomina Meta, están diseñados para ser utilizados como bases de código abierto para que los desarrolladores las expandan.

En el caso de Nemotron, Nvidia asumió el desafío y desarrolló un sistema diseñado para ser más “útil” que los modelos populares como ChatGPT de OpenAI y Claude-3 de Anthropic. 

Nvidia utilizó conjuntos de datos especialmente seleccionados, métodos avanzados de ajuste fino y su propio hardware de inteligencia artificial de última generación para convertir el modelo básico de Meta en lo que podría ser el modelo de IA más “útil” del planeta. 

NVidia, Technology, Meta, ChatGPT, OpenAI

Mensaje de un ingeniero en X.com expresando su entusiasmo por las capacidades de Nemotron. Fuente: Shayan Taslim

“Le hice algunas preguntas de codificación que suelo usar para comparar LLMs y obtuve algunas de las mejores respuestas de este. lol, santo cielo.”

Benchmarking

Cuando se trata de determinar cuál modelo de IA es “el mejor”, no existe una metodología clara. A diferencia, por ejemplo, de medir la temperatura ambiente con un termómetro de mercurio, no existe una única “verdad” en lo que respecta al rendimiento de los modelos de IA. 

Los desarrolladores e investigadores tienen que determinar el rendimiento de un modelo de IA de la misma manera en que se evalúa a los humanos: mediante pruebas comparativas. 

El benchmarking de IA implica dar a diferentes modelos de IA las mismas consultas, tareas, preguntas o problemas y luego comparar la utilidad de los resultados. A menudo, debido a la subjetividad de lo que se considera útil o no, se utilizan evaluaciones ciegas realizadas por humanos para determinar el rendimiento de las máquinas. 

En el caso de Nemotron, parece que Nvidia afirma que el nuevo modelo supera a los modelos de última generación existentes, como GPT-4o y Claude-3, por un margen considerable.

NVidia, Technology, Meta, ChatGPT, OpenAI

Top 6 de la clasificación de Chatbot Arena.: LMArenea.AI

La imagen de arriba muestra las calificaciones en la prueba automatizada "Hard" en las tablas de clasificaciones de Chatbot Arena. Aunque Llama-3.1-Nemotron-70B-Instruct de Nvidia no parece estar listado en ninguna parte de las tablas, si la afirmación del desarrollador de que obtuvo un 85 en esta prueba es válida, sería el modelo de facto superior en esta sección en particular. 

Lo que hace que el logro sea quizás aún más interesante es que Llama-3.1-70B es el modelo de IA de código abierto de nivel medio de Meta. Existe una versión mucho más grande de Llama-3.1, la versión 405B (donde el número se refiere a cuántos miles de millones de parámetros se ajustó el modelo).

En comparación, se estima que GPT-4o fue desarrollado con más de un billón de parámetros.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.