La empresa china de desarrollo de inteligencia artificial DeepSeek ha lanzado un nuevo modelo de lenguaje grande (LLM) de peso abierto.

DeepSeek subió su modelo más reciente, Prover V2, al servicio de alojamiento Hugging Face el 30 de abril. Este modelo, publicado bajo la licencia permisiva de código abierto del MIT, busca abordar la verificación de pruebas matemáticas.

Repositorio de DeepSeek-Prover-V2 HuggingFace. Fuente: HuggingFace

Prover V2 tiene 671.000 millones de parámetros, lo que lo hace significativamente mayor que sus predecesores, Prover V1 y Prover V1.5, que salieron a la venta en agosto de 2024. El documento que acompañaba a la primera versión explicaba que el modelo se entrenó para traducir problemas de competiciones matemáticas a lógica formal utilizando el lenguaje de programación Lean 4, una herramienta muy utilizada para demostrar teoremas.

Los desarrolladores afirman que Prover V2 comprime el conocimiento matemático en un formato que le permite generar y verificar pruebas, lo que podría ayudar a la investigación y la educación.

¿Qué significa todo esto?

Un modelo, también denominado de manera informal e incorrecta "pesos" en el ámbito de la IA, es el archivo o conjunto de archivos que permiten ejecutar localmente una IA sin depender de servidores externos. Aun así, merece la pena señalar que los LLM de última generación requieren un hardware al que la mayoría de la gente no tiene acceso.

Esto se debe a que esos modelos suelen tener un gran número de parámetros, lo que se traduce en archivos de gran tamaño que requieren mucha RAM o VRAM (memoria de GPU) y potencia de procesamiento para ejecutarse. El nuevo modelo Prover V2 pesa aproximadamente 650 gigabytes y se espera que funcione con RAM o VRAM.

Para conseguir este tamaño, los pesos de Prover V2 se han cuantificado a una precisión de coma flotante de 8 bits, lo que significa que cada parámetro se ha aproximado para que ocupe la mitad de espacio que los 16 bits habituales, siendo un bit un solo dígito en números binarios. Esto reduce a la mitad el volumen del modelo.

Prover V1 se basa en el modelo DeepSeekMath de siete mil millones de parámetros y se ha ajustado con datos sintéticos. Los datos sintéticos se refieren a los datos utilizados para entrenar modelos de IA que, a su vez, también fueron generados por modelos de IA, ya que los datos generados por humanos suelen considerarse una fuente cada vez más escasa de datos de mayor calidad.

Según se informa, Prover V1.5 ha mejorado la versión anterior optimizando tanto el entrenamiento como la ejecución y logrando una mayor precisión en las pruebas comparativas. Hasta ahora, las mejoras introducidas por Prover V2 no están claras, ya que en el momento de escribir estas líneas no se ha publicado ningún artículo de investigación ni ninguna otra información.

El número de parámetros de las ponderaciones de Prover V2 sugiere que es probable que se base en el anterior modelo R1 de la empresa. Cuando se lanzó por primera vez, el R1 causó sensación en el sector de la IA por su rendimiento, comparable al del entonces puntero modelo o1 de OpenAI.

La importancia de los pesos de código abierto

Hacer públicos los pesos de los LLM es un tema controvertido. Por un lado, es una fuerza democratizadora que permite al público acceder a la IA en sus propios términos sin depender de la infraestructura de una empresa privada.

Por otro, significa que la empresa no puede intervenir y evitar el abuso del modelo imponiendo ciertas limitaciones a las consultas peligrosas de los usuarios. La liberación de R1 de esta manera suscitó preocupaciones de seguridad, y algunos lo describieron como el "momento Sputnik" de China.

Los defensores del código abierto se alegraron de que DeepSeek continuara donde Meta lo dejó con la publicación de su serie LLaMA de modelos de IA de código abierto, demostrando que la IA abierta es un serio competidor para la IA cerrada de OpenAI. La accesibilidad de esos modelos también sigue mejorando.

Modelos lingüísticos accesibles

Ahora, incluso los usuarios sin acceso a un superordenador que cuesta más que una casa media en gran parte del mundo pueden ejecutar los LLM localmente. Esto se debe principalmente a dos técnicas de desarrollo de la IA: la destilación de modelos y la cuantización.

La destilación consiste en entrenar una red "estudiante" compacta para replicar el comportamiento de un modelo "maestro" más grande, de modo que se mantiene la mayor parte del rendimiento al tiempo que se recortan los parámetros para hacerlo accesible a un hardware menos potente. La cuantificación consiste en reducir la precisión numérica de los pesos y las activaciones de un modelo para reducir su tamaño y aumentar la velocidad de inferencia con una pérdida de precisión mínima.

Un ejemplo es la reducción de Prover V2 de números de coma flotante de 16 a ocho bits, pero es posible realizar otras reducciones reduciendo aún más los bits a la mitad. Ambas técnicas repercuten en el rendimiento del modelo, pero por lo general lo dejan prácticamente funcional.

El R1 de DeepSeek se destiló en versiones con modelos LLaMA y Qwen reentrenados que oscilan entre 70.000 millones de parámetros y 1.500 millones. El más pequeño de estos modelos puede ejecutarse incluso en algunos dispositivos móviles.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.