Las redes de GPU descentralizadas se presentan como una capa de menor costo para ejecutar cargas de trabajo de IA, mientras que el entrenamiento de los modelos más recientes permanece concentrado dentro de los centros de datos a hiperescala.
El entrenamiento de IA de frontera implica la construcción de los sistemas más grandes y avanzados, un proceso que requiere que miles de GPU operen en estricta sincronización.
Ese nivel de coordinación hace que las redes descentralizadas sean poco prácticas para el entrenamiento de IA de alto nivel, donde la latencia y la fiabilidad de internet no pueden igualar el hardware estrechamente acoplado en los centros de datos centralizados.
La mayoría de las cargas de trabajo de IA en producción no se asemejan al entrenamiento de modelos a gran escala, abriendo espacio para que las redes descentralizadas manejen la inferencia y las tareas cotidianas.
“Lo que estamos empezando a ver es que muchos modelos de código abierto y otros se están volviendo lo suficientemente compactos y optimizados como para funcionar de manera muy eficiente en GPU de consumo”, dijo a Cointelegraph Mitch Liu, cofundador y CEO de Theta Network. “Esto está creando un cambio hacia modelos de código abierto más eficientes y enfoques de procesamiento más económicos”.

Del entrenamiento de IA de frontera a la inferencia cotidiana
El entrenamiento de frontera se concentra entre unos pocos operadores a hiperescala, ya que ejecutar grandes trabajos de entrenamiento es costoso y complejo. El hardware de IA más reciente, como Vera Rubin de Nvidia, está diseñado para optimizar el rendimiento en entornos de centros de datos integrados.
“Puedes pensar en el entrenamiento de modelos de IA de frontera como la construcción de un rascacielos”, dijo a Cointelegraph Nökkvi Dan Ellidason, CEO de la empresa de infraestructura Ovia Systems (antes Gaimin). “En un centro de datos centralizado, todos los trabajadores están en el mismo andamio, pasándose los ladrillos a mano”.
Ese nivel de integración deja poco espacio para la coordinación laxa y la latencia variable típicas de las redes distribuidas.
“Para construir el mismo rascacielos [en una red descentralizada], tienen que enviarse cada ladrillo por correo a través de la internet abierta, lo cual es muy ineficiente”, continuó Ellidason.

Meta entrenó su modelo de IA Llama 4 utilizando un clúster de más de 100.000 GPU Nvidia H100. OpenAI no revela el tamaño de los clústeres de GPU utilizados para entrenar sus modelos, pero el líder de infraestructura Anuj Saharan dijo que GPT-5 fue lanzado con el apoyo de más de 200.000 GPU, sin especificar cuánto de esa capacidad se utilizó para entrenamiento frente a inferencia u otras cargas de trabajo.
La inferencia se refiere a la ejecución de modelos entrenados para generar respuestas para usuarios y aplicaciones. Ellidason dijo que el mercado de la IA ha alcanzado un “punto de inflexión de inferencia”. Si bien el entrenamiento dominó la demanda de GPU tan recientemente como en 2024, estimó que hasta el 70% de la demanda será impulsada por la inferencia, los agentes y las cargas de trabajo de predicción en 2026.
“Esto ha convertido la computación de un costo de investigación en un costo de utilidad continuo y escalable”, dijo Ellidason. “Así, el multiplicador de demanda a través de bucles internos convierte la computación descentralizada en una opción viable en la conversación sobre la computación híbrida”.
Dónde encajan realmente las redes de GPU descentralizadas
Las redes de GPU descentralizadas son las más adecuadas para cargas de trabajo que pueden dividirse, enrutarse y ejecutarse de forma independiente, sin requerir una sincronización constante entre máquinas.
“La inferencia es el negocio de volumen y escala con cada modelo desplegado y bucle de agente”, dijo a Cointelegraph Evgeny Ponomarev, cofundador de la plataforma de computación descentralizada Fluence. “Ahí es donde el costo, la elasticidad y la distribución geográfica importan más que las interconexiones perfectas”.
En la práctica, eso hace que las GPU descentralizadas y de grado gaming en entornos de consumo sean más adecuadas para cargas de trabajo de producción que priorizan el rendimiento y la flexibilidad sobre la coordinación estricta.

“Las GPU de consumo, con menor VRAM y conexiones a internet domésticas, no tienen sentido para el entrenamiento o las cargas de trabajo altamente sensibles a la latencia”, dijo a Cointelegraph Bob Miles, CEO de Salad Technologies, un agregador de GPU de consumo inactivas.
“Hoy en día, son más adecuadas para el descubrimiento de fármacos con IA, texto a imagen/vídeo y grandes pipelines de procesamiento de datos; para cualquier carga de trabajo sensible al costo, las GPU de consumo destacan por su relación rendimiento-precio.”
Las redes de GPU descentralizadas también son muy adecuadas para tareas como la recopilación, limpieza y preparación de datos para el entrenamiento de modelos. Dichas tareas a menudo requieren un amplio acceso a la web abierta y pueden ejecutarse en paralelo sin una coordinación estricta.
Este tipo de trabajo es difícil de ejecutar de manera eficiente dentro de los centros de datos a hiperescala sin una infraestructura de proxy extensa, dijo Miles.
Al servir a usuarios de todo el mundo, un modelo descentralizado puede tener una ventaja geográfica, ya que puede reducir las distancias que las solicitudes tienen que recorrer y los múltiples saltos de red antes de llegar a un centro de datos, lo que puede aumentar la latencia.
“En un modelo descentralizado, las GPU se distribuyen en muchas ubicaciones a nivel mundial, a menudo mucho más cerca de los usuarios finales. Como resultado, la latencia entre el usuario y la GPU puede ser significativamente menor en comparación con el enrutamiento del tráfico a un centro de datos centralizado”, dijo Liu de Theta Network.
Theta Network se enfrenta a una demanda presentada en Los Ángeles en diciembre de 2025 por dos exempleados que alegan fraude y manipulación de tokens. Liu dijo que no podía comentar sobre el asunto porque hay un litigio pendiente. Theta ha negado previamente las acusaciones.
Una capa complementaria en la computación de IA
El entrenamiento de IA de vanguardia seguirá siendo centralizado en el futuro previsible, pero la computación de IA se está desplazando hacia la inferencia, los agentes y las cargas de trabajo de producción que requieren una coordinación más flexible. Esas cargas de trabajo recompensan la eficiencia de costos, la distribución geográfica y la elasticidad.
“Este ciclo ha visto el auge de muchos modelos de código abierto que no están a la escala de sistemas como ChatGPT, pero que aún son lo suficientemente capaces como para ejecutarse en ordenadores personales equipados con GPU como la RTX 4090 o la 5090”, dijo a Cointelegraph Jieyi Long, cofundador con Liu y jefe de tecnología de Theta.
Con ese nivel de hardware, los usuarios pueden ejecutar modelos de difusión, modelos de reconstrucción 3D y otras cargas de trabajo significativas localmente, creando una oportunidad para que los usuarios minoristas compartan sus recursos de GPU, según Long.
Las redes de GPU descentralizadas no son un reemplazo para los hiperescaladores, pero se están convirtiendo en una capa complementaria.
A medida que el hardware de consumo se vuelve más capaz y los modelos de código abierto se vuelven más eficientes, una clase creciente de tareas de IA puede moverse fuera de los centros de datos centralizados, permitiendo que los modelos descentralizados encajen en el stack de IA.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.

