El desarrollador de inteligencia artificial OpenAI entró en octubre con varias actualizaciones de sus modelos, ayudando a sus modelos de IA a entablar mejores conversaciones y mejorar el reconocimiento de imágenes.
El 1° de octubre, OpenAI presentó cuatro actualizaciones que introducen nuevas herramientas diseñadas para facilitar a los desarrolladores la creación de sus modelos de IA.
¡Una IA que habla!
Una de las principales actualizaciones es la Realtime API, que permite a los desarrolladores crear aplicaciones de voz generadas por IA con una sola instrucción.
La herramienta, disponible para pruebas, admite experiencias multimodales de baja latencia mediante la transmisión de entradas y salidas de audio, lo que permite conversaciones naturales similares al Modo de Voz Avanzado de ChatGPT.
Antes, los desarrolladores tenían que "coser" varios modelos para crear estas experiencias. Normalmente, las entradas de audio debían cargarse y procesarse por completo antes de recibir una respuesta, lo que suponía una latencia mayor para aplicaciones en tiempo real como las conversaciones de voz a voz.
Gracias a la capacidad de transmisión en tiempo real de Realtime API, los desarrolladores ahora pueden permitir interacciones inmediatas y naturales, muy parecidas a las de los asistentes de voz. La API se ejecuta en GPT-4, lanzada en mayo de 2024, que puede razonar a través de audio, visión y texto en tiempo real.
La IA ahora puede ver con claridad
Otra actualización incluye una herramienta de ajuste para desarrolladores que les permite mejorar las respuestas de la IA generadas a partir de imágenes y texto.
Según el desarrollador, los ajustes basados en imágenes permiten a la inteligencia artificial comprender mejor las imágenes, lo que a su vez mejora las capacidades de búsqueda visual y detección de objetos. El proceso incluye la retroalimentación de humanos que proporcionan ejemplos de respuestas buenas y malas.
Además de sus actualizaciones de voz y visión, OpenAI también puso en marcha la "destilación de modelos" (o model distillation) y el "prompt caching", que permiten a los modelos más pequeños aprender de los más grandes y reducir los costes y el tiempo de desarrollo reutilizando textos ya procesados.
Las capacidades avanzadas de sus modelos son un argumento de venta clave, ya que una parte importante de los ingresos de OpenAI procede de las empresas que crean sus propias aplicaciones a partir de la tecnología de OpenAI.
Según Reuters, OpenAI prevé que sus ingresos aumenten hasta los 11,600 millones de dólares el año que viene, frente a los 3,700 millones estimados para 2024.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión.