La empresa de inteligencia artificial OpenAI ha lanzado "GPTBot", su nueva herramienta de rastreo web que, según afirma, podría utilizarse para mejorar futuros modelos de ChatGPT.
"Las páginas web rastreadas con el agente de usuario GPTBot podrían utilizarse para mejorar futuros modelos", afirma OpenAI en una nueva entrada de su blog, en la que añade que podría mejorar la precisión y ampliar las capacidades de futuras iteraciones.
Un rastreador web, a veces denominado “web spider”, es un tipo de robot que indexa el contenido de los sitios web de Internet. Los motores de búsqueda como Google y Bing los utilizan para que los sitios web aparezcan en los resultados de las búsquedas.
OpenAI afirma que el rastreador web recopilará datos públicos de la red mundial, pero filtrará las fuentes que requieran contenidos de pago, que recopilen información personal identificable o que contengan texto que infrinja sus políticas.
Breaking
— Shubham Saboo (@Saboo_Shubham_) August 7, 2023
OpenAI just launched GPTBot, a web crawler designed to automatically scrape data from the entire internet.
This data will be used to train future AI models like GPT-4 and GPT-5!
GPTBot ensures that sources violating privacy and those behind paywalls are excluded. pic.twitter.com/oR3kY4buaU
Última hora: OpenAI acaba de lanzar GPTBot, un rastreador web diseñado para recoger automáticamente datos de todo Internet. Estos datos se utilizarán para entrenar futuros modelos de IA como GPT-4 y GPT-5. GPTBot garantiza que se excluyan las fuentes que violan la privacidad y las que están detrás de muros de pago.
Cabe señalar que los propietarios de sitios web pueden denegar el rastreador web añadiendo un comando "disallow" a un archivo estándar en el servidor.

El nuevo rastreador llega tres semanas después de que la empresa presentara una solicitud de marca para "GPT-5", el sucesor previsto del actual modelo GPT-4.
La solicitud se presentó en la Oficina de Patentes y Marcas de Estados Unidos el 18 de julio, y cubre el uso del término "GPT-5", que incluye software para el habla y el texto humano basado en IA, la conversión de audio en texto y el reconocimiento de voz y habla.
OpenAI has filed a trademark application for:
— YK aka CS Dojo (@ykdojo) August 1, 2023
“GPT-5”
which includes “software for”:
“the artificial production of human speech and text”
“conversion of audio data files into text”
"voice and speech recognition"
"machine-learning based language and speech processing"
pic.twitter.com/54aJBovDNB
OpenAI ha presentado una solicitud de marca para:
"GPT-5", que incluye "software para": "la producción artificial de habla y texto humanos", "conversión de archivos de datos de audio en texto", "reconocimiento de voz y habla", "procesamiento de lenguaje y habla basado en aprendizaje automático".
Sin embargo, es posible que los observadores no quieran tener demasiada esperanza puesta en que la próxima iteración de ChatGPT estará lista pronto. En junio, el fundador y CEO de OpenAI, Sam Altman, afirmó que la empresa no está "ni cerca” de empezar a entrenar GPT-5, y explicó que antes de empezar hay que realizar varias auditorías de seguridad.
Últimamente, las tácticas de recopilación de datos de OpenAI han suscitado preocupación, sobre todo en relación con los derechos de autor y el consentimiento.
En junio, el organismo de control de la privacidad de Japón advirtió a OpenAI sobre la recopilación de datos confidenciales sin permiso, e Italia prohibió temporalmente el uso de ChatGPT tras alegar que infringía varias leyes de privacidad de la Unión Europea en abril.
A finales de junio, 16 demandantes interpusieron una demanda colectiva contra OpenAI alegando que la empresa de IA había accedido a información privada de las interacciones de los usuarios de ChatGPT.
Si se demuestra que estas acusaciones son ciertas, OpenAI -y Microsoft, que fue nombrada demandada- estarían infringiendo la Ley de Fraude y Abuso Informático, una ley con precedentes en casos de web-scraping.
Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión
Sigue leyendo:
- Zoom actualiza sus términos tras la polémica y no entrenará modelos de IA sin el consentimiento de los usuarios
- Google es acusado de despedir ilegalmente a empleados contratados que trabajaban en IA: Informe
- Massachusetts inicia una investigación sobre la IA en el sector de valores mobiliarios
- Bifurcación de Ethereum Constantinopla vendrá a mediados de enero, basado en el nuevo acuerdo de los desarroladores
- España: Realizarán una jornada sobre blockchain y sus aplicaciones a modelos de negocios, en Córdoba
- Después de lanzamiento del Petro, respaldado por petróleo, el presidente de Venezuela dice que lanzará "Petro Oro", respaldada por oro
- El 70% de la adopción de USDC procede de fuera de Estados Unidos, dice el CEO de Circle