OpenAI lanza el rastreador web GPTBot, herramienta que podría utilizarse para mejorar futuros modelos de ChatGPT

08 ago 2023

Los usuarios de ChatGPT tienen la opción de bloquear el rastreador web añadiendo el comando "disallow" a un archivo estándar del servidor.

OpenAI lanza el rastreador web GPTBot, herramienta que podría utilizarse para mejorar futuros modelos de ChatGPT — Noticias

La empresa de inteligencia artificial OpenAI ha lanzado "GPTBot", su nueva herramienta de rastreo web que, según afirma, podría utilizarse para mejorar futuros modelos de ChatGPT.

"Las páginas web rastreadas con el agente de usuario GPTBot podrían utilizarse para mejorar futuros modelos", afirma OpenAI en una nueva entrada de su blog, en la que añade que podría mejorar la precisión y ampliar las capacidades de futuras iteraciones.

Zoom actualiza sus términos tras la polémica y no entrenará modelos de IA sin el consentimiento de los usuarios

Un rastreador web, a veces denominado “web spider”, es un tipo de robot que indexa el contenido de los sitios web de Internet. Los motores de búsqueda como Google y Bing los utilizan para que los sitios web aparezcan en los resultados de las búsquedas.

OpenAI afirma que el rastreador web recopilará datos públicos de la red mundial, pero filtrará las fuentes que requieran contenidos de pago, que recopilen información personal identificable o que contengan texto que infrinja sus políticas.

Breaking

OpenAI just launched GPTBot, a web crawler designed to automatically scrape data from the entire internet.

This data will be used to train future AI models like GPT-4 and GPT-5!

GPTBot ensures that sources violating privacy and those behind paywalls are excluded. pic.twitter.com/oR3kY4buaU
— Shubham Saboo (@Saboo_Shubham_) August 7, 2023

Última hora: OpenAI acaba de lanzar GPTBot, un rastreador web diseñado para recoger automáticamente datos de todo Internet. Estos datos se utilizarán para entrenar futuros modelos de IA como GPT-4 y GPT-5. GPTBot garantiza que se excluyan las fuentes que violan la privacidad y las que están detrás de muros de pago.

Cabe señalar que los propietarios de sitios web pueden denegar el rastreador web añadiendo un comando "disallow" a un archivo estándar en el servidor.

*Instrucciones para que los usuarios de ChatGPT elijan "disallow" para GPTBot. Fuente:* *OpenAI*

El nuevo rastreador llega tres semanas después de que la empresa presentara una solicitud de marca para "GPT-5", el sucesor previsto del actual modelo GPT-4.

Google es acusado de despedir ilegalmente a empleados contratados que trabajaban en IA: Informe

La solicitud se presentó en la Oficina de Patentes y Marcas de Estados Unidos el 18 de julio, y cubre el uso del término "GPT-5", que incluye software para el habla y el texto humano basado en IA, la conversión de audio en texto y el reconocimiento de voz y habla.

OpenAI has filed a trademark application for:

“GPT-5”

which includes “software for”:

“the artificial production of human speech and text”

“conversion of audio data files into text”

"voice and speech recognition"

"machine-learning based language and speech processing"

pic.twitter.com/54aJBovDNB
— YK aka CS Dojo (@ykdojo) August 1, 2023

OpenAI ha presentado una solicitud de marca para:
"GPT-5", que incluye "software para": "la producción artificial de habla y texto humanos", "conversión de archivos de datos de audio en texto", "reconocimiento de voz y habla", "procesamiento de lenguaje y habla basado en aprendizaje automático".

Sin embargo, es posible que los observadores no quieran tener demasiada esperanza puesta en que la próxima iteración de ChatGPT estará lista pronto. En junio, el fundador y CEO de OpenAI, Sam Altman, afirmó que la empresa no está "ni cerca” de empezar a entrenar GPT-5, y explicó que antes de empezar hay que realizar varias auditorías de seguridad.

Últimamente, las tácticas de recopilación de datos de OpenAI han suscitado preocupación, sobre todo en relación con los derechos de autor y el consentimiento.

En junio, el organismo de control de la privacidad de Japón advirtió a OpenAI sobre la recopilación de datos confidenciales sin permiso, e Italia prohibió temporalmente el uso de ChatGPT tras alegar que infringía varias leyes de privacidad de la Unión Europea en abril.

Massachusetts inicia una investigación sobre la IA en el sector de valores mobiliarios

A finales de junio, 16 demandantes interpusieron una demanda colectiva contra OpenAI alegando que la empresa de IA había accedido a información privada de las interacciones de los usuarios de ChatGPT.

Si se demuestra que estas acusaciones son ciertas, OpenAI -y Microsoft, que fue nombrada demandada- estarían infringiendo la Ley de Fraude y Abuso Informático, una ley con precedentes en casos de web-scraping.

Aclaración: La información y/u opiniones emitidas en este artículo no representan necesariamente los puntos de vista o la línea editorial de Cointelegraph. La información aquí expuesta no debe ser tomada como consejo financiero o recomendación de inversión. Toda inversión y movimiento comercial implican riesgos y es responsabilidad de cada persona hacer su debida investigación antes de tomar una decisión de inversión

Sigue leyendo:

Cointelegraph está comprometido con un periodismo independiente y transparente. Este artículo de noticias se elabora de conformidad con la Política Editorial de Cointelegraph y tiene como objetivo proporcionar información precisa y oportuna. Se recomienda a los lectores verificar la información de manera independiente. Lea nuestra Política Editorial https://es.cointelegraph.com/editorial-policy