OpenAI, Google y Meta se ven enfrentados a la escasez de datos para capacitar sus modelos de inteligencia artificial.
Se calcula que la disponibilidad de datos en Internet podría llegar a su límite en 2026, lo que lleva a los gigantes tecnológicos a buscar nuevas fuentes para alimentar sus modelos de inteligencia artificial.
Es interesante pensar en el crecimiento exponencial de los datos en internet y cómo esto podría afectar la disponibilidad futura de información. Si bien es difícil predecir con certeza si alcanzaremos un "límite" en la disponibilidad de datos para el año 2026, es plausible que los gigantes tecnológicos estén explorando constantemente nuevas fuentes de datos para alimentar sus modelos de inteligencia artificial.
En la medida en que el volumen de datos disponibles continúe aumentando, es probable que se necesiten enfoques innovadores para gestionar, almacenar y procesar toda esta información. Además, el desarrollo de tecnologías de IA que puedan funcionar con conjuntos de datos más pequeños y de alta calidad podría ser una respuesta a los posibles desafíos de disponibilidad de datos.
En resumen, aunque la idea de un "límite" en la disponibilidad de datos para el año 2026 es especulativa, no es descabellado imaginar que los gigantes tecnológicos estén explorando alternativas y nuevas fuentes de datos para mantener el desarrollo de sus modelos de inteligencia artificial.
El año pasado, el departamento jurídico de Google propuso a sus empleados ampliar el lenguaje de los modelos utilizando datos de los consumidores, incluyendo información de Google Docs, Google Sheets, Google Maps y Google Slides. Sin embargo, esta práctica no se llevó a cabo debido a una actualización en la política de privacidad de la compañía.
OpenAI consideró la posibilidad de utilizar datos sintéticos, generados por sus propios sistemas de inteligencia artificial, para entrenar su modelo GPT. No obstante, este enfoque plantea el riesgo de reforzar errores y limitaciones en el modelo. Además, OpenAI podría haber empleado su herramienta Whisper para transcribir vídeos y podcasts de YouTube, aprovechando así una variedad de fuentes para entrenar sus herramientas.