"Si un trabajador quiere hacer bien su trabajo, primero debe afilar sus herramientas." - Confucio, "Las Analectas de Confucio. Lu Linggong"
Página delantera > AI > Las herramientas de inteligencia artificial se están quedando sin datos de entrenamiento, pero hay 6 soluciones

Las herramientas de inteligencia artificial se están quedando sin datos de entrenamiento, pero hay 6 soluciones

Publicado el 2024-07-29
Navegar:940

La inteligencia artificial necesita datos de entrenamiento, pero esos datos son limitados. Entonces, ¿de qué otra manera podemos entrenar la IA para que siga creciendo y siendo útil para nosotros?

Se podría pensar que Internet y sus datos son recursos inagotables, pero las herramientas de inteligencia artificial se están quedando sin datos para extraer. Ahora bien, antes de que se preocupe, esto no detendrá el desarrollo de la IA: todavía hay muchos datos listos para entrenar sistemas de IA.

1 Siempre se agregan más datos en línea

En resumen, el instituto de investigación de IA Epoch dice que los datos de alta calidad con los que se entrena la IA podrían agotarse en 2026.

La palabra clave es "podría". La cantidad de datos agregados a Internet cada año aumenta, por lo que algo drástico puede cambiar antes de 2026. Aún así, es una estimación justa: de cualquier manera, los sistemas de inteligencia artificial se quedarán sin buenos datos en algún momento.

Sin embargo, debemos recordar que cada año se agregan en línea unos 147 zettabytes de datos (según Exploding Topics). Un solo zettabyte equivale a 1.000.000.000.000.000.000.000 bits de datos. En términos reales (bueno, algo reales), son más de 30 mil millones de películas 4K (reales, pero insondables). Es una cantidad sorprendente de información que la IA debe examinar.

Sin embargo, la IA consume datos más rápido de lo que la humanidad puede crearlos…

2 La IA podría olvidar datos de baja calidad

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

No todos esos 147 zettabytes de datos son buenos datos, por supuesto. Hay mucho más de lo que parece. Pero se estima que la IA también habrá consumido datos lingüísticos de baja calidad para 2050.

Reuters informó que Photobucket, que alguna vez fue uno de los repositorios de imágenes más grandes del mundo, estaba en conversaciones para otorgar licencias de su extensa biblioteca a empresas de capacitación en inteligencia artificial. Los datos de imágenes han entrenado sistemas como DALL-E y Midjourney, pero incluso eso podría agotarse en 2060. Aquí también hay un problema mayor: Photobucket albergaba imágenes de plataformas de redes sociales de la década de 2000 como Myspace, lo que significa que no son un estándar tan alto como fotografía actual. Esto conduce a datos de baja calidad.

Photobucket no está solo. En febrero de 2024, Google llegó a un acuerdo con Reddit, que permitía al gigante de las búsquedas utilizar los datos de los usuarios de la plataforma de redes sociales en su formación en inteligencia artificial. Otras plataformas de redes sociales también proporcionan datos de los usuarios con fines de formación en IA; algunos lo están utilizando para entrenar modelos de IA internos, como Meta's Llama.

Sin embargo, si bien se puede obtener cierta información a partir de datos de baja calidad, se informa que Microsoft está desarrollando una forma para que la IA "desaprenda" datos de forma selectiva. Principalmente, esto se usaría para cuestiones de propiedad intelectual, pero también podría significar que las herramientas pueden olvidar lo que han aprendido de conjuntos de datos de baja calidad.

Podríamos alimentar a la IA con más datos sin ser demasiado selectivos; esos sistemas de IA podrían luego elegir qué es más beneficioso para aprender.

3 El reconocimiento de voz abre la puerta a datos de vídeos y podcasts

Los datos alimentados a las herramientas de IA hasta ahora han consistido principalmente en texto y, en menor medida, imágenes. Sin duda, eso cambiará, y probablemente ya lo haya hecho, ya que el software de reconocimiento de voz significará que la gran cantidad de videos y podcasts disponibles también podrán entrenar la IA.

En particular, OpenAI desarrolló la red neuronal de reconocimiento automático de voz (ASR) de código abierto, Whisper, utilizando 680.000 horas de datos multilingües y multitarea. Luego, OpenAI introdujo más de un millón de horas de información de videos de YouTube en su modelo de lenguaje grande, GPT-4.

Esta es una plantilla ideal para otros sistemas de IA, que utilizan el reconocimiento de voz para transcribir videos y audio de numerosas fuentes y ejecutar esos datos a través de sus modelos de IA.

Según Statista, cada minuto se cargan más de 500 horas de video en YouTube, un número que se ha mantenido bastante constante desde 2019. Eso sin mencionar otras plataformas de video y audio como Dailymotion y Podbean. Si la IA puede centrar su atención en nuevos conjuntos de datos como estos, aún quedará una enorme cantidad de información por extraer.

4 IA se han apegado en gran medida al idioma inglés

Eso no es todo lo que podemos aprender de Whisper. OpenAI entrenó el modelo utilizando 117.000 horas de datos de audio en idiomas distintos del inglés. Esto es especialmente interesante porque muchos sistemas de IA se han entrenado principalmente utilizando el inglés o viendo otras culturas a través de la lente occidental.

En esencia, la mayoría de las herramientas están limitadas por la cultura de sus creadores.

Tome ChatGPT como ejemplo. Poco después de su lanzamiento en 2022, Jill Walker Rettberg, profesora de Cultura Digital en la Universidad de Bergen, Noruega, probó ChatGPT y concluyó:

“ChatGPT no sabe mucho sobre la cultura noruega. O más bien, todo lo que sabe sobre la cultura noruega probablemente se aprende principalmente de fuentes en inglés... ChatGPT está explícitamente alineado con los valores y las leyes de Estados Unidos. En muchos casos se aproximan a los valores noruegos y europeos, pero es de suponer que no siempre será así”.

Las IA, entonces, pueden desarrollarse cuanto más personas multinacionales interactúan con ellas, o cuanto más diversos idiomas y culturas se utilizan para entrenar dichos sistemas. Actualmente, muchas inteligencias artificiales han quedado confinadas en una única biblioteca; pueden crecer si se les dan las llaves de las bibliotecas de todo el mundo.

Cinco editoriales podrían ayudar a desarrollar IA

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

La propiedad intelectual es obviamente un problema enorme, pero algunas editoriales podrían ayudar a desarrollar IA mediante acuerdos de licencia. Esto significaría brindar a las herramientas datos de alta calidad, es decir, confiables, extraídos de libros en lugar de información potencialmente de baja calidad obtenida de fuentes en línea.

De hecho, Meta, los propietarios de Facebook, Instagram y WhatsApp, supuestamente consideraron comprar Simon & Schuster, una de las editoriales "Cinco Grandes". La idea era utilizar la literatura publicada por la empresa para entrenar la propia IA de Meta. El acuerdo finalmente fracasó, tal vez debido a la zona gris ética de la empresa que procesa IP sin el consentimiento previo de los escritores.

Otra opción aparentemente considerada fue comprar derechos de licencia individuales sobre nuevos títulos. Esto debería causar grandes preocupaciones a los creativos, pero seguirá siendo una forma interesante de desarrollar herramientas de inteligencia artificial si se agotan los datos utilizables.

6 Los datos sintéticos son el futuro

Todas las demás soluciones aún son limitadas, pero una opción podría hacer que la IA prospere en el futuro: los datos sintéticos. Y ya se está investigando como una posibilidad muy real.

Entonces, ¿qué son los datos sintéticos? En este sentido, se trata de datos creados por IA; Así como los humanos crean datos, este método haría que la inteligencia artificial generara datos con fines de entrenamiento.

De hecho, una IA podría crear un video deepfake convincente. Ese video falso podría retroalimentarse a una IA para que pueda aprender de lo que es esencialmente un escenario imaginario. Después de todo, esa es una de las principales formas en que los humanos aprendemos: leemos o miramos algo para comprender el mundo que nos rodea.

Es probable que las IA ya hayan consumido información sintética. Los deepfakes que circulan en línea difunden información errónea y desinformación, por lo que a medida que los sistemas de inteligencia artificial escanean Internet, tiene sentido que algunos hayan estado sujetos a contenido falsificado.

Sí, hay un lado insidioso en esto. También podría dañar o limitar las IA, reforzando y propagando los errores cometidos por esas herramientas. Las empresas están trabajando para erradicar este último problema; aun así, "las IA aprenden unas de otras y cometen errores" es el argumento de muchos escenarios de pesadilla de ciencia ficción.

7

La IA es controvertida. Tiene muchas desventajas, pero sus detractores ignoran sus beneficios. Por ejemplo, la red de auditoría y asesoramiento PwC [PDF] sugiere que la IA podría aportar hasta 15,7 billones de dólares a la economía mundial para 2030.

Es más, la IA ya se está utilizando en todo el mundo. Probablemente lo hayas usado hoy de una forma u otra, quizás sin siquiera darte cuenta. Ahora que el genio está fuera de la botella, la clave seguramente es entrenarlo con datos confiables y de calidad para que podamos hacer un uso adecuado de ellos.

La IA tiene sus aspectos positivos y sus aspectos negativos. Hay que encontrar un equilibrio.

Declaración de liberación Este artículo se reproduce en: https://www.makeuseof.com/ai-running-out-training-data-solutions/ Si hay alguna infracción, comuníquese con [email protected] para eliminarla.
Último tutorial Más>

Descargo de responsabilidad: Todos los recursos proporcionados provienen en parte de Internet. Si existe alguna infracción de sus derechos de autor u otros derechos e intereses, explique los motivos detallados y proporcione pruebas de los derechos de autor o derechos e intereses y luego envíelos al correo electrónico: [email protected]. Lo manejaremos por usted lo antes posible.

Copyright© 2022 湘ICP备2022001581号-3