Les outils d'IA manquent de données de formation, mais il existe 6 solutions

Page de garde > IA > Les outils d'IA manquent de données de formation, mais il existe 6 solutions

Les outils d'IA manquent de données de formation, mais il existe 6 solutions

Publié le 2024-07-29

Parcourir:826

L'intelligence artificielle a besoin de données de formation, mais ces données sont limitées. Alors, comment pouvons-nous entraîner l’IA pour qu’elle continue à se développer et à nous être utile ?

Vous pensez peut-être qu'Internet et ses données sont des ressources inépuisables, mais les outils d'IA manquent de données à exploiter. Maintenant, avant de vous inquiéter, cela ne va pas arrêter le développement de l’IA : il existe encore de nombreuses données prêtes à former des systèmes d’IA.

1 Il y a toujours plus de données ajoutées en ligne

En bref, l'institut de recherche sur l'IA Epoch affirme que les données de haute qualité sur lesquelles l'IA est formée pourraient être épuisées d'ici 2026.

Le mot clé ici est « pourrait ». La quantité de données ajoutées à Internet augmente chaque année, donc quelque chose de radical pourrait changer avant 2026. Il s’agit néanmoins d’une estimation juste : de toute façon, les systèmes d’IA finiront par manquer de bonnes données à un moment donné.

Rappelons cependant que quelque 147 zettaoctets de données sont ajoutés en ligne chaque année (selon Exploding Topics). Un seul zettaoctet équivaut à 1 000 000 000 000 000 000 000 de bits de données. En termes réels (enfin, un peu réels), cela représente plus de 30 milliards de films 4K (réels, mais insondables). Il s’agit d’une quantité surprenante d’informations que l’IA doit analyser.

Néanmoins, l'IA consomme des données plus rapidement que l'humanité ne peut les créer…

2 L'IA pourrait oublier les données de mauvaise qualité

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

Ces 147 zettaoctets de données ne sont pas forcément bons. des données, bien sûr. Il y a bien plus à découvrir qu’il n’y paraît. Mais on estime que l’IA aura également utilisé des données linguistiques de mauvaise qualité d’ici 2050.

Reuters a rapporté que Photobucket, autrefois l'un des plus grands référentiels d'images au monde, était en pourparlers pour accorder une licence pour sa vaste bibliothèque à des entreprises de formation en IA. Les données d'images ont permis de former des systèmes comme DALL-E et Midjourney, mais même ceux-ci pourraient s'épuiser d'ici 2060. Il y a aussi un problème plus important ici : Photobucket hébergeait des images de plateformes de médias sociaux des années 2000 comme Myspace, ce qui signifie qu'elles ne répondent pas à des normes aussi élevées que photographie actuelle. Cela conduit à des données de mauvaise qualité.

Photobucket n'est pas seul. En février 2024, Google a conclu un accord avec Reddit, permettant au géant de la recherche d'utiliser les données des utilisateurs de la plateforme de médias sociaux dans sa formation à l'IA. D'autres plateformes de médias sociaux fournissent également des données sur les utilisateurs à des fins de formation à l'IA ; certains l'utilisent pour former des modèles d'IA internes, comme Meta's Llama.

Cependant, même si certaines informations peuvent être glanées à partir de données de mauvaise qualité, Microsoft serait en train de développer un moyen permettant à l'IA de « désapprendre » de manière sélective les données. Cela serait principalement utilisé pour des problèmes de propriété intellectuelle, mais cela pourrait également signifier que les outils peuvent oublier ce qu'ils ont appris à partir d'ensembles de données de mauvaise qualité.

Nous pourrions fournir davantage de données à l’IA sans être trop sélectifs ; ces systèmes d’IA pourraient alors choisir ce dont il est le plus avantageux d’apprendre.

3 La reconnaissance vocale ouvre la voie aux données vidéo et podcast

Les données fournies aux outils d'IA étaient jusqu'à présent constituées en grande partie de texte et, dans une moindre mesure, d'images. Cela va sans aucun doute changer, et c’est probablement déjà le cas, car les logiciels de reconnaissance vocale signifieront que la richesse des vidéos et des podcasts disponibles pourra également entraîner l’IA.

Notamment, OpenAI a développé le réseau neuronal open source de reconnaissance automatique de la parole (ASR), Whisper, en utilisant 680 000 heures de données multilingues et multitâches. OpenAI a ensuite introduit plus d'un million d'heures d'informations provenant de vidéos YouTube dans son grand modèle de langage, GPT-4.

Il s'agit d'un modèle idéal pour d'autres systèmes d'IA, qui utilisent la reconnaissance vocale pour transcrire des vidéos et de l'audio provenant de nombreuses sources et exécuter ces données via leurs modèles d'IA.

Selon Statista, plus de 500 heures de vidéo sont mises en ligne sur YouTube chaque minute, un nombre qui est resté assez constant depuis 2019. Sans parler d'autres plateformes vidéo et audio comme Dailymotion et Podbean. Si l’IA parvient à porter son attention sur de nouveaux ensembles de données comme ceux-ci, il restera encore une énorme quantité d’informations à exploiter.

4 IA sont largement restées fidèles à la langue anglaise

Ce n'est pas tout ce que nous pouvons apprendre de Whisper. OpenAI a entraîné le modèle à l'aide de 117 000 heures de données audio dans une langue autre que l'anglais. Ceci est particulièrement intéressant car de nombreux systèmes d’IA ont été formés principalement en utilisant l’anglais ou en considérant d’autres cultures à travers le prisme occidental.

Essentiellement, la plupart des outils sont limités par la culture de leurs créateurs.

Prenons ChatGPT comme exemple. Peu de temps après sa sortie en 2022, Jill Walker Rettberg, professeur de culture numérique à l'Université de Bergen, en Norvège, a essayé ChatGPT et a conclu :

« ChatGPT ne connaît pas grand-chose de la culture norvégienne. Ou plutôt, tout ce qu'il sait sur la culture norvégienne est probablement principalement tiré de sources anglaises… ChatGPT est explicitement aligné sur les valeurs et les lois américaines. Dans de nombreux cas, ces valeurs sont proches des valeurs norvégiennes et européennes, mais ce ne sera probablement pas toujours le cas.»

Les IA peuvent donc se développer à mesure que les multinationales interagissent avec elles ou que des langues et des cultures plus diverses sont utilisées pour former de tels systèmes. À l’heure actuelle, de nombreuses intelligences artificielles sont confinées dans une seule bibliothèque ; ils peuvent se développer si on leur donne les clés des bibliothèques du monde entier.

5 maisons d'édition pourraient aider à développer des IA

La propriété intellectuelle est évidemment un problème majeur, mais certains éditeurs pourraient aider à développer des IA en concluant des accords de licence. Cela signifierait fournir aux outils des données de haute qualité, c’est-à-dire fiables, provenant de livres plutôt que des informations potentiellement de mauvaise qualité glanées à partir de sources en ligne.

En fait, Meta, les propriétaires de Facebook, Instagram et WhatsApp, auraient envisagé d'acheter Simon & Schuster, l'une des « Big Five » maisons d'édition. L'idée était d'utiliser la littérature publiée par l'entreprise pour former la propre IA de Meta. L’accord a finalement échoué, peut-être en raison de la zone grise éthique dans laquelle l’entreprise traite les PI sans le consentement préalable des auteurs.

Une autre option apparemment envisagée consistait à acheter des droits de licence individuels sur de nouveaux titres. Cela devrait susciter de grandes inquiétudes chez les créatifs, mais cela restera un moyen intéressant pour les outils d’IA de se développer si les données utilisables sont épuisées.

6 Les données synthétiques sont l'avenir

Toutes les autres solutions sont encore limitées, mais une option pourrait permettre à l'IA de prospérer dans un avenir lointain : les données synthétiques. Et cette possibilité est déjà étudiée comme une possibilité très réelle.

Alors, qu’est-ce que les données synthétiques ? En ce sens, il s’agit de données créées par l’IA ; tout comme les humains créent des données, cette méthode permettrait à l’intelligence artificielle de générer des données à des fins de formation.

En effet, une IA pourrait créer une vidéo deepfake convaincante. Cette vidéo deepfake pourrait être réinjectée dans une IA afin qu’elle puisse apprendre de ce qui est essentiellement un scénario imaginaire. Après tout, c’est l’une des principales façons dont les humains apprennent : nous lisons ou regardons quelque chose afin de comprendre le monde qui nous entoure.

Les IA ont probablement déjà consommé des informations synthétiques. Les deepfakes diffusés en ligne propagent de la désinformation et de la désinformation. Ainsi, à mesure que les systèmes d’IA analysent Internet, il est logique que certains aient fait l’objet de contenus falsifiés.

Oui, il y a un côté insidieux à cela. Cela pourrait également endommager ou limiter les IA, renforçant et propageant les erreurs commises par ces outils. Les entreprises s’efforcent d’éradiquer ce dernier problème ; Pourtant, « les IA apprennent les unes des autres et font des erreurs » est un élément de l’intrigue de nombreux scénarios de science-fiction cauchemardesques.

7

L’IA est controversée. Il présente de nombreux inconvénients, mais ses détracteurs ignorent ses avantages. Par exemple, le réseau d'audit et de conseil PwC [PDF] suggère que l'IA pourrait contribuer jusqu'à 15 700 milliards de dollars à l'économie mondiale d'ici 2030.

De plus, l'IA est déjà utilisée partout dans le monde. Vous l’avez probablement utilisé aujourd’hui sous une forme ou une autre, peut-être sans même vous en rendre compte. Maintenant que le génie est sorti de la bouteille, la clé est sûrement de le former sur des données fiables et de qualité afin que nous puissions en faire bon usage.

L'IA a ses avantages et ses inconvénients. Il y a un équilibre à trouver.

Déclaration de sortie Cet article est reproduit sur : https://www.makeuseof.com/ai-running-out-training-data-solutions/ En cas de violation, veuillez contacter [email protected] pour le supprimer.

Dernier tutoriel Plus>

Algorithmes d'intelligence Swarm: trois implémentations Python
Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...

IA Publié le 2025-03-24
Comment rendre votre LLM plus précis avec le chiffon et le réglage fin
Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...

IA Publié le 2025-03-24
Qu'est-ce que Google Gemini? Tout ce que vous devez savoir sur le rival de Google de Google
Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...

IA Publié le 2025-03-23
Guide sur l'incitation avec DSPY
dspy: un cadre déclaratif pour construire et améliorer les applications LLM DSPY (programmes de langage auto-améliorant déclaratifs) révolutionne l...

IA Publié le 2025-03-22
Automatiser le blog sur le fil Twitter
Cet article détaille l'automatisation de la conversion du contenu long (comme les articles de blog) dans l'engagement des fils Twitter en uti...

IA Publié le 2025-03-11
Système immunitaire artificiel (AIS): un guide avec des exemples Python
Cet article explore les systèmes immunitaires artificiels (AIS), des modèles de calcul inspirés de la remarquable capacité du système immunitaire hum...

IA Publié le 2025-03-04
Essayez de poser à ChatGPT ces questions amusantes sur vous-même
Vous êtes-vous déjà demandé ce que ChatGPT sait de vous ? Comment traite-t-il les informations que vous lui avez fournies au fil du temps ? J'ai u...

IA Publié le 2024-11-22
Voici comment vous pouvez toujours essayer le mystérieux chatbot GPT-2
Si vous aimez les modèles d'IA ou les chatbots, vous avez peut-être vu des discussions sur le mystérieux chatbot GPT-2 et son efficacité.Ici, nous...

IA Publié le 2024-11-08
Le mode Canvas de ChatGPT est génial : voici 4 façons de l'utiliser
Le nouveau mode Canvas de ChatGPT a ajouté une dimension supplémentaire à l'écriture et à l'édition dans le principal outil d'IA générativ...

IA Publié le 2024-11-08
Comment les GPT personnalisés de ChatGPT pourraient exposer vos données et comment les protéger
La fonctionnalité GPT personnalisée de ChatGPT permet à quiconque de créer un outil d'IA personnalisé pour presque tout ce à quoi vous pouvez pen...

IA Publié le 2024-11-08
10 façons dont ChatGPT pourrait vous aider à décrocher un emploi sur LinkedIn
Avec 2 600 caractères disponibles, la section À propos de votre profil LinkedIn est un espace idéal pour développer votre parcours, vos compétences, ...

IA Publié le 2024-11-08
Découvrez ces 6 applications d'IA moins connues qui offrent des expériences uniques
À ce stade, la plupart des gens ont entendu parler de ChatGPT et de Copilot, deux applications pionnières de l'IA générative qui ont mené le boom ...

IA Publié le 2024-11-08
Ces 7 signes montrent que nous avons déjà atteint le pic de l'IA
Où que vous regardiez en ligne, il existe des sites, des services et des applications proclamant que leur utilisation de l'IA en fait la meilleure...

IA Publié le 2024-11-08
4 outils de détection ChatGPT de vérification de l'IA pour les enseignants, les conférenciers et les patrons
À mesure que ChatGPT gagne en puissance, il devient de plus en plus difficile de distinguer ce qui est écrit par un humain et ce qui est généré par u...

IA Publié le 2024-11-08
La fonctionnalité vocale avancée de ChatGPT est déployée auprès d'un plus grand nombre d'utilisateurs
Si vous avez toujours voulu avoir une conversation complète avec ChatGPT, vous le pouvez désormais. Autrement dit, tant que vous payez pour le privilè...

IA Publié le 2024-11-08

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article