„Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen.“ – Konfuzius, „Die Gespräche des Konfuzius. Lu Linggong“
Titelseite > KI > KI-Tools haben keine Trainingsdaten mehr, aber es gibt 6 Lösungen

KI-Tools haben keine Trainingsdaten mehr, aber es gibt 6 Lösungen

Veröffentlicht am 29.07.2024
Durchsuche:960

Künstliche Intelligenz benötigt Trainingsdaten, aber diese Daten sind begrenzt. Wie können wir die KI sonst so trainieren, dass sie weiter wächst und für uns nützlich ist?

Man denkt vielleicht, das Internet und seine Daten seien unerschöpfliche Ressourcen, aber den KI-Tools gehen die Daten zum Mining aus. Aber bevor Sie sich Sorgen machen: Es wird die KI-Entwicklung nicht stoppen – es stehen noch jede Menge Daten zum Trainieren von KI-Systemen bereit.

1 Es werden immer mehr Daten online hinzugefügt

Kurz gesagt, das KI-Forschungsinstitut Epoch sagt, dass die hochwertigen Daten, auf denen KI trainiert wird, bis 2026 aufgebraucht sein könnten.

Das Schlüsselwort dort ist „könnte“. Die Datenmenge, die dem Internet jedes Jahr hinzugefügt wird, nimmt zu, sodass sich vor 2026 etwas drastisches ändern könnte. Dennoch ist es eine faire Schätzung – so oder so werden KI-Systeme irgendwann keine guten Daten mehr haben.

Wir sollten jedoch bedenken, dass jedes Jahr etwa 147 Zettabytes an Daten online hinzugefügt werden (laut Exploding Topics). Nur ein Zettabyte entspricht 1.000.000.000.000.000.000.000 Datenbits. Real (naja, einigermaßen real) sind das mehr als 30 Milliarden 4K-Filme (real, aber unfassbar). Es ist eine verblüffende Menge an Informationen, die die KI durchsuchen kann.

Nichtsdestotrotz verbraucht KI Daten schneller, als die Menschheit sie erzeugen kann…

2 KI könnte minderwertige Daten vergessen

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

Nicht alle 147 Zettabytes an Daten sind gut Daten natürlich. Es steckt viel mehr dahinter, als man auf den ersten Blick sieht. Es wird jedoch geschätzt, dass KI bis 2050 auch Sprachdaten von geringer Qualität verbraucht haben wird.

Reuters berichtete, dass Photobucket, einst einer der weltweit größten Bildspeicher, Gespräche über die Lizenzierung seiner umfangreichen Bibliothek an KI-Schulungsfirmen führte. Bilddaten haben Systeme wie DALL-E und Midjourney trainiert, aber selbst diese könnten bis 2060 erschöpft sein. Auch hier gibt es ein größeres Problem: Photobucket enthielt Bilder von Social-Media-Plattformen der 2000er Jahre wie Myspace, was bedeutet, dass sie keinen so hohen Standard haben wie aktuelle Fotografie. Dies führt zu Daten von geringer Qualität.

Photobucket ist nicht allein. Im Februar 2024 schloss Google einen Vertrag mit Reddit ab, der es dem Suchriesen ermöglichte, die Benutzerdaten der Social-Media-Plattform für sein KI-Training zu nutzen. Auch andere Social-Media-Plattformen stellen Nutzerdaten für KI-Trainingszwecke bereit; Einige nutzen es, um interne KI-Modelle zu trainieren, beispielsweise Metas Llama.

Obwohl einige Informationen aus minderwertigen Daten gewonnen werden können, entwickelt Microsoft Berichten zufolge eine Möglichkeit für die KI, Daten selektiv zu „verlernen“. Dies würde in erster Linie für IP-Probleme verwendet werden, könnte aber auch bedeuten, dass Tools vergessen können, was sie aus Datensätzen geringer Qualität gelernt haben.

Wir könnten der KI mehr Daten zuführen, ohne zu selektiv zu sein; Diese KI-Systeme könnten dann auswählen, woraus sie am vorteilhaftesten lernen können.

3 Spracherkennung erschließt Video- und Podcast-Daten

In KI-Tools eingespeiste Daten bestanden bisher größtenteils aus Text und in geringerem Maße aus Bildern. Das wird sich zweifellos ändern und hat sich wahrscheinlich bereits geändert, da Spracherkennungssoftware dazu führen wird, dass die Fülle an verfügbaren Videos und Podcasts auch KI trainieren kann.

Insbesondere hat OpenAI das Open-Source-Neuronale Netzwerk Whisper mit automatischer Spracherkennung (ASR) unter Verwendung von 680.000 Stunden mehrsprachiger und Multitasking-Daten entwickelt. Anschließend speiste OpenAI über eine Million Stunden an Informationen aus YouTube-Videos in sein großes Sprachmodell GPT-4 ein.

Dies ist eine ideale Vorlage für andere KI-Systeme, die Spracherkennung verwenden, um Videos und Audio aus zahlreichen Quellen zu transkribieren und diese Daten durch ihre KI-Modelle laufen zu lassen.

Laut Statista werden jede Minute über 500 Stunden Video auf YouTube hochgeladen, eine Zahl, die seit 2019 ziemlich konstant geblieben ist. Ganz zu schweigen von anderen Video- und Audioplattformen wie Dailymotion und Podbean. Wenn die KI ihre Aufmerksamkeit auf neue Datensätze wie diese richten kann, muss noch eine riesige Menge an Informationen ausgewertet werden.

4 KIs haben sich größtenteils an die englische Sprache gehalten

Das ist nicht alles, was wir von Whisper lernen können. OpenAI trainierte das Modell anhand von 117.000 Stunden nicht-englischsprachiger Audiodaten. Dies ist besonders interessant, da viele KI-Systeme hauptsächlich mit Englisch oder der Betrachtung anderer Kulturen durch die westliche Linse trainiert wurden.

Im Wesentlichen sind die meisten Tools durch die Kultur ihrer Entwickler eingeschränkt.

Nehmen Sie ChatGPT als Beispiel. Kurz nach der Veröffentlichung im Jahr 2022 probierte Jill Walker Rettberg, Professorin für digitale Kultur an der Universität Bergen, Norwegen, ChatGPT aus und kam zu dem Schluss:

„ChatGPT weiß nicht viel über die norwegische Kultur. Oder besser gesagt, alles, was es über die norwegische Kultur weiß, wird vermutlich größtenteils aus englischsprachigen Quellen gelernt … ChatGPT orientiert sich ausdrücklich an den Werten und Gesetzen der USA. In vielen Fällen stehen diese den norwegischen und europäischen Werten nahe, aber vermutlich wird dies nicht immer der Fall sein.“

KIs können sich also entwickeln, je mehr multinationale Menschen mit ihnen interagieren – oder je vielfältigere Sprachen und Kulturen zum Trainieren solcher Systeme verwendet werden. Derzeit sind viele künstliche Intelligenzen auf eine einzige Bibliothek beschränkt; Sie können wachsen, wenn ihnen die Schlüssel zu Bibliotheken auf der ganzen Welt gegeben werden.

5 Verlage könnten bei der Entwicklung von KIs helfen

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

Geistiges Eigentum ist offensichtlich ein großes Problem, aber einige Verlage könnten durch den Abschluss von Lizenzvereinbarungen bei der Entwicklung von KIs helfen. Dies würde bedeuten, dass den Tools qualitativ hochwertige, d. h. zuverlässige Daten aus Büchern zur Verfügung gestellt werden, und nicht potenziell minderwertige Informationen aus Online-Quellen.

Tatsächlich erwogen Meta, die Eigentümer von Facebook, Instagram und WhatsApp, Berichten zufolge den Kauf von Simon & Schuster, einem der „Big Five“-Verlage. Die Idee bestand darin, die von der Firma veröffentlichte Literatur zu nutzen, um Metas eigene KI zu trainieren. Der Deal scheiterte letztendlich, möglicherweise aufgrund der ethischen Grauzone, in der das Unternehmen IPs ohne vorherige Zustimmung der Autoren verarbeitete.

Eine weitere Option, die offenbar in Betracht gezogen wurde, war der Kauf einzelner Lizenzrechte für neue Titel. Dies dürfte bei Kreativen große Bedenken hervorrufen, wird aber dennoch eine interessante Möglichkeit für die Weiterentwicklung von KI-Tools darstellen, wenn die nutzbaren Daten erschöpft sind.

6 Synthetische Daten sind die Zukunft

Jede andere Lösung ist noch begrenzt, aber eine Option könnte der KI weit in die Zukunft gedeihen lassen: synthetische Daten. Und es wird bereits untersucht, ob es eine sehr reale Möglichkeit ist.

Was sind also synthetische Daten? In diesem Sinne handelt es sich um von KI erstellte Daten; So wie Menschen Daten erstellen, würde diese Methode dazu führen, dass künstliche Intelligenz Daten für Trainingszwecke generiert.

Tatsächlich könnte eine KI ein überzeugendes Deepfake-Video erstellen. Dieses Deepfake-Video könnte in eine KI eingespeist werden, damit diese aus einem im Wesentlichen imaginären Szenario lernen kann. Das ist schließlich eine wichtige Art und Weise, wie Menschen lernen: Wir lesen oder schauen uns etwas an, um die Welt um uns herum zu verstehen.

KIs haben wahrscheinlich bereits synthetische Informationen konsumiert. Im Internet verbreitete Deepfakes verbreiteten Fehlinformationen und Desinformationen. Da KI-Systeme das Internet scannen, liegt es nahe, dass einige von ihnen gefälschten Inhalten ausgesetzt waren.

Ja, das hat eine heimtückische Seite. Es könnte auch KIs schädigen oder einschränken und die von diesen Tools gemachten Fehler verstärken und verbreiten. Unternehmen arbeiten daran, das letztgenannte Problem zu beseitigen; Dennoch ist „KIs, die voneinander lernen und Fehler machen“ ein Handlungspunkt vieler Science-Fiction-Albtraumszenarien.

7

KI ist umstritten. Es gibt viele Nachteile, aber Kritiker ignorieren seine Vorteile. Beispielsweise geht das Prüfungs- und Beratungsnetzwerk PwC [PDF] davon aus, dass KI bis 2030 bis zu 15,7 Billionen US-Dollar zur Weltwirtschaft beitragen könnte.

Darüber hinaus wird KI bereits überall auf der Welt eingesetzt. Wahrscheinlich haben Sie es heute in der einen oder anderen Form verwendet, vielleicht ohne es überhaupt zu merken. Da der Geist nun aus der Flasche ist, liegt der Schlüssel sicherlich darin, ihn anhand zuverlässiger, qualitativ hochwertiger Daten zu trainieren, damit wir ihn richtig nutzen können.

KI hat seine Vor- und Nachteile. Es muss ein Gleichgewicht gefunden werden.

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://www.makeuseof.com/ai-running-out-training-data-solutions/ Bei Verstößen wenden Sie sich bitte an [email protected], um ihn zu löschen
Neuestes Tutorial Mehr>

Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.

Copyright© 2022 湘ICP备2022001581号-3