人工知能にはトレーニング データが必要ですが、そのデータは限られています。では、AI が成長し続けて私たちに役立つように、他にどのように AI をトレーニングできるのでしょうか?
インターネットとそのデータは無尽蔵のリソースだと思うかもしれませんが、AI ツールではマイニングできるデータが不足しつつあります。心配する前に、AI 開発が止まることはありません。AI システムをトレーニングする準備ができているデータはまだたくさんあります。
つまり、AI 研究機関エポック社は、AI のトレーニングに使用される高品質のデータが 2026 年までに枯渇する可能性があると言っています。
そこでのキーワードは「できる」です。インターネットに追加されるデータの量は毎年増加しているため、2026 年までに何か劇的な変化が起こる可能性があります。それでも、これは妥当な推定値です。いずれにせよ、AI システムはある時点で適切なデータを使い果たしてしまいます。
ただし、毎年約 147 ゼタバイトのデータがオンラインに追加されていることを覚えておく必要があります (Exploding Topics による)。わずか 1 ゼタバイトは、1,000,000,000,000,000,000,000 ビットのデータに相当します。現実に換算すると (まあ、ある程度現実的ですが)、これは 300 億本以上の 4K 映画に相当します (現実的ではありますが、計り知れません)。 AIがふるいにかけるべき情報は驚くべき量だ。
それにもかかわらず、AI は人類が作成するよりも速くデータを消費します…
147 ゼタバイトのデータすべてが良いわけではありませんもちろんデータです。目に見える以上のことがたくさんあります。しかし、AI は 2050 年までに低品質の言語データも使い果たしてしまうと推定されています。
ロイターは、かつて世界最大の画像リポジトリの 1 つであった Photobucket が、自社の広範なライブラリを AI トレーニング会社にライセンス供与する交渉を行っていると報じた。 DALL-E や Midjourney などのシステムは画像データで訓練されていますが、それさえも 2060 年までに枯渇する可能性があります。ここにはさらに大きな問題もあります。Photobucket には、Myspace などの 2000 年代のソーシャル メディア プラットフォームからの画像が格納されており、それらはそれほど高い標準ではないことを意味します。現在の写真撮影。これにより、データの品質が低下します。
Photobucket だけではありません。 2024年2月、GoogleはRedditと契約を結び、検索大手がAIトレーニングでソーシャルメディアプラットフォームのユーザーデータを使用することを許可した。他のソーシャル メディア プラットフォームも、AI トレーニングの目的でユーザー データを提供しています。 Meta の Llama など、社内 AI モデルのトレーニングにこれを使用している企業もあります。
ただし、一部の情報は低品質のデータから収集できる一方で、Microsoft は AI がデータを選択的に「学習解除」する方法を開発していると伝えられています。これは主に IP の問題に使用されますが、ツールが低品質のデータセットから学習したことを忘れてしまう可能性があることも意味します。
選択しすぎずに、より多くのデータを AI に供給できます。これらの AI システムは、学習するのに最も有益なものを選択できるようになります。
AI ツールに供給されるデータは、これまでのところ主にテキストで構成されており、程度は低いですが画像で構成されています。音声認識ソフトウェアが利用できる豊富なビデオやポッドキャストが AI をトレーニングできることを意味するため、この状況は間違いなく変わるでしょうし、おそらくすでに変わっているでしょう。
特に、OpenAI は、680,000 時間の多言語およびマルチタスク データを使用して、オープンソースの自動音声認識 (ASR) ニューラル ネットワーク、Whisper を開発しました。 OpenAI はその後、YouTube 動画から 100 万時間以上の情報をその大規模言語モデル GPT-4 にフィードしました。
これは、音声認識を使用して多数のソースからビデオやオーディオを転写し、そのデータを AI モデルを通じて実行する他の AI システムにとって理想的なテンプレートです。
Statista によると、毎分 500 時間以上のビデオが YouTube にアップロードされており、この数字は 2019 年以来ほぼ安定しています。これは、Dailymotion や Podbean などの他のビデオおよびオーディオ プラットフォームには言及しません。 AI がこのような新しいデータセットに注意を向けることができれば、まだ膨大な量の情報がマイニングされることになります。
ウィスパーから学べるのはそれだけではありません。 OpenAI は、117,000 時間の英語以外の音声データを使用してモデルをトレーニングしました。多くの AI システムは主に英語を使用して、または西洋のレンズを通して他文化を見ることを使用してトレーニングされているため、これは特に興味深いです。
本質的に、ほとんどのツールは作成者の文化によって制限されます。
ChatGPT を例に挙げます。 2022 年のリリース直後、ノルウェーのベルゲン大学デジタル文化教授のジル ウォーカー レットバーグ氏は ChatGPT を試して次のように結論付けました。というか、ノルウェー文化について知っていることはおそらくほとんどが英語の情報源から学んだものだと思われます… ChatGPT は明らかに米国の価値観と法律に準拠しています。多くの場合、これらはノルウェーやヨーロッパの価値観に近いですが、おそらく常にそうとは限りません。」
5 つの出版社は AI の開発を支援できるAI は、多国籍の人々と交流するほど、またはそのようなシステムを訓練するためにより多様な言語や文化が使用されるほど、発達する可能性があります。現在、多くの人工知能は単一のライブラリに閉じ込められています。世界中の図書館への鍵が与えられれば、彼らは成長することができます。
7 AI については議論の余地があります。それには多くの欠点がありますが、中傷者はその利点を無視します。たとえば、監査および諮問ネットワークの PwC [PDF] は、AI が 2030 年までに世界経済に最大 15 兆 7000 億ドル貢献する可能性があると示唆しています。 さらに、AI はすでに世界中で使用されています。おそらく今日、あなたも気づかずに、何らかの形でこの言葉を使用したことがあるでしょう。魔神がボトルから出てきた今、重要なのは、それを適切に利用できるように、信頼できる質の高いデータに基づいて魔神を訓練することです。 AI には良い点もあれば悪い点もあります。バランスを見つける必要があります。
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3