「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > AI > AI ツールのトレーニング データが不足していますが、解決策は 6 つあります

AI ツールのトレーニング データが不足していますが、解決策は 6 つあります

2024 年 7 月 29 日に公開
ブラウズ:628

人工知能にはトレーニング データが必要ですが、そのデータは限られています。では、AI が成長し続けて私たちに役立つように、他にどのように AI をトレーニングできるのでしょうか?

インターネットとそのデータは無尽蔵のリソースだと思うかもしれませんが、AI ツールではマイニングできるデータが不足しつつあります。心配する前に、AI 開発が止まることはありません。AI システムをトレーニングする準備ができているデータはまだたくさんあります。

1 オンラインでは常に追加データが存在します

つまり、AI 研究機関エポック社は、AI のトレーニングに使用される高品質のデータが 2026 年までに枯渇する可能性があると言っています。

そこでのキーワードは「できる」です。インターネットに追加されるデータの量は毎年増加しているため、2026 年までに何か劇的な変化が起こる可能性があります。それでも、これは妥当な推定値です。いずれにせよ、AI システムはある時点で適切なデータを使い果たしてしまいます。

ただし、毎年約 147 ゼタバイトのデータがオンラインに追加されていることを覚えておく必要があります (Exploding Topics による)。わずか 1 ゼタバイトは、1,000,000,000,000,000,000,000 ビットのデータに相当します。現実に換算すると (まあ、ある程度現実的ですが)、これは 300 億本以上の 4K 映画に相当します (現実的ではありますが、計り知れません)。 AIがふるいにかけるべき情報は驚くべき量だ。

それにもかかわらず、AI は人類が作成するよりも速くデータを消費します…

2 AI は低品質のデータを忘れる可能性があります

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

147 ゼタバイトのデータすべてが良いわけではありませんもちろんデータです。目に見える以上のことがたくさんあります。しかし、AI は 2050 年までに低品質の言語データも使い果たしてしまうと推定されています。

ロイターは、かつて世界最大の画像リポジトリの 1 つであった Photobucket が、自社の広範なライブラリを AI トレーニング会社にライセンス供与する交渉を行っていると報じた。 DALL-E や Midjourney などのシステムは画像データで訓練されていますが、それさえも 2060 年までに枯渇する可能性があります。ここにはさらに大きな問題もあります。Photobucket には、Myspace などの 2000 年代のソーシャル メディア プラットフォームからの画像が格納されており、それらはそれほど高い標準ではないことを意味します。現在の写真撮影。これにより、データの品質が低下します。

Photobucket だけではありません。 2024年2月、GoogleはRedditと契約を結び、検索大手がAIトレーニングでソーシャルメディアプラットフォームのユーザーデータを使用することを許可した。他のソーシャル メディア プラットフォームも、AI トレーニングの目的でユーザー データを提供しています。 Meta の Llama など、社内 AI モデルのトレーニングにこれを使用している企業もあります。

ただし、一部の情報は低品質のデータから収集できる一方で、Microsoft は AI がデータを選択的に「学習解除」する方法を開発していると伝えられています。これは主に IP の問題に使用されますが、ツールが低品質のデータセットから学習したことを忘れてしまう可能性があることも意味します。

選択しすぎずに、より多くのデータを AI に供給できます。これらの AI システムは、学習するのに最も有益なものを選択できるようになります。

3 音声認識によりビデオとポッドキャスト データが開かれる

AI ツールに供給されるデータは、これまでのところ主にテキストで構成されており、程度は低いですが画像で構成されています。音声認識ソフトウェアが利用できる豊富なビデオやポッドキャストが AI をトレーニングできることを意味するため、この状況は間違いなく変わるでしょうし、おそらくすでに変わっているでしょう。

特に、OpenAI は、680,000 時間の多言語およびマルチタスク データを使用して、オープンソースの自動音声認識 (ASR) ニューラル ネットワーク、Whisper を開発しました。 OpenAI はその後、YouTube 動画から 100 万時間以上の情報をその大規模言語モデル GPT-4 にフィードしました。

これは、音声認識を使用して多数のソースからビデオやオーディオを転写し、そのデータを AI モデルを通じて実行する他の A​​I システムにとって理想的なテンプレートです。

Statista によると、毎分 500 時間以上のビデオが YouTube にアップロードされており、この数字は 2019 年以来ほぼ安定しています。これは、Dailymotion や Podbean などの他のビデオおよびオーディオ プラットフォームには言及しません。 AI がこのような新しいデータセットに注意を向けることができれば、まだ膨大な量の情報がマイニングされることになります。

4 つの AI は主に英語に固執している

ウィスパーから学べるのはそれだけではありません。 OpenAI は、117,000 時間の英語以外の音声データを使用してモデルをトレーニングしました。多くの AI システムは主に英語を使用して、または西洋のレンズを通して他文化を見ることを使用してトレーニングされているため、これは特に興味深いです。

本質的に、ほとんどのツールは作成者の文化によって制限されます。

ChatGPT を例に挙げます。 2022 年のリリース直後、ノルウェーのベルゲン大学デジタル文化教授のジル ウォーカー レットバーグ氏は ChatGPT を試して次のように結論付けました。というか、ノルウェー文化について知っていることはおそらくほとんどが英語の情報源から学んだものだと思われます… ChatGPT は明らかに米国の価値観と法律に準拠しています。多くの場合、これらはノルウェーやヨーロッパの価値観に近いですが、おそらく常にそうとは限りません。」

AI は、多国籍の人々と交流するほど、またはそのようなシステムを訓練するためにより多様な言語や文化が使用されるほど、発達する可能性があります。現在、多くの人工知能は単一のライブラリに閉じ込められています。世界中の図書館への鍵が与えられれば、彼らは成長することができます。

5 つの出版社は AI の開発を支援できる

IP は明らかに大きな問題ですが、一部の出版社はライセンス契約を結ぶことで AI の開発を支援できる可能性があります。これは、オンライン ソースから収集した潜在的に低品質の情報ではなく、書籍からの高品質、つまり信頼できるデータをツールに提供することを意味します。

AI Tools Are Running Out of Training Data, but There Are 6 Solutions 実際、Facebook、Instagram、WhatsApp のオーナーである Meta は、「ビッグ 5」出版社の 1 つである Simon & Schuster の買収を検討していたと伝えられています。そのアイデアは、同社が発行した文献を使用して Meta 独自の AI をトレーニングすることでした。この契約は最終的には失敗に終わりました。これはおそらく、作家からの事前の同意なしに IP を処理する会社の倫理的なグレーゾーンが原因でした。

明らかに検討されたもう 1 つの選択肢は、新しいタイトルの個別のライセンス権を購入することでした。これはクリエイティブにとって大きな懸念を引き起こすはずですが、使用可能なデータが枯渇したとしても、AI ツールを開発する興味深い方法であることに変わりはありません。

6 合成データは未来

他のソリューションはまだ限られていますが、AI が遠い将来にまで繁栄する可能性がある選択肢の 1 つが合成データです。そして、それは非常に現実的な可能性としてすでに調査されています。

では、合成データとは何でしょうか?この意味では、それは AI によって作成されたデータです。人間がデータを作成するのと同じように、この方法では人工知能がトレーニング目的でデータを生成します。

実際、AI は説得力のあるディープフェイク動画を作成できる可能性があります。そのディープフェイクビデオはAIにフィードバックされ、本質的に想像上のシナリオから学習できるようになる可能性がある。結局のところ、これは人間が学習する主要な方法の 1 つであり、私たちは周囲の世界を理解するために何かを読んだり見たりするのです。

AI はすでに合成情報を消費している可能性があります。オンラインで流通するディープフェイクは誤った情報や偽情報を広めるため、AI システムがインターネットをスキャンする際に、一部の人が偽のコンテンツの対象となるのは当然です。

はい、これには陰湿な側面があります。また、AI に損害を与えたり制限したりして、それらのツールによる間違いを強化したり広めたりする可能性もあります。企業は後者の問題を根絶するために取り組んでいます。それでも、「AI が互いに学習し、エラーを起こす」というのは、多くの SF の悪夢のようなシナリオのプロット ポイントです。

7

AI については議論の余地があります。それには多くの欠点がありますが、中傷者はその利点を無視します。たとえば、監査および諮問ネットワークの PwC [PDF] は、AI が 2030 年までに世界経済に最大 15 兆 7000 億ドル貢献する可能性があると示唆しています。

さらに、AI はすでに世界中で使用されています。おそらく今日、あなたも気づかずに、何らかの形でこの言葉を使用したことがあるでしょう。魔神がボトルから出てきた今、重要なのは、それを適切に利用できるように、信頼できる質の高いデータに基づいて魔神を訓練することです。

AI には良い点もあれば悪い点もあります。バランスを見つける必要があります。

リリースステートメント この記事は次の場所に転載されています: https://www.makeuseof.com/ai-running-out-training-data-solutions/ 侵害がある場合は、[email protected] に連絡して削除してください。
最新のチュートリアル もっと>
  • ChatGPT に自分自身についての楽しい質問をしてみてください
    ChatGPT に自分自身についての楽しい質問をしてみてください
    ChatGPT があなたについて何を知っているのか疑問に思ったことはありますか?時間をかけて与えられた情報をどのように処理するのでしょうか?私はさまざまなシナリオで ChatGPT ヒープを使用してきましたが、特定のインタラクションの後にそのヒープが何を言うのかを見るのは常に興味深いものです。&#x...
    AI 2024 年 11 月 22 日に公開
  • 謎の GPT-2 チャットボットをまだ試す方法は次のとおりです
    謎の GPT-2 チャットボットをまだ試す方法は次のとおりです
    AI モデルやチャットボットに興味がある場合は、謎の GPT-2 チャットボットとその有効性に関する議論を見たことがあるかもしれません。ここでは、GPT-2 チャットボットとは何か、およびその方法について説明します。 GPT-2 チャットボットとは何ですか? 2024 年 4 月下旬、gpt2-c...
    AI 2024 年 11 月 8 日に公開
  • ChatGPT のキャンバス モードは素晴らしい: 4 つの使用方法
    ChatGPT のキャンバス モードは素晴らしい: 4 つの使用方法
    ChatGPT の新しい Canvas モードは、世界をリードする生成 AI ツールでの書き込みと編集にさらなる次元を追加しました。私は ChatGPT Canvas の発売以来使用してきましたが、この新しい AI ツールを使用するためのいくつかの異なる方法を見つけました。✕ 広告の削除...
    AI 2024 年 11 月 8 日に公開
  • ChatGPT のカスタム GPT がデータを公開する仕組みとその安全性を保つ方法
    ChatGPT のカスタム GPT がデータを公開する仕組みとその安全性を保つ方法
    ChatGPT のカスタム GPT 機能を使用すると、誰でも思いつく限りのほとんどすべてのカスタム AI ツールを作成できます。クリエイティブ、テクニカル、ゲーム、カスタム GPT はすべてを行うことができます。さらに良いのは、カスタム GPT 作成を誰とでも共有できることです。 ただし、カスタ...
    AI 2024 年 11 月 8 日に公開
  • ChatGPT が LinkedIn での仕事の獲得に役立つ 10 の方法
    ChatGPT が LinkedIn での仕事の獲得に役立つ 10 の方法
    2,600 文字が利用できる LinkedIn プロフィールの About セクションは、あなたの経歴、スキル、情熱、将来の目標について詳しく説明するのに最適なスペースです。 LinkedIn の経歴を、あなたの職業上の背景、スキル、願望を簡潔にまとめたものとして表示します。 ChatGPT に...
    AI 2024 年 11 月 8 日に公開
  • ユニークなエクスペリエンスを提供する、あまり知られていない 6 つの AI アプリをチェックしてください
    ユニークなエクスペリエンスを提供する、あまり知られていない 6 つの AI アプリをチェックしてください
    現時点では、AI ブームをリードしてきた 2 つの先駆的な生成 AI アプリである ChatGPT と Copilot については、ほとんどの人が聞いたことがあるでしょう。しかし、あまり知られていない AI ツールの山が素晴らしい、ユニークな体験?ここでは最高のものを 6 つ紹介します。 1 同上ミ...
    AI 2024 年 11 月 8 日に公開
  • これらの 7 つの兆候は、AI がすでにピークに達していることを示しています
    これらの 7 つの兆候は、AI がすでにピークに達していることを示しています
    オンラインでどこを見ても、AI の使用が最良の選択肢になると宣言するサイト、サービス、アプリがあります。あなたはどうか知りませんが、常に存在していると疲れてきます。 AI は確かに私たちの日常生活に定着していますが、AI の誇大宣伝がすでにピークに達していることを示す兆候がいくつかあります。 1 一...
    AI 2024 年 11 月 8 日に公開
  • 教師、講師、上司向けの 4 つの AI チェック ChatGPT 検出ツール
    教師、講師、上司向けの 4 つの AI チェック ChatGPT 検出ツール
    ChatGPT の性能が向上するにつれて、何が人間によって書かれ、何が AI によって生成されたかを区別することがますます困難になってきています。そのため、教師や上司が、人間の手によって書かれたものと、ChatGPT を通じて生成されたものを識別することが困難になります。 違いを見分けるのが難し...
    AI 2024 年 11 月 8 日に公開
  • ChatGPT の高度な音声機能がより多くのユーザーに展開されます
    ChatGPT の高度な音声機能がより多くのユーザーに展開されます
    ChatGPT で本格的な会話をしたいと思ったことがあるなら、今ならそれが可能です。つまり、ChatGPT を使用する特権に対して料金を支払っている限りです。より多くの有料ユーザーが ChatGPT の高度な音声モード (AVM) にアクセスできるようになりました。これは、ChatGPT との対話を...
    AI 2024 年 11 月 8 日に公開
  • AI スロップとは何ですか?それに対して何ができるでしょうか?
    AI スロップとは何ですか?それに対して何ができるでしょうか?
    ソーシャルメディア上に出回っている AI が生成した奇妙な画像に関して、「AI スロップ」という言葉を聞いたことがあるかもしれません。あなた自身もこれらの画像を見たことがあるかもしれません。 しかし、AI スロップとは何でしょうか?それをどのように認識し、それに対して何ができるのでしょうか? ...
    AI 2024 年 11 月 8 日に公開
  • 私が仮想通貨ブームよりも AI の爆発を好む 6 つの理由
    私が仮想通貨ブームよりも AI の爆発を好む 6 つの理由
    AI の爆発は、仮想通貨ブームのときに見られた熱狂を反映しているようです。誰もがそれについて話し、世界がどのように再形成されるかを予測しています。しかし、そのざわめきには見慣れたものを感じますが、この瞬間には何かが違います。 AI は単なる技術トレンドではありません。 1 AI は日常的に即時に恩...
    AI 2024 年 11 月 8 日に公開
  • AI チェッカーは役に立たない。これら 5 つの例がその理由を証明する
    AI チェッカーは役に立たない。これら 5 つの例がその理由を証明する
    あなたがプロのライターであろうと、エッセイを頻繁に書く学生であろうと、おそらく、100% AI によって生成されたものとしてフラグが付けられるためだけに、自分の作品を AI 検出器に通すことにうんざりしているでしょう。幸いなことに、AI チェッカーは必ずしも信頼できるわけではありません。これらの 5...
    AI 2024 年 11 月 8 日に公開
  • ChatGPT を使用してビデオを翻訳し、時間を節約する方法
    ChatGPT を使用してビデオを翻訳し、時間を節約する方法
    ビデオを別の言語に翻訳しようとしたことがあるなら、それがいかに時間のかかる作業に早変わりするかご存知でしょう。そこで、プロセスをよりスムーズかつ高速にするために、ChatGPT、特に Video Insights と呼ばれるプラグインが登場します。 Video Insights とは何ですか? ...
    AI 2024 年 11 月 8 日に公開
  • 無料で試せる 6 つの OpenAI Sora の代替案
    無料で試せる 6 つの OpenAI Sora の代替案
    Runway の Gen-2 は、Open AI の Sora を使用して得られるものを最もよく反映しており、マルチモーダル AI システムを使用してテキスト プロンプトを使用してビデオ クリップを生成します。 Runway の Gen-2 機能には、生成するビデオ クリップのリファレンスとして...
    AI 2024 年 11 月 8 日に公開
  • 私が ChatGPT 自体よりもニッチな AI チャットボットを好む理由
    私が ChatGPT 自体よりもニッチな AI チャットボットを好む理由
    オンラインで入手できるニッチな AI チャットボットのほとんどは、ChatGPT (または OpenAI の GPT3 または GPT4) を利用しています。それでも、私は次の 4 つの理由から、ChatGPT 自体よりもこれらの特殊なチャットボットを好みます。1 それほどプロンプトのスキルは必要あ...
    AI 2024 年 11 月 7 日に公開

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3