」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 人工智慧 > AI 工具訓練資料不足,但有 6 種解決方案

AI 工具訓練資料不足,但有 6 種解決方案

發佈於2024-07-29
瀏覽:129

人工智能需要训练数据,但数据是有限的。那么,我们还能如何训练人工智能,使其不断发展并对我们有用呢?

你可能认为互联网及其数据是取之不尽用之不竭的资源,但人工智能工具正在耗尽可供挖掘的数据。现在,不用担心,人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。

1 总是有更多的数据在线添加

简而言之,人工智能研究机构 Epoch 表示,用于训练人工智能的高质量数据可能会在 2026 年耗尽。

关键词是“可以”。每年添加到互联网的数据量都在增加,因此在 2026 年之前可能会发生巨大的变化。不过,这是一个合理的估计——无论哪种方式,人工智能系统在某个时候都会用完好的数据。

然而,我们应该记住,每年在线添加约 147 ZB 的数据(根据 Exploding Topics)。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算(嗯,有点真实),这相当于超过 300 亿部 4K 电影(真实,但深不可测)。人工智能需要筛选的信息量惊人。

尽管如此,AI 消耗数据的速度比人类创建数据的速度还要快……

2 AI 可能会忘记低质量数据

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

并非所有 147 ZB 的数据都是好的当然是数据。它的内涵远比表面看到的要多得多。但据估计,到 2050 年,人工智能也将耗尽低质量的语言数据。

路透社报道,曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统,但即便如此,到 2060 年也可能耗尽。这里还有一个更大的问题:Photobucket 保存了来自 2000 年代社交媒体平台(如 Myspace)的图像,这意味着它们的标准不如当前摄影。这会导致数据质量低下。

Photobucket 并不孤单。 2024 年 2 月,谷歌与 Reddit 达成协议,允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据;有些人用它来训练内部人工智能模型,例如 Meta 的 Llama。

然而,虽然可以从低质量数据中收集一些信息,但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题,但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。

我们可以向人工智能提供更多数据,而不必过于挑剔;然后,这些人工智能系统可以挑选出最有益的学习内容。

3 语音识别打开视频和播客数据

迄今为止,输入到人工智能工具的数据主要由文本组成,其次是图像。毫无疑问,这种情况将会改变,而且很可能已经发生了,因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。

值得注意的是,OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后,OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。

这是其他人工智能系统的理想模板,这些系统使用语音识别来转录来自众多来源的视频和音频,并通过其人工智能模型运行该数据。

根据 Statista 的数据,每分钟有超过 500 小时的视频上传到 YouTube,这一数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向这样的新数据集,那么仍有大量信息有待挖掘。

4 人工智能在很大程度上坚持英语

这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣,因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。

本质上,大多数工具都受到其创建者文化的限制。

以ChatGPT为例。 2022 年发布后不久,挪威卑尔根大学数字文化教授 Jill Walker Rettberg 试用了 ChatGPT,并得出结论:

“ChatGPT 对挪威文化了解不多。或者更确切地说,它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下,这些都接近挪威和欧洲的价值观,但情况可能并不总是如此。”

那么,人工智能可以开发出更多与它们互动的跨国人员,或者使用更多样化的语言和文化来训练此类系统。目前,许多人工智能都被限制在一个库中;如果获得世界各地图书馆的钥匙,他们就能成长。

5家出版社可以帮助开发人工智能

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

知识产权显然是一个大问题,但一些出版商可以通过签订许可协议来帮助开发人工智能。这意味着为工具提供来自书籍的高质量(即可靠的)数据,而不是从在线来源收集的潜在低质量信息。

事实上,据报道,Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考虑收购“五巨头”出版社之一的 Simon & Schuster。这个想法是利用该公司发表的文献来训练 Meta 自己的人工智能。该交易最终失败,可能是由于该公司在未经作者事先同意的情况下处理知识产权存在道德灰色地带。

显然考虑的另一个选择是购买新作品的个人许可权。这应该会引起创意人员的极大关注,但如果可用数据耗尽,这仍然是人工智能工具开发的一种有趣方式。

6 合成数据是未来

其他所有解决方案仍然有限,但有一个选项可以让人工智能在未来蓬勃发展:合成数据。人们已经将其作为一种非常现实的可能性进行了调查。

那么,什么是合成数据?从这个意义上说,它是人工智能创造的数据;正如人类创建数据一样,这种方法将使人工智能生成用于训练目的的数据。

实际上,人工智能可以创建令人信服的深度伪造视频。该深度伪造视频可以反馈到人工智能中,以便它可以从本质上是想象的场景中学习。毕竟,这是人类学习的一种主要方式:我们阅读或观看某些东西以了解我们周围的世界。

人工智能很可能已经消耗了合成信息。网上流传的 Deepfakes 会传播错误信息和虚假信息,因此当人工智能系统扫描互联网时,有些系统会受到虚假内容的影响,这是有道理的。

是的,这有阴险的一面。它还可能损害或限制人工智能,强化和传播这些工具所犯的错误。公司正在努力消除后一个问题;尽管如此,“人工智能互相学习并犯错误”仍然是许多科幻噩梦场景的情节点。

7

人工智能是有争议的。它有很多缺点,但批评者却忽视了它的好处。例如,审计和咨询网络普华永道 [PDF] 表明,到 2030 年,人工智能可为世界经济贡献高达 15.7 万亿美元。

此外,人工智能已经在世界各地得到应用。您今天可能已经以某种形式使用过它,甚至可能没有意识到。现在精灵已经从瓶子里出来了,关键肯定是用可靠、高质量的数据来训练它,这样我们就可以正确地使用它。

人工智能有其优点和缺点。需要找到一个平衡点。

版本聲明 本文轉載於:https://www.makeuseof.com/ai-running-out-training-data-solutions/如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • 試著向 ChatGPT 詢問這些關於您自己的有趣問題
    試著向 ChatGPT 詢問這些關於您自己的有趣問題
    有没有想过 ChatGPT 了解您的哪些信息?随着时间的推移,它如何处理您提供给它的信息?我在不同的场景中使用过 ChatGPT 堆,在特定的交互后看看它会说什么总是很有趣。✕ 删除广告 所以,为什么不尝试向 ChatGPT 询问其中一些问题来看看它对你的真实看法是什么? 我理想生活中的...
    人工智慧 發佈於2024-11-22
  • 您仍然可以透過以下方式嘗試神秘的 GPT-2 聊天機器人
    您仍然可以透過以下方式嘗試神秘的 GPT-2 聊天機器人
    如果您對人工智慧模型或聊天機器人感興趣,您可能已經看過有關神秘的 GPT-2 聊天機器人及其有效性的討論。 在這裡,我們解釋什麼是 GPT-2 聊天機器人以及如何使用存取它。 什麼是 GPT-2 聊天機器人? 2024年4月下旬,一個名為gpt2-chatbot的神秘AI模型在LLM測試和基準測試...
    人工智慧 發佈於2024-11-08
  • ChatGPT 的 Canvas 模式很棒:有 4 種使用方法
    ChatGPT 的 Canvas 模式很棒:有 4 種使用方法
    ChatGPT 的新 Canvas 模式為世界領先的生成式 AI 工具中的寫作和編輯增添了額外的維度。自從 ChatGPT Canvas 推出以來,我一直在使用它,並找到了幾種不同的方法來使用這個新的 AI 工具。 ✕ 刪除廣告 1 文本編輯 ChatGPT Canvas 是如果你想編輯...
    人工智慧 發佈於2024-11-08
  • ChatGPT 的自訂 GPT 如何暴露您的資料以及如何確保其安全
    ChatGPT 的自訂 GPT 如何暴露您的資料以及如何確保其安全
    ChatGPT 的自訂 GPT 功能允許任何人為幾乎任何你能想到的東西創建自訂 AI 工具;創意、技術、遊戲、自訂 GPT 都可以做到。更好的是,您可以與任何人分享您的自訂 GPT 創建。 但是,透過分享您的自訂 GPT,您可能會犯下一個代價高昂的錯誤,將您的資料暴露給全球數千人。 什麼是自訂...
    人工智慧 發佈於2024-11-08
  • ChatGPT 可協助您在 LinkedIn 上找到工作的 10 種方式
    ChatGPT 可協助您在 LinkedIn 上找到工作的 10 種方式
    LinkedIn 个人资料的“关于”部分有 2,600 个可用字符,是阐述您的背景、技能、热情和未来目标的绝佳空间。查看您的 LinkedIn 简历,作为您的专业背景、技能和抱负的简明摘要。 向 ChatGPT 提供您所有获胜品质的列表,或将您的简历复制粘贴到其中。要求聊天机器人使用这些信息撰写...
    人工智慧 發佈於2024-11-08
  • 查看這 6 個鮮為人知的 AI 應用程序,它們可提供獨特的體驗
    查看這 6 個鮮為人知的 AI 應用程序,它們可提供獨特的體驗
    目前,大多数人都听说过 ChatGPT 和 Copilot,这两款引领 AI 热潮的开创性生成式 AI 应用程序。但是您知道吗,大量鲜为人知的 AI 工具可以提供精彩的、独特的经历?这里有六个最好的。 1 Ditto Music Ditto 不是您可以用来创建独特歌曲的众多 AI 音乐生成器之一,而...
    人工智慧 發佈於2024-11-08
  • 這 7 個跡象表明我們已經達到人工智慧的巔峰
    這 7 個跡象表明我們已經達到人工智慧的巔峰
    无论您在网上查找什么,都有网站、服务和应用程序宣称他们使用人工智能使其成为最佳选择。我不了解你的情况,但它的持续存在已经让人厌倦了。 因此,虽然人工智能肯定会留在我们的日常生活中,但有几个迹象表明我们已经达到了人工智能炒作的顶峰。 1 公众兴趣有限 虽然人工智能在科技圈受到了广泛关注,但重要的是要...
    人工智慧 發佈於2024-11-08
  • 4 個適合教師、講師和老闆的 AI 檢查 ChatGPT 偵測器工具
    4 個適合教師、講師和老闆的 AI 檢查 ChatGPT 偵測器工具
    随着 ChatGPT 能力的进步,区分哪些内容是人类编写的,哪些内容是人工智能生成的变得越来越困难。这使得老师和老板很难识别哪些内容是人手写的,哪些内容是通过 ChatGPT 生成的。 如果您很难区分,这里有最好的 ChatGPT 检测工具 我们如何测试每个 ChatGPT 检查工具 有很多...
    人工智慧 發佈於2024-11-08
  • ChatGPT 的高級語音功能正在向更多用戶推出
    ChatGPT 的高級語音功能正在向更多用戶推出
    如果您曾經想與 ChatGPT 進行全面對話,現在您可以。也就是說,只要你付費就可以獲得使用ChatGPT的特權。更多付費用戶正在存取 ChatGPT 的高級語音模式 (AVM),該模式旨在使與 ChatGPT 的互動感覺更加自然。 高級語音來到 ChatGPT Plus 和 Teams Ope...
    人工智慧 發佈於2024-11-08
  • 什麼是 AI Slop?
    什麼是 AI Slop?
    你可能聽過「AI slop」這個詞,指的是社群媒體上流傳的人工智慧產生的奇怪圖像。您甚至可能自己看過這些圖像。 但什麼是AI slop?您如何識別它?您可以採取什麼措施? 什麼是AI Slop? 「Slop」已成為網路上任何不必要的人工智慧產生內容的術語,就像「垃圾郵件」已成為不必要的電子郵件...
    人工智慧 發佈於2024-11-08
  • 我喜歡人工智慧爆炸而不是加密貨幣繁榮的 6 個原因
    我喜歡人工智慧爆炸而不是加密貨幣繁榮的 6 個原因
    人工智慧的爆發似乎與我們在加密貨幣繁榮期間看到的狂熱相呼應——每個人都在談論它,預測它將如何重塑世界。雖然這種嗡嗡聲讓人感覺很熟悉,但這一刻卻有些不同。人工智慧不僅僅是另一種技術趨勢;它也是一種技術趨勢。 1 人工智慧具有直接、日常的好處 人工智慧正在以既直接又有用的方式影響我們的日常生活。需要起...
    人工智慧 發佈於2024-11-08
  • AI 跳棋毫無用處,這 5 個例子證明了原因
    AI 跳棋毫無用處,這 5 個例子證明了原因
    無論您是專業作家還是經常寫論文的學生,您可能厭倦了透過 AI 偵測器運行您的作品,只是為了將其標記為 100% AI 生成。幸運的是,AI 檢查器並不總是可靠,這五個例子說明了原因。 1 我剛剛要求 AI 編寫的一段內容 如果 AI 檢查器 100% 準確,那麼 ChatGPT 生成的內容應該被標...
    人工智慧 發佈於2024-11-08
  • 我如何使用 ChatGPT 翻譯影片並節省時間
    我如何使用 ChatGPT 翻譯影片並節省時間
    如果您曾經嘗試將影片翻譯成另一種語言,您就會知道它很快就會變成一項耗時的任務。這就是 ChatGPT(特別是帶有名為 Video Insights 的插件)的用武之地,可以使過程更加順暢和更快。 什麼是 Video Insights? Video Insights 是一個 ChatGPT 插件...
    人工智慧 發佈於2024-11-08
  • 您可以免費試用的 6 個 OpenAI Sora 替代方案
    您可以免費試用的 6 個 OpenAI Sora 替代方案
    Runway 的 Gen-2 最好反映了使用 Open AI 的 Sora 所獲得的效果,使用多模式 AI 系統透過文字提示產生影片剪輯。 Runway 的 Gen-2 功能包括上傳影像或影片的功能,以用作您想要產生的影片剪輯的參考。 Open AI 的 Sora 是否也支援從參考影像或剪輯建立...
    人工智慧 發佈於2024-11-08
  • 為什麼我喜歡利基 AI 聊天機器人而不是 ChatGPT 本身
    為什麼我喜歡利基 AI 聊天機器人而不是 ChatGPT 本身
    大多數線上可用的小眾人工智慧聊天機器人均由 ChatGPT(或 OpenAI 的 GPT3 或 GPT4)提供支援。儘管如此,我還是更喜歡這些專門的聊天機器人而不是 ChatGPT 本身,原因如下。 1 它們不需要太多提示技能 如果您想要,學習編寫有效的提示是必要的充分利用 ChatGPT。有了正...
    人工智慧 發佈於2024-11-07

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3