」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 人工智慧 > AI 工具訓練資料不足,但有 6 種解決方案

AI 工具訓練資料不足,但有 6 種解決方案

發佈於2024-07-29
瀏覽:261

人工智能需要训练数据,但数据是有限的。那么,我们还能如何训练人工智能,使其不断发展并对我们有用呢?

你可能认为互联网及其数据是取之不尽用之不竭的资源,但人工智能工具正在耗尽可供挖掘的数据。现在,不用担心,人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。

1 总是有更多的数据在线添加

简而言之,人工智能研究机构 Epoch 表示,用于训练人工智能的高质量数据可能会在 2026 年耗尽。

关键词是“可以”。每年添加到互联网的数据量都在增加,因此在 2026 年之前可能会发生巨大的变化。不过,这是一个合理的估计——无论哪种方式,人工智能系统在某个时候都会用完好的数据。

然而,我们应该记住,每年在线添加约 147 ZB 的数据(根据 Exploding Topics)。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算(嗯,有点真实),这相当于超过 300 亿部 4K 电影(真实,但深不可测)。人工智能需要筛选的信息量惊人。

尽管如此,AI 消耗数据的速度比人类创建数据的速度还要快……

2 AI 可能会忘记低质量数据

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

并非所有 147 ZB 的数据都是好的当然是数据。它的内涵远比表面看到的要多得多。但据估计,到 2050 年,人工智能也将耗尽低质量的语言数据。

路透社报道,曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统,但即便如此,到 2060 年也可能耗尽。这里还有一个更大的问题:Photobucket 保存了来自 2000 年代社交媒体平台(如 Myspace)的图像,这意味着它们的标准不如当前摄影。这会导致数据质量低下。

Photobucket 并不孤单。 2024 年 2 月,谷歌与 Reddit 达成协议,允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据;有些人用它来训练内部人工智能模型,例如 Meta 的 Llama。

然而,虽然可以从低质量数据中收集一些信息,但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题,但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。

我们可以向人工智能提供更多数据,而不必过于挑剔;然后,这些人工智能系统可以挑选出最有益的学习内容。

3 语音识别打开视频和播客数据

迄今为止,输入到人工智能工具的数据主要由文本组成,其次是图像。毫无疑问,这种情况将会改变,而且很可能已经发生了,因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。

值得注意的是,OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后,OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。

这是其他人工智能系统的理想模板,这些系统使用语音识别来转录来自众多来源的视频和音频,并通过其人工智能模型运行该数据。

根据 Statista 的数据,每分钟有超过 500 小时的视频上传到 YouTube,这一数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向这样的新数据集,那么仍有大量信息有待挖掘。

4 人工智能在很大程度上坚持英语

这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣,因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。

本质上,大多数工具都受到其创建者文化的限制。

以ChatGPT为例。 2022 年发布后不久,挪威卑尔根大学数字文化教授 Jill Walker Rettberg 试用了 ChatGPT,并得出结论:

“ChatGPT 对挪威文化了解不多。或者更确切地说,它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下,这些都接近挪威和欧洲的价值观,但情况可能并不总是如此。”

那么,人工智能可以开发出更多与它们互动的跨国人员,或者使用更多样化的语言和文化来训练此类系统。目前,许多人工智能都被限制在一个库中;如果获得世界各地图书馆的钥匙,他们就能成长。

5家出版社可以帮助开发人工智能

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

知识产权显然是一个大问题,但一些出版商可以通过签订许可协议来帮助开发人工智能。这意味着为工具提供来自书籍的高质量(即可靠的)数据,而不是从在线来源收集的潜在低质量信息。

事实上,据报道,Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考虑收购“五巨头”出版社之一的 Simon & Schuster。这个想法是利用该公司发表的文献来训练 Meta 自己的人工智能。该交易最终失败,可能是由于该公司在未经作者事先同意的情况下处理知识产权存在道德灰色地带。

显然考虑的另一个选择是购买新作品的个人许可权。这应该会引起创意人员的极大关注,但如果可用数据耗尽,这仍然是人工智能工具开发的一种有趣方式。

6 合成数据是未来

其他所有解决方案仍然有限,但有一个选项可以让人工智能在未来蓬勃发展:合成数据。人们已经将其作为一种非常现实的可能性进行了调查。

那么,什么是合成数据?从这个意义上说,它是人工智能创造的数据;正如人类创建数据一样,这种方法将使人工智能生成用于训练目的的数据。

实际上,人工智能可以创建令人信服的深度伪造视频。该深度伪造视频可以反馈到人工智能中,以便它可以从本质上是想象的场景中学习。毕竟,这是人类学习的一种主要方式:我们阅读或观看某些东西以了解我们周围的世界。

人工智能很可能已经消耗了合成信息。网上流传的 Deepfakes 会传播错误信息和虚假信息,因此当人工智能系统扫描互联网时,有些系统会受到虚假内容的影响,这是有道理的。

是的,这有阴险的一面。它还可能损害或限制人工智能,强化和传播这些工具所犯的错误。公司正在努力消除后一个问题;尽管如此,“人工智能互相学习并犯错误”仍然是许多科幻噩梦场景的情节点。

7

人工智能是有争议的。它有很多缺点,但批评者却忽视了它的好处。例如,审计和咨询网络普华永道 [PDF] 表明,到 2030 年,人工智能可为世界经济贡献高达 15.7 万亿美元。

此外,人工智能已经在世界各地得到应用。您今天可能已经以某种形式使用过它,甚至可能没有意识到。现在精灵已经从瓶子里出来了,关键肯定是用可靠、高质量的数据来训练它,这样我们就可以正确地使用它。

人工智能有其优点和缺点。需要找到一个平衡点。

版本聲明 本文轉載於:https://www.makeuseof.com/ai-running-out-training-data-solutions/如有侵犯,請聯絡[email protected]刪除
最新教學 更多>
  • LLM必備的8個免費與付費API推薦
    LLM必備的8個免費與付費API推薦
    利用LLMS的力量:大型語言模型的API指南 在當今的動態業務格局中,API(應用程序編程接口)正在革新我們如何整合和利用AI功能。 它們充當必不可少的橋樑,無縫將大型語言模型(LLM)連接到不同的軟件生態系統。 這種有效的數據交換和功能共享允許應用程序充分利用開放和封閉源LLM的功率。本文探討...
    人工智慧 發佈於2025-04-21
  • 使用指南:Falcon 3-7B Instruct模型
    使用指南:Falcon 3-7B Instruct模型
    中的革命性飛躍 關鍵功能和改進 可擴展的模型大小:有各種尺寸(1b,3b,7b和10b parameters),為各種應用程序提供了靈活性。 高級文本生成:文本生成中的異常功能,包括細微的上下文理解和特定於任務的應用程序。 本文是數據科學博客馬拉鬆的一部分。 目錄 架構設計 性能基準 [2 [2 使...
    人工智慧 發佈於2025-04-20
  • DeepSeek-V3對比GPT-4o與Llama 3.3 70B:最強AI模型揭秘
    DeepSeek-V3對比GPT-4o與Llama 3.3 70B:最強AI模型揭秘
    The evolution of AI language models has set new standards, especially in the coding and programming landscape. Leading the c...
    人工智慧 發佈於2025-04-18
  • 盤點Top 5 AI智能預算工具
    盤點Top 5 AI智能預算工具
    通過AI解鎖財務自由:印度的最高預算應用程序 您是否厭倦了不斷想知道您的錢去了哪裡? 賬單似乎會吞噬您的收入嗎? 人工智能(AI)提供了強大的解決方案。 AI預算工具提供實時財務見解,個性化建議和動態計劃,使資金管理更簡單,更準確。 有些甚至使用生成AI提供基於聊天的財務分析!本文探討了印度可...
    人工智慧 發佈於2025-04-17
  • Excel SUMPRODUCT函數詳解 - 數據分析學院
    Excel SUMPRODUCT函數詳解 - 數據分析學院
    Excel的SumProduct函數:數據分析PowerHouse 解鎖Excel的Sumproduct函數的功能,以用於簡化數據分析。這種多功能功能毫不費力地結合了求和功能,擴展到跨相應範圍或數組的加法,減法和分裂。 無論您是分析趨勢還是解決複雜的計算,Sumproduct都會將數字轉換為可...
    人工智慧 發佈於2025-04-16
  • 深度研究全面開放,ChatGPT Plus用戶福利
    深度研究全面開放,ChatGPT Plus用戶福利
    Openai的深入研究:改變遊戲的AI研究 Openai已為所有Chatgpt加上訂戶釋放了深入的研究,並承諾在研究效率方面具有重大提高。 在測試了雙子座,Grok 3和困惑等競爭對手的類似功能之後,我可以自信地將Openai的深入研究宣佈為出色的選擇。此博客深入研究了它的功能。 目錄 什麼是...
    人工智慧 發佈於2025-04-16
  • 亞馬遜Nova Today真實體驗與評測 - Analytics Vidhya
    亞馬遜Nova Today真實體驗與評測 - Analytics Vidhya
    亚马逊最近的回复:Invent 2024活动展示了Nova,这是其最先进的基础模型套件,旨在彻底改变AI和内容创建。本文深入研究了Nova的架构,通过动手实例探索其功能,并检查基准结果。 我们将介绍功能,评论,基准和对AI应用程序的影响。 [2 此探索将涵盖Amazon Nova的功能,详细的评论...
    人工智慧 發佈於2025-04-16
  • ChatGPT定時任務功能的5種使用方法
    ChatGPT定時任務功能的5種使用方法
    Chatgpt的新計劃任務:使用AI 自動化您的一天 Chatgpt最近引入了一個改變遊戲規則的功能:計劃的任務。 這允許用戶自動化重複提示,即使在離線時,也可以在預定時間接收通知或響應。想像一下每天策劃的新聞通訊,自動化工作時間表或及時的習慣提醒 - 所有這些都是由Chatgpt自動處理的。...
    人工智慧 發佈於2025-04-16
  • 三款AI聊機器人對同一提示的反應,哪個最佳?
    三款AI聊機器人對同一提示的反應,哪個最佳?
    這是我發現的。 在精心策劃且詳細的提示中扮演著質量良好的提示,在輸出的質量中扮演任何cathbot生產的質量。與所有工具一樣,輸出僅與使用該工具的人的技能一樣好。 AI聊天機器人沒有什麼不同。 有了這種理解,我指示每個模型創建一個針對個人理財的基本指南。這種方法使我能夠評估多個相互聯繫的主題(特...
    人工智慧 發佈於2025-04-15
  • ChatGPT足矣,無需專用AI聊機
    ChatGPT足矣,無需專用AI聊機
    在一個新的AI聊天機器人每天啟動的世界中,決定哪一個是正確的“一個”。但是,以我的經驗,chatgpt處理了我所丟下的幾乎所有內容,而無需在平台之間切換,只需稍有及時的工程。 在許多實踐應用程序中可能會讓您感到驚訝。它的範圍令人印象深刻,使用戶可以生成代碼段,草稿求職信,甚至翻譯語言。這種多功能性...
    人工智慧 發佈於2025-04-14
  • 印度AI時刻:與中美在生成AI領域競賽
    印度AI時刻:與中美在生成AI領域競賽
    印度的AI抱負:2025 Update 與中國和美國在生成AI上進行了大量投資,印度正在加快自己的Genai計劃。 不可否認的是,迫切需要迎合印度各種語言和文化景觀的土著大語模型(LLM)和AI工具。 本文探討了印度新興的Genai生態系統,重點介紹了2025年工會預算,公司參與,技能開發計劃...
    人工智慧 發佈於2025-04-13
  • 使用Airflow和Docker自動化CSV到PostgreSQL的導入
    使用Airflow和Docker自動化CSV到PostgreSQL的導入
    本教程演示了使用Apache氣流,Docker和PostgreSQL構建強大的數據管道,以使數據傳輸從CSV文件自動化到數據庫。 我們將介紹有效工作流程管理的核心氣流概念,例如DAG,任務和操作員。 該項目展示了創建可靠的數據管道,該數據管線讀取CSV數據並將其寫入PostgreSQL數據庫。我們...
    人工智慧 發佈於2025-04-12
  • 群智能算法:三個Python實現
    群智能算法:三個Python實現
    Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...
    人工智慧 發佈於2025-03-24
  • 如何通過抹布和微調使LLM更準確
    如何通過抹布和微調使LLM更準確
    Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...
    人工智慧 發佈於2025-03-24
  • 什麼是Google Gemini?您需要了解的有關Google Chatgpt競爭對手的一切
    什麼是Google Gemini?您需要了解的有關Google Chatgpt競爭對手的一切
    Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...
    人工智慧 發佈於2025-03-23

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3