”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 人工智能 > AI 工具训练数据不足,但有 6 种解决方案

AI 工具训练数据不足,但有 6 种解决方案

发布于2024-07-29
浏览:336

人工智能需要训练数据,但数据是有限的。那么,我们还能如何训练人工智能,使其不断发展并对我们有用呢?

你可能认为互联网及其数据是取之不尽用之不竭的资源,但人工智能工具正在耗尽可供挖掘的数据。现在,不用担心,人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。

1 总是有更多的数据在线添加

简而言之,人工智能研究机构 Epoch 表示,用于训练人工智能的高质量数据可能会在 2026 年耗尽。

关键词是“可以”。每年添加到互联网的数据量都在增加,因此在 2026 年之前可能会发生巨大的变化。不过,这是一个合理的估计——无论哪种方式,人工智能系统在某个时候都会用完好的数据。

然而,我们应该记住,每年在线添加约 147 ZB 的数据(根据 Exploding Topics)。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算(嗯,有点真实),这相当于超过 300 亿部 4K 电影(真实,但深不可测)。人工智能需要筛选的信息量惊人。

尽管如此,AI 消耗数据的速度比人类创建数据的速度还要快……

2 AI 可能会忘记低质量数据

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

并非所有 147 ZB 的数据都是好的当然是数据。它的内涵远比表面看到的要多得多。但据估计,到 2050 年,人工智能也将耗尽低质量的语言数据。

路透社报道,曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统,但即便如此,到 2060 年也可能耗尽。这里还有一个更大的问题:Photobucket 保存了来自 2000 年代社交媒体平台(如 Myspace)的图像,这意味着它们的标准不如当前摄影。这会导致数据质量低下。

Photobucket 并不孤单。 2024 年 2 月,谷歌与 Reddit 达成协议,允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据;有些人用它来训练内部人工智能模型,例如 Meta 的 Llama。

然而,虽然可以从低质量数据中收集一些信息,但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题,但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。

我们可以向人工智能提供更多数据,而不必过于挑剔;然后,这些人工智能系统可以挑选出最有益的学习内容。

3 语音识别打开视频和播客数据

迄今为止,输入到人工智能工具的数据主要由文本组成,其次是图像。毫无疑问,这种情况将会改变,而且很可能已经发生了,因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。

值得注意的是,OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后,OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。

这是其他人工智能系统的理想模板,这些系统使用语音识别来转录来自众多来源的视频和音频,并通过其人工智能模型运行该数据。

根据 Statista 的数据,每分钟有超过 500 小时的视频上传到 YouTube,这一数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向这样的新数据集,那么仍有大量信息有待挖掘。

4 人工智能在很大程度上坚持英语

这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣,因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。

本质上,大多数工具都受到其创建者文化的限制。

以ChatGPT为例。 2022 年发布后不久,挪威卑尔根大学数字文化教授 Jill Walker Rettberg 试用了 ChatGPT,并得出结论:

“ChatGPT 对挪威文化了解不多。或者更确切地说,它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下,这些都接近挪威和欧洲的价值观,但情况可能并不总是如此。”

那么,人工智能可以开发出更多与它们互动的跨国人员,或者使用更多样化的语言和文化来训练此类系统。目前,许多人工智能都被限制在一个库中;如果获得世界各地图书馆的钥匙,他们就能成长。

5家出版社可以帮助开发人工智能

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

知识产权显然是一个大问题,但一些出版商可以通过签订许可协议来帮助开发人工智能。这意味着为工具提供来自书籍的高质量(即可靠的)数据,而不是从在线来源收集的潜在低质量信息。

事实上,据报道,Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考虑收购“五巨头”出版社之一的 Simon & Schuster。这个想法是利用该公司发表的文献来训练 Meta 自己的人工智能。该交易最终失败,可能是由于该公司在未经作者事先同意的情况下处理知识产权存在道德灰色地带。

显然考虑的另一个选择是购买新作品的个人许可权。这应该会引起创意人员的极大关注,但如果可用数据耗尽,这仍然是人工智能工具开发的一种有趣方式。

6 合成数据是未来

其他所有解决方案仍然有限,但有一个选项可以让人工智能在未来蓬勃发展:合成数据。人们已经将其作为一种非常现实的可能性进行了调查。

那么,什么是合成数据?从这个意义上说,它是人工智能创造的数据;正如人类创建数据一样,这种方法将使人工智能生成用于训练目的的数据。

实际上,人工智能可以创建令人信服的深度伪造视频。该深度伪造视频可以反馈到人工智能中,以便它可以从本质上是想象的场景中学习。毕竟,这是人类学习的一种主要方式:我们阅读或观看某些东西以了解我们周围的世界。

人工智能很可能已经消耗了合成信息。网上流传的 Deepfakes 会传播错误信息和虚假信息,因此当人工智能系统扫描互联网时,有些系统会受到虚假内容的影响,这是有道理的。

是的,这有阴险的一面。它还可能损害或限制人工智能,强化和传播这些工具所犯的错误。公司正在努力消除后一个问题;尽管如此,“人工智能互相学习并犯错误”仍然是许多科幻噩梦场景的情节点。

7

人工智能是有争议的。它有很多缺点,但批评者却忽视了它的好处。例如,审计和咨询网络普华永道 [PDF] 表明,到 2030 年,人工智能可为世界经济贡献高达 15.7 万亿美元。

此外,人工智能已经在世界各地得到应用。您今天可能已经以某种形式使用过它,甚至可能没有意识到。现在精灵已经从瓶子里出来了,关键肯定是用可靠、高质量的数据来训练它,这样我们就可以正确地使用它。

人工智能有其优点和缺点。需要找到一个平衡点。

版本声明 本文转载于:https://www.makeuseof.com/ai-running-out-training-data-solutions/如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 群智能算法:三个Python实现
    群智能算法:三个Python实现
    Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...
    人工智能 发布于2025-03-24
  • 如何通过抹布和微调使LLM更准确
    如何通过抹布和微调使LLM更准确
    Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...
    人工智能 发布于2025-03-24
  • 什么是Google Gemini?您需要了解的有关Google Chatgpt竞争对手的一切
    什么是Google Gemini?您需要了解的有关Google Chatgpt竞争对手的一切
    Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...
    人工智能 发布于2025-03-23
  • 与DSPY提示的指南
    与DSPY提示的指南
    DSPY(声明性的自我改善语言程序)通过抽象及时工程的复杂性来彻底改变LLM应用程序的开发。 本教程提供了使用DSPY的声明方法来构建强大的AI应用程序的综合指南。 [2 抓取DSPY的声明方法,用于简化LLM应用程序开发。 了解DSPY如何自动化提示工程并优化复杂任务的性能。 探索实用的DS...
    人工智能 发布于2025-03-22
  • 自动化博客到Twitter线程
    自动化博客到Twitter线程
    本文详细介绍了使用Google的Gemini-2.0 LLM,Chromadb和Shiplit自动化长效内容的转换(例如博客文章)。 手动线程创建耗时;此应用程序简化了该过程。 [2 [2 使用Gemini-2.0,Chromadb和Shatlit自动化博客到twitter线程转换。 获得实用的经...
    人工智能 发布于2025-03-11
  • 人工免疫系统(AIS):python示例的指南
    人工免疫系统(AIS):python示例的指南
    本文探讨了人造免疫系统(AIS),这是受人类免疫系统识别和中和威胁的非凡能力启发的计算模型。 我们将深入研究AIS的核心原理,检查诸如克隆选择,负面选择和免疫网络理论之类的关键算法,并用Python代码示例说明其应用。 [2 抗体:识别并结合特定威胁(抗原)。在AIS中,这些代表了问题的潜在解决方...
    人工智能 发布于2025-03-04
  • 尝试向 ChatGPT 询问这些关于您自己的有趣问题
    尝试向 ChatGPT 询问这些关于您自己的有趣问题
    有没有想过 ChatGPT 了解您的哪些信息?随着时间的推移,它如何处理您提供给它的信息?我在不同的场景中使用过 ChatGPT 堆,在特定的交互后看看它会说什么总是很有趣。✕ 删除广告 所以,为什么不尝试向 ChatGPT 询问其中一些问题来看看它对你的真实看法是什么? 我理想生活中的...
    人工智能 发布于2024-11-22
  • 您仍然可以通过以下方式尝试神秘的 GPT-2 聊天机器人
    您仍然可以通过以下方式尝试神秘的 GPT-2 聊天机器人
    如果您对人工智能模型或聊天机器人感兴趣,您可能已经看过有关神秘的 GPT-2 聊天机器人及其有效性的讨论。在这里,我们解释什么是 GPT-2 聊天机器人以及如何使用访问它。 什么是 GPT-2 聊天机器人? 2024年4月下旬,一个名为gpt2-chatbot的神秘AI模型在LLM测试和基准测试网站...
    人工智能 发布于2024-11-08
  • ChatGPT 的 Canvas 模式很棒:有 4 种使用方法
    ChatGPT 的 Canvas 模式很棒:有 4 种使用方法
    ChatGPT 的新 Canvas 模式为世界领先的生成式 AI 工具中的写作和编辑增添了额外的维度。自 ChatGPT Canvas 推出以来,我一直在使用它,并找到了几种不同的方式来使用这个新的 AI 工具。✕ 删除广告 1 文本编辑 ChatGPT Canvas 是如果你想编辑文本...
    人工智能 发布于2024-11-08
  • ChatGPT 的自定义 GPT 如何暴露您的数据以及如何保证其安全
    ChatGPT 的自定义 GPT 如何暴露您的数据以及如何保证其安全
    ChatGPT 的自定义 GPT 功能允许任何人为几乎任何你能想到的东西创建自定义 AI 工具;创意、技术、游戏、定制 GPT 都可以做到。更好的是,您可以与任何人分享您的自定义 GPT 创建。 但是,通过共享您的自定义 GPT,您可能会犯一个代价高昂的错误,将您的数据暴露给全球数千人。 什么...
    人工智能 发布于2024-11-08
  • ChatGPT 帮助您在 LinkedIn 上找到工作的 10 种方式
    ChatGPT 帮助您在 LinkedIn 上找到工作的 10 种方式
    LinkedIn 个人资料的“关于”部分有 2,600 个可用字符,是阐述您的背景、技能、热情和未来目标的绝佳空间。查看您的 LinkedIn 简历,作为您的专业背景、技能和抱负的简明摘要。 向 ChatGPT 提供您所有获胜品质的列表,或将您的简历复制粘贴到其中。要求聊天机器人使用这些信息撰写...
    人工智能 发布于2024-11-08
  • 查看这 6 个鲜为人知的 AI 应用程序,它们可提供独特的体验
    查看这 6 个鲜为人知的 AI 应用程序,它们可提供独特的体验
    目前,大多数人都听说过 ChatGPT 和 Copilot,这两款引领 AI 热潮的开创性生成式 AI 应用程序。但是您知道吗,大量鲜为人知的 AI 工具可以提供精彩的、独特的经历?这里有六个最好的。 1 Ditto Music Ditto 不是您可以用来创建独特歌曲的众多 AI 音乐生成器之一,而...
    人工智能 发布于2024-11-08
  • 这 7 个迹象表明我们已经达到人工智能的巅峰
    这 7 个迹象表明我们已经达到人工智能的巅峰
    无论您在网上查找什么,都有网站、服务和应用程序宣称他们使用人工智能使其成为最佳选择。我不了解你的情况,但它的持续存在已经让人厌倦了。 因此,虽然人工智能肯定会留在我们的日常生活中,但有几个迹象表明我们已经达到了人工智能炒作的顶峰。 1 公众兴趣有限 虽然人工智能在科技圈受到了广泛关注,但重要的是要...
    人工智能 发布于2024-11-08
  • 4 个适合教师、讲师和老板的 AI 检查 ChatGPT 检测器工具
    4 个适合教师、讲师和老板的 AI 检查 ChatGPT 检测器工具
    随着 ChatGPT 能力的进步,区分哪些内容是人类编写的,哪些内容是人工智能生成的变得越来越困难。这使得老师和老板很难识别哪些内容是人手写的,哪些内容是通过 ChatGPT 生成的。 如果您很难区分,这里有最好的 ChatGPT 检测工具 我们如何测试每个 ChatGPT 检查工具 有很多...
    人工智能 发布于2024-11-08
  • ChatGPT 的高级语音功能正在向更多用户推出
    ChatGPT 的高级语音功能正在向更多用户推出
    如果您曾经想与 ChatGPT 进行全面对话,现在您可以。也就是说,只要你付费就可以获得使用ChatGPT的特权。更多付费用户正在访问 ChatGPT 的高级语音模式 (AVM),该模式旨在使与 ChatGPT 的交互感觉更加自然。 高级语音来到 ChatGPT Plus 和 Teams Open...
    人工智能 发布于2024-11-08

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3