”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 人工智能 > AI 工具训练数据不足,但有 6 种解决方案

AI 工具训练数据不足,但有 6 种解决方案

发布于2024-07-29
浏览:833

人工智能需要训练数据,但数据是有限的。那么,我们还能如何训练人工智能,使其不断发展并对我们有用呢?

你可能认为互联网及其数据是取之不尽用之不竭的资源,但人工智能工具正在耗尽可供挖掘的数据。现在,不用担心,人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。

1 总是有更多的数据在线添加

简而言之,人工智能研究机构 Epoch 表示,用于训练人工智能的高质量数据可能会在 2026 年耗尽。

关键词是“可以”。每年添加到互联网的数据量都在增加,因此在 2026 年之前可能会发生巨大的变化。不过,这是一个合理的估计——无论哪种方式,人工智能系统在某个时候都会用完好的数据。

然而,我们应该记住,每年在线添加约 147 ZB 的数据(根据 Exploding Topics)。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算(嗯,有点真实),这相当于超过 300 亿部 4K 电影(真实,但深不可测)。人工智能需要筛选的信息量惊人。

尽管如此,AI 消耗数据的速度比人类创建数据的速度还要快……

2 AI 可能会忘记低质量数据

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

并非所有 147 ZB 的数据都是好的当然是数据。它的内涵远比表面看到的要多得多。但据估计,到 2050 年,人工智能也将耗尽低质量的语言数据。

路透社报道,曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统,但即便如此,到 2060 年也可能耗尽。这里还有一个更大的问题:Photobucket 保存了来自 2000 年代社交媒体平台(如 Myspace)的图像,这意味着它们的标准不如当前摄影。这会导致数据质量低下。

Photobucket 并不孤单。 2024 年 2 月,谷歌与 Reddit 达成协议,允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据;有些人用它来训练内部人工智能模型,例如 Meta 的 Llama。

然而,虽然可以从低质量数据中收集一些信息,但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题,但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。

我们可以向人工智能提供更多数据,而不必过于挑剔;然后,这些人工智能系统可以挑选出最有益的学习内容。

3 语音识别打开视频和播客数据

迄今为止,输入到人工智能工具的数据主要由文本组成,其次是图像。毫无疑问,这种情况将会改变,而且很可能已经发生了,因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。

值得注意的是,OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后,OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。

这是其他人工智能系统的理想模板,这些系统使用语音识别来转录来自众多来源的视频和音频,并通过其人工智能模型运行该数据。

根据 Statista 的数据,每分钟有超过 500 小时的视频上传到 YouTube,这一数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向这样的新数据集,那么仍有大量信息有待挖掘。

4 人工智能在很大程度上坚持英语

这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣,因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。

本质上,大多数工具都受到其创建者文化的限制。

以ChatGPT为例。 2022 年发布后不久,挪威卑尔根大学数字文化教授 Jill Walker Rettberg 试用了 ChatGPT,并得出结论:

“ChatGPT 对挪威文化了解不多。或者更确切地说,它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下,这些都接近挪威和欧洲的价值观,但情况可能并不总是如此。”

那么,人工智能可以开发出更多与它们互动的跨国人员,或者使用更多样化的语言和文化来训练此类系统。目前,许多人工智能都被限制在一个库中;如果获得世界各地图书馆的钥匙,他们就能成长。

5家出版社可以帮助开发人工智能

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

知识产权显然是一个大问题,但一些出版商可以通过签订许可协议来帮助开发人工智能。这意味着为工具提供来自书籍的高质量(即可靠的)数据,而不是从在线来源收集的潜在低质量信息。

事实上,据报道,Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考虑收购“五巨头”出版社之一的 Simon & Schuster。这个想法是利用该公司发表的文献来训练 Meta 自己的人工智能。该交易最终失败,可能是由于该公司在未经作者事先同意的情况下处理知识产权存在道德灰色地带。

显然考虑的另一个选择是购买新作品的个人许可权。这应该会引起创意人员的极大关注,但如果可用数据耗尽,这仍然是人工智能工具开发的一种有趣方式。

6 合成数据是未来

其他所有解决方案仍然有限,但有一个选项可以让人工智能在未来蓬勃发展:合成数据。人们已经将其作为一种非常现实的可能性进行了调查。

那么,什么是合成数据?从这个意义上说,它是人工智能创造的数据;正如人类创建数据一样,这种方法将使人工智能生成用于训练目的的数据。

实际上,人工智能可以创建令人信服的深度伪造视频。该深度伪造视频可以反馈到人工智能中,以便它可以从本质上是想象的场景中学习。毕竟,这是人类学习的一种主要方式:我们阅读或观看某些东西以了解我们周围的世界。

人工智能很可能已经消耗了合成信息。网上流传的 Deepfakes 会传播错误信息和虚假信息,因此当人工智能系统扫描互联网时,有些系统会受到虚假内容的影响,这是有道理的。

是的,这有阴险的一面。它还可能损害或限制人工智能,强化和传播这些工具所犯的错误。公司正在努力消除后一个问题;尽管如此,“人工智能互相学习并犯错误”仍然是许多科幻噩梦场景的情节点。

7

人工智能是有争议的。它有很多缺点,但批评者却忽视了它的好处。例如,审计和咨询网络普华永道 [PDF] 表明,到 2030 年,人工智能可为世界经济贡献高达 15.7 万亿美元。

此外,人工智能已经在世界各地得到应用。您今天可能已经以某种形式使用过它,甚至可能没有意识到。现在精灵已经从瓶子里出来了,关键肯定是用可靠、高质量的数据来训练它,这样我们就可以正确地使用它。

人工智能有其优点和缺点。需要找到一个平衡点。

版本声明 本文转载于:https://www.makeuseof.com/ai-running-out-training-data-solutions/如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 我已经放弃 ChatGPT,转而选择这个优越的替代方案:3 个原因
    我已经放弃 ChatGPT,转而选择这个优越的替代方案:3 个原因
    让我们切入正题:我已经从 ChatGPT 切换到 Claude。这并不是说 ChatGPT 不好,而是这样。但就我的需求而言,克劳德有一些优势,对我的日常生活产生了真正的影响。 以下是我做出转变的三个关键原因... 1 克劳德实际上明白我在说什么 我不是完全的人工智能新手,但我也没有在业余...
    人工智能 发布于2024-11-02
  • 如何使用 OpenAI 的 ChatGPT
    如何使用 OpenAI 的 ChatGPT
    除了能够撰写工作电子邮件之外,ChatGPT 还可以为您的演示提供反馈,建议周末旅行的行程,或者在您精力耗尽时集思广益新想法。使用 ChatGPT,您输入请求并按 Enter 键,几秒钟内就会看到响应出现在您面前。 想了解如何使用 ChatGPT?我们已经为您提供了保障。 什么是 ChatGP...
    人工智能 发布于2024-11-02
  • GPT-4o 将 GPT-4 带给每个人,这就是它的工作原理
    GPT-4o 将 GPT-4 带给每个人,这就是它的工作原理
    那么,什么是 GPT-4o? 什么是 GPT-4o? GPT-4o 是 ChatGPT 开发商 OpenAI 的最新 AI 模型,于 2024 年 5 月上旬的“春季更新”活动中发布。它将与之前表现最好的模型 GPT-4 Turbo 共存,至少目前如此,并为该工具带来大量更新。 与其前身不同...
    人工智能 发布于2024-11-02
  • 微软收购暴雪,探索人工智能艺术和翻译 [播客]
    微软收购暴雪,探索人工智能艺术和翻译 [播客]
    本周的播客回答了这些问题,并仔细考虑了英国政府批准微软收购动视暴雪的影响。 您可以在 Apple 播客、Spotify、Google 播客、Amazon Music 和 Audible、Player FM 上订阅真正有用的播客,或将 RSS 源复制到您的播客播放器中。 Shownotes ...
    人工智能 发布于2024-11-01
  • 超越法学硕士:这就是为什么小语言模型是人工智能的未来
    超越法学硕士:这就是为什么小语言模型是人工智能的未来
    大型语言模型 (LLM) 随着 Open AI 的 ChatGPT 的发布而出现。从那时起,一些公司也推出了他们的法学硕士,但更多的公司现在倾向于小语言模型(SLM)。SLM 正在获得动力,但它们是什么,与法学硕士有何不同? 什么是小语言模型? 小语言模型(SLM)是一种参数较少的人工智能模型(将其...
    人工智能 发布于2024-11-01
  • ChatGPT 的自定义 GPT 如何暴露您的数据以及如何保证其安全
    ChatGPT 的自定义 GPT 如何暴露您的数据以及如何保证其安全
    ChatGPT 的自定义 GPT 功能允许任何人为几乎任何你能想到的东西创建自定义 AI 工具;创意、技术、游戏、定制 GPT 都可以做到。更好的是,您可以与任何人分享您的自定义 GPT 创建。 但是,通过共享您的自定义 GPT,您可能会犯一个代价高昂的错误,将您的数据暴露给全球数千人。 什么...
    人工智能 发布于2024-10-08
  • 查看这 6 个鲜为人知的 AI 应用程序,它们可提供独特的体验
    查看这 6 个鲜为人知的 AI 应用程序,它们可提供独特的体验
    目前,大多数人都听说过 ChatGPT 和 Copilot,这两款引领 AI 热潮的开创性生成式 AI 应用程序。但是您知道吗,大量鲜为人知的 AI 工具可以提供精彩的、独特的经历?这里有六个最好的。 1 Ditto Music Ditto 不是您可以用来创建独特歌曲的众多 AI 音乐生成器之一,而...
    人工智能 发布于2024-10-05
  • 您可以免费试用的 6 个 OpenAI Sora 替代方案
    您可以免费试用的 6 个 OpenAI Sora 替代方案
    Runway 的 Gen-2 最好地反映了使用 Open AI 的 Sora 所获得的效果,使用多模式 AI 系统通过文本提示生成视频剪辑。 Runway 的 Gen-2 功能包括上传图像或视频的功能,以用作您想要生成的视频剪辑的参考。 Open AI 的 Sora 是否也支持从参考图像或剪辑创...
    人工智能 发布于2024-10-01
  • 如何使用 Nightshade 保护您的艺术品免受生成人工智能的影响
    如何使用 Nightshade 保护您的艺术品免受生成人工智能的影响
    人工智能工具是革命性的,现在可以进行对话,生成类似人类的文本,并根据单个单词创建图像。然而,这些人工智能工具使用的训练数据通常来自受版权保护的来源,特别是当涉及到 DALL-E、Midjourney 等文本到图像生成器时。 阻止生成式人工智能工具使用版权图像进行训练是很困难的,各行各业的艺术家都...
    人工智能 发布于2024-09-19
  • 如何使用 ChatGPT 的“我的 GPT”机器人来学习棋盘游戏、创建图像等等
    如何使用 ChatGPT 的“我的 GPT”机器人来学习棋盘游戏、创建图像等等
    OpenAI 刚刚发布了一系列新的 ChatGPT 模式,称为“我的 GPT”。这本质上为 ChatGPT-4 和 DALL-E 增添了风味,使它们专门适合某些任务。 您将在 ChatGPT 侧面菜单的“探索”选项卡中找到“我的 GPT”。它充满了自定义 GPT 模式,从有趣的模因翻译器到技术支...
    人工智能 发布于2024-09-18
  • 为什么 ChatGPT 的语音转文本功能是我用过的最好的
    为什么 ChatGPT 的语音转文本功能是我用过的最好的
    你必须说出来才相信;这就是 ChatGPT 出色的语音转文本功能。事实证明,它比一些最成熟的语音转文本应用程序更加流畅和精确。 ChatGPT 比 Google 的语音输入更好 Google 的语音输入是我断断续续使用多年的工具。它配备了 SwiftKey 键盘应用程序和 Google 自己的...
    人工智能 发布于2024-09-15
  • ChatGPT Plus 的优点和缺点
    ChatGPT Plus 的优点和缺点
    ChatGPT 自面世以来就取得了巨大的成功。 ChatGPT 背后的公司 OpenAI 很快推出了付费版本 ChatGPT Plus,以通过该服务货币化,因为运行它需要花钱,而且几乎每个人都使用它。 高级版在发布时就受到了很多炒作,因为它让订阅者可以优先访问最新版本的 OpenAI 语言模型 ...
    人工智能 发布于2024-09-13
  • 如何隐藏您的 ChatGPT 对话而不删除它们
    如何隐藏您的 ChatGPT 对话而不删除它们
    您与 ChatGPT 的某些对话可能比其他对话更加私密。幸运的是,OpenAI 可以轻松存档您的聊天记录并将对话隐藏起来。无论您在网络上还是在智能手机上使用 ChatGPT,隐藏这些 AI 聊天都很简单。 如何在网络上隐藏 ChatGPT 聊天 ChatGPT 具有存档功能,只需单击几下即可从...
    人工智能 发布于2024-09-04
  • 什么是预测人工智能,它是如何工作的?
    什么是预测人工智能,它是如何工作的?
    你可能听说过生成式人工智能,但是你对预测式人工智能了解多少?它们听起来很相似,但有一些关键的区别,以及您可能已经在使用它的多种方式! 什么是预测人工智能,它是如何工作的? 预测人工智能使用已经发生的事情的信息来对未来可能发生的事情进行预测和预测。要成功使用,它需要获得人类的高质量数据和主题专业...
    人工智能 发布于2024-09-03
  • 10 个真正让 ChatGPT 变得更好的自定义 GPT
    10 个真正让 ChatGPT 变得更好的自定义 GPT
    ChatGPT 本身很棒,但您知道可以使用自定义 GPT 来简化其功能吗?自定义 GPT 可以教您如何编码、计划旅行、转录视频等等,并且有大量可供您选择。 因此,这里是最好的自定义 GPT,它们实际上使 ChatGPT 成为适合任何情况的更好工具。 1 图表:展示 图表:展示 GPT 插件可以...
    人工智能 发布于2024-09-03

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3