AI 工具训练数据不足，但有 6 种解决方案

首页 > 人工智能 > AI 工具训练数据不足，但有 6 种解决方案

AI 工具训练数据不足，但有 6 种解决方案

发布于2024-07-29

人工智能需要训练数据，但数据是有限的。那么，我们还能如何训练人工智能，使其不断发展并对我们有用呢？

你可能认为互联网及其数据是取之不尽用之不竭的资源，但人工智能工具正在耗尽可供挖掘的数据。现在，不用担心，人工智能的发展不会停止——仍有大量数据可供训练人工智能系统。

1 总是有更多的数据在线添加

简而言之，人工智能研究机构 Epoch 表示，用于训练人工智能的高质量数据可能会在 2026 年耗尽。

关键词是“可以”。每年添加到互联网的数据量都在增加，因此在 2026 年之前可能会发生巨大的变化。不过，这是一个合理的估计——无论哪种方式，人工智能系统在某个时候都会用完好的数据。

然而，我们应该记住，每年在线添加约 147 ZB 的数据（根据 Exploding Topics）。仅 1 ZB 就等于 1,000,000,000,000,000,000,000 位数据。按实际价值计算（嗯，有点真实），这相当于超过 300 亿部 4K 电影（真实，但深不可测）。人工智能需要筛选的信息量惊人。

尽管如此，AI 消耗数据的速度比人类创建数据的速度还要快……

2 AI 可能会忘记低质量数据

AI Tools Are Running Out of Training Data, but There Are 6 Solutions

并非所有 147 ZB 的数据都是好的当然是数据。它的内涵远比表面看到的要多得多。但据估计，到 2050 年，人工智能也将耗尽低质量的语言数据。

路透社报道，曾经是世界上最大的图片存储库之一的 Photobucket 正在洽谈将其庞大的图片库授权给人工智能培训公司。图像数据已经训练了 DALL-E 和 Midjourney 等系统，但即便如此，到 2060 年也可能耗尽。这里还有一个更大的问题：Photobucket 保存了来自 2000 年代社交媒体平台（如 Myspace）的图像，这意味着它们的标准不如当前摄影。这会导致数据质量低下。

Photobucket 并不孤单。 2024 年 2 月，谷歌与 Reddit 达成协议，允许这家搜索巨头在其人工智能训练中使用该社交媒体平台的用户数据。其他社交媒体平台也正在提供用于人工智能培训目的的用户数据；有些人用它来训练内部人工智能模型，例如 Meta 的 Llama。

然而，虽然可以从低质量数据中收集一些信息，但据报道微软正在开发一种让人工智能有选择地“忘记”数据的方法。这主要用于解决知识产权问题，但这也可能意味着工具可能会忘记从低质量数据集中学到的东西。

我们可以向人工智能提供更多数据，而不必过于挑剔；然后，这些人工智能系统可以挑选出最有益的学习内容。

3 语音识别打开视频和播客数据

迄今为止，输入到人工智能工具的数据主要由文本组成，其次是图像。毫无疑问，这种情况将会改变，而且很可能已经发生了，因为语音识别软件将意味着大量可用的视频和播客也可以训练人工智能。

值得注意的是，OpenAI 使用 680,000 小时的多语言和多任务数据开发了开源自动语音识别 (ASR) 神经网络 Whisper。然后，OpenAI 将 YouTube 视频中超过一百万小时的信息输入到其大型语言模型 GPT-4 中。

这是其他人工智能系统的理想模板，这些系统使用语音识别来转录来自众多来源的视频和音频，并通过其人工智能模型运行该数据。

根据 Statista 的数据，每分钟有超过 500 小时的视频上传到 YouTube，这一数字自 2019 年以来一直保持相当稳定。这还不包括 Dailymotion 和 Podbean 等其他视频和音频平台。如果人工智能能够将注意力转向这样的新数据集，那么仍有大量信息有待挖掘。

4 人工智能在很大程度上坚持英语

这并不是我们能从 Whisper 学到的全部。 OpenAI 使用 117,000 小时的非英语音频数据训练模型。这尤其有趣，因为许多人工智能系统主要使用英语或通过西方视角观察其他文化进行训练。

本质上，大多数工具都受到其创建者文化的限制。

以ChatGPT为例。 2022 年发布后不久，挪威卑尔根大学数字文化教授 Jill Walker Rettberg 试用了 ChatGPT，并得出结论：

“ChatGPT 对挪威文化了解不多。或者更确切地说，它对挪威文化的了解大概主要是从英语来源学到的……ChatGPT 明确符合美国的价值观和法律。在许多情况下，这些都接近挪威和欧洲的价值观，但情况可能并不总是如此。”

那么，人工智能可以开发出更多与它们互动的跨国人员，或者使用更多样化的语言和文化来训练此类系统。目前，许多人工智能都被限制在一个库中；如果获得世界各地图书馆的钥匙，他们就能成长。

5家出版社可以帮助开发人工智能

知识产权显然是一个大问题，但一些出版商可以通过签订许可协议来帮助开发人工智能。这意味着为工具提供来自书籍的高质量（即可靠的）数据，而不是从在线来源收集的潜在低质量信息。

事实上，据报道，Facebook、Instagram 和 WhatsApp 的所有者 Meta 曾考虑收购“五巨头”出版社之一的 Simon & Schuster。这个想法是利用该公司发表的文献来训练 Meta 自己的人工智能。该交易最终失败，可能是由于该公司在未经作者事先同意的情况下处理知识产权存在道德灰色地带。

显然考虑的另一个选择是购买新作品的个人许可权。这应该会引起创意人员的极大关注，但如果可用数据耗尽，这仍然是人工智能工具开发的一种有趣方式。