超越法學碩士：這就是為什麼小語言模型是人工智慧的未來

首頁 > 人工智慧 > 超越法學碩士：這就是為什麼小語言模型是人工智慧的未來

超越法學碩士：這就是為什麼小語言模型是人工智慧的未來

發佈於2024-11-01

大型语言模型 (LLM) 随着 Open AI 的 ChatGPT 的发布而出现。从那时起，一些公司也推出了他们的法学硕士，但更多的公司现在倾向于小语言模型（SLM）。

SLM 正在获得动力，但它们是什么，与法学硕士有何不同？

什么是小语言模型？

小语言模型（SLM）是一种参数较少的人工智能模型（将其视为训练期间学习的模型中的值）。与大型同类产品一样，SLM 可以生成文本并执行其他任务。然而，SLM 使用较少的数据集进行训练，参数较少，并且需要较少的计算能力来训练和运行。

SLM 专注于关键功能，其占用空间小意味着它们可以部署在不同的设备上，包括那些没有移动设备等高端硬件。例如，Google 的 Nano 是一个从头开始构建的设备上 SLM，可在移动设备上运行。据该公司称，由于尺寸较小，Nano 可以在有或没有网络连接的情况下在本地运行。

$Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

除了 Nano 之外，还有许多来自人工智能领域领先和新兴公司的其他 SLM。一些流行的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。

还有其他选项，您可能认为是 LLM，但实际上它们是SLM。考虑到大多数公司正在采用多模型方法，在其产品组合中发布不止一种语言模型，同时提供 LLM 和 SLM，这一点尤其正确。一个例子是 GPT-4，它有多种模型，包括 GPT-4、GPT-4o (Omni) 和 GPT-4o mini。

小语言模型与大语言模型

在讨论 SLM 时，我们不能忽视它们的重要对手：LLM。 SLM 和 LLM 之间的主要区别在于模型大小，它是根据参数来衡量的。

截至撰写本文时，AI 行业对于模型不应包含的最大参数数量尚未达成共识超过被视为 SLM 或被视为 LLM 所需的最低数量。然而，SLM 通常有数百万到数十亿个参数，而 LLM 的参数更多，高达数万亿个。

例如，2020 年发布的 GPT-3 有 1750 亿个参数（并且据传 GPT-4 模型约有 1.76 万亿个参数），而微软 2024 年的 Phi-3-mini、Phi-3-small 和 Phi-3-medium SLM 分别测量了 3.8、7 和 140 亿个参数。

$Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

SLM 和 LLM 之间的另一个区别因素是用于培训的数据量。 SLM 使用少量数据进行训练，而 LLM 使用大型数据集。这种差异也会影响模型解决复杂任务的能力。

由于训练中使用的数据量很大，LLM 更适合解决需要高级推理的不同类型的复杂任务，而 SLM 更适合解决更简单的任务任务。与 LLM 不同，SLM 使用较少的训练数据，但所使用的数据必须具有更高的质量，才能在一个小包中实现 LLM 中的许多功能。

为什么小语言模型是未来

对于大多数用例，SLM 更适合成为公司和消费者用来执行各种任务的主流模型。当然，法学硕士有其优势，并且更适合某些用例，例如解决复杂的任务。然而，由于以下原因，SLM 是大多数用例的未来。

1. 较低的培训和维护成本

$Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

SLM 比 LLM 需要更少的训练数据，这使得它们对于培训数据、财务或两者都有限的个人和中小型公司来说，这是最可行的选择。 LLM 需要大量的训练数据，进而需要大量的计算资源来训练和运行。

为了正确看待这一点，OpenAI 的首席执行官 Sam Altman 证实，他们的训练花费了超过 1 亿美元GPT-4 在麻省理工学院的一次活动中发表讲话（据《连线》报道）。另一个例子是 Meta 的 OPT-175B LLM。 Meta 表示，它是使用 992 个 NVIDIA A100 80GB GPU 进行训练的，据 CNBC 报道，每个 GPU 的成本约为 10,000 美元。这样一来，成本约为900万美元，还不包括能源、工资等其他费用。

按照这样的数字，中小型公司培养法学硕士是不可行的。相比之下，SLM 在资源方面的进入门槛较低，运行成本也较低，因此，更多的公司会接受它们。

2. 更好的性能

$Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

性能是另一个因素SLM 因其紧凑的规模而击败 LLM 的领域。 SLM 的延迟更短，更适合需要更快响应的场景，例如实时应用程序。例如，在数字助理等语音响应系统中，更快的响应是首选。

在设备上运行（稍后详细介绍）也意味着您的请求不必访问在线服务器并返回到响应您的查询，从而获得更快的响应。

3. 更准确

$Beyond LLMs: Here\'s Why Small Language Models Are the Future of AI$

说到生成人工智能，有一件事保持不变：垃圾输入，垃圾输出。目前的法学硕士已经使用原始互联网数据的大型数据集进行了培训。因此，它们可能并不在所有情况下都是准确的。这是 ChatGPT 和类似模型的问题之一，也是为什么你不应该相信人工智能聊天机器人所说的一切。另一方面，SLM 使用比 LLM 更高质量的数据进行训练，因此具有更高的准确性。

SLM 还可以通过针对特定任务或领域的集中训练来进一步微调，从而在这些方面获得更高的准确性与更大、更通用的模型相比。