生成式人工智能聊天机器人的兴起使“大语言模型”这一术语变得流行,这是在幕后工作的底层人工智能技术。大型语言模型 (LLM) 根据一组预测的语言生成输出,以响应用户输入,这使得人工智能看起来好像能够独立思考。
但法学硕士并不是城里唯一的大型模特;大型动作模型(LAM)可能是人工智能领域的下一个重大事件。
LAM 是一种人工智能系统,能够理解人类输入并执行相应的操作。这与仅专注于生成响应的人工智能系统的方法略有不同。 “大动作模型”这个术语是由rabbit r1设备的开发商Rabbit Inc.首次提出的。在该公司的rabbit r1发布视频中,该公司表示LAM是一种新的基础模型,有助于将人工智能从言语转化为行动。
LAM 在用户操作数据的大型数据集上进行训练;因此,他们通过模仿人类行为或通过演示来学习。通过演示,LAM 可以理解和导航不同网站或移动应用程序的用户界面,并根据您的指令执行特定操作。根据 Rabbit 的说法,即使接口稍有改变,LAM 也可以实现这一点。
您可以将 LAM 视为 LLM 现有功能的扩展。 LLM 通过预测下一个单词或标记来根据用户输入生成文本或媒体输出(您提出问题,LLM 提供文本或媒体输出),而 LAM 通过增加代表您执行复杂操作的能力而更进一步。
LAM 就是代表您执行复杂的操作。然而,需要注意的关键点是执行复杂操作的能力。这使得 LAM 在执行高级任务时更有帮助,但这并不意味着它们不能执行更简单的操作。
从理论上讲,这意味着您可以告诉 LAM 代表您做某事,例如从附近的星巴克订购一杯咖啡、从 Uber 打车,甚至预订酒店。因此,它不同于执行简单的任务,例如要求 Google Assistant、Siri 或 Alexa 打开电视或客厅灯。
在幕后,根据 Rabbit Inc. 的愿景,LAM 能够访问相关网站或 Uber 等应用程序,并通过其界面进行导航以采取行动,例如叫车或取消乘车如果你改变主意。
LAM 的概念令人兴奋,甚至可能比 LLM 更令人兴奋。 LAM 将成为生成式人工智能之后的未来,使我们能够摆脱平凡的任务并专注于其他有成就感的活动。然而,尽管 LAM 看起来令人兴奋,但它还没有准备好。
第一个承诺利用 LAM 的商业产品(兔子 r1)并没有完全兑现其代表用户执行操作的营销承诺。该设备在其核心卖点上表现得非常糟糕,以至于许多第一手评论都认为它毫无用处。
更糟糕的是,YouTuber Coffeezilla 与一组有权访问 r1 代码库的精选软件工程师合作进行的一项调查发现,Rabbit 使用 Playwright 脚本而不是 LAM 来执行操作。因此,它实际上只是运行一堆 If > Then 风格的语句,而不是运行独特的 AI 模型的设备;与林承诺的相差甚远。
如果说你可以从 Rabbit 的 r1 设备中获得什么的话,那就是愿景就在那里。然而,在实现之前还需要做一些工作,所以先不要兴奋。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3