Mistral 的 Le Chat 在人工智能聊天机器人社区中越来越受欢迎,一些观察家将其标记为 ChatGPT 的潜在竞争对手。
但是这个刚刚起步的人工智能聊天机器人真的值得这个称号吗? Mistral 的 Le Chat 比 ChatGPT 更好吗?
Le Chat 是由法国人工智能初创公司 Mistral AI 开发的对话式人工智能聊天机器人。它由 Mistral 拥有的多种大型语言模型提供支持,包括 Mistral Large、Mistral Small 和 Mistral Next,您在与 AI 聊天机器人交互时可以选择使用所有这些模型。尽管它是人工智能聊天机器人领域的一个相对较新的进入者,但由于其人工智能模型的性能,尽管与 Gemini 和 GPT-4 等行业重量级产品相比尺寸较小,但它仍获得了很高的评价。
要理解这意味着什么,想象一下您正在玩积木。您拥有的块越多,您可以构建的结构就越复杂和详细,对吗?人工智能语言模型有点类似。它们有大小,通常以参数计数表示。因此,您可能在 AI 模型中听说过“7B 参数”或“70B 参数”等术语。参数计数就像模型必须理解和生成响应的构建块的数量。因此,如果语言模型具有更多参数,它就可以理解并生成更复杂、更好的响应。
现在,GPT-4 估计有 1.76 万亿个参数,而 Mistral AI 估计有 7 到 560 亿个参数。看到尺寸差异了吗?因此,Mistral AI 能够提供不错的性能是其大肆宣传的原因之一。
尽管 Le Chat 不具备 ChatGPT 的宣传水平,也没有 Gemini 等公司的品牌资产,但每当讨论潜在的 ChatGPT 竞赛时,它就会进入话题。但它值得在桌面上占有一席之地吗?
我一直在想同样的问题,为了找到答案,我广泛测试了 Le Chat,看看它与 ChatGPT 相比如何。
创造力是判断对话式 AI 聊天机器人性能的最重要指标之一。请记住,人工智能聊天机器人的目的是大规模复制或模仿人类的对话能力和创造力。这使得创造力对于任何人工智能聊天机器人来说都是一个非常重要的优势。全世界已经对 ChatGPT 进行了一年多的试验,其创造能力是不可否认的。但 Le Chat 相比如何呢?我们对这两个聊天机器人进行了一系列创造力测试。
我首先问两个聊天机器人,“你会如何向艺术家描述自己?”测试他们使用创造性和富有想象力的词语来概念化自己的能力。
以下是 ChatGPT 向艺术家描述自己的方式:
Le Chat 也将这样描述自己:
两种回答都适合他们自己独特的方式。 ChatGPT更注重用生动的图像和隐喻来描述自己,展现创意天赋。另一方面,Le Chat 的回应信息非常丰富,并且重点描述了其作为人工智能聊天机器人的本质。有些人可能会说它缺乏 ChatGPT 的回应所展现的创意天赋和艺术风格。然而,我会大胆地说,相对于 ChatGPT 的抽象描述,我更喜欢 Le Chat 更容易想象的回应。
然后我要求 ChatGPT 和 Le Chat 写一首关于通过种植黄瓜致富的说唱歌曲——这是一个棘手的请求,我们用它来测试其他聊天机器人的创造力。您在网上能找到多少首关于黄瓜的说唱歌曲?
这是 ChatGPT 的回复:
这是 Le Chat 的回复:
这可能是一个主观问题,但 ChatGPT 的回复似乎是更好的选择。 Le Chat 的歌词看起来很冗长,读起来不像说唱歌手会写出来的东西。为了测试这两个歌词如果被制作成音乐的话听起来如何,我们使用Suno AI音乐生成器从歌词生成音乐。三分之三的试验中,ChatGPT 的歌词听起来好多了。以下是两个人工智能聊天机器人的两个示例,您可以判断哪个聊天机器人做得更好。
从 ChatGPT 的歌词生成的样本
样本 1:
样本 2:
从 Mistral Le Chat 的歌词生成的样本
样本 1 :
示例 2:
我尝试了一些其他创造性任务,例如诗歌、文章写作以及使用 AI 聊天机器人起草棘手的工作电子邮件。尽管表现出了巨大的潜力,但 Le Chat 在所有情况下都明显被 ChatGPT 超越。需要指出的是,Le Chat 特别擅长的一个领域是撰写文章,尽管有一些棘手的提示风格。然而,就全面创造力而言,奖牌属于ChatGPT。
熟练的编码能力已成为主要 AI 聊天机器人的关键要求。编写像样的代码是一项基本技能,但要真正在精英中脱颖而出,人工智能聊天机器人必须展示其编写能够有效解决各种复杂问题的代码的能力。我们之前使用 ChatGPT 从头开始构建了一个完整的 Web 应用程序,这展示了其作为编程工具的卓越能力。但 Le Chat 编写代码的水平如何?
我要求两个聊天机器人使用 CSS、HTML 和 JavaScript 编写一个简单的待办事项列表应用程序。 ChatGPT 在产生良好结果方面没有遇到任何困难。我复制了生成的代码并在浏览器上预览它,这就是 ChatGPT 创建的内容:
每次我们重复提示时,ChatGPT 都会使用不同的样式创建一个实用的待办事项列表应用程序。生成的代码在任何情况下都不会失败。
当我在 Le Chat 上尝试相同的提示时,它生成了看似可理解的代码,但当我们尝试在浏览器上运行它时,它不起作用。重复提示3次后,没有实例生成可以完成设定任务的代码。它未能完成最基本的编码任务之一——危险信号!
当然,我不会因为一次失败的测试而评判 Le Chat。接下来,我要求两个聊天机器人生成用于加密和解密文本的 JavaScript 和 PHP 代码。在第二次测试中,ChatGPT 和 Le Chat 都生成了可以执行设定任务的功能代码。然而,Le Chat 的版本看起来像是一个没有经验的入门级程序员会写的东西。另一方面,ChatGPT 的代码更完整,看起来像是由经验丰富的程序员编写的。
我又重复了一些涉及查找和修复错误的编程测试,ChatGPT 的表现始终优于 Le Chat。在某些情况下,Le Chat 甚至不知道自己应该做什么。 Le Chat 在某些领域很有可能达到 ChatGPT 的水平,但编码技能似乎不是其中之一。
AI 聊天机器人的一个有趣的变化是它们能够轻松解决复杂的任务,但无法完成需要基本常识才能完成的简单任务。许多聊天机器人,无论是像 ChatGPT 这样的老牌聊天机器人,还是像 Le Chat 这样的新进入者,在解决需要人类常识和逻辑推理的任务时都遇到了困难。那么,Le Chat 和 ChatGPT 在这方面相比如何呢?
我问两个聊天机器人:“如果你有一个 3 升的瓶子和一个 5 升的瓶子。如何使用 3 升和 5 升的瓶子测量 4 升的水?”
ChatGPT 巧妙地解决了问题:
Le Chat 尝试了相同的任务,并且能够解决问题,尽管使用了不同的方法。
两个聊天机器人在此测试中的表现相当。
接下来,我们向两个聊天机器人提出了一个棘手的问题:“如果一艘来自火星的宇宙飞船分成两部分,一部分坠入巴西附近的大西洋,另一部分坠入日本附近的太平洋,你会在哪里?埋葬幸存者吗?”
ChatGPT识破了骗局,做出了回应:
Le Chat也识破了骗局,做出了回应:
I尝试了更多的刁钻题,看来ChatGPT和Le Chat都非常擅长处理常识性和逻辑推理提示。然而,对于更复杂的逻辑问题,只有 ChatGPT 可以提供正确的答案。
虽然 Le Chat 作为潜在的“ChatGPT 杀手”引起了一些关注,但我们的测试表明,在真正与 AI 聊天机器人世界的重量级人物正面交锋之前,它还有很多工作要做。尽管 Le Chat 在常识推理等领域表现出了令人印象深刻的能力,但其创意输出和编码技能明显落后于 ChatGPT。这家法国人工智能新贵无疑展现出了希望,但炒作机器可能有点言过其实了。
与之前的许多雄心勃勃的竞争者一样,Le Chat 需要不断完善和训练,才能为大联盟做好准备。目前,像 ChatGPT 这样的人工智能聊天机器人显然仍然是人工智能聊天机器人世界无可争议的王者。但竞争者的领域只会变得越来越拥挤,因此领导者不能满足于现状。
免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3