”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 人工智能 > 苹果公司的一项新研究表明人工智能推理存在严重缺陷

苹果公司的一项新研究表明人工智能推理存在严重缺陷

发布于2024-11-04
浏览:636

人工智能并不总能把事情做好,这并不奇怪。有时候,甚至会产生幻觉。然而,苹果研究人员最近的一项研究表明,人工智能用于形式推理的数学模型存在更严重的缺陷。

✕ 删除广告

作为研究的一部分,苹果科学家询问了人工智能大型语言模型(法学硕士)一个问题,以略有不同的方式多次提出,当他们发现法学硕士提供了意想不到的答案变化时,他们感到惊讶。当涉及到数字时,这些差异最为突出。

苹果的研究表明人工智能的可靠性存在大问题

A New Apple Study Shows AI Reasoning Has Critical Flaws

这项由 arxiv.org 发表的研究得出的结论是,“不同设备之间存在显着的性能差异”。同一问题的不同实例,挑战了当前依赖单点精度指标的 GSM8K 结果的可靠性。” GSM8K 是一个数据集,其中包含 8000 多个不同的小学数学问题和答案。

✕ 删除广告

Apple 研究人员发现此性能的差异可能高达 10%。即使提示中的微小变化也可能会导致 LLM 答案的可靠性出现巨大问题。

换句话说,您可能希望在使用 ChatGPT 等工具时随时对您的答案进行事实核查。这是因为,虽然有时人工智能看起来像是在使用逻辑来为您的查询提供答案,但实际使用的并不是逻辑。

相反,人工智能依靠模式识别来提供对提示的响应。然而,苹果公司的研究表明,即使改变几个不重要的单词也会改变这种模式识别。

所提出的关键差异的一个例子来自于在几天内收集猕猴桃的问题。苹果研究人员进行了一项对照实验,然后添加了一些有关猕猴桃大小的无关紧要的信息。

✕ 删除广告

Meta 和 OpenAI 模型均显示问题

A New Apple Study Shows AI Reasoning Has Critical Flaws

Meta 的 Llama 和 OpenAI 的 o1,然后,尽管猕猴桃大小数据对问题的结果没有实际影响,但他们还是从对照中改变了他们对问题的答案。 OpenAI 的 GPT-4o 在向 LLM 提供的数据中引入微小变化时也存在性能问题。

由于 LLM 在我们的文化中变得越来越重要,这一消息引起了我们是否可以信任 AI 的巨大担忧为我们的询问提供准确的答案。特别是对于财务建议等问题。它还强调了在使用大型语言模型时准确验证收到的信息的必要性。

这意味着您需要进行一些批判性思维和尽职调查,而不是盲目依赖人工智能。话又说回来,如果您是经常使用人工智能的人,您可能已经知道这一点。

✕ 删除广告
版本声明 本文转载于:https://www.makeuseof.com/apple-study-reveals-ai-reasoning-critical-flaws/如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 群智能算法:三个Python实现
    群智能算法:三个Python实现
    Imagine watching a flock of birds in flight. There's no leader, no one giving directions, yet they swoop and glide together in perfect harmony. It may...
    人工智能 发布于2025-03-24
  • 如何通过抹布和微调使LLM更准确
    如何通过抹布和微调使LLM更准确
    Imagine studying a module at university for a semester. At the end, after an intensive learning phase, you take an exam – and you can recall th...
    人工智能 发布于2025-03-24
  • 什么是Google Gemini?您需要了解的有关Google Chatgpt竞争对手的一切
    什么是Google Gemini?您需要了解的有关Google Chatgpt竞争对手的一切
    Google recently released its new Generative AI model, Gemini. It results from a collaborative effort by a range of teams at Google, including members ...
    人工智能 发布于2025-03-23
  • 与DSPY提示的指南
    与DSPY提示的指南
    DSPY(声明性的自我改善语言程序)通过抽象及时工程的复杂性来彻底改变LLM应用程序的开发。 本教程提供了使用DSPY的声明方法来构建强大的AI应用程序的综合指南。 [2 抓取DSPY的声明方法,用于简化LLM应用程序开发。 了解DSPY如何自动化提示工程并优化复杂任务的性能。 探索实用的DS...
    人工智能 发布于2025-03-22
  • 自动化博客到Twitter线程
    自动化博客到Twitter线程
    本文详细介绍了使用Google的Gemini-2.0 LLM,Chromadb和Shiplit自动化长效内容的转换(例如博客文章)。 手动线程创建耗时;此应用程序简化了该过程。 [2 [2 使用Gemini-2.0,Chromadb和Shatlit自动化博客到twitter线程转换。 获得实用的经...
    人工智能 发布于2025-03-11
  • 人工免疫系统(AIS):python示例的指南
    人工免疫系统(AIS):python示例的指南
    本文探讨了人造免疫系统(AIS),这是受人类免疫系统识别和中和威胁的非凡能力启发的计算模型。 我们将深入研究AIS的核心原理,检查诸如克隆选择,负面选择和免疫网络理论之类的关键算法,并用Python代码示例说明其应用。 [2 抗体:识别并结合特定威胁(抗原)。在AIS中,这些代表了问题的潜在解决方...
    人工智能 发布于2025-03-04
  • 尝试向 ChatGPT 询问这些关于您自己的有趣问题
    尝试向 ChatGPT 询问这些关于您自己的有趣问题
    有没有想过 ChatGPT 了解您的哪些信息?随着时间的推移,它如何处理您提供给它的信息?我在不同的场景中使用过 ChatGPT 堆,在特定的交互后看看它会说什么总是很有趣。✕ 删除广告 所以,为什么不尝试向 ChatGPT 询问其中一些问题来看看它对你的真实看法是什么? 我理想生活中的...
    人工智能 发布于2024-11-22
  • 您仍然可以通过以下方式尝试神秘的 GPT-2 聊天机器人
    您仍然可以通过以下方式尝试神秘的 GPT-2 聊天机器人
    如果您对人工智能模型或聊天机器人感兴趣,您可能已经看过有关神秘的 GPT-2 聊天机器人及其有效性的讨论。在这里,我们解释什么是 GPT-2 聊天机器人以及如何使用访问它。 什么是 GPT-2 聊天机器人? 2024年4月下旬,一个名为gpt2-chatbot的神秘AI模型在LLM测试和基准测试网站...
    人工智能 发布于2024-11-08
  • ChatGPT 的 Canvas 模式很棒:有 4 种使用方法
    ChatGPT 的 Canvas 模式很棒:有 4 种使用方法
    ChatGPT 的新 Canvas 模式为世界领先的生成式 AI 工具中的写作和编辑增添了额外的维度。自 ChatGPT Canvas 推出以来,我一直在使用它,并找到了几种不同的方式来使用这个新的 AI 工具。✕ 删除广告 1 文本编辑 ChatGPT Canvas 是如果你想编辑文本...
    人工智能 发布于2024-11-08
  • ChatGPT 的自定义 GPT 如何暴露您的数据以及如何保证其安全
    ChatGPT 的自定义 GPT 如何暴露您的数据以及如何保证其安全
    ChatGPT 的自定义 GPT 功能允许任何人为几乎任何你能想到的东西创建自定义 AI 工具;创意、技术、游戏、定制 GPT 都可以做到。更好的是,您可以与任何人分享您的自定义 GPT 创建。 但是,通过共享您的自定义 GPT,您可能会犯一个代价高昂的错误,将您的数据暴露给全球数千人。 什么...
    人工智能 发布于2024-11-08
  • ChatGPT 帮助您在 LinkedIn 上找到工作的 10 种方式
    ChatGPT 帮助您在 LinkedIn 上找到工作的 10 种方式
    LinkedIn 个人资料的“关于”部分有 2,600 个可用字符,是阐述您的背景、技能、热情和未来目标的绝佳空间。查看您的 LinkedIn 简历,作为您的专业背景、技能和抱负的简明摘要。 向 ChatGPT 提供您所有获胜品质的列表,或将您的简历复制粘贴到其中。要求聊天机器人使用这些信息撰写...
    人工智能 发布于2024-11-08
  • 查看这 6 个鲜为人知的 AI 应用程序,它们可提供独特的体验
    查看这 6 个鲜为人知的 AI 应用程序,它们可提供独特的体验
    目前,大多数人都听说过 ChatGPT 和 Copilot,这两款引领 AI 热潮的开创性生成式 AI 应用程序。但是您知道吗,大量鲜为人知的 AI 工具可以提供精彩的、独特的经历?这里有六个最好的。 1 Ditto Music Ditto 不是您可以用来创建独特歌曲的众多 AI 音乐生成器之一,而...
    人工智能 发布于2024-11-08
  • 这 7 个迹象表明我们已经达到人工智能的巅峰
    这 7 个迹象表明我们已经达到人工智能的巅峰
    无论您在网上查找什么,都有网站、服务和应用程序宣称他们使用人工智能使其成为最佳选择。我不了解你的情况,但它的持续存在已经让人厌倦了。 因此,虽然人工智能肯定会留在我们的日常生活中,但有几个迹象表明我们已经达到了人工智能炒作的顶峰。 1 公众兴趣有限 虽然人工智能在科技圈受到了广泛关注,但重要的是要...
    人工智能 发布于2024-11-08
  • 4 个适合教师、讲师和老板的 AI 检查 ChatGPT 检测器工具
    4 个适合教师、讲师和老板的 AI 检查 ChatGPT 检测器工具
    随着 ChatGPT 能力的进步,区分哪些内容是人类编写的,哪些内容是人工智能生成的变得越来越困难。这使得老师和老板很难识别哪些内容是人手写的,哪些内容是通过 ChatGPT 生成的。 如果您很难区分,这里有最好的 ChatGPT 检测工具 我们如何测试每个 ChatGPT 检查工具 有很多...
    人工智能 发布于2024-11-08
  • ChatGPT 的高级语音功能正在向更多用户推出
    ChatGPT 的高级语音功能正在向更多用户推出
    如果您曾经想与 ChatGPT 进行全面对话,现在您可以。也就是说,只要你付费就可以获得使用ChatGPT的特权。更多付费用户正在访问 ChatGPT 的高级语音模式 (AVM),该模式旨在使与 ChatGPT 的交互感觉更加自然。 高级语音来到 ChatGPT Plus 和 Teams Open...
    人工智能 发布于2024-11-08

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3