人工智慧並不總是能把事情做好,這並不奇怪。有時候,甚至會產生幻覺。然而,蘋果研究人員最近的一項研究表明,人工智慧用於形式推理的數學模型存在更嚴重的缺陷。
✕ 刪除廣告作為研究的一部分,蘋果科學家詢問了人工智慧大型語言模型(法學碩士)一個問題,以略有不同的方式多次提出,當他們發現法學碩士提供了意想不到的答案改變時,他們感到驚訝。當涉及到數字時,這些差異最為突出。
這項由arxiv.org 發表的研究得出的結論是,「不同設備之間存在顯著的性能差異」。同一問題的不同實例,挑戰了目前依賴單點精確度指標的 GSM8K 結果的可靠性。 」 GSM8K 是一個資料集,其中包含8000 多個不同的小學數學問題和答案。
✕ 刪除廣告Apple 研究人員發現此性能的差異可能高達10%。即使提示中的微小變化也可能導致LLM 答案的可靠性出現巨大問題。起來像是在使用邏輯來為您的查詢提供答案,但實際使用的並不是邏輯。即使改變幾個不重要的單字也會改變這種模式識別。 ,然後添加了一些有關獼猴桃大小的無關緊要的信息。 ,儘管獼猴桃大小數據對問題的結果沒有實際影響,但他們還是從對照中改變了他們對問題的答案。 ]
由於LLM 在我們的文化中變得越來越重要,這一消息引起了我們是否可以信任AI 的巨大擔憂為我們的詢問提供準確的答案。強調了在使用大型語言模型時準確驗證收到的資訊的必要性。如果您是經常使用人工智慧的人,您可能已經知道這一點。免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。
Copyright© 2022 湘ICP备2022001581号-3