AI が必ずしも物事を正しく理解できるとは限らないのは当然のことです。場合によっては幻覚まで現れることもあります。しかし、Apple 研究者らによる最近の研究では、AI が形式的推論に使用する数学的モデルにさらに重大な欠陥があることが判明しました。
✕ 広告を削除研究の一環として、Apple の研究者は AI 大規模言語モデルを求めました。 (LLM) という質問を、わずかに異なる方法で複数回繰り返したところ、LLM が予想外の答えを返したことに驚きました。これらのばらつきは、数字が関係する場合に最も顕著でした。
arxiv.org によって公開されたこの調査では、「パフォーマンスに大きなばらつきがある」と結論付けられています。同じ質問を異なるインスタンス化することで、単一点の精度メトリクスに依存する現在の GSM8K 結果の信頼性に疑問を投げかけています。」 GSM8K は、8,000 を超える多様な小学校の数学の質問と回答を含むデータセットです。
✕ 広告を削除Apple の研究者は、このパフォーマンスの差異が 10% もある可能性があることを確認しました。また、プロンプトのわずかな違いでも、LLM の回答の信頼性に大きな問題が生じる可能性があります。
言い換えれば、ChatGPT のようなものを使用するときはいつでも、回答の事実を確認する必要があるかもしれません。その理由は、AI がロジックを使用して問い合わせに回答しているように見えることがありますが、使用されているのはロジックではないからです。
AI は代わりに、パターン認識を利用してプロンプトに応答します。しかし、Apple の研究は、重要でない単語をいくつか変更するだけでパターン認識がどのように変化するかを示しています。
ここで示した重大な差異の一例は、数日間にわたるキウイの収集に関する問題によって生じました。 Apple の研究者は対照実験を実施し、キウイのサイズに関する重要ではない情報を追加しました。
✕ 広告を削除Meta の Llama と OpenAI の o1、その後、キーウィのサイズデータが問題の結果に具体的な影響を与えなかったにもかかわらず、対照からの問題に対する回答を変更しました。 OpenAI の GPT-4o も、LLM に与えられたデータにわずかな変動を導入する際のパフォーマンスに問題がありました。
LLM は私たちの文化の中でより顕著になってきているため、このニュースは AI を信頼できるかどうかについて大きな懸念を引き起こしますお問い合わせに対して正確に回答するため。特に財務上のアドバイスなどの問題についてはそうです。また、大規模な言語モデルを使用するときに受け取る情報を正確に検証する必要性も強化されます。
つまり、AI に盲目的に依存するのではなく、批判的思考とデューデリジェンスを行う必要があるということです。繰り返しになりますが、AI を定期的に使用している人なら、おそらくすでにご存知でしょう。
✕ 広告を削除する免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3