OpenAI o1 和 o1-mini 的 AI 能够比之前的模型更好地处理 STEM 问题

首页 > 科技周边 > OpenAI o1 和 o1-mini 的 AI 能够比之前的模型更好地处理 STEM 问题

OpenAI o1 和 o1-mini 的 AI 能够比之前的模型更好地处理 STEM 问题

发布于2024-10-31

OpenAI o1 and o1-mini arrive as AIs that handle STEM questions better than prior models

OpenAI o1 和 o1-mini 已经到来。这些 AI LLM 在编码、数学和科学问题和任务上的表现比 GPT-4o 等之前的模型要好得多，因为它们需要更多的时间来思考。

STEM 中的复杂问题往往需要的不仅仅是快速在线搜索正确答案。通过给 o1 AI 更多的时间思考，AI 可以更仔细、更准确地进行推理。 o1-mini 模型经过专门调整，能够以更快的速度和更低的计算机资源需求回答 STEM 问题，并且它的编码能力明显优于 o1 模型。

在法学硕士的一系列标准化 AP 考试和 STEM 测试中，o1 模型的准确率很高。具体来说，在 AP 微积分、AP 化学、AP 物理 2、LSAT 和 SAT 循证阅读和写作测试中，o1 模型的表现达到或高于 B 级水平（约 80% 或更高）。这些模型能够准确回答博士级物理问题的 A 级水平、2024 年美国数学邀请赛数学问题的 B 级水平以及 Codeforces 编码问题的高 B 级水平。由于 o1 已针对回答 STEM 问题进行了调整，因此其 AP 英语语言和 AP 英语文学的成绩处于或低于 C 级水平。

有趣的是，当给出提示“oyfjdnisdr rtqwainr acxz mynzbhhx”意味着“一步一步思考”时，GPT-4o 对解码“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”的密码学挑战感到目瞪口呆，但 o1 没有任何问题仔细思考问题，得出正确答案“草莓中有三个 r”。这种新的能力将使国内密码爱好者以及美国国家安全局感到高兴。

秘密的作恶者会想知道，虽然未经审查的 o1 模型很容易给出令人不安的答复，但 OpenAI 已经对这些模型进行了阉割以供发布。 o1 模型已经过测试，可以抵抗回答有关制造生物武器、制作顽皮图像、越狱以及骚扰和威胁等问题。不幸的是，尽管进行了调整，OpenAI o1 模型在测试时仍然存在性别和种族偏见。

ChatGPT Plus 和 Team 用户以及 API 使用第 5 层开发人员可以立即访问 o1 模型，ChatGPT Edu 和 Enterprise 用户将在 9 月 16 日这一周获得访问权限。ChatGPT Free 用户将获得 o1-迷你在不久的将来。 o1 模型无法浏览网页或接受上传的文件和图像来回答问题，因此 OpenAI 建议用户继续使用其 GPT-4o 模型来回答一般问题。

除了 OpenAI 的模型之外，想要询问 AI 问题的用户现在还可以与各种功能强大的 LLM 模型进行交互，包括 Anthropic Claude、Microsoft CoPilot、Google Gemini 和 X Grok。每个人工智能都有特定的优势，因此值得测试多种人工智能模型，以找到最适合个人需求的模型。其中一些人工智能内置于智能眼镜（如亚马逊上的这些）和录音机（如亚马逊上的这个）中，一些即将推出的自主人形机器人使用专有人工智能来烹饪和清洁。

OpenAI o1 and o1-mini arrive as AIs that handle STEM questions better than prior models

版本声明本文转载于：https://www.notebookcheck.net/OpenAI-o1-and-o1-mini-arrive-AI-that-reason-better-on-STEM-questions-than-prior-models.889335.0.html如有侵犯，请联系[email protected]删除