OpenAI 发布革命性推理模型 o3/o4-mini:首次实现 “用图像思考”

(2025 年 4 月 17 日,旧金山)OpenAI 今日宣布推出新一代推理模型 o3 和 o4-mini,首次实现 “用图像思考” 的多模态推理能力,在数学、编程、科学等领域的基准测试中全面刷新纪录,同时开源轻量级编程工具 CodeX CLI,推动 AI 开发门槛进一步降低。

图片[1]-OpenAI 发布革命性推理模型 o3/o4-mini:首次实现 “用图像思考”-牛仔AI

 

核心突破:从 “看图” 到 “用图像思考”

o3 和 o4-mini 的革命性在于首次将视觉信息深度融入思维链(Chain-of-Thought)。用户上传白板笔记、手绘草图或低质量图表后,模型可自动进行动态缩放、旋转等操作,并在推理过程中直接引用图像内容。例如,面对一张手写数学题的模糊草图,o3 不仅能识别题目,还能逐步拆解题意,生成完整的解题过程,甚至优化解法逻辑。

 

在多模态基准测试中,o3 在 MMMU(大学级视觉问题解决)任务中准确率达 82.9%,远超前代 o1 的 77.6%;o4-mini 在 MathVista(视觉数学推理)测试中以 86.8% 的准确率刷新纪录。OpenAI 首席科学家 Ilya Sutskever 表示:“这是 AI 首次真正意义上的‘图像思维’,模型能像人类一样将视觉信息作为推理的核心要素。”

数学与编程能力逼近人类顶尖水平

  • 数学竞赛:o4-mini 在 AIME 2025 数学竞赛中准确率达 92.7%,结合 Python 工具链后甚至达到 99%,接近人类参赛者的极限。该竞赛要求参赛者在 3 小时内解答 15 道高难度数学题,全球仅前 0.1% 选手能晋级 USA (J) MO,而 o4-mini 的表现已超越 90% 的人类选手。
  • 编程能力:o3 在 Codeforces 编程竞赛中 ELO 评分达 2706,o4-mini 达 2719,均进入全球前 200 名,接近国际大师(International Grandmaster)水平。模型可自主分析代码库结构、定位并修复漏洞,甚至在虚拟机中完成复杂调试任务。

开源工具 CodeX CLI:重新定义编程范式

为配合新模型发布,OpenAI 同步开源轻量级编程工具 CodeX CLI,支持通过自然语言指令直接操作本地终端。例如:

 

  • 代码生成:输入 “create the fanciest todo-list app”,CodeX CLI 自动生成完整的待办事项应用程序,并安装依赖库。
  • 代码重构:输入 “rewrite this class as React Hooks”,工具链可将类组件转换为函数式组件,并生成单元测试代码。
  • 数据库迁移:输入 “Generate SQL migrations for adding a users table”,即可自动生成数据库迁移文件并执行沙盒测试。

 

CodeX CLI 兼容 o3、o4-mini 及 GPT-4.1 模型,支持多模态输入(如截图或草图),并通过目录沙箱化和网络禁用确保安全。该工具上线 5 小时即获 GitHub 超 5000 颗星,开发者评价其 “将编程效率提升 10 倍”。

成本优化与行业影响

  • 价格优势:o3 的 API 价格为每百万输入 / 输出 tokens 10/40 美元,较前代 o1 降低 33%;o4-mini 以每百万输入 tokens 1.1 美元的价格,成为高吞吐量场景的首选。OpenAI 还推出 “Flex 处理模式”,允许用户以牺牲响应速度为代价,将 API 费用再减半。
  • 行业变革:智源研究院院长王仲远指出,o 系列模型推动 AI 从 “弱任务专用” 向 “通用智能” 演进,可能重塑软件开发、科研协作等领域。英伟达 CEO 黄仁勋评论称:“o3 的多模态推理能力将加速 AI 在制造业、生物医药等垂直行业的落地。”

技术原理与未来布局

o3 的训练计算量是前代 o1 的 10 倍以上,通过强化学习(RL)优化工具调用策略,可自主判断何时需要搜索、编写代码或生成图像。例如,当用户询问 “加州夏季能源使用趋势” 时,模型会自动搜索公共数据、编写 Python 脚本分析、生成可视化图表,并整合多步骤推理结果。

 

OpenAI 透露,未来几周将发布 o3-pro 专业版,并计划在 GPT-5 中融合 o 系列推理能力与 GPT 的自然交互优势。此外,公司正以 30 亿美元洽谈收购 AI 编程平台 Windsurf,进一步强化智能体编程生态。

专家观点

  • 斯坦福大学计算机系教授李飞飞:“o3 的图像思维能力标志着 AI 在感知 – 推理闭环上的重大突破,可能开启‘视觉认知智能’的新纪元。”
  • DeepMind 联合创始人 Demis Hassabis:“OpenAI 在工具调用与多模态整合上的创新,为 AGI 研究提供了新范式。”

 

此次发布标志着 AI 从 “单一任务优化” 转向 “复杂问题自主求解”,o3/o4-mini 的多模态推理能力与 CodeX CLI 的开源生态,将推动 AI 开发从实验室走向产业纵深。
© 版权声明
THE END
您的赞美是我们持续创作/分享的动力,欢迎点赞/分享/关注。
点赞18 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容