2025 年 4 月,中国人工智能企业深度求索(DeepSeek)与清华大学研究团队联合发布题为《奖励模型的推理时 Scaling 方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型两项核心技术,为提升大语言模型的推理能力提供了全新方法论。具体信息如下:

- 核心技术
- 自我原则点评调优(SPCT):模型在推理过程中实时评估自身输出的逻辑一致性和事实准确性,并基于反馈动态优化生成策略。
- 元奖励模型:引入多层级奖励评估体系,统一处理单响应、多响应及对比评分的复杂场景,显著提升模型在数学推导、代码生成等任务中的稳定性。
- 相关实验:实验数据显示,该方法在 GSM8K 数学推理测试中准确率提升 12%,代码生成任务的执行成功率提高 19%。
- 技术优势:此次突破延续了 DeepSeek “高效低成本” 的技术路线,DeepSeek – GRM 的训练成本仅为同类模型的 1/5,其采用的 FP8 混合精度训练与多令牌预测技术,大幅降低了对算力的依赖。
- 合作意义:清华大学在算法理论上的积淀,与 DeepSeek 工程化能力的结合,形成 “理论 – 实践” 闭环。论文作者名单中近半数为华人研究者,且训练数据包含高质量中文语料,为中文场景优化提供独特优势。
暂无评论内容