DeepSeek V3新版本,官方发布跑分 ,击溃 GPT-4.5、Claude-3.7

image

2025 年 3 月 25 日, DeepSeek 悄然发布了 V3 模型的最新版本 V3-0324。尽管官方未正式公布跑分数据,但第三方评测与开发者实测显示,该模型在代码生成、数学推理等核心领域实现跨越式突破,性能直逼国际顶尖闭源模型,同时以 1/11 的成本优势重新定义开源大模型的价值标杆。

性能跃升:非推理模型首破天花板

在全球权威评测平台 Kcores 大模型竞技场中,V3-0324 以 328.3 分位列代码能力榜第三名,仅次于 Claude 3.7 Sonnet 思维链版(334.8 分)与 Claude 3.5(331.2 分),超越所有开源模型及部分闭源竞品。其在 Aider 多语言基准测试中得分 55%,较前代提升 20%,成为仅次于 Sonnet 3.7 的非推理类模型第二名。

 

数学推理方面,V3-0324 在 AIME 2024 数学邀请赛中击败 GPT-4.5,完成复杂物理模拟任务的准确率提升 60%。在九大行星模拟测试中,该模型成为 25 个参测模型中唯一正确渲染土星环的产品,展现出对三维空间与物理规则的精准理解。

技术突破:MoE 架构再进化

作为 6850 亿参数的混合专家(MoE)模型,V3-0324 通过以下优化实现性能飞跃:

 

  1. 强化学习技术注入:借鉴 DeepSeek-R1 的训练经验,在无思维链模式下提升逻辑推理能力;
  2. 专家数量扩展:激活专家数量从 160 增加至 256,增强多任务处理灵活性;
  3. FP8 精度训练:将计算效率提升 100%,支持在 Mac Studio M3 Ultra 等消费级设备上实现 20 token/s 的推理速度。

 

开发者实测显示,V3-0324 生成的前端代码错误率降低 45%,可独立完成包含 CSS 动画与 JavaScript 交互的复杂网页开发,甚至能主动提示性能优化建议。
© 版权声明
THE END
您的赞美是我们持续创作/分享的动力,欢迎点赞/分享/关注。
点赞22 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容