DeepSeek V3新版本，官方发布跑分，击溃 GPT-4.5、Claude-3.7-牛仔AI

DeepSeek V3新版本，官方发布跑分，击溃 GPT-4.5、Claude-3.7

1年前发布

08422

2025 年 3 月 25 日， DeepSeek 悄然发布了 V3 模型的最新版本 V3-0324。尽管官方未正式公布跑分数据，但第三方评测与开发者实测显示，该模型在代码生成、数学推理等核心领域实现跨越式突破，性能直逼国际顶尖闭源模型，同时以 1/11 的成本优势重新定义开源大模型的价值标杆。

性能跃升：非推理模型首破天花板

在全球权威评测平台 Kcores 大模型竞技场中，V3-0324 以 328.3 分位列代码能力榜第三名，仅次于 Claude 3.7 Sonnet 思维链版（334.8 分）与 Claude 3.5（331.2 分），超越所有开源模型及部分闭源竞品。其在 Aider 多语言基准测试中得分 55%，较前代提升 20%，成为仅次于 Sonnet 3.7 的非推理类模型第二名。

数学推理方面，V3-0324 在 AIME 2024 数学邀请赛中击败 GPT-4.5，完成复杂物理模拟任务的准确率提升 60%。在九大行星模拟测试中，该模型成为 25 个参测模型中唯一正确渲染土星环的产品，展现出对三维空间与物理规则的精准理解。

技术突破：MoE 架构再进化

作为 6850 亿参数的混合专家（MoE）模型，V3-0324 通过以下优化实现性能飞跃：

强化学习技术注入：借鉴 DeepSeek-R1 的训练经验，在无思维链模式下提升逻辑推理能力；
专家数量扩展：激活专家数量从 160 增加至 256，增强多任务处理灵活性；
FP8 精度训练：将计算效率提升 100%，支持在 Mac Studio M3 Ultra 等消费级设备上实现 20 token/s 的推理速度。

开发者实测显示，V3-0324 生成的前端代码错误率降低 45%，可独立完成包含 CSS 动画与 JavaScript 交互的复杂网页开发，甚至能主动提示性能优化建议。

© 版权声明

本站内容文章版权归作者所有，未经允许请勿转载，如转载必须注明出处。

THE END

行业资讯
# deepseek

您的赞美是我们持续创作/分享的动力，欢迎点赞/分享/关注。

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容