蚂蚁集团发布开源MoE模型Ling系列

蚂蚁集团 Ling 团队发布了技术成果论文,并开源了两款百灵系列 MoE 模型。具体信息如下:
  • 模型名称及参数
    • Ling-Plus:参数规模为 2900 亿,激活参数 288 亿。
    • Ling-Lite:参数规模为 168 亿,激活参数 27.5 亿。
  • 性能特点
    • 训练成本低:Ling 团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低了约 20%。以 Ling-Plus 模型为例,在五种不同硬件配置下完成 9 万亿 Token 的预训练任务,使用高性能硬件设备训练 1 万亿 Token 预计成本高达 635 万元人民币,而使用低规格硬件系统成本则可控制在约 508 万元。
    • 模型性能强:在英语理解能力上,Ling-Lite 模型在一项关键基准测试中的表现与 Qwen2.5-7B 相当,优于 Llama3.1-8B 和 Mistral-7B-v0.3;在中文理解能力上,Ling-Lite 和 Ling-Plus 模型表现明显优于海外模型 Llama3.1-8B 和 Mistral-7B-v0.3,在部分基准测试中,Ling-Plus 表现略优于 DeepSeekV2.5,与 Qwen2.5-7B 相当;在数学和代码基准测试方面,Ling-Lite 的表现与 Qwen2.5-7B-Instruct 相当,优于 Llama3.1-8B 和 Mistral-7B-v0.3。Ling-Plus 在安全性和错误拒绝之间整体平衡性上表现最佳。
  • 技术创新
    • 架构与训练策略革新,采用动态参数分配与混合精度调度技术。
    • 训练异常处理机制升级,自适应容错恢复系统缩短中断响应时间。
    • 模型评估流程优化,自动化评测框架压缩验证周期超 50%。
    • 工具调用能力突破,基于知识图谱的指令微调提升复杂任务执行精度。
  • 相关开源举措:蚂蚁集团不仅开源了 Ling-Plus 和 Ling-Lite,还推出了基于 MoE 架构的代码大语言模型 Ling-Coder-Lite 及其轻量级版本 Ling-Coder-Lite-Base,并在 Hugging Face 与 ModelScope 平台上对外开放。同时,开源了约 3000 万条相关数据,包括用于退火训练的 SyntheticQA 数据集,以及用于后训练的 SFT 和 DPO 数据集,以支持社区对模型进行深入研究和开发。
蚂蚁集团表示,Ling 系列模型将应用于医疗、金融等行业领域1。例如,面向医疗机构推出 “蚂蚁医疗大模型一体机” 全栈式解决方案;面向好大夫在线 29 万注册医生,发布 AI 医生助手系列工具;服务用户的健康应用 “AI 健康管家” 也推出智能思考、健康自测等十余项新功能
© 版权声明
THE END
您的赞美是我们持续创作/分享的动力,欢迎点赞/分享/关注。
点赞29 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容