阿里云发布多模态旗舰模型Qwen2.5-Omni-牛仔AI

阿里云发布多模态旗舰模型Qwen2.5-Omni

6个月前发布

0851532

阿里云于 2025 年 3 月 27 日发布了新一代多模态旗舰模型Qwen2.5-Omni，该模型在技术架构、交互能力及应用场景上均实现突破性进展，以下是核心信息：

一、全模态交互能力

Qwen2.5-Omni 支持文本、图像、音频、视频多模态输入，并实时生成文本与自然语音输出。其创新的Thinker-Talker 双核架构实现了多模态理解与语音生成的端到端整合：

Thinker 模块：负责处理多模态输入，生成语义表征和文本内容，类似 “大脑”。
Talker 模块：以流式方式接收 Thinker 的语义信息，实时合成自然语音，类似 “发声器”。
TMRoPE 技术：通过时间轴对齐的位置编码，精准同步音视频输入，提升跨模态理解能力。

二、性能与效率突破

多模态任务领先
在权威评测集 OmniBench 中，Qwen2.5-Omni 刷新 SOTA（最优性能），音频、视频理解能力超越同类模型（如 Gemini-1.5-pro），语音生成自然度评分达 4.51（接近人类水平）。
参数规模与部署优势
- 7B 版本参数规模较前代缩减 78%，仍保持高性能，支持在手机、笔记本等终端设备部署，降低开发成本。
- 端侧部署能力使其适用于智能硬件、移动应用等场景，无需依赖云端算力。

三、开源与生态布局

Qwen2.5-Omni 已在Hugging Face、ModelScope、GitHub等平台开源，开发者可免费商用。阿里云通过技术开放推动行业创新，同时强调安全合规：

首批通过国内 “大模型预训练模型测试” 及国际 ISO 42001 人工智能管理体系认证。
提供全链路安全防护，覆盖数据隐私、算法透明性等关键环节。

© 版权声明

本站内容文章版权归作者所有，未经允许请勿转载，如转载必须注明出处。

THE END

AI大模型
# 千问

您的赞美是我们持续创作/分享的动力，欢迎点赞/分享/关注。

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容