阿里云于 2025 年 3 月 27 日发布了新一代多模态旗舰模型Qwen2.5-Omni,该模型在技术架构、交互能力及应用场景上均实现突破性进展,以下是核心信息:
Qwen2.5-Omni 支持文本、图像、音频、视频多模态输入,并实时生成文本与自然语音输出。其创新的Thinker-Talker 双核架构实现了多模态理解与语音生成的端到端整合:
- Thinker 模块:负责处理多模态输入,生成语义表征和文本内容,类似 “大脑”。
- Talker 模块:以流式方式接收 Thinker 的语义信息,实时合成自然语音,类似 “发声器”。
- TMRoPE 技术:通过时间轴对齐的位置编码,精准同步音视频输入,提升跨模态理解能力。
-
多模态任务领先
在权威评测集 OmniBench 中,Qwen2.5-Omni 刷新 SOTA(最优性能),音频、视频理解能力超越同类模型(如 Gemini-1.5-pro),语音生成自然度评分达 4.51(接近人类水平)。
-
参数规模与部署优势
- 7B 版本参数规模较前代缩减 78%,仍保持高性能,支持在手机、笔记本等终端设备部署,降低开发成本。
- 端侧部署能力使其适用于智能硬件、移动应用等场景,无需依赖云端算力。
Qwen2.5-Omni 已在Hugging Face、ModelScope、GitHub等平台开源,开发者可免费商用。阿里云通过技术开放推动行业创新,同时强调安全合规:
- 首批通过国内 “大模型预训练模型测试” 及国际 ISO 42001 人工智能管理体系认证。
- 提供全链路安全防护,覆盖数据隐私、算法透明性等关键环节。
暂无评论内容