
2025 年 3 月,英伟达(NVIDIA)与麻省理工学院(MIT)联合发布了HART(Hybrid Autoregressive Transformer,混合自回归转换器),这一创新模型通过融合自回归模型与扩散模型的优势,实现了图像生成速度与质量的突破性平衡,为端侧 AI 应用开辟了新路径。
-
混合架构设计
HART 采用 “自回归模型快速生成框架 + 轻量级扩散模型优化细节” 的混合策略:
- 自回归模型:基于 7 亿参数的 Transformer,快速预测离散图像标记,捕捉整体画面结构。
- 扩散模型:仅需 8 步迭代的 3700 万参数模型,补偿自回归模型在高频细节(如边缘、纹理)上的不足。
这一组合使 HART 生成图像的速度比传统扩散模型快 9 倍,计算资源消耗减少 31%,同时质量达到甚至超越顶级扩散模型(如 Stable Diffusion)。
-
端侧运行能力
HART 通过轻量化设计,可在商用笔记本电脑或智能手机上本地运行,摆脱对云端算力的依赖。例如,生成一张 1024×1024 像素的图像仅需约 1 秒,而同类模型需 9-10 秒。
-
多模态扩展性
由于核心基于自回归架构(与大语言模型同源),HART 易于与视觉 – 语言模型集成,未来可支持复杂指令(如 “描述组装家具的步骤并生成示意图”),并扩展至视频、音频生成领域。
-
自动驾驶与机器人训练
HART 可实时生成极端天气、复杂路况等虚拟场景,用于自动驾驶系统的强化学习,提升其应对突发状况的能力。
-
内容创作与游戏开发
快速生成高质量图像和场景,助力游戏设计师高效构建虚拟世界,或为视频创作者提供低成本素材。
-
端侧 AI 普及
轻量化特性推动 AI 在移动设备、边缘计算场景的落地,例如本地图像编辑、实时 AR/VR 渲染等。
暂无评论内容