智谱华章发布全球首个支持汉字生成的开源文生图模型 CogView4-牛仔AI

（2025 年 4 月 18 日，北京）北京智谱华章科技有限公司今日宣布，其自主研发的开源文生图模型 CogView4 在权威基准测试 DPG-Bench 中以综合评分 87.6 分登顶全球第一，成为首个支持生成汉字的开源模型。这一突破不仅填补了中文 AI 图像生成领域的空白，更标志着中国 AI 在多语言多模态技术上的里程碑式进展。

一、技术突破：从 “中文理解” 到 “汉字生成” 的质变

CogView4 的核心创新在于全球首创的汉字生成能力，彻底解决了传统文生图模型中文语义理解偏差、文字模糊等痛点。通过GLM-4 双语编码器与汉字字形生成网络的深度融合，模型可精准识别并生成任意字体的汉字，例如：

广告场景：输入 “国潮奶茶海报，篆体‘限定款’字样 + 水墨丹顶鹤”，模型能直接在画面中生成符合风格的汉字，省去设计师 80% 的后期修图时间。
文化创作：输入古诗 “野径云俱黑，江船火独明”，模型不仅生成夜景图，还能将诗句以书法形式融入画面，实现 “诗画合一”。

在技术架构上，CogView4 采用二维旋转位置编码（2D RoPE）和多阶段训练策略，支持最长 1024 Token 的文本输入，可处理复杂叙事（如四格漫画脚本）和任意分辨率图像生成（512px 至 2048px）。其显存优化技术（12GB 显存即可运行）进一步降低了使用门槛，使中小企业和个人开发者也能轻松部署。

二、性能登顶：DPG-Bench 击败 MidJourney、Stable Diffusion

在覆盖多语言理解、复杂语义对齐、指令跟随三大维度的 DPG-Bench 测试中，CogView4 以 87.6 分的综合评分超越 MidJourney（85.2 分）和 Stable Diffusion（83.1 分），成为开源模型中的新标杆。具体表现包括：

中文理解：在 “带中文标语的产品图”“古诗意境图” 等测试中，CogView4 的准确率达 92.3%，远超 Stable Diffusion 的 78.5%。
多模态融合：输入 “红色跑车在长城上飞驰，车身上有金色篆体‘中国制造’”，模型生成的图像不仅精准还原场景，汉字与车身材质的光影效果也高度自然。
长文本处理：处理 500 字以上的故事脚本时，CogView4 的连贯性得分达 89.1 分，支持生成短视频分镜、漫画等长内容。

三、开源生态：Apache 2.0 协议推动中文 AI 普惠

CogView4 遵循Apache 2.0 开源协议，允许免费商用和二次开发，这在文生图领域尚属首次。其开源生态已覆盖：

技术工具：GitHub 和 HuggingFace 同步开源代码，提供 12GB 显存优化版本，支持 ComfyUI、ControlNet 等插件扩展。
行业解决方案：与阿里云、腾讯云合作推出 “广告设计 API”，企业可一键生成带品牌标语的海报；与教育机构合作开发 “古诗可视化工具”，辅助教学。
开发者支持：智谱 AI 设立 3 亿元 Z 基金，资助基于 CogView4 的创业项目，首批支持的 “AI 书法创作平台” 已上线。