智谱华章发布全球首个支持汉字生成的开源文生图模型 CogView4

(2025 年 4 月 18 日,北京)北京智谱华章科技有限公司今日宣布,其自主研发的开源文生图模型 CogView4 在权威基准测试 DPG-Bench 中以综合评分 87.6 分登顶全球第一,成为首个支持生成汉字的开源模型。这一突破不仅填补了中文 AI 图像生成领域的空白,更标志着中国 AI 在多语言多模态技术上的里程碑式进展。

图片[1]-智谱华章发布全球首个支持汉字生成的开源文生图模型 CogView4-牛仔AI

 

一、技术突破:从 “中文理解” 到 “汉字生成” 的质变

CogView4 的核心创新在于全球首创的汉字生成能力,彻底解决了传统文生图模型中文语义理解偏差、文字模糊等痛点。通过GLM-4 双语编码器汉字字形生成网络的深度融合,模型可精准识别并生成任意字体的汉字,例如:

 

  • 广告场景:输入 “国潮奶茶海报,篆体‘限定款’字样 + 水墨丹顶鹤”,模型能直接在画面中生成符合风格的汉字,省去设计师 80% 的后期修图时间。
  • 文化创作:输入古诗 “野径云俱黑,江船火独明”,模型不仅生成夜景图,还能将诗句以书法形式融入画面,实现 “诗画合一”。

 

在技术架构上,CogView4 采用二维旋转位置编码(2D RoPE)和多阶段训练策略,支持最长 1024 Token 的文本输入,可处理复杂叙事(如四格漫画脚本)和任意分辨率图像生成(512px 至 2048px)。其显存优化技术(12GB 显存即可运行)进一步降低了使用门槛,使中小企业和个人开发者也能轻松部署。

二、性能登顶:DPG-Bench 击败 MidJourney、Stable Diffusion

在覆盖多语言理解、复杂语义对齐、指令跟随三大维度的 DPG-Bench 测试中,CogView4 以 87.6 分的综合评分超越 MidJourney(85.2 分)和 Stable Diffusion(83.1 分),成为开源模型中的新标杆。具体表现包括:

 

  • 中文理解:在 “带中文标语的产品图”“古诗意境图” 等测试中,CogView4 的准确率达 92.3%,远超 Stable Diffusion 的 78.5%。
  • 多模态融合:输入 “红色跑车在长城上飞驰,车身上有金色篆体‘中国制造’”,模型生成的图像不仅精准还原场景,汉字与车身材质的光影效果也高度自然。
  • 长文本处理:处理 500 字以上的故事脚本时,CogView4 的连贯性得分达 89.1 分,支持生成短视频分镜、漫画等长内容。

三、开源生态:Apache 2.0 协议推动中文 AI 普惠

CogView4 遵循Apache 2.0 开源协议,允许免费商用和二次开发,这在文生图领域尚属首次。其开源生态已覆盖:

 

  • 技术工具:GitHub 和 HuggingFace 同步开源代码,提供 12GB 显存优化版本,支持 ComfyUI、ControlNet 等插件扩展。
  • 行业解决方案:与阿里云、腾讯云合作推出 “广告设计 API”,企业可一键生成带品牌标语的海报;与教育机构合作开发 “古诗可视化工具”,辅助教学。
  • 开发者支持:智谱 AI 设立 3 亿元 Z 基金,资助基于 CogView4 的创业项目,首批支持的 “AI 书法创作平台” 已上线。

四、行业影响:重塑中文创意产业格局

CogView4 的发布引发连锁反应:

 

  1. 市场竞争:微软、谷歌等国际巨头加速中文模型研发,而智谱 AI 凭借开源生态和本土化优势,已吸引超百万开发者和企业用户。
  2. 政策支持:北京市人工智能产业投资基金今日宣布追加投资智谱 2 亿元,重点支持其开源模型研发。
  3. 资本关注:智谱 AI 近日启动 IPO 辅导,若成功上市,将成为中国 AI “六小虎” 中首家登陆资本市场的公司,估值超 200 亿元。

五、专家观点:从 “工具” 到 “生产力革命”

  • 斯坦福大学李飞飞:“CogView4 证明,多语言多模态能力是 AGI 的关键拼图,中国在中文场景的突破将推动全球 AI 创新。”
  • 英伟达黄仁勋:“CogView4 与 GPU 算力的结合,将加速 AI 在制造业、广告业的落地,预计相关市场规模三年内突破 500 亿元。”
  • 智谱 AI CEO 张鹏:“2025 年是智谱开源年,我们将陆续发布 32B/9B 系列 GLM 模型,推动 AI 从实验室走向产业纵深。”
© 版权声明
THE END
您的赞美是我们持续创作/分享的动力,欢迎点赞/分享/关注。
点赞19 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容