2025 年 3 月 26 日,OpenAI 宣布对 GPT-4o 多模态模型与 Sora 图像生成工具进行全面升级,推出新一代文生图模型。该模型在图像细节处理、文本渲染准确性及复杂场景理解方面实现突破性进展,集成至 ChatGPT 后可通过自然对话生成高精度图像,标志着 AIGC 技术向「零门槛创作」迈出关键一步。
新版模型采用 GPT-4o 全模态架构,支持通过语音、图像等多形式输入生成高质量图像。其核心升级包括:
- 场景绑定能力:可同时处理 15-20 个对象的属性要求,如颜色、形状、方位等,准确率较前代提升 60%,有效解决多元素混淆问题;
- 文本理解增强:通过世界知识注入,能直接生成牛顿棱镜实验、人体结构解析等专业领域图像,并正确渲染多国语言文本,消除「AI 造字」现象;
- 动态交互功能:支持基于生成图像的连续提问,如放大手部骨骼细节、调整画面构图,实现类似 PPT 的视觉化叙事。
在直播演示中,团队通过手机自拍生成动漫风格表情包,并添加「Feel The AGI」文本,其色彩、字体与流行梗图风格高度契合,引发社区热议。实测数据显示,该模型生成的图像在 CLIP 评分中超越 Midjourney 3.5 版本,复杂场景下的细节还原度提升 40%。
即日起,ChatGPT Pro 与 Plus 用户可直接通过对话指令调用新模型,无需切换平台。OpenAI 计划未来向免费用户与 API 开发者开放,并推出「图像 PPT」功能,帮助教育、医疗等领域快速生成专业演示素材。
针对安全与伦理问题,新模型引入三重防护:
- 内容过滤:拒绝生成暴力、成人及深度伪造内容,禁止模仿在世艺术家风格;
- 元数据标记:所有生成图像嵌入 C2PA 标准水印,明确标注 AI 创作属性;
- 版权保护:支持创作者将作品从训练数据中剔除,避免侵权纠纷。
暂无评论内容