CogView4:全球首个支持生成汉字的开源文生图生成模型

CogView4是什么?

CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型,也是全球首个支持生成汉字的开源文生图模型,尤其擅长理解和遵循中文提示词,能在画面中生成汉字,非常适合做广告、短视频创作等。

CogView4-logo.webp

CogView4主要特点

  • 支持中英双语输入:CogView4能够处理任意长度的中英文提示词,并生成高质量图像。

  • 汉字生成能力:该模型可以将汉字自然融入图像中,特别适合广告、短视频等创意领域。

  • 任意分辨率图像生成:支持生成512×512到2048×2048范围内的任意分辨率图像。

  • 强大的语义对齐能力:在DPG-Bench基准测试中,CogView4的综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。

  • 技术优化:采用二维旋转位置编码(2D RoPE)和多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。

  • 显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,显著降低了显存占用。

  • 开源与生态支持:遵循Apache 2.0协议,后续将支持ControlNet、ComfyUI等生态集成,并推出完整的微调工具包。

CogView4.webp

CogView4技术

  • 架构:基于扩散模型结合Transformer架构,使用60亿参数。

  • 文本编码器:采用双语GLM-4编码器,通过中英双语图文对进行训练。

  • 显存优化:通过模型CPU卸载和文本编码器量化等技术,降低显存占用,提升推理效率。

CogView4应用场景

CogView4特别适合需要中文创意的领域,例如广告设计、短视频制作、海报创作等,能够将中英文字符自然融入画面。

  • 广告创意:生成带有特定文字的海报、文案配图等。

  • 短视频制作:根据视频脚本或创意描述生成相应画面。

  • 艺术创作:辅助艺术家和设计师生成具有特定风格和意境的图像。

  • 教育领域:生成与教学内容相关的图像,如古诗文意境图。

  • 游戏开发:根据游戏剧情和角色设定生成游戏画面和角色形象。

  • 其他创意领域:如漫画创作、插画设计、品牌宣传等。

CogView4使用

1. 在线体验

  • HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

  • ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B

2. 本地部署

如果需要在本地使用CogView4,可以通过以下步骤进行部署:

  • 获取模型代码:访问CogView4的GitHub仓库,地址是:https://github.com/THUDM/CogView4。

  • 硬件要求:CogView4模型需要较高的显存,最低推荐使用12GB显存的GPU。

  • 安装依赖:根据GitHub仓库中的说明,安装必要的Python依赖和环境。

  • 运行模型:按照仓库中的指南启动模型,输入提示词生成图像。

3. 模型微调

智谱计划推出CogView4的微调工具包,用户可以根据自己的需求对模型进行定制化训练。例如,可以针对特定的广告风格或品牌需求进行微调,以生成更符合需求的图像。

4. 通过Hugging Face使用

Hugging Face模型库地址:https://huggingface.co/THUDM/CogView4-6B。

收藏
#文生图
最新工具
AniColors
AniColors

一个专注于动漫色彩的调色板生成工具,能帮动漫爱好者和设计师快速找...

Maxun.dev
Maxun.dev

一个无代码网页数据提取平台,可以可靠、大规模地从网站提取和自动化...

Kombai
Kombai

一个专注于前端开发任务的AI代理。主要针对前端开发任务,通过专门...

CodePen
CodePen

一个专为前端开发者和设计师打造的在线代码编辑和展示平台,专注于前...

终身教育平台
终身教育平台

国家开放大学打造的免费在线学习平台,终身教育平台整合多领域优质资...

Radiocast
Radiocast

一个能听到全球广播的在线平台。界面像三维地球,点一下上面的城市或...

易纸
易纸

一个免费的在线稿纸打印工具,支持方格纸、竖线纸、毛笔字帖、作文纸...

装个机ZhuangIt
装个机ZhuangIt

一个手把手教你自己装系统、重装电脑的实用网站,提供从备份到激活的...

PinMe
PinMe

一款简单实用的去中心化部署工具,能降低个人网站和作品展示的技术门...

RoboNeo
RoboNeo

美图公司推出的 AI 视觉工具,能通过文字交流实现修图、设计、视...