CogView4:全球首个支持生成汉字的开源文生图生成模型

CogView4是什么?

CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型,也是全球首个支持生成汉字的开源文生图模型,尤其擅长理解和遵循中文提示词,能在画面中生成汉字,非常适合做广告、短视频创作等。

CogView4-logo.webp

CogView4主要特点

  • 支持中英双语输入:CogView4能够处理任意长度的中英文提示词,并生成高质量图像。

  • 汉字生成能力:该模型可以将汉字自然融入图像中,特别适合广告、短视频等创意领域。

  • 任意分辨率图像生成:支持生成512×512到2048×2048范围内的任意分辨率图像。

  • 强大的语义对齐能力:在DPG-Bench基准测试中,CogView4的综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。

  • 技术优化:采用二维旋转位置编码(2D RoPE)和多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。

  • 显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,显著降低了显存占用。

  • 开源与生态支持:遵循Apache 2.0协议,后续将支持ControlNet、ComfyUI等生态集成,并推出完整的微调工具包。

CogView4.webp

CogView4技术

  • 架构:基于扩散模型结合Transformer架构,使用60亿参数。

  • 文本编码器:采用双语GLM-4编码器,通过中英双语图文对进行训练。

  • 显存优化:通过模型CPU卸载和文本编码器量化等技术,降低显存占用,提升推理效率。

CogView4应用场景

CogView4特别适合需要中文创意的领域,例如广告设计、短视频制作、海报创作等,能够将中英文字符自然融入画面。

  • 广告创意:生成带有特定文字的海报、文案配图等。

  • 短视频制作:根据视频脚本或创意描述生成相应画面。

  • 艺术创作:辅助艺术家和设计师生成具有特定风格和意境的图像。

  • 教育领域:生成与教学内容相关的图像,如古诗文意境图。

  • 游戏开发:根据游戏剧情和角色设定生成游戏画面和角色形象。

  • 其他创意领域:如漫画创作、插画设计、品牌宣传等。

CogView4使用

1. 在线体验

  • HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

  • ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B

2. 本地部署

如果需要在本地使用CogView4,可以通过以下步骤进行部署:

  • 获取模型代码:访问CogView4的GitHub仓库,地址是:https://github.com/THUDM/CogView4。

  • 硬件要求:CogView4模型需要较高的显存,最低推荐使用12GB显存的GPU。

  • 安装依赖:根据GitHub仓库中的说明,安装必要的Python依赖和环境。

  • 运行模型:按照仓库中的指南启动模型,输入提示词生成图像。

3. 模型微调

智谱计划推出CogView4的微调工具包,用户可以根据自己的需求对模型进行定制化训练。例如,可以针对特定的广告风格或品牌需求进行微调,以生成更符合需求的图像。

4. 通过Hugging Face使用

Hugging Face模型库地址:https://huggingface.co/THUDM/CogView4-6B。

收藏
#文生图
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...