Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

Qwen-Image 是阿里通义千问团队在 2025 年 8 月 5 日开源的图像生成基础模型,参数规模 200 亿,采用 MMDiT 架构。它在复杂文本渲染和精准图像编辑方面表现突出,尤其擅长生成大量精准的中文,也支持中文提示词,在 LongText-Bench、ChineseWord 等中文专项测试中领先很多。

Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

这个模型支持中英双语,能处理不同字体、超长段落和复杂的图文布局,可生成海报、ppt 等多种场景的图像,还能进行风格迁移、增减物体、调整姿态等图像编辑。它能应用在广告设计、影视制作、游戏开发、教育培训等多个行业。用户可以在 QwenChat(chat.qwen.ai)里选图像生成功能来体验,既能生成海报、PPT 页面、商品宣传图等,也能对图像做各种编辑,给设计师提供了有力工具

主要特性

  • 文本渲染能力强:支持多行布局、段落级文本生成和细节呈现,中英文都能高保真输出,在 LongText-Bench、ChineseWord 和 TextCraft 等测试中表现很好,中文文本渲染比现有先进模型好很多,能生成不同语种、风格的文字,还能写毛笔字,或者直接生成带文本和图像的 PPT 页面。

  • 图像编辑一致性好:通过加强的多任务训练,编辑时能保持视觉和语义上的连贯,支持风格迁移、增删改、细节增强、文字编辑、调整人物姿态等操作。

  • 跨基准性能佳:在通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及图像编辑的 GEdit、ImgEdit 和 GSO 等多个公开测试中,都取得了顶尖性能。

Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

核心组件

  • Qwen2.5-VL 多模态大语言模型:作为条件编码器,从文本中提取特征,根据系统提示详细描述物体和背景的颜色、数量、文字等,为图像生成提供依据,让生成的内容更精细。

  • Wan-2.1 视频生成模型的分自编码器(VAE):相当于图像分词器,能把输入图像压缩成紧凑的潜在表示,推理时再解码还原。团队冻结了编码器,只微调解码器,让图像细节更突出。

  • 多模态扩散 Transformer(MMDiT):作为主干扩散模型,在文本引导下处理噪声和图像潜在表示的关系,加入多模态可扩展 RoPE 方法,帮助区分图像和文本信息,既能生成高分辨率图像,又能准确生成文字。

Qwen-Image技术架构

  • MMDiT 架构:用多模态扩散变换器,实现文本和图像的深度融合。

  • 单编码器双解码器的 VAE:负责把图像压缩成紧凑的潜在表示,生成后再解码成像素。通过调整重建损失和感知损失的平衡,能逼真还原图像细节。

  • 多模态可扩展旋转位置编码(MSRoPE):把文本信息在图像网格的 “对角线” 上编码,既保持文本独立性,又能利用图像分辨率缩放的优势。

Qwen-Image技术架构

训练策略

  • 采用多阶段、渐进式的预训练:从低分辨率到高分辨率,从通用内容到专门内容,从海量数据到精炼数据逐步训练。

  • 训练后期用监督微调(SFT)和强化学习(RL):用人工精选的高质量数据微调,还通过 DPO 等技术让模型学习人类偏好。

应用场景

  • 广告设计:根据品牌风格快速生成高质量图片,支持风格转换和细节优化,帮设计师快速试多种效果,满足客户需求。

  • 影视制作:用于前期概念图、场景预设和角色设计,缩短制作周期,降低成本。

  • 电商视觉:商家能快速生成产品展示图、虚拟试穿图和营销素材,提升用户体验和购买率。

  • 海报制作:根据文字和设计要求生成有冲击力、艺术感的海报(如电影、活动海报),适配不同风格和主题。

  • PPT制作:生成企业级PPT页面,采用星空蓝主色调,搭配流动科技线条和微光粒子特效,画面专业现代,支持多种风格和布局。

性能表现

  • 通用图像生成:在 GenEval、DPG 和 OneIG-Bench 等测试中表现优秀。

  • 图像编辑:在 GEdit、ImgEdit 和 GSO 等专业测试中性能顶尖。

  • 文本渲染:在 LongText-Bench、ChineseWord 和 TextCraft 等测试中能力突出,尤其中文文本渲染远超现有顶尖模型。

Qwen-Image优势

  • 中文支持更好:专门优化中文,渲染效果比 DALL-E 好很多。

  • 完全免费:不用付费订阅,还能在本地部署。

  • 开源透明:代码公开,可自定义修改。

  • 编辑功能更强:支持更多样的图像编辑操作。

  • 无使用限制:不受 API 调用次数限制。

Qwen-Image使用方法

环境准备:安装最新版本的 diffusers。

基础代码:

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一个穿着"QWEN"标志T恤的中国美女正拿着黑色马克笔面向镜头微笑。她身后的玻璃板上手写体写着"欢迎使用Qwen-Image,一款强大的图像基础模型"'''
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + "超清,4K,电影级构图",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")

硬件要求:推荐用 NVIDIA GPU(8GB 以上显存),CPU 模式生成速度较慢,但也能使用。

✅Qwen-Image官方介绍:https://qwenlm.github.io/zh/blog/qwen-image/

✅Qwen-Image模型:https://huggingface.co/Qwen/Qwen-Image

✅在线使用:https://chat.qwen.ai/(选输入框下面的图像生成)

收藏
最新工具
MovieGame
MovieGame

一个电影爱好者做的个人网站,玩家通过看电影截图来猜电影片名,网站...

汉兜
汉兜

一款汉字版的Wordle游戏,基于流行的英文猜词游戏Wordle...

Gempix2 AI
Gempix2 AI

一款集生成和编辑图像于一体的的AI图像生成工具,提供包括文本转图...

极像素
极像素

一个展示和探索超高像素全景图像的在线平台,能提供全球各地超高分辨...

Krunker.io
Krunker.io

一款免费的在线多人第一人称射击游戏,直接在网页就能玩。游戏玩法多...

转换云
转换云

一个在线音乐格式转换网站,包括.ncm、.mgg、.mflac、...

萝卜工坊
萝卜工坊

一个能把电子文本变成逼真手写风格的在线工具。它有AI专属字体制作...

LyricsPoster
LyricsPoster

一个帮你把喜欢的歌手图片和歌词做成海报的在线工具。你可以在简单的...

蓝豆打字
蓝豆打字

一个在线打字练习平台,提供键盘指法、拼音、双拼、五笔、源代码、英...

一页纸EasyPaper
一页纸EasyPaper

一个能生成自定义纸张的免费在线工具。通过网页界面,用户可自行设置...