Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

Qwen-Image 是阿里通义千问团队在 2025 年 8 月 5 日开源的图像生成基础模型,参数规模 200 亿,采用 MMDiT 架构。它在复杂文本渲染和精准图像编辑方面表现突出,尤其擅长生成大量精准的中文,也支持中文提示词,在 LongText-Bench、ChineseWord 等中文专项测试中领先很多。

Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

这个模型支持中英双语,能处理不同字体、超长段落和复杂的图文布局,可生成海报、ppt 等多种场景的图像,还能进行风格迁移、增减物体、调整姿态等图像编辑。它能应用在广告设计、影视制作、游戏开发、教育培训等多个行业。用户可以在 QwenChat(chat.qwen.ai)里选图像生成功能来体验,既能生成海报、PPT 页面、商品宣传图等,也能对图像做各种编辑,给设计师提供了有力工具

主要特性

  • 文本渲染能力强:支持多行布局、段落级文本生成和细节呈现,中英文都能高保真输出,在 LongText-Bench、ChineseWord 和 TextCraft 等测试中表现很好,中文文本渲染比现有先进模型好很多,能生成不同语种、风格的文字,还能写毛笔字,或者直接生成带文本和图像的 PPT 页面。

  • 图像编辑一致性好:通过加强的多任务训练,编辑时能保持视觉和语义上的连贯,支持风格迁移、增删改、细节增强、文字编辑、调整人物姿态等操作。

  • 跨基准性能佳:在通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及图像编辑的 GEdit、ImgEdit 和 GSO 等多个公开测试中,都取得了顶尖性能。

Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

核心组件

  • Qwen2.5-VL 多模态大语言模型:作为条件编码器,从文本中提取特征,根据系统提示详细描述物体和背景的颜色、数量、文字等,为图像生成提供依据,让生成的内容更精细。

  • Wan-2.1 视频生成模型的分自编码器(VAE):相当于图像分词器,能把输入图像压缩成紧凑的潜在表示,推理时再解码还原。团队冻结了编码器,只微调解码器,让图像细节更突出。

  • 多模态扩散 Transformer(MMDiT):作为主干扩散模型,在文本引导下处理噪声和图像潜在表示的关系,加入多模态可扩展 RoPE 方法,帮助区分图像和文本信息,既能生成高分辨率图像,又能准确生成文字。

Qwen-Image技术架构

  • MMDiT 架构:用多模态扩散变换器,实现文本和图像的深度融合。

  • 单编码器双解码器的 VAE:负责把图像压缩成紧凑的潜在表示,生成后再解码成像素。通过调整重建损失和感知损失的平衡,能逼真还原图像细节。

  • 多模态可扩展旋转位置编码(MSRoPE):把文本信息在图像网格的 “对角线” 上编码,既保持文本独立性,又能利用图像分辨率缩放的优势。

Qwen-Image技术架构

训练策略

  • 采用多阶段、渐进式的预训练:从低分辨率到高分辨率,从通用内容到专门内容,从海量数据到精炼数据逐步训练。

  • 训练后期用监督微调(SFT)和强化学习(RL):用人工精选的高质量数据微调,还通过 DPO 等技术让模型学习人类偏好。

应用场景

  • 广告设计:根据品牌风格快速生成高质量图片,支持风格转换和细节优化,帮设计师快速试多种效果,满足客户需求。

  • 影视制作:用于前期概念图、场景预设和角色设计,缩短制作周期,降低成本。

  • 电商视觉:商家能快速生成产品展示图、虚拟试穿图和营销素材,提升用户体验和购买率。

  • 海报制作:根据文字和设计要求生成有冲击力、艺术感的海报(如电影、活动海报),适配不同风格和主题。

  • PPT制作:生成企业级PPT页面,采用星空蓝主色调,搭配流动科技线条和微光粒子特效,画面专业现代,支持多种风格和布局。

性能表现

  • 通用图像生成:在 GenEval、DPG 和 OneIG-Bench 等测试中表现优秀。

  • 图像编辑:在 GEdit、ImgEdit 和 GSO 等专业测试中性能顶尖。

  • 文本渲染:在 LongText-Bench、ChineseWord 和 TextCraft 等测试中能力突出,尤其中文文本渲染远超现有顶尖模型。

Qwen-Image优势

  • 中文支持更好:专门优化中文,渲染效果比 DALL-E 好很多。

  • 完全免费:不用付费订阅,还能在本地部署。

  • 开源透明:代码公开,可自定义修改。

  • 编辑功能更强:支持更多样的图像编辑操作。

  • 无使用限制:不受 API 调用次数限制。

Qwen-Image使用方法

环境准备:安装最新版本的 diffusers。

基础代码:

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一个穿着"QWEN"标志T恤的中国美女正拿着黑色马克笔面向镜头微笑。她身后的玻璃板上手写体写着"欢迎使用Qwen-Image,一款强大的图像基础模型"'''
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + "超清,4K,电影级构图",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")

硬件要求:推荐用 NVIDIA GPU(8GB 以上显存),CPU 模式生成速度较慢,但也能使用。

✅Qwen-Image官方介绍:https://qwenlm.github.io/zh/blog/qwen-image/

✅Qwen-Image模型:https://huggingface.co/Qwen/Qwen-Image

✅在线使用:https://chat.qwen.ai/(选输入框下面的图像生成)

收藏
最新工具
Forvo
Forvo

一个全球语言发音学习平台,提供超450种语言的真人发音资源,包括...

Animon AI
Animon AI

全球首款专为动漫设计的AI视频生成平台。它的特点是“上传一张插画...

TheStocks.IM
TheStocks.IM

一个综合性设计素材资源与工具聚合平台,汇集了包括 Unsplas...

WeaveSilk
WeaveSilk

一个在线光线艺术绘画工具,直接用鼠标在画布上画图案就能生成对称又...

Aice PS
Aice PS

网页版AI照片编辑器,利用Google aistudio的的先进...

FlightRadar24
FlightRadar24

一个实时航班追踪工具。它把谷歌地图、航空信息,还有 ADS-B、...

VeeSpark
VeeSpark

一个能做AI内容生成的平台,主要帮人通过文字或图片快速做出视频和...

Hitem3D AI
Hitem3D AI

Math Magic公司开发的工具,用他们自研的高精度AI模型S...

Tools.Dverso.io
Tools.Dverso.io

一个带洗衣游戏感的在线抠图工具,是个能去掉图片背景的网站,它的特...

Neural4D
Neural4D

一个专注3D动态场景生成与交互的创新平台,核心是用人工智能技术把...