首页 > Ai资讯 > Ai产品

Qwen-Image：阿里云通义千问团队开源的图形海报生成模型

Qwen-Image于2025-08-06发布在Ai产品

Qwen-Image 是阿里通义千问团队在 2025 年 8 月 5 日开源的图像生成基础模型，参数规模 200 亿，采用 MMDiT 架构。它在复杂文本渲染和精准图像编辑方面表现突出，尤其擅长生成大量精准的中文，也支持中文提示词，在 LongText-Bench、ChineseWord 等中文专项测试中领先很多。

这个模型支持中英双语，能处理不同字体、超长段落和复杂的图文布局，可生成海报、ppt 等多种场景的图像，还能进行风格迁移、增减物体、调整姿态等图像编辑。它能应用在广告设计、影视制作、游戏开发、教育培训等多个行业。用户可以在 QwenChat（chat.qwen.ai）里选图像生成功能来体验，既能生成海报、PPT 页面、商品宣传图等，也能对图像做各种编辑，给设计师提供了有力工具。

主要特性

文本渲染能力强：支持多行布局、段落级文本生成和细节呈现，中英文都能高保真输出，在 LongText-Bench、ChineseWord 和 TextCraft 等测试中表现很好，中文文本渲染比现有先进模型好很多，能生成不同语种、风格的文字，还能写毛笔字，或者直接生成带文本和图像的 PPT 页面。
图像编辑一致性好：通过加强的多任务训练，编辑时能保持视觉和语义上的连贯，支持风格迁移、增删改、细节增强、文字编辑、调整人物姿态等操作。
跨基准性能佳：在通用图像生成的 GenEval、DPG 和 OneIG-Bench，以及图像编辑的 GEdit、ImgEdit 和 GSO 等多个公开测试中，都取得了顶尖性能。

Qwen-Image：阿里云通义千问团队开源的图形海报生成模型

核心组件

Qwen2.5-VL 多模态大语言模型：作为条件编码器，从文本中提取特征，根据系统提示详细描述物体和背景的颜色、数量、文字等，为图像生成提供依据，让生成的内容更精细。
Wan-2.1 视频生成模型的分自编码器（VAE）：相当于图像分词器，能把输入图像压缩成紧凑的潜在表示，推理时再解码还原。团队冻结了编码器，只微调解码器，让图像细节更突出。
多模态扩散 Transformer（MMDiT）：作为主干扩散模型，在文本引导下处理噪声和图像潜在表示的关系，加入多模态可扩展 RoPE 方法，帮助区分图像和文本信息，既能生成高分辨率图像，又能准确生成文字。

Qwen-Image技术架构

MMDiT 架构：用多模态扩散变换器，实现文本和图像的深度融合。
单编码器双解码器的 VAE：负责把图像压缩成紧凑的潜在表示，生成后再解码成像素。通过调整重建损失和感知损失的平衡，能逼真还原图像细节。
多模态可扩展旋转位置编码（MSRoPE）：把文本信息在图像网格的 “对角线” 上编码，既保持文本独立性，又能利用图像分辨率缩放的优势。

Qwen-Image技术架构

训练策略

采用多阶段、渐进式的预训练：从低分辨率到高分辨率，从通用内容到专门内容，从海量数据到精炼数据逐步训练。
训练后期用监督微调（SFT）和强化学习（RL）：用人工精选的高质量数据微调，还通过 DPO 等技术让模型学习人类偏好。

应用场景

广告设计：根据品牌风格快速生成高质量图片，支持风格转换和细节优化，帮设计师快速试多种效果，满足客户需求。
影视制作：用于前期概念图、场景预设和角色设计，缩短制作周期，降低成本。
电商视觉：商家能快速生成产品展示图、虚拟试穿图和营销素材，提升用户体验和购买率。
海报制作：根据文字和设计要求生成有冲击力、艺术感的海报（如电影、活动海报），适配不同风格和主题。
PPT制作：生成企业级PPT页面，采用星空蓝主色调，搭配流动科技线条和微光粒子特效，画面专业现代，支持多种风格和布局。

性能表现

通用图像生成：在 GenEval、DPG 和 OneIG-Bench 等测试中表现优秀。
图像编辑：在 GEdit、ImgEdit 和 GSO 等专业测试中性能顶尖。
文本渲染：在 LongText-Bench、ChineseWord 和 TextCraft 等测试中能力突出，尤其中文文本渲染远超现有顶尖模型。

Qwen-Image优势

中文支持更好：专门优化中文，渲染效果比 DALL-E 好很多。
完全免费：不用付费订阅，还能在本地部署。
开源透明：代码公开，可自定义修改。
编辑功能更强：支持更多样的图像编辑操作。
无使用限制：不受 API 调用次数限制。

Qwen-Image使用方法

环境准备：安装最新版本的 diffusers。

基础代码：

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一个穿着"QWEN"标志T恤的中国美女正拿着黑色马克笔面向镜头微笑。她身后的玻璃板上手写体写着"欢迎使用Qwen-Image，一款强大的图像基础模型"'''
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + "超清，4K，电影级构图",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")

硬件要求：推荐用 NVIDIA GPU（8GB 以上显存），CPU 模式生成速度较慢，但也能使用。

✅Qwen-Image官方介绍：https://qwenlm.github.io/zh/blog/qwen-image/

✅Qwen-Image模型：https://huggingface.co/Qwen/Qwen-Image

✅在线使用：https://chat.qwen.ai/（选输入框下面的图像生成）