Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

Qwen-Image 是阿里通义千问团队在 2025 年 8 月 5 日开源的图像生成基础模型,参数规模 200 亿,采用 MMDiT 架构。它在复杂文本渲染和精准图像编辑方面表现突出,尤其擅长生成大量精准的中文,也支持中文提示词,在 LongText-Bench、ChineseWord 等中文专项测试中领先很多。

Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

这个模型支持中英双语,能处理不同字体、超长段落和复杂的图文布局,可生成海报、ppt 等多种场景的图像,还能进行风格迁移、增减物体、调整姿态等图像编辑。它能应用在广告设计、影视制作、游戏开发、教育培训等多个行业。用户可以在 QwenChat(chat.qwen.ai)里选图像生成功能来体验,既能生成海报、PPT 页面、商品宣传图等,也能对图像做各种编辑,给设计师提供了有力工具

主要特性

  • 文本渲染能力强:支持多行布局、段落级文本生成和细节呈现,中英文都能高保真输出,在 LongText-Bench、ChineseWord 和 TextCraft 等测试中表现很好,中文文本渲染比现有先进模型好很多,能生成不同语种、风格的文字,还能写毛笔字,或者直接生成带文本和图像的 PPT 页面。

  • 图像编辑一致性好:通过加强的多任务训练,编辑时能保持视觉和语义上的连贯,支持风格迁移、增删改、细节增强、文字编辑、调整人物姿态等操作。

  • 跨基准性能佳:在通用图像生成的 GenEval、DPG 和 OneIG-Bench,以及图像编辑的 GEdit、ImgEdit 和 GSO 等多个公开测试中,都取得了顶尖性能。

Qwen-Image:阿里云通义千问团队开源的图形海报生成模型

核心组件

  • Qwen2.5-VL 多模态大语言模型:作为条件编码器,从文本中提取特征,根据系统提示详细描述物体和背景的颜色、数量、文字等,为图像生成提供依据,让生成的内容更精细。

  • Wan-2.1 视频生成模型的分自编码器(VAE):相当于图像分词器,能把输入图像压缩成紧凑的潜在表示,推理时再解码还原。团队冻结了编码器,只微调解码器,让图像细节更突出。

  • 多模态扩散 Transformer(MMDiT):作为主干扩散模型,在文本引导下处理噪声和图像潜在表示的关系,加入多模态可扩展 RoPE 方法,帮助区分图像和文本信息,既能生成高分辨率图像,又能准确生成文字。

Qwen-Image技术架构

  • MMDiT 架构:用多模态扩散变换器,实现文本和图像的深度融合。

  • 单编码器双解码器的 VAE:负责把图像压缩成紧凑的潜在表示,生成后再解码成像素。通过调整重建损失和感知损失的平衡,能逼真还原图像细节。

  • 多模态可扩展旋转位置编码(MSRoPE):把文本信息在图像网格的 “对角线” 上编码,既保持文本独立性,又能利用图像分辨率缩放的优势。

Qwen-Image技术架构

训练策略

  • 采用多阶段、渐进式的预训练:从低分辨率到高分辨率,从通用内容到专门内容,从海量数据到精炼数据逐步训练。

  • 训练后期用监督微调(SFT)和强化学习(RL):用人工精选的高质量数据微调,还通过 DPO 等技术让模型学习人类偏好。

应用场景

  • 广告设计:根据品牌风格快速生成高质量图片,支持风格转换和细节优化,帮设计师快速试多种效果,满足客户需求。

  • 影视制作:用于前期概念图、场景预设和角色设计,缩短制作周期,降低成本。

  • 电商视觉:商家能快速生成产品展示图、虚拟试穿图和营销素材,提升用户体验和购买率。

  • 海报制作:根据文字和设计要求生成有冲击力、艺术感的海报(如电影、活动海报),适配不同风格和主题。

  • PPT制作:生成企业级PPT页面,采用星空蓝主色调,搭配流动科技线条和微光粒子特效,画面专业现代,支持多种风格和布局。

性能表现

  • 通用图像生成:在 GenEval、DPG 和 OneIG-Bench 等测试中表现优秀。

  • 图像编辑:在 GEdit、ImgEdit 和 GSO 等专业测试中性能顶尖。

  • 文本渲染:在 LongText-Bench、ChineseWord 和 TextCraft 等测试中能力突出,尤其中文文本渲染远超现有顶尖模型。

Qwen-Image优势

  • 中文支持更好:专门优化中文,渲染效果比 DALL-E 好很多。

  • 完全免费:不用付费订阅,还能在本地部署。

  • 开源透明:代码公开,可自定义修改。

  • 编辑功能更强:支持更多样的图像编辑操作。

  • 无使用限制:不受 API 调用次数限制。

Qwen-Image使用方法

环境准备:安装最新版本的 diffusers。

基础代码:

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
prompt = '''一个穿着"QWEN"标志T恤的中国美女正拿着黑色马克笔面向镜头微笑。她身后的玻璃板上手写体写着"欢迎使用Qwen-Image,一款强大的图像基础模型"'''
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472)
}
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + "超清,4K,电影级构图",
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device=device).manual_seed(42)
).images[0]
image.save("qwen_image_example.png")

硬件要求:推荐用 NVIDIA GPU(8GB 以上显存),CPU 模式生成速度较慢,但也能使用。

✅Qwen-Image官方介绍:https://qwenlm.github.io/zh/blog/qwen-image/

✅Qwen-Image模型:https://huggingface.co/Qwen/Qwen-Image

✅在线使用:https://chat.qwen.ai/(选输入框下面的图像生成)

收藏
最新工具
Telemetrio
Telemetrio

一个专注于Telegram频道分析和广告投放优化的工具平台,能帮...

快蜗牛选品
快蜗牛选品

给做跨境电商特别是OZON平台的卖家用的选品工具。能让卖家选品更...

幻剪
幻剪

一款AI视频编辑工具,主打文案智能成片、AI视频解说和批量处理三...

智算旅迹
智算旅迹

一款能帮用户规划行程、解析攻略、看地图路线、旅途中提醒并找旅行伙...

Clever AI Humanizer
Clever AI Humanizer

一个完全免费的能把你用AI写的文本改得更像人写的在线工具,它会调...

Haimeta
Haimeta

提供了覆盖从2D到3D再到交互式体验的全链路创作工具,整合了20...

FilePizza
FilePizza

一个基于浏览器的点对点文件传输工具,用户只需拖拽文件即可开始传输...

Dora Studio
Dora Studio

一个能将文字描述快速变成专业动态图形视频的工具。用户用日常语言说...

WePlayRetro
WePlayRetro

一个在线复古游戏平台,不用下载直接在浏览器里就能玩几百款经典游戏...

Grow a garden Calculator
Grow a garden Calculator

专门为热门农场模拟游戏《Grow a Garden》打造的优化工...