Qwen-Image-Edit:通义千问推出的图像编辑模型,可以进行语义和外观双重编辑
Qwen-Image-Edit是通义千问推出的图像编辑模型,它在20B参数的Qwen-Image模型基础上进一步训练而来,能同时处理图片里的语义和外观修改,比如精准改图片上的文字,还能做IP形象创作、换风格等操作,在多个公开测试里表现是最好的,已经在ModelScope、Hugging Face和GitHub上开源了。
Qwen-Image-Edit核心能力
语义和外观都能改:把图片输进Qwen2.5-VL能控制图片要表达的意思,输进VAE Encoder能控制图片的样子。用这个能力可以做IP形象创作、让物体转方向、换图片风格,也能给图片加东西、删东西、重新画。
改文字很准:中英文文字都能改,在不改原来字体、大小、风格的情况下,能给图片里的文字加内容、删内容、改内容,还能改特定文字的颜色。
测试表现好:在多个公开测试里达到了目前最好的效果。
Qwen-Image-Edit技术
一个是多任务训练。用了改进的多任务训练方法,把传统的文字生成图片、文字加图片生成新图片、图片生成新图片这些任务结合起来,让Qwen2.5-VL和MMDiT这两个部分的隐藏信息能更好地对应上。
另一个是双重编码。把图片分别输进Qwen2.5-VL(用来控制图片要表达的意思)和VAE Encoder(用来控制图片的样子),这样模型改图片时,既能明白你想要改什么意思,又能保证图片看起来和原来差不多。
Qwen-Image-Edit使用场景
IP创作:可以基于一个角色做出不同的内容,比如把Qwen的吉祥物卡皮巴拉做成MBTI表情包。
视角转换:能让物体转90度、180度。
风格迁移:能把人物头像换成吉卜力动画那种风格。
如何用Qwen-Image-Edit做风格迁移的步骤
先去Qwen Chat(chat.qwen.ai)点“图像编辑”功能。
然后上传你想改风格的图片到编辑界面。
接着在提示词里写清楚想换成什么风格,比如“把这张人物头像换成吉卜力风格”。
再点提交,模型就会开始处理。
处理好后,能看到改完的图片,能下载下来。
Qwen-Image-Edit模型下载地址:
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit
GitHub:https://github.com/QwenLM/Qwen-Image