Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

Qwen VLo是什么?

Qwen VLo是阿里云通义千问在2025年6月27日推出的多模态模型,支持图像生成与编辑、风格转换、复杂指令执行、多图理解生成、图像检测标注及文本直接生图等功能。

Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

核心功能

  • 高质量生图与编辑:能根据文字或图片提示生成、修改图像,支持逐步构建复杂场景、实时调整,可用简单指令生成多语言图片。

  • 动态分辨率适配:采用动态分辨率技术,可生成适合海报、插画、网页横幅、社交媒体封面等不同场景的图片。

  • 渐进式生成:从左到右、从上到下逐步构建图像,生成中持续优化内容,确保画面和谐统一。

  • 开放指令编辑:支持用自然语言提创意需求,如“改梵高风格”“做成19世纪老照片”“加晴朗天空”,模型能灵活响应并输出符合预期的结果。

  • 多语言指令:支持中文、英文等多种语言指令,方便全球用户使用。

技术特点

  • 视觉语言深度融合:能理解画面内容并进行高质量再创作,生成时保持语义一致,细节捕捉能力强。

  • 强视觉编辑能力:可处理复杂编辑指令,在单条指令中完成多类修改,同时确保主体结构和上下文准确。

应用场景

  • 设计与创意:为设计师、营销人员、教育工作者提供工具,支持艺术风格转换、场景重构、细节优化等,助力快速实现创意。

  • 多语言内容创作:满足不同语言背景用户的内容生产需求。

此外,Qwen VLo的输入和输出均支持任意分辨率与长宽比的图片,适配多种使用场景。用户可实时查看生成过程并调整。目前该模型仍在预览阶段。

常见问题

问题1:Qwen VLo在生成能力上比之前的多模态模型强在哪里?

答:Qwen VLo的优势在于:细节捕捉更精准,生成内容语义连贯;能响应艺术风格转换等创意指令,完成复杂任务;渐进式生成机制让视觉效果更好,创作更灵活。

问题2:Qwen VLo能进行哪些图像操作?

答:Qwen VLo可以:直接生成图像;修改图像,如换背景、加元素;转换风格,比如吉卜力风、3D风;进行图像感知定位,像检测、分割;处理多操作复杂指令,完成多步骤任务;生成动态比例图像(极端比例功能尚未推出);再理解自身生成内容,例如识别动物品种。

问题3:Qwen VLo预览阶段有哪些局限?

答:预览阶段,Qwen VLo可能出现生成不准确、与原图不符、不符合指令、意图理解不稳定等问题。

博客:https://qwenlm.github.io/blog/qwen-vlo/

收藏
最新工具
OiiOii ai
OiiOii ai

全球首个专业动画创作平台,通过多个智能模块协同工作,实现从创意到...

扣子空间PPT
扣子空间PPT

扣子空间的这个PPT功能可以一句话生成完整ppt,从大纲、设计到...

Viw AI
Viw AI

一个能直接生成图片和视频的工具平台,把Sora、Veo、Seed...

数学乐
数学乐

Math is Fun 的中文版本,它致力于用简单有趣的方式教大...

PimEyes
PimEyes

一个反向图像搜索和面部识别的搜索引擎。你在它上面上传一张清楚的人...

Uiverse
Uiverse

一个开源免费的UI元素库,里面有3500多个现成组件,都是用纯C...

WindowSwap
WindowSwap

一个让用户可以上传和观看来自世界各地的窗外10分钟高清视频的在线...

Ventusky
Ventusky

一个全球天气信息网站,提供天气预报、天气地图和雷达服务。 它可以...

FreeSewing
FreeSewing

一个利用用户的身体测量数据生成完全量身定制的缝纫纸样的开源平台,...

Social Catfish
Social Catfish

一个专注于帮助用户识别和防范网络诈骗的网站,能帮用户防诈骗、核实...