Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

Qwen VLo是什么?

Qwen VLo是阿里云通义千问在2025年6月27日推出的多模态模型,支持图像生成与编辑、风格转换、复杂指令执行、多图理解生成、图像检测标注及文本直接生图等功能。

Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

核心功能

  • 高质量生图与编辑:能根据文字或图片提示生成、修改图像,支持逐步构建复杂场景、实时调整,可用简单指令生成多语言图片。

  • 动态分辨率适配:采用动态分辨率技术,可生成适合海报、插画、网页横幅、社交媒体封面等不同场景的图片。

  • 渐进式生成:从左到右、从上到下逐步构建图像,生成中持续优化内容,确保画面和谐统一。

  • 开放指令编辑:支持用自然语言提创意需求,如“改梵高风格”“做成19世纪老照片”“加晴朗天空”,模型能灵活响应并输出符合预期的结果。

  • 多语言指令:支持中文、英文等多种语言指令,方便全球用户使用。

技术特点

  • 视觉语言深度融合:能理解画面内容并进行高质量再创作,生成时保持语义一致,细节捕捉能力强。

  • 强视觉编辑能力:可处理复杂编辑指令,在单条指令中完成多类修改,同时确保主体结构和上下文准确。

应用场景

  • 设计与创意:为设计师、营销人员、教育工作者提供工具,支持艺术风格转换、场景重构、细节优化等,助力快速实现创意。

  • 多语言内容创作:满足不同语言背景用户的内容生产需求。

此外,Qwen VLo的输入和输出均支持任意分辨率与长宽比的图片,适配多种使用场景。用户可实时查看生成过程并调整。目前该模型仍在预览阶段。

常见问题

问题1:Qwen VLo在生成能力上比之前的多模态模型强在哪里?

答:Qwen VLo的优势在于:细节捕捉更精准,生成内容语义连贯;能响应艺术风格转换等创意指令,完成复杂任务;渐进式生成机制让视觉效果更好,创作更灵活。

问题2:Qwen VLo能进行哪些图像操作?

答:Qwen VLo可以:直接生成图像;修改图像,如换背景、加元素;转换风格,比如吉卜力风、3D风;进行图像感知定位,像检测、分割;处理多操作复杂指令,完成多步骤任务;生成动态比例图像(极端比例功能尚未推出);再理解自身生成内容,例如识别动物品种。

问题3:Qwen VLo预览阶段有哪些局限?

答:预览阶段,Qwen VLo可能出现生成不准确、与原图不符、不符合指令、意图理解不稳定等问题。

博客:https://qwenlm.github.io/blog/qwen-vlo/

收藏
最新工具
ibisPaint
ibisPaint

一款绘画应用,它特别受欢迎,因为你可以用它记录绘画过程,还能创作...

TrendRadar
TrendRadar

一个以轻量、易部署为目标的热点助手工具,帮助用户告别信息过载,通...

FlyOrDie
FlyOrDie

一个面向全球玩家的在线游戏平台,提供多种棋类和体育项目。这里有国...

蝉妈妈AI
蝉妈妈AI

蝉妈妈新推出的AI助手,结合了六年积累的抖音和快手交易、流量及达...

isPDF
isPDF

一个能免费在线处理PDF的网站,它最主要的功能是把PDF转成Wo...

Compumuseum
Compumuseum

一个面向中文读者的在线计算机博物馆与网页模拟器平台。通过现代We...

Spokeo
Spokeo

美国一个个人信息背景调查网站,它收集社交媒体、电话簿、房地产记录...

巧手打字通
巧手打字通

专为打字零基础用户设计的在线练习平台,主打“一起学打字”。这里能...

TheToyMaker
TheToyMaker

一个免费提供纸艺玩具模板的网站,满是创意与童趣。它免费提供纸艺玩...

DRCOS
DRCOS

一家日本的缝纫图纸纸样库站点,有免费也有付费的,​DRCOS网站...