Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

Qwen VLo是什么?

Qwen VLo是阿里云通义千问在2025年6月27日推出的多模态模型,支持图像生成与编辑、风格转换、复杂指令执行、多图理解生成、图像检测标注及文本直接生图等功能。

Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

核心功能

  • 高质量生图与编辑:能根据文字或图片提示生成、修改图像,支持逐步构建复杂场景、实时调整,可用简单指令生成多语言图片。

  • 动态分辨率适配:采用动态分辨率技术,可生成适合海报、插画、网页横幅、社交媒体封面等不同场景的图片。

  • 渐进式生成:从左到右、从上到下逐步构建图像,生成中持续优化内容,确保画面和谐统一。

  • 开放指令编辑:支持用自然语言提创意需求,如“改梵高风格”“做成19世纪老照片”“加晴朗天空”,模型能灵活响应并输出符合预期的结果。

  • 多语言指令:支持中文、英文等多种语言指令,方便全球用户使用。

技术特点

  • 视觉语言深度融合:能理解画面内容并进行高质量再创作,生成时保持语义一致,细节捕捉能力强。

  • 强视觉编辑能力:可处理复杂编辑指令,在单条指令中完成多类修改,同时确保主体结构和上下文准确。

应用场景

  • 设计与创意:为设计师、营销人员、教育工作者提供工具,支持艺术风格转换、场景重构、细节优化等,助力快速实现创意。

  • 多语言内容创作:满足不同语言背景用户的内容生产需求。

此外,Qwen VLo的输入和输出均支持任意分辨率与长宽比的图片,适配多种使用场景。用户可实时查看生成过程并调整。目前该模型仍在预览阶段。

常见问题

问题1:Qwen VLo在生成能力上比之前的多模态模型强在哪里?

答:Qwen VLo的优势在于:细节捕捉更精准,生成内容语义连贯;能响应艺术风格转换等创意指令,完成复杂任务;渐进式生成机制让视觉效果更好,创作更灵活。

问题2:Qwen VLo能进行哪些图像操作?

答:Qwen VLo可以:直接生成图像;修改图像,如换背景、加元素;转换风格,比如吉卜力风、3D风;进行图像感知定位,像检测、分割;处理多操作复杂指令,完成多步骤任务;生成动态比例图像(极端比例功能尚未推出);再理解自身生成内容,例如识别动物品种。

问题3:Qwen VLo预览阶段有哪些局限?

答:预览阶段,Qwen VLo可能出现生成不准确、与原图不符、不符合指令、意图理解不稳定等问题。

博客:https://qwenlm.github.io/blog/qwen-vlo/

收藏
最新工具
Shotva
Shotva

一款在线AI截图美化工具,能快速把普通截图(比如网页、APP界面...

Greasy Fork
Greasy Fork

一个提供安全且实用的用户脚本网站,这些脚本可以帮你优化网页体验,...

Fiverr
Fiverr

全球自由职业在线平台。它连接自由职业者(卖家)和有需求的客户(买...

Bdayrecap
Bdayrecap

这是一个能让你查自己出生当天发生了什么的网站。通过输入出生日期,...

醒文APP
醒文APP

一款专为长文排版设计的文字卡片工具,支持富文本编辑、Markdo...

OKLiveTV
OKLiveTV

一个免费的网络直播电视频道聚合平台,适合想看国际频道、体育赛事、...

Snippai
Snippai

一款AI智能截图工具,能帮你快速识别和处理截图中的内容,包括 公...

ClassicJoy
ClassicJoy

一个数千款可免费直接在浏览器里玩的复古游戏网站,不用下载模拟器或...

GolpoAi
GolpoAi

一款专门做解说视频的 AI 视频生成工具,用自研的视频生成引擎,...

ImaginePro AI
ImaginePro AI

一个用 AI 做图像生成和设计的平台,能把文字和图片变成高质量的...