Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

Qwen VLo是什么?

Qwen VLo是阿里云通义千问在2025年6月27日推出的多模态模型,支持图像生成与编辑、风格转换、复杂指令执行、多图理解生成、图像检测标注及文本直接生图等功能。

Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

核心功能

  • 高质量生图与编辑:能根据文字或图片提示生成、修改图像,支持逐步构建复杂场景、实时调整,可用简单指令生成多语言图片。

  • 动态分辨率适配:采用动态分辨率技术,可生成适合海报、插画、网页横幅、社交媒体封面等不同场景的图片。

  • 渐进式生成:从左到右、从上到下逐步构建图像,生成中持续优化内容,确保画面和谐统一。

  • 开放指令编辑:支持用自然语言提创意需求,如“改梵高风格”“做成19世纪老照片”“加晴朗天空”,模型能灵活响应并输出符合预期的结果。

  • 多语言指令:支持中文、英文等多种语言指令,方便全球用户使用。

技术特点

  • 视觉语言深度融合:能理解画面内容并进行高质量再创作,生成时保持语义一致,细节捕捉能力强。

  • 强视觉编辑能力:可处理复杂编辑指令,在单条指令中完成多类修改,同时确保主体结构和上下文准确。

应用场景

  • 设计与创意:为设计师、营销人员、教育工作者提供工具,支持艺术风格转换、场景重构、细节优化等,助力快速实现创意。

  • 多语言内容创作:满足不同语言背景用户的内容生产需求。

此外,Qwen VLo的输入和输出均支持任意分辨率与长宽比的图片,适配多种使用场景。用户可实时查看生成过程并调整。目前该模型仍在预览阶段。

常见问题

问题1:Qwen VLo在生成能力上比之前的多模态模型强在哪里?

答:Qwen VLo的优势在于:细节捕捉更精准,生成内容语义连贯;能响应艺术风格转换等创意指令,完成复杂任务;渐进式生成机制让视觉效果更好,创作更灵活。

问题2:Qwen VLo能进行哪些图像操作?

答:Qwen VLo可以:直接生成图像;修改图像,如换背景、加元素;转换风格,比如吉卜力风、3D风;进行图像感知定位,像检测、分割;处理多操作复杂指令,完成多步骤任务;生成动态比例图像(极端比例功能尚未推出);再理解自身生成内容,例如识别动物品种。

问题3:Qwen VLo预览阶段有哪些局限?

答:预览阶段,Qwen VLo可能出现生成不准确、与原图不符、不符合指令、意图理解不稳定等问题。

博客:https://qwenlm.github.io/blog/qwen-vlo/

收藏
最新工具
LLaMA-Factory Online
LLaMA-Factory Online

是和开源项目LLaMA-Factory官方合作的在线平台,专门帮...

TripAdvisor
TripAdvisor

中文网猫途鹰,在线旅行服务平台,有超过十亿条真实用户点评,覆盖酒...

涂鹿Toolooz
涂鹿Toolooz

免费的沿路径排列文字在线设计工具,能让你用鼠标或触控笔自由画路径...

AllWebGames
AllWebGames

一个提供丰富免费在线网页游戏的平台,不用注册也不用下载,打开浏览...

AudioTextHub
AudioTextHub

一个免费AI文本转语音平台,它的核心优势是独创的AI风格提示词技...

LiveWallpapers4Free
LiveWallpapers4Free

一个提供高质量动画壁纸的免费平台,用户能免费下载4K/8K、3D...

萌动AI
萌动AI

全球首款专为二次元/动漫创作的AI工具,由专业动漫团队和顶级AI...

Build it
Build it

一个为《我的世界》玩家提供各类建筑和设计资源的平台,Build ...

Plotz
Plotz

免费HTML5在线建模工具,专门给《我的世界》玩家用,能帮玩家快...

数说Social Research
数说Social Research

数说故事推出的全能营销AI Agent智能助手,迅速解答营销、市...