Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

Qwen VLo是什么?

Qwen VLo是阿里云通义千问在2025年6月27日推出的多模态模型,支持图像生成与编辑、风格转换、复杂指令执行、多图理解生成、图像检测标注及文本直接生图等功能。

Qwen VLo:阿里巴巴推出的多模态统一理解与生成模型

核心功能

  • 高质量生图与编辑:能根据文字或图片提示生成、修改图像,支持逐步构建复杂场景、实时调整,可用简单指令生成多语言图片。

  • 动态分辨率适配:采用动态分辨率技术,可生成适合海报、插画、网页横幅、社交媒体封面等不同场景的图片。

  • 渐进式生成:从左到右、从上到下逐步构建图像,生成中持续优化内容,确保画面和谐统一。

  • 开放指令编辑:支持用自然语言提创意需求,如“改梵高风格”“做成19世纪老照片”“加晴朗天空”,模型能灵活响应并输出符合预期的结果。

  • 多语言指令:支持中文、英文等多种语言指令,方便全球用户使用。

技术特点

  • 视觉语言深度融合:能理解画面内容并进行高质量再创作,生成时保持语义一致,细节捕捉能力强。

  • 强视觉编辑能力:可处理复杂编辑指令,在单条指令中完成多类修改,同时确保主体结构和上下文准确。

应用场景

  • 设计与创意:为设计师、营销人员、教育工作者提供工具,支持艺术风格转换、场景重构、细节优化等,助力快速实现创意。

  • 多语言内容创作:满足不同语言背景用户的内容生产需求。

此外,Qwen VLo的输入和输出均支持任意分辨率与长宽比的图片,适配多种使用场景。用户可实时查看生成过程并调整。目前该模型仍在预览阶段。

常见问题

问题1:Qwen VLo在生成能力上比之前的多模态模型强在哪里?

答:Qwen VLo的优势在于:细节捕捉更精准,生成内容语义连贯;能响应艺术风格转换等创意指令,完成复杂任务;渐进式生成机制让视觉效果更好,创作更灵活。

问题2:Qwen VLo能进行哪些图像操作?

答:Qwen VLo可以:直接生成图像;修改图像,如换背景、加元素;转换风格,比如吉卜力风、3D风;进行图像感知定位,像检测、分割;处理多操作复杂指令,完成多步骤任务;生成动态比例图像(极端比例功能尚未推出);再理解自身生成内容,例如识别动物品种。

问题3:Qwen VLo预览阶段有哪些局限?

答:预览阶段,Qwen VLo可能出现生成不准确、与原图不符、不符合指令、意图理解不稳定等问题。

博客:https://qwenlm.github.io/blog/qwen-vlo/

收藏
最新工具
Ithy
Ithy

一个AI研究工具,能整合多个顶级AI模型(如ChatGPT、Go...

PagePeek AI
PagePeek AI

一个整合了多种学术工具的智能学术办公套件,包括用于论文写作的 P...

Cello
Cello

一个通过用户推荐助力企业赢得新客户和收入的口碑营销平台,让Saa...

CodeGuide
CodeGuide

一款为AI编码项目打造的文档生成平台,能为各类项目(从Web应用...

AI Graph Maker
AI Graph Maker

一款免费的图表生成工具,支持多种图表类型,可快速将数据转化为直观...

Cluely
Cluely

一款桌面AI助手,它能实时查看屏幕内容和收听音频,不需要用户去主...

蚂蚁AQ
蚂蚁AQ

基于蚂蚁医疗大模型,通过学习超万亿tokens专业医疗数据,提供...

Ucraft
Ucraft

Ucraft是一个无需编程的网站和在线商店搭建工具,支持快速创建...

Readdy AI
Readdy AI

一款AI网页UI设计和前端代码生成工具。它根据用户用自然语言描述...

urongda
urongda

中国大学矢量校徽大全网站,收录了 800+大学的专业级矢量校徽l...