阿里Ovis-U1:具备多模态理解、图像生成、图像编辑三合一能力

2025年6月29日,阿里巴巴国际ai团队推出多模态大模型Ovis-U1,属于Ovis系列最新版本,基于原有架构开发,参数规模为3亿。

该模型整合了多模态理解、图像生成和编辑功能,核心组件包括视觉分词器、视觉嵌入表和大型语言模型。通过优化视觉与文本嵌入的匹配度,解决了传统多模态模型的部分局限,在复杂场景中表现更好。支持文本、图像输入,在数学推理、物体识别等任务中效果突出,既能精准识别图像中的物体或手写文字,也能按指令生成或修改图像。

核心能力

  • 多模态理解:可分析复杂视觉场景与文本内容,回答图像相关问题,完成视觉问答(VQA)、图像描述生成等任务。

  • 文本到图像生成:根据文字描述生成高质量图像,适配多种风格与复杂场景需求。

  • 图像编辑:通过文本指令对图像元素进行添加、调整、替换、删除等操作,支持风格转换。

技术架构

  • 视觉解码器:采用基于扩散的Transformer架构(MMDiT),将文本嵌入转化为高质量图像。

  • 双向令牌细化器:强化文本与视觉嵌入的交互,提升图像合成与编辑效果。

  • 视觉编码器:基于预训练模型(如Aimv2-large-patch14-448)微调,适配多模态任务。

  • 适配器:连接视觉编码器与多模态大语言模型(MLLM),对齐两类嵌入数据。

  • 多模态大语言模型:作为核心模块,处理文本与视觉信息,支持多任务处理。

阿里Ovis-U1:具备多模态理解、图像生成、图像编辑三合一能力

训练方法

Ovis-U1通过同步训练多模态理解、图像生成和编辑任务,共享知识提升泛化能力。训练分六个阶段逐步优化各任务表现。

数据构成

  • 多模态理解数据:来自COYO、Wukong、Laion等公开数据集及内部开发数据。

  • 图像生成数据:基于Laion5B、JourneyDB数据集及预训练模型生成的详细描述。

  • 图像编辑数据:涵盖参考图像驱动生成、像素级控制等任务的数据。

性能优化

在图像编辑中通过调整文本与图像引导系数(CFG)精准控制指令执行。采用OpenCompass、GenEval等基准测试全面评估模型能力。

应用场景

  • 内容创作:辅助艺术家与视频编辑进行创意构思。

  • 广告营销:根据产品与受众描述生成广告图像与海报。

  • 游戏开发:生成游戏场景、角色及道具图像。

  • 建筑设计:输出建筑概念图及室内布置方案。

  • 科学研究:可视化复杂科学现象与实验场景。

延续Ovis系列开源传统,模型代码、权重及训练数据已通过Apache2.0协议在Hugging Face和GitHub公开,开发者可快速复现部署。

项目地址

GitHub仓库:https://github.com/AIDC-AI/Ovis-U1

HuggingFace模型库:https://huggingface.co/AIDC-AI/Ovis-U1-3B

技术论文:https://github.com/AIDC-AI/Ovis-U1/blob/main/docs/Ovis_U1_Report.pdf

在线体验:https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B

收藏
最新工具
Wayback Machine
Wayback Machine

一个免费的网页历史存档和查询工具,可以能保存不同时间点的网页内容...

RunningHub
RunningHub

一个基于云端ComfyUI的高可用性平台,提供在线开发工作流、发...

绘蛙AI高清修复
绘蛙AI高清修复

智能修复图片模糊问题,一键拯救渣画质,如何把图片高清修复? 去看...

Unlucid AI
Unlucid AI

一个免费无审查的 AI 工具,提供包括视频博主视频制作、图像生成...

SuperClaude
SuperClaude

SuperClaude 是一个为 Claude Code 量身打...

 WisFile
WisFile

电脑本地运行的免费 AI 工具,专门解决文件命名乱、归类杂、手动...

GreenVideo
GreenVideo

一个无次数限制的视频下载平台,免费、稳定、速度快,支持全球100...

证件星
证件星

一个在线 AI 智能证件照制作工具,小白也能轻松上手,十秒就能做...

id-photo
id-photo

证件照大师,专业的证件照在线处理网站,具有证件照换底色,证件照质...

RealBankNotes
RealBankNotes

一个全球纸币收藏网站。目前有54000张纸币,数量还在增加,就好...