Ai应用
Ai资讯
AI生图
AI生视频
FastbuildAI

首页 > Ai资讯 > Ai产品

阿里Ovis-U1：具备多模态理解、图像生成、图像编辑三合一能力

Ovis-U1于2025-06-30发布在Ai产品

2025年6月29日，阿里巴巴国际ai团队推出多模态大模型Ovis-U1，属于Ovis系列最新版本，基于原有架构开发，参数规模为3亿。

该模型整合了多模态理解、图像生成和编辑功能，核心组件包括视觉分词器、视觉嵌入表和大型语言模型。通过优化视觉与文本嵌入的匹配度，解决了传统多模态模型的部分局限，在复杂场景中表现更好。支持文本、图像输入，在数学推理、物体识别等任务中效果突出，既能精准识别图像中的物体或手写文字，也能按指令生成或修改图像。

核心能力

多模态理解：可分析复杂视觉场景与文本内容，回答图像相关问题，完成视觉问答（VQA）、图像描述生成等任务。
文本到图像生成：根据文字描述生成高质量图像，适配多种风格与复杂场景需求。
图像编辑：通过文本指令对图像元素进行添加、调整、替换、删除等操作，支持风格转换。

技术架构

视觉解码器：采用基于扩散的Transformer架构（MMDiT），将文本嵌入转化为高质量图像。
双向令牌细化器：强化文本与视觉嵌入的交互，提升图像合成与编辑效果。
视觉编码器：基于预训练模型（如Aimv2-large-patch14-448）微调，适配多模态任务。
适配器：连接视觉编码器与多模态大语言模型（MLLM），对齐两类嵌入数据。
多模态大语言模型：作为核心模块，处理文本与视觉信息，支持多任务处理。

阿里Ovis-U1：具备多模态理解、图像生成、图像编辑三合一能力

训练方法

Ovis-U1通过同步训练多模态理解、图像生成和编辑任务，共享知识提升泛化能力。训练分六个阶段逐步优化各任务表现。

数据构成

多模态理解数据：来自COYO、Wukong、Laion等公开数据集及内部开发数据。
图像生成数据：基于Laion5B、JourneyDB数据集及预训练模型生成的详细描述。
图像编辑数据：涵盖参考图像驱动生成、像素级控制等任务的数据。

性能优化

在图像编辑中通过调整文本与图像引导系数（CFG）精准控制指令执行。采用OpenCompass、GenEval等基准测试全面评估模型能力。

应用场景

内容创作：辅助艺术家与视频编辑进行创意构思。
广告营销：根据产品与受众描述生成广告图像与海报。
游戏开发：生成游戏场景、角色及道具图像。
建筑设计：输出建筑概念图及室内布置方案。
科学研究：可视化复杂科学现象与实验场景。

延续Ovis系列开源传统，模型代码、权重及训练数据已通过Apache2.0协议在Hugging Face和GitHub公开，开发者可快速复现部署。

项目地址

GitHub仓库：https://github.com/AIDC-AI/Ovis-U1

HuggingFace模型库：https://huggingface.co/AIDC-AI/Ovis-U1-3B

技术论文：https://github.com/AIDC-AI/Ovis-U1/blob/main/docs/Ovis_U1_Report.pdf

在线体验：https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B

收藏

XVerse：字节跳动推出的多主体图像合成开源工具

上一篇

XVerse：字节跳动推出的多主体图像合成开源工具

StyleList：一款开源的AI试衣工具

下一篇

StyleList：一款开源的AI试衣工具

相关文章

Qwen-Image：阿里云通义千问团队开源的图形海

Qwen-Image：阿里云通义千问团队开源的图形海

2025-08-06

ThinkSound：阿里巴巴通义实验室推出的多模态

ThinkSound：阿里巴巴通义实验室推出的多模态

2025-07-25

Qwen VLo：阿里巴巴推出的多模态统一理解与生成

Qwen VLo：阿里巴巴推出的多模态统一理解与生成

2025-06-28

Mnn3dAvatar：阿里开源的3D数字人框架，直

Mnn3dAvatar：阿里开源的3D数字人框架，直

2025-06-12

VRAG-RL：阿里通义团队推出的一款基于视觉感知R

VRAG-RL：阿里通义团队推出的一款基于视觉感知R

2025-06-03

阿里推出QwenLong-L1-32B：一款用于长上

阿里推出QwenLong-L1-32B：一款用于长上

2025-05-27

最新文章

最新工具

The Best Ideas for Kids

The Best Ideas for Kids

Kim创办的儿童手工创意互动平台，为家长、照护者和教师提供亲子活...

CodeWords

一个通过自然语言对话就能创建和执行自动化任务的AI工具。它能简化...

Scrumball

一个网红营销平台，能自动完成找网红到活动追踪的全流程。它有超过1...

LogoSymbol

一个提供免费高质量矢量LOGO的网站，有1207多个经过AI优化...

CloneViral AI

一个AI视频生成平台，专门帮视频博主做能在YouTube和Tik...

SlideStorm AI

一款AI驱动的TikTok幻灯片生成工具，能帮用户在几秒内创建并...

Oreate AI

一个面向学术和内容创作的工具。它能生成论文、文章、PPT等长篇内...

LLaMA-Factory Online

LLaMA-Factory Online

是和开源项目LLaMA-Factory官方合作的在线平台，专门帮...

TripAdvisor

中文网猫途鹰，在线旅行服务平台，有超过十亿条真实用户点评，覆盖酒...

涂鹿Toolooz

免费的沿路径排列文字在线设计工具，能让你用鼠标或触控笔自由画路径...

人生若只如初见

用户登录