Ovis:阿里国际发布的最新开源多模态模型

阿里国际于2024年9月19日发布了最新的多模态大模型Ovis,Ovis模型在多个领域展现出色的能力,特别是在数学推理问答、物体识别、文本提取和复杂任务决策等方面。

阿里国际发布的最新开源多模态模型

根据多模态评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B版本在OpenCompass这一权威综合评测基准上,超越了多个知名开源模型,包括Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6,在300亿参数以下的开源模型中位居第一。值得注意的是,Ovis在某些任务上的表现甚至超过了闭源的大型模型GPT-4o-mini。

Ovis的核心能力:

  • 多模态任务处理:Ovis能够出色地完成视觉感知推理、数学和科学理解、生活场景分析等多模态任务。它不仅能够辅助理解复杂的数学概念,还能帮助分析财务报表,甚至根据图片指导烹饪过程,如制作炸鱼薯条。

  • 技术细节:Ovis的设计亮点在于其结构上对齐视觉和文本嵌入的方式,通过引入可学习的视觉嵌入表,将连续视觉特征转换为概率化的token,再生成结构化的视觉嵌入,这克服了传统多模态模型中视觉与文本信息融合的限制。

  • 性能与优势:Ovis在数学推理和视觉理解等任务中的得分表现出色,甚至媲美一些参数量级更高的模型。它在幻觉现象和错误率方面的控制也优于同级别模型,确保了高文本质量和准确度。

  • 开源与商用友好:遵循Apache 2.0开源协议,Ovis的开源使得其在商业应用上非常友好,鼓励更广泛的应用和二次开发。

  • 架构创新:Ovis通过创新的架构设计,包括动态子图方案,支持处理极端长宽比和高分辨率图像,以及全面数据优化策略,覆盖Caption、VQA、OCR、Table、Chart等多种多模态数据方向,从而提升了多模态任务的综合表现。

Ovis应用案例:

  • 图像识别与处理:Ovis能准确识别手写内容并翻译,处理复杂的数学公式,比如通过图片识别给出详细的菜谱制作步骤。

  • 自动驾驶:整合摄像头、雷达和激光雷达的数据。

  • 医疗诊断:用于图像分析和诊断支持。

  • 视频内容理解:分析和生成视频内容。

  • 图像描述生成:自动生成图像描述。

  • 视觉问答:支持多种语言的文本提取和问答。

Ovis开源信息:

  • Ovis系列模型License采用Apache 2.0。

  • Ovis 1.0、1.5的数据、模型、训练和推理代码已开源。

  • Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

  • 开发者可以在GitHub上获取模型和代码。

  • 开源代码可用于商用和改进。

Ovis技术优势:

  • 创新架构设计:克服MLLM中MLP连接器架构的局限性。

  • 高分图像处理:兼容高分辨率图像。

  • 全面数据优化:显著提升多模态问答、指令跟随等任务表现。

  • 卓越模型性能:在OpenCompass上综合排名第一。

  • 幻觉现象和错误率显著低于同级别的模型。

Ovis Ghub地址:

https://github.com/aiDC-AI/Ovis

阿里国际团队表示,近半年的数据显示,商家对AI的需求不断增长,平均每两个月调用量翻一番。Ovis无疑将助力更多商家提升运营效率。

收藏
最新工具
喵记多APP
喵记多APP

快手推出的边聊天边记录的AI笔记,主要功能包括管理笔记,如剪藏、...

畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...