ColQwen-Omni:一款开源的多模态RAG模型

 ColQwen-Omni,一款开源的多模态RAG模型,基于 ColQwen2 和 Qwen2-VL 构建,是首个把 ColBERT 检索范式扩展到音频模态的开源模型。

它支持跨模态检索,能处理文本、音频、图像等多种模态数据。训练数据集有 127,460 个查询 - 页面对,63% 是公开学术数据集训练集,37% 是合成数据集,具备零样本音频检索能力。

ColQwen-Omni:一款开源的多模态RAG模型

核心亮点

  • 跨模态检索:支持文本查音频、音频查图像等,所有模态数据在同一向量空间检索。

  • 视频直处理:不用转录,直接处理音视频原始数据,保留情感、语气和视觉细节。

  • 超快检索:30 分钟音频 10 秒处理完,短视频每段不到 10 秒,单次查询不到 100 毫秒。

  • TMRoPE 同步:时间对齐多模态嵌入,视频 / 音频帧精准对齐。

  • 轻量高效:30 亿参数,能在 Colab 免费 GPU 上运行。

ColQwen-Omni技术细节

  • 训练策略:用 colpali-engine==0.3.11 训练,基于 Qwen2.5-Omni-3B-Instruct 构建,采用 ColBERT 风格的多向量表示策略。

  • 训练数据:含 127,460 个查询 - 页面对,涵盖公开学术数据集和合成数据集。

  • 动态分辨率处理:支持动态图像分辨率输入,不缩放或裁剪图像,保持原始纵横比。

  • 零样本音频检索能力:训练数据虽只含图像 - 文本对,但模型仍能检索音频内容。

ColQwen-Omni技术细节

适用场景

  • 音视频检索:文本查 TED 演讲、音频查 YouTube 封面等。

  • 文档问答:PDF / 图像问答,不用 OCR,能解析布局和图表。

  • 教育研究:检索课程视频 / 讲义,进行跨模态分析。

  • 娱乐分析:搜索短视频 / 播客内容,保留情感和环境音。

  • 隐私敏感场景:可在 Colab 本地运行,数据不用上传。

关键问题

ColQwen2.5-Omni 的训练数据集有何特点?

该模型的训练数据集有 127,460 个查询 - 页面对,63% 是公开学术数据集训练集,37% 是合成数据集(含网页爬取的 PDF 页面及 VLM 生成的伪问题)。数据集设计为全英文,方便研究对非英语语言的零样本泛化能力。其中 2% 的样本作为验证集,用于调优超参数。而且,没有多页 PDF 文档同时用于 ViDoRe 和训练集,避免评估污染。语言模型预训练语料和多模态训练中可能含多语言数据。

ColQwen2.5-Omni 在图像处理上与 ColPali 有何不同?

ColQwen2.5-Omni 接收动态图像分辨率,不缩放以改变宽高比,最大分辨率最多创建 1024 个图像补丁;ColPali 会改变图像的宽高比。

如何使用 ColQwen2.5-Omni 进行音频检索?

先安装版本高于 0.3.11 的 colpali-engine(可通过 pip install git+https://github.com/illuin-tech/colpali安装);再导入相关库,加载模型和处理器;处理音频数据集并创建数据加载器,生成音频嵌入向量;最后定义检索函数,输入查询文本,通过模型生成查询嵌入向量并与音频嵌入向量评分,获取_topk 结果,就能展示对应的音频。

项目链接

GitHub地址:https://github.com/illuin-tech/colpali。

模型地址:https://huggingface.co/vidore/colqwen-omni-v0.1。

收藏
最新工具
Forvo
Forvo

一个全球语言发音学习平台,提供超450种语言的真人发音资源,包括...

Animon AI
Animon AI

全球首款专为动漫设计的AI视频生成平台。它的特点是“上传一张插画...

TheStocks.IM
TheStocks.IM

一个综合性设计素材资源与工具聚合平台,汇集了包括 Unsplas...

WeaveSilk
WeaveSilk

一个在线光线艺术绘画工具,直接用鼠标在画布上画图案就能生成对称又...

Aice PS
Aice PS

网页版AI照片编辑器,利用Google aistudio的的先进...

FlightRadar24
FlightRadar24

一个实时航班追踪工具。它把谷歌地图、航空信息,还有 ADS-B、...

VeeSpark
VeeSpark

一个能做AI内容生成的平台,主要帮人通过文字或图片快速做出视频和...

Hitem3D AI
Hitem3D AI

Math Magic公司开发的工具,用他们自研的高精度AI模型S...

Tools.Dverso.io
Tools.Dverso.io

一个带洗衣游戏感的在线抠图工具,是个能去掉图片背景的网站,它的特...

Neural4D
Neural4D

一个专注3D动态场景生成与交互的创新平台,核心是用人工智能技术把...