ColQwen-Omni:一款开源的多模态RAG模型

 ColQwen-Omni,一款开源的多模态RAG模型,基于 ColQwen2 和 Qwen2-VL 构建,是首个把 ColBERT 检索范式扩展到音频模态的开源模型。

它支持跨模态检索,能处理文本、音频、图像等多种模态数据。训练数据集有 127,460 个查询 - 页面对,63% 是公开学术数据集训练集,37% 是合成数据集,具备零样本音频检索能力。

ColQwen-Omni:一款开源的多模态RAG模型

核心亮点

  • 跨模态检索:支持文本查音频、音频查图像等,所有模态数据在同一向量空间检索。

  • 视频直处理:不用转录,直接处理音视频原始数据,保留情感、语气和视觉细节。

  • 超快检索:30 分钟音频 10 秒处理完,短视频每段不到 10 秒,单次查询不到 100 毫秒。

  • TMRoPE 同步:时间对齐多模态嵌入,视频 / 音频帧精准对齐。

  • 轻量高效:30 亿参数,能在 Colab 免费 GPU 上运行。

ColQwen-Omni技术细节

  • 训练策略:用 colpali-engine==0.3.11 训练,基于 Qwen2.5-Omni-3B-Instruct 构建,采用 ColBERT 风格的多向量表示策略。

  • 训练数据:含 127,460 个查询 - 页面对,涵盖公开学术数据集和合成数据集。

  • 动态分辨率处理:支持动态图像分辨率输入,不缩放或裁剪图像,保持原始纵横比。

  • 零样本音频检索能力:训练数据虽只含图像 - 文本对,但模型仍能检索音频内容。

ColQwen-Omni技术细节

适用场景

  • 音视频检索:文本查 TED 演讲、音频查 YouTube 封面等。

  • 文档问答:PDF / 图像问答,不用 OCR,能解析布局和图表。

  • 教育研究:检索课程视频 / 讲义,进行跨模态分析。

  • 娱乐分析:搜索短视频 / 播客内容,保留情感和环境音。

  • 隐私敏感场景:可在 Colab 本地运行,数据不用上传。

关键问题

ColQwen2.5-Omni 的训练数据集有何特点?

该模型的训练数据集有 127,460 个查询 - 页面对,63% 是公开学术数据集训练集,37% 是合成数据集(含网页爬取的 PDF 页面及 VLM 生成的伪问题)。数据集设计为全英文,方便研究对非英语语言的零样本泛化能力。其中 2% 的样本作为验证集,用于调优超参数。而且,没有多页 PDF 文档同时用于 ViDoRe 和训练集,避免评估污染。语言模型预训练语料和多模态训练中可能含多语言数据。

ColQwen2.5-Omni 在图像处理上与 ColPali 有何不同?

ColQwen2.5-Omni 接收动态图像分辨率,不缩放以改变宽高比,最大分辨率最多创建 1024 个图像补丁;ColPali 会改变图像的宽高比。

如何使用 ColQwen2.5-Omni 进行音频检索?

先安装版本高于 0.3.11 的 colpali-engine(可通过 pip install git+https://github.com/illuin-tech/colpali安装);再导入相关库,加载模型和处理器;处理音频数据集并创建数据加载器,生成音频嵌入向量;最后定义检索函数,输入查询文本,通过模型生成查询嵌入向量并与音频嵌入向量评分,获取_topk 结果,就能展示对应的音频。

项目链接

GitHub地址:https://github.com/illuin-tech/colpali。

模型地址:https://huggingface.co/vidore/colqwen-omni-v0.1。

收藏
最新工具
MikuTools
MikuTools

一个​​轻量级、免费开源的在线工具集合网站,有上百种实用小工具,...

ZColoring
ZColoring

一个基于AI的在线着色页生成器,能根据用户输入的文字描述快速生成...

Worldvectorlogo
Worldvectorlogo

全球矢量logo素材免费下载网站,收录了全球众多知名品牌和公司的...

Radio.Garden
Radio.Garden

广播花园,一个网络交互式在线广播平台,由荷兰奈梅亨雷德克斯大学开...

IndexTTS
IndexTTS

B站基于XTTS和Tortoise开发的文本转语音模型,具备工业...

AI Word
AI Word

一站式SEO文章工具,支持普通搜索和AI搜索收录,能批量生成SE...

Rubii AI
Rubii AI

是个基于AI技术的二次元角色创作和聊天机器人平台,能让用户创建有...

Traycer
Traycer

一个适用于大型代码库的AI编程助手,能把复杂需求拆成并行文件任务...

Doclingo
Doclingo

TONDA K.K. 开发的文档翻译软件,支持 PDF、Word...

飞搜侠
飞搜侠

一款飞书文档搜索神器,能帮助用户快速找到所需的飞书文档。包括智能...