ColQwen-Omni:一款开源的多模态RAG模型

 ColQwen-Omni,一款开源的多模态RAG模型,基于 ColQwen2 和 Qwen2-VL 构建,是首个把 ColBERT 检索范式扩展到音频模态的开源模型。

它支持跨模态检索,能处理文本、音频、图像等多种模态数据。训练数据集有 127,460 个查询 - 页面对,63% 是公开学术数据集训练集,37% 是合成数据集,具备零样本音频检索能力。

ColQwen-Omni:一款开源的多模态RAG模型

核心亮点

  • 跨模态检索:支持文本查音频、音频查图像等,所有模态数据在同一向量空间检索。

  • 视频直处理:不用转录,直接处理音视频原始数据,保留情感、语气和视觉细节。

  • 超快检索:30 分钟音频 10 秒处理完,短视频每段不到 10 秒,单次查询不到 100 毫秒。

  • TMRoPE 同步:时间对齐多模态嵌入,视频 / 音频帧精准对齐。

  • 轻量高效:30 亿参数,能在 Colab 免费 GPU 上运行。

ColQwen-Omni技术细节

  • 训练策略:用 colpali-engine==0.3.11 训练,基于 Qwen2.5-Omni-3B-Instruct 构建,采用 ColBERT 风格的多向量表示策略。

  • 训练数据:含 127,460 个查询 - 页面对,涵盖公开学术数据集和合成数据集。

  • 动态分辨率处理:支持动态图像分辨率输入,不缩放或裁剪图像,保持原始纵横比。

  • 零样本音频检索能力:训练数据虽只含图像 - 文本对,但模型仍能检索音频内容。

ColQwen-Omni技术细节

适用场景

  • 音视频检索:文本查 TED 演讲、音频查 YouTube 封面等。

  • 文档问答:PDF / 图像问答,不用 OCR,能解析布局和图表。

  • 教育研究:检索课程视频 / 讲义,进行跨模态分析。

  • 娱乐分析:搜索短视频 / 播客内容,保留情感和环境音。

  • 隐私敏感场景:可在 Colab 本地运行,数据不用上传。

关键问题

ColQwen2.5-Omni 的训练数据集有何特点?

该模型的训练数据集有 127,460 个查询 - 页面对,63% 是公开学术数据集训练集,37% 是合成数据集(含网页爬取的 PDF 页面及 VLM 生成的伪问题)。数据集设计为全英文,方便研究对非英语语言的零样本泛化能力。其中 2% 的样本作为验证集,用于调优超参数。而且,没有多页 PDF 文档同时用于 ViDoRe 和训练集,避免评估污染。语言模型预训练语料和多模态训练中可能含多语言数据。

ColQwen2.5-Omni 在图像处理上与 ColPali 有何不同?

ColQwen2.5-Omni 接收动态图像分辨率,不缩放以改变宽高比,最大分辨率最多创建 1024 个图像补丁;ColPali 会改变图像的宽高比。

如何使用 ColQwen2.5-Omni 进行音频检索?

先安装版本高于 0.3.11 的 colpali-engine(可通过 pip install git+https://github.com/illuin-tech/colpali安装);再导入相关库,加载模型和处理器;处理音频数据集并创建数据加载器,生成音频嵌入向量;最后定义检索函数,输入查询文本,通过模型生成查询嵌入向量并与音频嵌入向量评分,获取_topk 结果,就能展示对应的音频。

项目链接

GitHub地址:https://github.com/illuin-tech/colpali。

模型地址:https://huggingface.co/vidore/colqwen-omni-v0.1。

收藏
最新工具
LogoCook
LogoCook

一个免费的在线Logo生成器。选个模板,调一下颜色、字体、图标这...

Cardify卡片工坊
Cardify卡片工坊

一个能用Markdown做出好看知识卡片的工具。它有 30 多种...

FliiipBook
FliiipBook

一个可以在网页上使用的简单GIF动画制作工具。最适合在桌面电脑或...

剪哔biliCut
剪哔biliCut

免费的在线视频提取与剪辑工具,能从 B 站、YouTube 等主...

Text2Card
Text2Card

一个能把网页文章快速做成好看的分享卡片的Chrome浏览器插件,...

OnlineGames.io
OnlineGames.io

什么是OnlineGames.io?OnlineGames.io...

软件自学网
软件自学网

一个教各类软件的在线学习网站,主要教CAD、UG、SolidWo...

AdpexAI
AdpexAI

一个一站式生成式在线AI工具平台,不用装软件,打开浏览器就能用。...

Fiddl.art
Fiddl.art

支持自定义模型、创作和赚钱的AI 艺术生成平台,想法就是把创作、...

Dr.Watermark
Dr.Watermark

一个AI在线去水印工具,能自己找到并去掉图片里的字、Logo、全...