首页 > Ai资讯 > Ai产品

ColQwen-Omni：一款开源的多模态RAG模型

ColQwen-Omni于2025-07-19发布在Ai产品

ColQwen-Omni，一款开源的多模态RAG模型，基于 ColQwen2 和 Qwen2-VL 构建，是首个把 ColBERT 检索范式扩展到音频模态的开源模型。

它支持跨模态检索，能处理文本、音频、图像等多种模态数据。训练数据集有 127,460 个查询 - 页面对，63% 是公开学术数据集训练集，37% 是合成数据集，具备零样本音频检索能力。

核心亮点

跨模态检索：支持文本查音频、音频查图像等，所有模态数据在同一向量空间检索。
音视频直处理：不用转录，直接处理音视频原始数据，保留情感、语气和视觉细节。
超快检索：30 分钟音频 10 秒处理完，短视频每段不到 10 秒，单次查询不到 100 毫秒。
TMRoPE 同步：时间对齐多模态嵌入，视频 / 音频帧精准对齐。
轻量高效：30 亿参数，能在 Colab 免费 GPU 上运行。

ColQwen-Omni技术细节

训练策略：用 colpali-engine==0.3.11 训练，基于 Qwen2.5-Omni-3B-Instruct 构建，采用 ColBERT 风格的多向量表示策略。
训练数据：含 127,460 个查询 - 页面对，涵盖公开学术数据集和合成数据集。
动态分辨率处理：支持动态图像分辨率输入，不缩放或裁剪图像，保持原始纵横比。
零样本音频检索能力：训练数据虽只含图像 - 文本对，但模型仍能检索音频内容。

ColQwen-Omni技术细节

适用场景

音视频检索：文本查 TED 演讲、音频查 YouTube 封面等。
文档问答：PDF / 图像问答，不用 OCR，能解析布局和图表。
教育研究：检索课程视频 / 讲义，进行跨模态分析。
娱乐分析：搜索短视频 / 播客内容，保留情感和环境音。
隐私敏感场景：可在 Colab 本地运行，数据不用上传。

关键问题

ColQwen2.5-Omni 的训练数据集有何特点？

该模型的训练数据集有 127,460 个查询 - 页面对，63% 是公开学术数据集训练集，37% 是合成数据集（含网页爬取的 PDF 页面及 VLM 生成的伪问题）。数据集设计为全英文，方便研究对非英语语言的零样本泛化能力。其中 2% 的样本作为验证集，用于调优超参数。而且，没有多页 PDF 文档同时用于 ViDoRe 和训练集，避免评估污染。语言模型预训练语料和多模态训练中可能含多语言数据。

ColQwen2.5-Omni 在图像处理上与 ColPali 有何不同？

ColQwen2.5-Omni 接收动态图像分辨率，不缩放以改变宽高比，最大分辨率最多创建 1024 个图像补丁；ColPali 会改变图像的宽高比。

如何使用 ColQwen2.5-Omni 进行音频检索？

先安装版本高于 0.3.11 的 colpali-engine（可通过 pip install git+https://github.com/illuin-tech/colpali安装）；再导入相关库，加载模型和处理器；处理音频数据集并创建数据加载器，生成音频嵌入向量；最后定义检索函数，输入查询文本，通过模型生成查询嵌入向量并与音频嵌入向量评分，获取_topk 结果，就能展示对应的音频。