ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架

2025年5月8日,阿里巴巴开源了ZeroSearch大模型搜索引擎,ZeroSearch是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,本质上是一种独特的强化学习框架,无需与传统意义上的真实搜索引擎进行交互,便能充分激励大模型自身潜藏的搜索能力。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.jpg

ZeroSearch主要功能

  • 无需真实搜索引擎交互:模拟搜索引擎的方式,激励大模型的搜索能力,避免与真实搜索引擎(如谷歌)的交互,降低成本和不可控性。

  • 动态控制文档质量:支持生成相关或噪声文档,基于调整提示中的关键词,灵活控制生成文档的质量,为训练提供多样化的检索场景。

  • 支持多种模型和算法:兼容不同参数规模的大模型(如3B、7B、14B),支持多种强化学习算法(如PPO、GRPO)。

ZeroSearch核心技术

  • 无需真实搜索引擎交互:ZeroSearch通过强化学习框架,无需与谷歌等真实搜索引擎交互,就能激发大模型的搜索能力。它基于大模型在大规模预训练过程中积累的知识,将其转化为检索模块,根据查询生成相关内容。

  • 动态控制文档质量:该框架可动态控制生成文档的质量,支持生成相关或噪声文档,为训练提供多样化检索场景。通过调整提示模板中的关键词,引导模型学习质量分级检索。

  • 轻量级监督微调:先将大模型转化为检索模块,使其能生成高质量或低质量文档,适应不同训练需求。

  • 课程学习机制:在训练中逐步增加文档噪声水平,让模型从简单场景开始,逐步适应更具挑战性的任务,提升推理能力。

  • 基于F1分数的奖励机制:用F1分数作为奖励信号,专注于答案准确性。

  • 多轮交互模板:设计明确的推理、搜索和回答阶段,引导模型逐步完成任务。

性能与成本优势

  • 性能表现:研究人员在NQ、TriviaQA等七大问答数据集上测试,70亿参数监督微调模型搜索能力达33.06,140亿参数模型达33.97,超过谷歌搜索的32.47。

  • 成本效益:使用谷歌搜索进行约64,000次搜索查询训练,成本约586.70美元,而用140亿参数大模型在四个A100 GPU上模拟训练,成本仅70.80美元,成本降幅超80%。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.webp

ZeroSearch应用场景

  • 智能问答系统:可以快速准确地回答用户问题,适用于智能客服和智能助手等场景。

  • 企业内部知识管理:企业可以利用ZeroSearch搭建高效的知识搜索平台,员工能够快速定位所需信息,提升工作效率。

项目地址

项目官网:https://alibaba-nlp.github.io/ZeroSearch/

GitHub仓库:https://github.com/Alibaba-nlp/ZeroSearch

HuggingFace模型库:https://huggingface.co/collections/sunhaonlp/zerosearch

arXiv技术论文:https://arxiv.org/pdf/2505.04588

收藏
最新工具
TheJigsawPuzzles
TheJigsawPuzzles

一个免费的在线拼图网站,直接打开TheJigsawPuzzles...

致美化
致美化

一个为Windows用户打造的视觉美化社区和素材下载平台。这里专...

OiiOii ai
OiiOii ai

全球首个专业动画创作平台,通过多个智能模块协同工作,实现从创意到...

扣子空间PPT
扣子空间PPT

扣子空间的这个PPT功能可以一句话生成完整ppt,从大纲、设计到...

Viw AI
Viw AI

一个能直接生成图片和视频的工具平台,把Sora、Veo、Seed...

数学乐
数学乐

Math is Fun 的中文版本,它致力于用简单有趣的方式教大...

PimEyes
PimEyes

一个反向图像搜索和面部识别的搜索引擎。你在它上面上传一张清楚的人...

Uiverse
Uiverse

一个开源免费的UI元素库,里面有3500多个现成组件,都是用纯C...

WindowSwap
WindowSwap

一个让用户可以上传和观看来自世界各地的窗外10分钟高清视频的在线...

Ventusky
Ventusky

一个全球天气信息网站,提供天气预报、天气地图和雷达服务。 它可以...