ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架

2025年5月8日,阿里巴巴开源了ZeroSearch大模型搜索引擎,ZeroSearch是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,本质上是一种独特的强化学习框架,无需与传统意义上的真实搜索引擎进行交互,便能充分激励大模型自身潜藏的搜索能力。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.jpg

ZeroSearch主要功能

  • 无需真实搜索引擎交互:模拟搜索引擎的方式,激励大模型的搜索能力,避免与真实搜索引擎(如谷歌)的交互,降低成本和不可控性。

  • 动态控制文档质量:支持生成相关或噪声文档,基于调整提示中的关键词,灵活控制生成文档的质量,为训练提供多样化的检索场景。

  • 支持多种模型和算法:兼容不同参数规模的大模型(如3B、7B、14B),支持多种强化学习算法(如PPO、GRPO)。

ZeroSearch核心技术

  • 无需真实搜索引擎交互:ZeroSearch通过强化学习框架,无需与谷歌等真实搜索引擎交互,就能激发大模型的搜索能力。它基于大模型在大规模预训练过程中积累的知识,将其转化为检索模块,根据查询生成相关内容。

  • 动态控制文档质量:该框架可动态控制生成文档的质量,支持生成相关或噪声文档,为训练提供多样化检索场景。通过调整提示模板中的关键词,引导模型学习质量分级检索。

  • 轻量级监督微调:先将大模型转化为检索模块,使其能生成高质量或低质量文档,适应不同训练需求。

  • 课程学习机制:在训练中逐步增加文档噪声水平,让模型从简单场景开始,逐步适应更具挑战性的任务,提升推理能力。

  • 基于F1分数的奖励机制:用F1分数作为奖励信号,专注于答案准确性。

  • 多轮交互模板:设计明确的推理、搜索和回答阶段,引导模型逐步完成任务。

性能与成本优势

  • 性能表现:研究人员在NQ、TriviaQA等七大问答数据集上测试,70亿参数监督微调模型搜索能力达33.06,140亿参数模型达33.97,超过谷歌搜索的32.47。

  • 成本效益:使用谷歌搜索进行约64,000次搜索查询训练,成本约586.70美元,而用140亿参数大模型在四个A100 GPU上模拟训练,成本仅70.80美元,成本降幅超80%。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.webp

ZeroSearch应用场景

  • 智能问答系统:可以快速准确地回答用户问题,适用于智能客服和智能助手等场景。

  • 企业内部知识管理:企业可以利用ZeroSearch搭建高效的知识搜索平台,员工能够快速定位所需信息,提升工作效率。

项目地址

项目官网:https://alibaba-nlp.github.io/ZeroSearch/

GitHub仓库:https://github.com/Alibaba-nlp/ZeroSearch

HuggingFace模型库:https://huggingface.co/collections/sunhaonlp/zerosearch

arXiv技术论文:https://arxiv.org/pdf/2505.04588

收藏
最新工具
一个木函网页版
一个木函网页版

国产效率类App,主打体积小、功能多。有一个木函网页版和小程序,...

Make Manga
Make Manga

一个通过AI把文字故事转化成漫画的平台,主要有项目管理、AI 分...

Wormate.io
Wormate.io

一个多人在线贪吃蛇类io游戏。玩家控制一条彩色的小虫,在地图里吃...

Hyperlink AI
Hyperlink AI

Nexa AI做的一个本地运行的AI文档工具。它靠本地RAG技术...

Build-Your-Own-X
Build-Your-Own-X

收集了很多好的关于从零开始重新创建各种技术的详细、分步指南教程,...

CreatOK AI
CreatOK AI

​专门为TikTok电商打造的一款基于Sora2的AI爆款视频生...

Geometry Dash Lite
Geometry Dash Lite

节奏类平台跳跃游戏,玩法按节奏控制方块跳跃,方块自己往前走,玩家...

豆包输入法
豆包输入法

字节跳动旗下“豆包”AI生态推出的官方中文输入法,主打“AI语音...

FeelFish
FeelFish

智能小说创作助手,小说作者用的AI智能体。它能按用户给的角色设计...

超级编导
超级编导

给短视频创作者和企业用的AI智能化批量剪辑与创意生产平台,主打高...