ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架

2025年5月8日,阿里巴巴开源了ZeroSearch大模型搜索引擎,ZeroSearch是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,本质上是一种独特的强化学习框架,无需与传统意义上的真实搜索引擎进行交互,便能充分激励大模型自身潜藏的搜索能力。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.jpg

ZeroSearch主要功能

  • 无需真实搜索引擎交互:模拟搜索引擎的方式,激励大模型的搜索能力,避免与真实搜索引擎(如谷歌)的交互,降低成本和不可控性。

  • 动态控制文档质量:支持生成相关或噪声文档,基于调整提示中的关键词,灵活控制生成文档的质量,为训练提供多样化的检索场景。

  • 支持多种模型和算法:兼容不同参数规模的大模型(如3B、7B、14B),支持多种强化学习算法(如PPO、GRPO)。

ZeroSearch核心技术

  • 无需真实搜索引擎交互:ZeroSearch通过强化学习框架,无需与谷歌等真实搜索引擎交互,就能激发大模型的搜索能力。它基于大模型在大规模预训练过程中积累的知识,将其转化为检索模块,根据查询生成相关内容。

  • 动态控制文档质量:该框架可动态控制生成文档的质量,支持生成相关或噪声文档,为训练提供多样化检索场景。通过调整提示模板中的关键词,引导模型学习质量分级检索。

  • 轻量级监督微调:先将大模型转化为检索模块,使其能生成高质量或低质量文档,适应不同训练需求。

  • 课程学习机制:在训练中逐步增加文档噪声水平,让模型从简单场景开始,逐步适应更具挑战性的任务,提升推理能力。

  • 基于F1分数的奖励机制:用F1分数作为奖励信号,专注于答案准确性。

  • 多轮交互模板:设计明确的推理、搜索和回答阶段,引导模型逐步完成任务。

性能与成本优势

  • 性能表现:研究人员在NQ、TriviaQA等七大问答数据集上测试,70亿参数监督微调模型搜索能力达33.06,140亿参数模型达33.97,超过谷歌搜索的32.47。

  • 成本效益:使用谷歌搜索进行约64,000次搜索查询训练,成本约586.70美元,而用140亿参数大模型在四个A100 GPU上模拟训练,成本仅70.80美元,成本降幅超80%。

ZeroSearch:阿里巴巴开源的一种创新大模型搜索引擎框架.webp

ZeroSearch应用场景

  • 智能问答系统:可以快速准确地回答用户问题,适用于智能客服和智能助手等场景。

  • 企业内部知识管理:企业可以利用ZeroSearch搭建高效的知识搜索平台,员工能够快速定位所需信息,提升工作效率。

项目地址

项目官网:https://alibaba-nlp.github.io/ZeroSearch/

GitHub仓库:https://github.com/Alibaba-nlp/ZeroSearch

HuggingFace模型库:https://huggingface.co/collections/sunhaonlp/zerosearch

arXiv技术论文:https://arxiv.org/pdf/2505.04588

收藏
最新工具
墨刀AIPPT
墨刀AIPPT

墨刀推出的一款AI PPT生成工具,能让PPT制作变得高效又简单...

Vozart AI
Vozart AI

一款AI音乐与歌词生成器,可把文本提示或歌词转换为录音室品质的免...

CodeBuff
CodeBuff

一款在终端使用的 AI 编程工具,它能够快速索引代码库、精准地编...

百度Comate AI IDE
百度Comate AI IDE

百度推出的文心快码独立AI原生开发环境工具,这是行业内首个具备多...

unDraw
unDraw

美国设计师Katerina Limpitsouni创作的开源插画...

Storyset
Storyset

一个由知名素材平台Freepik公司旗下的免费在线自定义矢量插画...

Jigsaw Planet
Jigsaw Planet

一个数百万免费在线拼图平台,用户能直接通过浏览器创建、游玩和分享...

GeoFS
GeoFS

一款免费的网页版多人飞行模拟器网站,只要浏览器就可以运行,不需要...

Avido AI
Avido AI

通过 AI 技术帮用户生成适合 YouTube 和 TikTok...

表答AI
表答AI

一款能抓取网页内容并能情感分析的数据分析产品,并把采集分析过程自...