阿里推出QwenLong-L1-32B:一款用于长上下文推理的LLM

2025年5月26日,阿里巴巴团队发布QwenLong-L1-32B,首个基于强化学习训练的长上下文大推理模型,和DocQA-RL-1.6K数据集(含1600个数学、逻辑、多跳推理类文档问答问题)。其框架通过预热监督微调、课程引导强化学习、难度感知回顾采样机制解决长上下文推理强化学习中训练效率低、优化过程不稳定的挑战,在7个长上下文DocQA基准测试中性能优于Openai-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平。

fig1.webp

模型框架

核心理念:通过强化学习(RL)将短上下文大规模推理模型(LRMs)适应到长上下文场景中。

主要组成部分:

  • 预热监督微调(SFT)阶段:建立稳健的初始策略。

  • 基于课程的分阶段强化学习技术:稳定策略演化。

  • 难度感知回顾采样策略:激励策略探索。

训练数据

使用了名为DocQA-RL-1.6K的专门强化学习训练数据集,包含1600个涵盖数学、逻辑和多跳推理领域的文档问答问题。

性能表现

  • 在七个长上下文文档问答基准测试中,QwenLong-L1-32B的表现超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰级LRMs,达到了与Claude-3.7-Sonnet-Thinking相当的水平,在当前最先进的LRMs中表现出领先性能。

实验设计

  • 构建了一个专门的RL训练数据集DocQA-RL-1.6K,包含1600个文档问答问题,涵盖数学、逻辑和多跳推理领域。

  • 数学推理部分使用了DocMath数据集的600个问题,其中75%用于训练,25%用于评估。

  • 逻辑推理部分通过DeepSeek-R1合成了600个多选题,涵盖法律、金融、保险和生产领域的实际文档。

  • 多跳推理部分从MultiHopRAG和Musique中各采样200个例子,强调跨文档推理。

  • 在七个长上下文DocQA基准测试上进行了评估,包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

结果与分析

  • QwenLong-L1-32B在七个长上下文DocQA基准测试中表现优异,超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM模型,性能与Claude-3.7-Sonnet-Thinking相当。

  • 在数学推理基准DocMath上,QwenLong-L1-32B的精确匹配和LLM判断准确率达到了85.3%。

  • 在多跳推理基准HotpotQA上,模型的表现达到了87.6%,显著优于现有模型。

项目链接

Github:https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope:https://www.modelscope.cn/models/iic/QwenLong-L1-32B

收藏
最新工具
MarkDowntoWord
MarkDowntoWord

一款完全免费markdown转word在线工具,不用注册就能用。...

LuoGen-Agent
LuoGen-Agent

一个可以一键生成爆款视频的商业级自动化工具,能自动完成从写文案到...

Funy AI
Funy AI

一款无需注册、永久免费且兼容多设备的多功能AI创意平台,提供照片...

BabyTrack
BabyTrack

一个做视频和图像斑点跟踪特效的工具,主要就是追踪视频或者摄像头画...

BIGEMAP地图资源下载站
BIGEMAP地图资源下载站

一个地图下载器。安装客户端后,无需第三方网站,可直接下载以下无水...

MCreator
MCreator

一个开源、免费的可视化模组制作工具,也是主流的Minecraft...

CreativeMode
CreativeMode

零代码Minecraft模组生成平台,它的主要特点是,用户不用写...

Grubby AI
Grubby AI

一个AI文本处理工具,它用算法去掉AI痕迹,重新组织句子,改出来...

MiroFlow
MiroFlow

MiroMind团队公开的一个高性能多Agent框架。它让各种大...

PDFgear
PDFgear

一款完全免费的跨平台PDF处理工具,集合阅读、编辑、转换、合并、...