阿里推出QwenLong-L1-32B:一款用于长上下文推理的LLM

2025年5月26日,阿里巴巴团队发布QwenLong-L1-32B,首个基于强化学习训练的长上下文大推理模型,和DocQA-RL-1.6K数据集(含1600个数学、逻辑、多跳推理类文档问答问题)。其框架通过预热监督微调、课程引导强化学习、难度感知回顾采样机制解决长上下文推理强化学习中训练效率低、优化过程不稳定的挑战,在7个长上下文DocQA基准测试中性能优于Openai-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平。

fig1.webp

模型框架

核心理念:通过强化学习(RL)将短上下文大规模推理模型(LRMs)适应到长上下文场景中。

主要组成部分:

  • 预热监督微调(SFT)阶段:建立稳健的初始策略。

  • 基于课程的分阶段强化学习技术:稳定策略演化。

  • 难度感知回顾采样策略:激励策略探索。

训练数据

使用了名为DocQA-RL-1.6K的专门强化学习训练数据集,包含1600个涵盖数学、逻辑和多跳推理领域的文档问答问题。

性能表现

  • 在七个长上下文文档问答基准测试中,QwenLong-L1-32B的表现超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰级LRMs,达到了与Claude-3.7-Sonnet-Thinking相当的水平,在当前最先进的LRMs中表现出领先性能。

实验设计

  • 构建了一个专门的RL训练数据集DocQA-RL-1.6K,包含1600个文档问答问题,涵盖数学、逻辑和多跳推理领域。

  • 数学推理部分使用了DocMath数据集的600个问题,其中75%用于训练,25%用于评估。

  • 逻辑推理部分通过DeepSeek-R1合成了600个多选题,涵盖法律、金融、保险和生产领域的实际文档。

  • 多跳推理部分从MultiHopRAG和Musique中各采样200个例子,强调跨文档推理。

  • 在七个长上下文DocQA基准测试上进行了评估,包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

结果与分析

  • QwenLong-L1-32B在七个长上下文DocQA基准测试中表现优异,超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM模型,性能与Claude-3.7-Sonnet-Thinking相当。

  • 在数学推理基准DocMath上,QwenLong-L1-32B的精确匹配和LLM判断准确率达到了85.3%。

  • 在多跳推理基准HotpotQA上,模型的表现达到了87.6%,显著优于现有模型。

项目链接

Github:https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope:https://www.modelscope.cn/models/iic/QwenLong-L1-32B

收藏
最新工具
小云雀APP
小云雀APP

剪映推出的一款视频和图片创作工具,它能通过简单的指令快速生成短视...

匠邦AI
匠邦AI

一款可以提升教师工作效率的AI智能工具。专注为幼儿园,中小学,职...

老师帮
老师帮

专为教师设计的多功能AI教学工作助手,提供教案生成、作业设计、试...

WorkPPT
WorkPPT

一款 AI PPT生成工具,可在几秒内生成不限数量的PPT、网站...

Excelmatic AI
Excelmatic AI

一款 AI 驱动的 Excel 数据分析与可视化工具,支持上传....

幻舟AI
幻舟AI

一个一站式AI影视短片创作平台,能帮你从头到尾搞定短片制作。它有...

SelectYet
SelectYet

一款面向研究人员的文献阅读分析工具,它通过AI技术帮助用户快速对...

Opera Neon
Opera Neon

一款集成AI代理功能的创新浏览器,具备聊天、执行任务和创作等功能...

ThetaWave AI
ThetaWave AI

一款能帮学生把课堂笔记、文件、视频等变成好整理的笔记的AI学习工...

Dpdf
Dpdf

好用的在线 PDF工具网站,提供免费的在线PDF工具,包括合并、...