阿里推出QwenLong-L1-32B:一款用于长上下文推理的LLM

2025年5月26日,阿里巴巴团队发布QwenLong-L1-32B,首个基于强化学习训练的长上下文大推理模型,和DocQA-RL-1.6K数据集(含1600个数学、逻辑、多跳推理类文档问答问题)。其框架通过预热监督微调、课程引导强化学习、难度感知回顾采样机制解决长上下文推理强化学习中训练效率低、优化过程不稳定的挑战,在7个长上下文DocQA基准测试中性能优于Openai-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平。

fig1.webp

模型框架

核心理念:通过强化学习(RL)将短上下文大规模推理模型(LRMs)适应到长上下文场景中。

主要组成部分:

  • 预热监督微调(SFT)阶段:建立稳健的初始策略。

  • 基于课程的分阶段强化学习技术:稳定策略演化。

  • 难度感知回顾采样策略:激励策略探索。

训练数据

使用了名为DocQA-RL-1.6K的专门强化学习训练数据集,包含1600个涵盖数学、逻辑和多跳推理领域的文档问答问题。

性能表现

  • 在七个长上下文文档问答基准测试中,QwenLong-L1-32B的表现超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰级LRMs,达到了与Claude-3.7-Sonnet-Thinking相当的水平,在当前最先进的LRMs中表现出领先性能。

实验设计

  • 构建了一个专门的RL训练数据集DocQA-RL-1.6K,包含1600个文档问答问题,涵盖数学、逻辑和多跳推理领域。

  • 数学推理部分使用了DocMath数据集的600个问题,其中75%用于训练,25%用于评估。

  • 逻辑推理部分通过DeepSeek-R1合成了600个多选题,涵盖法律、金融、保险和生产领域的实际文档。

  • 多跳推理部分从MultiHopRAG和Musique中各采样200个例子,强调跨文档推理。

  • 在七个长上下文DocQA基准测试上进行了评估,包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

结果与分析

  • QwenLong-L1-32B在七个长上下文DocQA基准测试中表现优异,超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM模型,性能与Claude-3.7-Sonnet-Thinking相当。

  • 在数学推理基准DocMath上,QwenLong-L1-32B的精确匹配和LLM判断准确率达到了85.3%。

  • 在多跳推理基准HotpotQA上,模型的表现达到了87.6%,显著优于现有模型。

项目链接

Github:https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope:https://www.modelscope.cn/models/iic/QwenLong-L1-32B

收藏
最新工具
Subway Surfers
Subway Surfers

一款经典的无尽跑酷游戏。玩家扮演杰克,在地铁轨道上奔跑,躲避愤怒...

PDF补丁丁
PDF补丁丁

PDFPatcher,是国内开发者wmjordan用.NET框架...

无阶ATOMIX
无阶ATOMIX

一个面向中小企业的无代码开发平台,首次融合AIGC与无代码技术。...

Merliona
Merliona

一个提供可靠的远程自由职业平台,通过专属平台分配优质项目。自由职...

ChopperBot
ChopperBot

一款能用于像虎牙、斗鱼、抖音、BiliBili、TikTok、T...

ColorDrop
ColorDrop

这是一个专为设计师打造的在线调色板工具。网站每天午夜会自动生成新...

FaFaFa.AI
FaFaFa.AI

由欧阳葵和七鹿联合开发的小游戏建站工具。这个FaFaFa.AI不...

Roblox
Roblox

Roblox Corporation开发的全球大型多人在线UGC...

Tight Studio
Tight Studio

一款能快速把屏幕录制的画面做成产品演示的工具,不用会视频剪辑也能...

Audionautix
Audionautix

一个专注于提供免费可商用背景音乐的在线平台,由作曲家 Jason...