阿里推出QwenLong-L1-32B:一款用于长上下文推理的LLM

2025年5月26日,阿里巴巴团队发布QwenLong-L1-32B,首个基于强化学习训练的长上下文大推理模型,和DocQA-RL-1.6K数据集(含1600个数学、逻辑、多跳推理类文档问答问题)。其框架通过预热监督微调、课程引导强化学习、难度感知回顾采样机制解决长上下文推理强化学习中训练效率低、优化过程不稳定的挑战,在7个长上下文DocQA基准测试中性能优于Openai-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平。

fig1.webp

模型框架

核心理念:通过强化学习(RL)将短上下文大规模推理模型(LRMs)适应到长上下文场景中。

主要组成部分:

  • 预热监督微调(SFT)阶段:建立稳健的初始策略。

  • 基于课程的分阶段强化学习技术:稳定策略演化。

  • 难度感知回顾采样策略:激励策略探索。

训练数据

使用了名为DocQA-RL-1.6K的专门强化学习训练数据集,包含1600个涵盖数学、逻辑和多跳推理领域的文档问答问题。

性能表现

  • 在七个长上下文文档问答基准测试中,QwenLong-L1-32B的表现超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰级LRMs,达到了与Claude-3.7-Sonnet-Thinking相当的水平,在当前最先进的LRMs中表现出领先性能。

实验设计

  • 构建了一个专门的RL训练数据集DocQA-RL-1.6K,包含1600个文档问答问题,涵盖数学、逻辑和多跳推理领域。

  • 数学推理部分使用了DocMath数据集的600个问题,其中75%用于训练,25%用于评估。

  • 逻辑推理部分通过DeepSeek-R1合成了600个多选题,涵盖法律、金融、保险和生产领域的实际文档。

  • 多跳推理部分从MultiHopRAG和Musique中各采样200个例子,强调跨文档推理。

  • 在七个长上下文DocQA基准测试上进行了评估,包括2WikiMultihopQA、HotpotQA、Musique、NarrativeQA、Qasper、Frames和DocMath。

结果与分析

  • QwenLong-L1-32B在七个长上下文DocQA基准测试中表现优异,超过了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰LRM模型,性能与Claude-3.7-Sonnet-Thinking相当。

  • 在数学推理基准DocMath上,QwenLong-L1-32B的精确匹配和LLM判断准确率达到了85.3%。

  • 在多跳推理基准HotpotQA上,模型的表现达到了87.6%,显著优于现有模型。

项目链接

Github:https://github.com/Tongyi-Zhiwen/QwenLong-L1

Huggingface:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

Modelscope:https://www.modelscope.cn/models/iic/QwenLong-L1-32B

收藏
最新工具
Workout.cool
Workout.cool

一个免费开源的健身指导平台,拥有全面的锻炼数据库,主要用来帮用户...

UP云搜
UP云搜

强大的聚合网盘资源搜索平台,帮用户搜索和分享各类资源,涵盖考研、...

LabubuWallPaper
LabubuWallPaper

一个专门收集Labubu壁纸的网站,主打“致敬Labubu角色,...

iPhonesWallPapers
iPhonesWallPapers

一个提供iPhone壁纸的网站,有大量高清壁纸,包括iPhone...

BestPartyGames
BestPartyGames

一个免费的在线聚会游戏平台,专门为朋友聚会、家庭聚会、线上派对等...

ListDifference
ListDifference

一个免费的在线列表对比工具,可以快速对比两组列表内容,突出差异项...

Best Teleprompter
Best Teleprompter

一个个免费的在线提词工具,专业内容创作者用着挺顺手。它有智能拖动...

Zoom Earth中文版
Zoom Earth中文版

一个能看实时卫星图和天气数据的平台,能看到高清卫星图,查各种天气...

Cobalt.tools
Cobalt.tools

一个免费的在线视频音频下载工具,代码开源,能从多个主流平台下载内...

谱乐AI
谱乐AI

一个集合多款AI音乐模型的创作平台,集AI音乐生成、混音、母带处...