阿里巴巴正式推出开源大模型Qwen2.5-1M

阿里巴巴于2025年1月27日正式推出开源大模型Qwen2.5-1M系列,这是通义千问团队首次将开源模型的上下文长度扩展至100万Tokens(约合10本长篇小说或3万行代码),并在长文本处理性能上实现显著突破。

一、Qwen2.5-1M主要特点

超长上下文支持:Qwen2.5-1M模型支持高达100万tokens的上下文处理,相当于约100万个英文单词或150万个汉字。这一特性使得模型能够处理长篇文档,如书籍、法律文件和长篇报告,而无需进行繁琐的文本分割。

多种模型尺寸:此次发布的模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,提供了不同的参数规模,以满足不同应用场景的需求。

高效的推理框架:Qwen团队开源了基于vLLM的推理框架,集成了稀疏注意力机制,使得在处理1M标记输入时的速度提升了3倍到7倍。这种高效性使得开发者能够更快速地部署和应用模型。

性能优势:在长文本任务中,Qwen2.5-1M模型的表现显著优于之前的128K版本,特别是在处理超过64K长度的任务时,展现出更强的能力。

阿里巴巴正式推出开源大模型Qwen2.5-1M.webp

二、模型特性与性能表现

长上下文处理能力

  • 百万Tokens支持:Qwen2.5-1M系列包含7B和14B两个版本,原生支持1M Tokens上下文长度,可处理长篇文档、代码仓库或复杂多轮对话,无需分段输入。

  • 精准检索与理解:在“大海捞针”(Passkey Retrieval)任务中,模型能从1M Tokens文档中准确提取隐藏信息,仅7B版本出现少量错误;在RULER、LV-eval等长文本理解基准测试中,14B版本表现稳定超越自家闭源模型Qwen2.5-Turbo和Openai的GPT-4o-mini。

短文本任务兼容性

  • 7B和14B模型在短文本任务(如问答、摘要)中表现与128K版本相当,未因长上下文能力增强而牺牲基础性能。例如,14B模型在短文本任务中与GPT-4o-mini性能接近,但上下文长度是其8倍。

三、技术突破与开源框架

渐进式训练与长度外推

  • 分阶段扩展:从预训练到监督微调,逐步将上下文长度从4K扩展至256K,再通过强化学习优化短文本对齐能力56。

  • Dual Chunk Attention(DCA):引入创新的位置编码外推技术,无需额外训练即可将模型支持的上下文长度从256K扩展至1M,解决了长距离位置编码的注意力退化问题。

高效推理优化

  • 稀疏注意力机制:基于vLLM框架集成稀疏注意力(MInference),结合分块预填充和动态并行技术,使1M Tokens输入的推理速度提升3.2至6.7倍,显著降低内存占用(如7B模型激活内存减少96.7%)。

  • 开源框架支持:完全开源推理框架及训练技术报告,开发者可快速部署模型,并支持FP8量化以降低硬件需求。

四、应用场景

  • 文本生成:Qwen2.5-1M模型可以用于生成长篇文章、报告和故事,适用于内容创作、新闻写作等领域。

  • 信息检索:由于其超长上下文处理能力,模型可以在长文本中进行有效的信息检索,适合用于法律、医疗等需要处理大量文档的行业。

  • 对话系统:该模型可以用于构建智能对话系统,能够理解和生成复杂的对话内容,提升用户体验。

  • 多模态应用:Qwen2.5-1M模型的设计使其能够与其他模态(如图像、音频)结合,扩展其应用范围到多模态理解和生成任务中。

Qwen2.5-1M的发布不仅填补了开源模型在超长上下文处理领域的空白,更通过技术创新与生态开放,为开发者提供了高性能、低门槛的工具选择。其成功可能加速全球AI产业对长文本应用的探索,并推动开源社区在AGI竞赛中的角色升级。

收藏
最新工具
喵记多APP
喵记多APP

快手推出的边聊天边记录的AI笔记,主要功能包括管理笔记,如剪藏、...

畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...