阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力

阿里2025年4月29日正式发布了Qwen3系列模型。这是Qwen系列大型语言模型的最新成员,旗舰模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多个模型在代码、数学、通用能力等基准测试中表现出色。Qwen3 开源了多个模型权重,并在多个平台开放使用。

Qwen3支持两种思考模式,具备多语言能力,优化了 Agent 和代码能力。其预训练数据量达约 36 万亿个 token,预训练分三个阶段,后训练采用四阶段训练流程。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

模型亮点

  • 多种思考模式:支持思考和非思考两种模式。思考模式适合复杂问题,模型会逐步推理;非思考模式适用于简单问题,能快速响应。两种模式结合增强了 “思考预算” 控制能力,用户可按需配置。

  • 多语言能力:支持 119 种语言和方言,涵盖印欧语系、汉藏语系等多个语系,为国际应用提供了可能。

  • 增强的 Agent 能力:优化了 Agent 和代码能力,加强对 MCP 的支持,通过 Qwen - Agent 可降低工具调用的代码复杂性。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3性能表现

  • 旗舰模型:Qwen3-235B-A22B是该系列的旗舰模型,拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,该模型与DeepSeek-R1、Openai的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,但表现更优。此外,Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

Qwen3技术特性

  • 混合推理模型:Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。这种设计允许模型在解决复杂问题时进行深入推理,而在处理简单请求时快速响应。

  • 多语言支持:Qwen3支持119种语言,并基于近36万亿个token(标记)进行训练,其训练数据量是Qwen2.5的两倍。

  • 上下文长度:Qwen3支持高达256K的上下文长度,这使得它能够处理长文档分析、代码生成与多轮对话等复杂任务。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3模型性能与成本

  • 旗舰版Qwen3-235B-A22B:总参数量为2350亿,激活参数为220亿。与DeepSeek-R1相比,其总参数量仅为后者的三分之一,部署成本预计能节省超过一半。此外,该模型支持按需启用“深度思考”模式,仅需4张H20显卡即可实现本地部署。

  • Qwen3-30B-A3B:总参数量为300亿,激活参数为30亿,总体性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP协议:Qwen3系列具备工具调用能力,并结合了自身的Qwen-Agent框架,大大降低了编程复杂性,支持在手机和电脑上实现Agent操作等任务,推动AI从对话走向执行。

  • 多语言支持:支持119种语言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 开源型号:Qwen3系列共开源了8个型号,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B

  • 最小型号Qwen3-0.6B:体积轻量,非常适合在手机等端侧设备上部署,同时保持了良好的理解和生成能力,非常适合边缘端智能应用。

训练过程

  • 预训练:数据集相比 Qwen2.5 显著扩展,达到约 36 万亿个 token,是 Qwen2.5 的两倍。数据来源包括网络、PDF 文档等,并利用专家模型合成数学和代码数据。预训练分三个阶段,从基本语言技能训练到增加知识密集型数据训练,再到扩展上下文长度至 32K token。

  • 后训练:采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习,以开发兼具思考推理和快速响应能力的混合模型。

使用方法

  • 基础使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有标准示例代码,可通过修改enable_thinking参数切换思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可创建与 OpenAI API 兼容的 API endpoint,移除特定参数可禁用思考模式。

  • 本地开发:可使用ollama、LMStudio、llama.cpp和ktransformers等工具进行本地开发。

  • 高级用法:提供软切换机制,可在用户提示或系统消息中添加/think和/no_think逐轮切换思考模式。

相关链接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...

美团NoCode
美团NoCode

美团推出的一款对话式AI编程智能体产品,是一款不需要编程背景和经...