阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力

阿里2025年4月29日正式发布了Qwen3系列模型。这是Qwen系列大型语言模型的最新成员,旗舰模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多个模型在代码、数学、通用能力等基准测试中表现出色。Qwen3 开源了多个模型权重,并在多个平台开放使用。

Qwen3支持两种思考模式,具备多语言能力,优化了 Agent 和代码能力。其预训练数据量达约 36 万亿个 token,预训练分三个阶段,后训练采用四阶段训练流程。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

模型亮点

  • 多种思考模式:支持思考和非思考两种模式。思考模式适合复杂问题,模型会逐步推理;非思考模式适用于简单问题,能快速响应。两种模式结合增强了 “思考预算” 控制能力,用户可按需配置。

  • 多语言能力:支持 119 种语言和方言,涵盖印欧语系、汉藏语系等多个语系,为国际应用提供了可能。

  • 增强的 Agent 能力:优化了 Agent 和代码能力,加强对 MCP 的支持,通过 Qwen - Agent 可降低工具调用的代码复杂性。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3性能表现

  • 旗舰模型:Qwen3-235B-A22B是该系列的旗舰模型,拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,该模型与DeepSeek-R1、Openai的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,但表现更优。此外,Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

Qwen3技术特性

  • 混合推理模型:Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。这种设计允许模型在解决复杂问题时进行深入推理,而在处理简单请求时快速响应。

  • 多语言支持:Qwen3支持119种语言,并基于近36万亿个token(标记)进行训练,其训练数据量是Qwen2.5的两倍。

  • 上下文长度:Qwen3支持高达256K的上下文长度,这使得它能够处理长文档分析、代码生成与多轮对话等复杂任务。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3模型性能与成本

  • 旗舰版Qwen3-235B-A22B:总参数量为2350亿,激活参数为220亿。与DeepSeek-R1相比,其总参数量仅为后者的三分之一,部署成本预计能节省超过一半。此外,该模型支持按需启用“深度思考”模式,仅需4张H20显卡即可实现本地部署。

  • Qwen3-30B-A3B:总参数量为300亿,激活参数为30亿,总体性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP协议:Qwen3系列具备工具调用能力,并结合了自身的Qwen-Agent框架,大大降低了编程复杂性,支持在手机和电脑上实现Agent操作等任务,推动AI从对话走向执行。

  • 多语言支持:支持119种语言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 开源型号:Qwen3系列共开源了8个型号,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B

  • 最小型号Qwen3-0.6B:体积轻量,非常适合在手机等端侧设备上部署,同时保持了良好的理解和生成能力,非常适合边缘端智能应用。

训练过程

  • 预训练:数据集相比 Qwen2.5 显著扩展,达到约 36 万亿个 token,是 Qwen2.5 的两倍。数据来源包括网络、PDF 文档等,并利用专家模型合成数学和代码数据。预训练分三个阶段,从基本语言技能训练到增加知识密集型数据训练,再到扩展上下文长度至 32K token。

  • 后训练:采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习,以开发兼具思考推理和快速响应能力的混合模型。

使用方法

  • 基础使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有标准示例代码,可通过修改enable_thinking参数切换思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可创建与 OpenAI API 兼容的 API endpoint,移除特定参数可禁用思考模式。

  • 本地开发:可使用ollama、LMStudio、llama.cpp和ktransformers等工具进行本地开发。

  • 高级用法:提供软切换机制,可在用户提示或系统消息中添加/think和/no_think逐轮切换思考模式。

相关链接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
畅图
畅图

一款由摹客推出的AI原生可视化工具,专为个人和团队的创意表达、知...

Ztalk ai
Ztalk ai

一个AI驱动的会议实时语音翻译平台,可以与 Zoom、Googl...

Supercut
Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动...

DreamShootAI
DreamShootAI

一个能帮你用照片生成各种风格图片的AI情侣照片生成工具,比如情侣...

讯飞星辰MaaS
讯飞星辰MaaS

科大讯飞开发的一款一站式AIGC内容运营平台,主要面向开发者,提...

星辰Agent开发平台
星辰Agent开发平台

讯飞星火新一代智能体Agent开发平台,助力开发者快速搭建生产级...

Drimo智能影视创作平台
Drimo智能影视创作平台

一款由追梦极客推出的面向影视、广告从业者以及AI视频创作者设计的...

码上飞
码上飞

一个需求秒变软件的全流程自动化智能开发平台,码上飞是L4级无人软...

Simular AI
Simular AI

一款专为Mac用户设计的本地AI智能助手,它能通过自然语言处理执...

FotoForensics
FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具,主要...