阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力

阿里2025年4月29日正式发布了Qwen3系列模型。这是Qwen系列大型语言模型的最新成员,旗舰模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多个模型在代码、数学、通用能力等基准测试中表现出色。Qwen3 开源了多个模型权重,并在多个平台开放使用。

Qwen3支持两种思考模式,具备多语言能力,优化了 Agent 和代码能力。其预训练数据量达约 36 万亿个 token,预训练分三个阶段,后训练采用四阶段训练流程。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

模型亮点

  • 多种思考模式:支持思考和非思考两种模式。思考模式适合复杂问题,模型会逐步推理;非思考模式适用于简单问题,能快速响应。两种模式结合增强了 “思考预算” 控制能力,用户可按需配置。

  • 多语言能力:支持 119 种语言和方言,涵盖印欧语系、汉藏语系等多个语系,为国际应用提供了可能。

  • 增强的 Agent 能力:优化了 Agent 和代码能力,加强对 MCP 的支持,通过 Qwen - Agent 可降低工具调用的代码复杂性。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3性能表现

  • 旗舰模型:Qwen3-235B-A22B是该系列的旗舰模型,拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中,该模型与DeepSeek-R1、Openai的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。

  • 小型模型:小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,但表现更优。此外,Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

Qwen3技术特性

  • 混合推理模型:Qwen3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型。这种设计允许模型在解决复杂问题时进行深入推理,而在处理简单请求时快速响应。

  • 多语言支持:Qwen3支持119种语言,并基于近36万亿个token(标记)进行训练,其训练数据量是Qwen2.5的两倍。

  • 上下文长度:Qwen3支持高达256K的上下文长度,这使得它能够处理长文档分析、代码生成与多轮对话等复杂任务。

阿里推出最新模型Qwen3:支持两种思考模式,具备多语言能力.webp

Qwen3模型性能与成本

  • 旗舰版Qwen3-235B-A22B:总参数量为2350亿,激活参数为220亿。与DeepSeek-R1相比,其总参数量仅为后者的三分之一,部署成本预计能节省超过一半。此外,该模型支持按需启用“深度思考”模式,仅需4张H20显卡即可实现本地部署。

  • Qwen3-30B-A3B:总参数量为300亿,激活参数为30亿,总体性能可媲美Qwen2.5-32B。

Qwen3功能特性

  • 原生支持MCP协议:Qwen3系列具备工具调用能力,并结合了自身的Qwen-Agent框架,大大降低了编程复杂性,支持在手机和电脑上实现Agent操作等任务,推动AI从对话走向执行。

  • 多语言支持:支持119种语言,包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。

  • 开源型号:Qwen3系列共开源了8个型号,包括:

  • 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B

  • 2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B

  • 最小型号Qwen3-0.6B:体积轻量,非常适合在手机等端侧设备上部署,同时保持了良好的理解和生成能力,非常适合边缘端智能应用。

训练过程

  • 预训练:数据集相比 Qwen2.5 显著扩展,达到约 36 万亿个 token,是 Qwen2.5 的两倍。数据来源包括网络、PDF 文档等,并利用专家模型合成数学和代码数据。预训练分三个阶段,从基本语言技能训练到增加知识密集型数据训练,再到扩展上下文长度至 32K token。

  • 后训练:采用四阶段训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习,以开发兼具思考推理和快速响应能力的混合模型。

使用方法

  • 基础使用:在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有标准示例代码,可通过修改enable_thinking参数切换思考模式。

  • 部署:使用sglang>=0.4.6.post1或vllm>=0.8.4可创建与 OpenAI API 兼容的 API endpoint,移除特定参数可禁用思考模式。

  • 本地开发:可使用ollama、LMStudio、llama.cpp和ktransformers等工具进行本地开发。

  • 高级用法:提供软切换机制,可在用户提示或系统消息中添加/think和/no_think逐轮切换思考模式。

相关链接

博客:https://qwenlm.github.io/zh/blog/qwen3/

HF:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

github:https://github.com/QwenLM/Qwen3

Demo:https://huggingface.co/spaces/Qwen/Qwen3-Demo

Qwen Chat:https://chat.qwenlm.ai

收藏
最新工具
Oldswf
Oldswf

专门提供经典Flash小游戏的网站,收录了超过5万多不同类型的游...

AutoClip
AutoClip

一款AI智能视频切片工具,能自动下载B站视频、剪辑精彩片段并生成...

EdClub
EdClub

一个提供高品质课程的学习平台,EdClub主要提供打字学习、词汇...

Resource Boy
Resource Boy

一个提供高质量免费样机等设计资源的网站,有很多素材,像材质、笔刷...

AlternativeTo
AlternativeTo

一个众包软件推荐平台,可以帮用户找到更好的应用和服务。你可以搜各...

DaYin.page
DaYin.page

一个强大、免费、易用的在线习题打印生成器网站,可以一键生成数学题...

Mobile Phone Museum
Mobile Phone Museum

一个非营利组织的手机博物馆,目的是存档和保存移动技术,并扩大对移...

BlackACE黑桃A
BlackACE黑桃A

一款可以将网站转换为安卓APP的工具,它可以够帮助个人开发者、创...

Aluo AI
Aluo AI

电商AI图片编辑平台,30 秒就能做出专业的商品图片,它能自动扣...

CrazyGames
CrazyGames

全球有名的免费在线小游戏平台,涵盖动作、冒险、射击、益智、体育、...