首页 > Ai资讯 > Ai产品

阿里推出最新模型Qwen3：支持两种思考模式，具备多语言能力

Qwen3于2025-04-29发布在Ai产品

阿里2025年4月29日正式发布了Qwen3系列模型。这是Qwen系列大型语言模型的最新成员，旗舰模型Qwen3-235B-A22B和小型 MoE 模型Qwen3-30B-A3B等多个模型在代码、数学、通用能力等基准测试中表现出色。Qwen3 开源了多个模型权重，并在多个平台开放使用。

Qwen3支持两种思考模式，具备多语言能力，优化了 Agent 和代码能力。其预训练数据量达约 36 万亿个 token，预训练分三个阶段，后训练采用四阶段训练流程。

阿里推出最新模型Qwen3：支持两种思考模式，具备多语言能力.webp

模型亮点

多种思考模式：支持思考和非思考两种模式。思考模式适合复杂问题，模型会逐步推理；非思考模式适用于简单问题，能快速响应。两种模式结合增强了 “思考预算” 控制能力，用户可按需配置。
多语言能力：支持 119 种语言和方言，涵盖印欧语系、汉藏语系等多个语系，为国际应用提供了可能。
增强的 Agent 能力：优化了 Agent 和代码能力，加强对 MCP 的支持，通过 Qwen - Agent 可降低工具调用的代码复杂性。

阿里推出最新模型Qwen3：支持两种思考模式，具备多语言能力.webp

旗舰模型：Qwen3-235B-A22B是该系列的旗舰模型，拥有2350多亿总参数和220多亿激活参数。在代码、数学、通用能力等基准测试中，该模型与DeepSeek-R1、Openai的o1和o3-mini、马斯克的Grok-3以及谷歌的Gemini-2.5-Pro等顶级模型相比，表现出极具竞争力的结果。
小型模型：小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，但表现更优。此外，Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

混合推理模型：Qwen3是国内首个“混合推理模型”，将“快思考”与“慢思考”集成进同一个模型。这种设计允许模型在解决复杂问题时进行深入推理，而在处理简单请求时快速响应。
多语言支持：Qwen3支持119种语言，并基于近36万亿个token（标记）进行训练，其训练数据量是Qwen2.5的两倍。
上下文长度：Qwen3支持高达256K的上下文长度，这使得它能够处理长文档分析、代码生成与多轮对话等复杂任务。

阿里推出最新模型Qwen3：支持两种思考模式，具备多语言能力.webp

旗舰版Qwen3-235B-A22B：总参数量为2350亿，激活参数为220亿。与DeepSeek-R1相比，其总参数量仅为后者的三分之一，部署成本预计能节省超过一半。此外，该模型支持按需启用“深度思考”模式，仅需4张H20显卡即可实现本地部署。
Qwen3-30B-A3B：总参数量为300亿，激活参数为30亿，总体性能可媲美Qwen2.5-32B。

原生支持MCP协议：Qwen3系列具备工具调用能力，并结合了自身的Qwen-Agent框架，大大降低了编程复杂性，支持在手机和电脑上实现Agent操作等任务，推动AI从对话走向执行。
多语言支持：支持119种语言，包括中文、英文、法文、西班牙文、俄文、阿拉伯文等。
开源型号：Qwen3系列共开源了8个型号，包括：

预训练：数据集相比 Qwen2.5 显著扩展，达到约 36 万亿个 token，是 Qwen2.5 的两倍。数据来源包括网络、PDF 文档等，并利用专家模型合成数学和代码数据。预训练分三个阶段，从基本语言技能训练到增加知识密集型数据训练，再到扩展上下文长度至 32K token。
后训练：采用四阶段训练流程，包括长思维链冷启动、长思维链强化学习、思维模式融合以及通用强化学习，以开发兼具思考推理和快速响应能力的混合模型。

基础使用：在 Hugging Face 的transformers中使用 Qwen3-30B-A3B 有标准示例代码，可通过修改enable_thinking参数切换思考模式。
部署：使用sglang>=0.4.6.post1或vllm>=0.8.4可创建与 OpenAI API 兼容的 API endpoint，移除特定参数可禁用思考模式。
本地开发：可使用ollama、LMStudio、llama.cpp和ktransformers等工具进行本地开发。
高级用法：提供软切换机制，可在用户提示或系统消息中添加/think和/no_think逐轮切换思考模式。