阿里发布并开源Qwen3，无缝集成思考模式_香港中福期货_中福期货

阿里发布并开源Qwen3，无缝集成思考模式

来源：香港中福期货作者：admin 时间：2025-04-29

　阿里巴巴周一发布并开源通义千问3.0（Qwen3）系列模型，并称其在数学和编程等多个方面均可与DeepSeek的性能相媲美。与其他主流模型相比，Qwen3还显著降低了部署成本。阿里表示，Qwen3无缝集成两种思考模式，支持119种语言，便于Agent调用。

　　性能媲美DeepSeek R1、OpenAI o1，全部开源

　　Qwen3系列包括两个专家混合（MoE）模型和另外六个模型。阿里巴巴表示，最新发型的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中，与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比，表现出极具竞争力。

　　此外，被称为“专家混合”（MoE，Mixture-of-Experts）模型的Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%，表现更胜一筹，甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。这类系统模拟人类解决问题的思维方式，将任务划分为更小的数据集，类似于让一组各有所长的专家分别负责不同部分，从而提升整体效率。

　　同时，阿里巴巴还开源了两个MoE模型的权重：拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B，以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。此外，六个Dense模型也已开源，包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B，均在Apache 2.0许可下开源。

　　“混合型”模型，两种思考模式

　　阿里巴巴表示，Qwen 3系列是“混合型”模型，既可以花时间“推理”以解决复杂问题，也可以快速回答简单请求，分别叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能够有效地进行自我事实核查，类似于OpenAI的o3模型，但代价是推理过程中的延迟时间较高。

　　Qwen团队在博客文章中写道：

这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如，复杂的问题可以通过扩展推理步骤来解决，而简单的问题则可以直接快速作答，无需延迟。

至关重要的是，这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述，Qwen3展现出可扩展且平滑的性能提升，这与分配的计算推理预算直接相关。

这样的设计让用户能够更轻松地为不同任务配置特定的预算，在成本效益和推理质量之间实现更优的平衡。