阿里发布并开源Qwen3,无缝集成思考模式
来源:香港中福期货 作者:admin
阿里巴巴周一发布并开源通义千问3.0(Qwen3)系列模型,并称其在数学和编程等多个方面均可与DeepSeek的性能相媲美。与其他主流模型相比,Qwen3还显著降低了部署成本。阿里表示,Qwen3无缝集成两种思考模式,支持119种语言,便于Agent调用。
性能媲美DeepSeek R1、OpenAI o1,全部开源
Qwen3系列包括两个专家混合 (MoE) 模型和另外六个模型。阿里巴巴表示,最新发型的旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力。
此外,被称为“专家混合”(MoE,Mixture-of-Experts)模型的Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。这类系统模拟人类解决问题的思维方式,将任务划分为更小的数据集,类似于让一组各有所长的专家分别负责不同部分,从而提升整体效率。
同时,阿里巴巴还开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。
“混合型”模型,两种思考模式
阿里巴巴表示,Qwen 3系列是“混合型”模型,既可以花时间“推理”以解决复杂问题,也可以快速回答简单请求,分别叫做“思考模式”和“非思考模式”。“思考模式”中的推理能力使得模型能够有效地进行自我事实核查,类似于OpenAI的o3模型,但代价是推理过程中的延迟时间较高。
Qwen团队在博客文章中写道:
这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。
至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的“思考预算”控制能力。如上文所述,Qwen3展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。
这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。