ASI前瞻:阿里发布万亿参数推理模型,创下迭代规模新纪录
2026年1月26日,阿里巴巴正式发布千问旗舰推理模型Qwen3-Max-Thinking,总参数量超万亿(1T),预训练数据量高达36T Tokens,成为阿里规模最大、能力最强的推理大模型。该模型在启用工具的“人类最后的测试”HLE中得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8,创下当前所有模型的最高分。
这一突破标志着中国AI产业正从追随者转变为技术规则的重塑者。通过独特的测试时扩展机制和原生智能体能力增强,阿里不仅刷新了多项关键性能基准测试的全球纪录,更在全球AI竞赛中开辟了新的赛道。
01 技术突破:测试时扩展机制的革新意义Qwen3-Max-Thinking最核心的创新在于其测试时扩展(Test-time Scaling)机制。与传统推理机制相比,这一创新技术实现了推理性能提升的同时还更经济。
传统推理计算往往通过简单增加并行推理路径来提升性能,这种方式会导致重复推导已知结论,造成冗余推理效率低下。而阿里的新机制能够对此前推理的结果进行 “经验提取”式的提炼,并据此进行多轮自我迭代,在相同上下文中实现更高效的推理计算。
这种机制的工作原理类似于人类面对复杂问题时的思考策略:先快速形成初步判断,然后基于已有推理结果进行反思和优化。模型在首次推理后,会分析自己的推理过程,提取有价值的经验,并在后续推理中应用这些经验,从而避免重复计算,提高决策质量。
阿里方面表示,这一创新使千问的推理性能和推理效率显著提升,为处理真实世界复杂任务奠定了基础。该机制特别适合需要多步推理的复杂场景,如科学问题求解、复杂数学推理和大型软件开发等任务。
02 性能表现:多项测试刷新全球纪录Qwen3-Max-Thinking在多项权威评测中创下全球新纪录,展现出卓越的综合能力。除了在HLE测试中的领先表现,该模型在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等关键性能基准测试中均刷新了全球纪录。
特别值得关注的是,该模型在聚焦数学推理的两项测试中达到满分,这是国内大模型首次实现这一成就。这一成绩证明了中国大模型在复杂逻辑推理能力上已达到国际顶尖水平。
模型采用混合专家(MoE)架构,总参数量235B,激活参数22B。其预训练数据量达36T tokens,支持119种语言,在编程能力和工具调用能力方面表现尤为突出。
在实际应用场景中,Qwen3-Max-Thinking展现出了更强的实用价值。其模型幻觉大幅降低,回答准确性和可靠性显著提升,为解决真实复杂任务提供了可能。
03 智能体能力:面向未来的自适应工具调用面对即将到来的智能体时代,Qwen3-Max-Thinking在原生Agent能力上实现显著增强。该模型拥有更智能结合工具进行思考的能力,能够自主选用搜索、个性化记忆和代码解释器三个核心的Agent工具功能。
这种自适应工具调用能力的培养是一个系统工程。在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练。这种训练方式使模型不仅能理解工具的功能,还能根据具体情境智能选择和使用最合适的工具。
用户可在QwenChat上完整体验这一能力,模型能够提供专业人士一样水平的回答,更合用户心意、更智能、更流畅。这种能力的提升意味着AI助手正从简单的问答工具向能够主动完成复杂任务的智能代理转变。
该模型的原生Agent能力为未来AI在各行各业的深度应用奠定了基础。从自动化的客户服务到复杂的商业决策支持,从科研辅助到创意生成,这种能够自主调用工具并持续学习的AI系统将极大拓展人工智能的应用边界。
04 生态整合:从技术突破到商业落地阿里此次发布并非孤立的技术秀,而是其“AI办事时代”战略的关键一环。2025年12月初,阿里正式成立千问C端事业群,整合智能信息、智能互联、千问App、夸克及AI硬件等多条C端产品线,明确将千问App打造为面向用户的“超级App”与AI时代的第一入口。
生态整合已初见成效。2026年1月15日,阿里旗下千问App宣布完成新一轮功能升级,正式从“聊天对话”工具迈入“办事时代”。千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,上线生活、政务、工作、教育四大场景多项办事功能,使其成为能够独立完成真实世界任务的AI助手。
数据显示,2025年上半年,阿里通义大模型在国内企业级市场日均Tokens调用量已达1.81万亿,市场份额达17.7%,位列第一。截至目前,通义大模型已服务超100万客户。
阿里独特的优势在于其丰富的应用场景和海量的真实业务数据。这些资源为模型迭代提供了持续反馈,形成技术与商业的正向循环。阿里、字节等头部玩家生态化竞争下,行业竞争正从单一模型能力转向全维度比较。
05 全球布局:中国AI的出海新征程作为国内首个性能达到国际顶尖水平的推理模型,Qwen3-Max-Thinking的发布不仅是技术突破,更是阿里加速AI全球布局的战略信号。2025年,阿里云已在全球范围内投入启用8个新的AI和云数据中心及可用区,覆盖北京、上海等城市及泰国、韩国、马来西亚等地区。
阿里云在全球29个地区运营91个可用区,并宣布将在巴西、法国和荷兰首次设立云计算地域节点,扩建墨西哥、日本、韩国、马来西亚和迪拜的数据中心。这一全球基础设施布局为阿里AI技术的国际化提供了坚实基础。
国际市场的认可度也在不断提升。国际研究机构Omdia将阿里云评为AI云市场的“领导者”,这也是唯一入选的中国科技公司。新加坡国家人工智能计划宣布采用Qwen架构替代Meta模型,推出的Qwen-SEA-LION-v4模型在东南亚语言处理榜单中位列首位。
阿里AI的全球影响力通过开源生态进一步扩大。截至2026年1月,阿里千问衍生模型数突破20万个,成为全球首个达成此目标的开源大模型。千问系列模型下载量突破10亿次,平均每天被下载110万次,已完全超越美国Llama。
过去四个季度,阿里已在AI基础设施及产品研发上累计投入超过1000亿元。这笔历史性投入的最新结晶正重塑全球AI竞争格局。
当Qwen3-Max-Thinking在HLE测试中超越GPT-5.2时,中国AI产业迎来了从技术追随者到规则制定者的关键转折。阿里不仅证明了在推理能力上的突破,更展现了中国在全球AI治理体系中话语权的提升。 |
手机版|ASI网-未来AI社区 ( 闽ICP备2025094058号-10 )|网站地图
GMT+8, 2026-2-11 09:37 , Processed in 0.038876 second(s), 20 queries .
Powered by Discuz! X3.5
© 2001-2026 Discuz! Team.