
导语:1月26日,阿里正式发布千问旗舰推理模子Qwen3-Max-Thinking,创下数项权势巨子评测全世界新纪录,机能媲美GPT-5.二、Gemini 3 Pro,成为 1月26日,阿里正式发布千问旗舰推理模子Qwen3-Max-Thinking,创下数项权势巨子评测全世界新纪录,机能媲美GPT-5.二、Gemini 3 Pro,成为迄今为止最靠近国际顶尖模子的海内最强AI年夜模子。经由过程总参数、强化进修、推理计较的极致范围扩大,千问新模子实现了机能的年夜幅奔腾,刷新科学常识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项要害机能基准测试的全世界纪录。 Qwen3-Max-Thinking是今朝阿里范围最年夜、能力最强的千问推理模子,其总参数目超万亿(1T),预练习数据量高达36T Tokens。此前,预览版Qwen3-Max-Thinking斩获数学推理AIME 25及HMMT 25的海内首个双满分,推理机能已经让人冷艳;于此基础上,阿里通义团队举行了更年夜范围的强化进修后练习,周全晋升了正式版Qwen3-Max-Thinking机能:于涵盖事实常识、繁杂推理、指令遵照、人类偏好对于齐、Agent能力等19个公认的年夜模子基准测试中,千问旗舰推理模子刷新了数项最好体现(SOTA)纪录,总体机能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 及 Gemini 3 Pro 。 于要害的模子推理能力晋升中,千问新模子采用了一种全新的测试时扩大(Test-time Scaling)机制,推理机能晋升的同时还有更经济。业界遍及的推理时计较,只会简朴增长并行推理路径,反复推导已经知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对于此前推理的成果举行“经验提取”式的提炼,并据此举行多轮自我迭代,于不异的上下文中实现更高效的推理计较,得到更智能的推理成果。基在这一推理技能立异,千问推理机能及推理效率年夜为晋升,好比于启用东西的“人类末了的测试”HLE中,千问患上分58.3,年夜幅跨越GPT-5.2-Thinking的45.五、Gemini 3 Pro的45.8,录恰当前所有模子的最高分。 面向行将到来的智能体Agent时代,Qwen3-Max-Thinking还有年夜幅加强了自立挪用东西的原生Agent能力。详细而言,于完成开端的东西利用微调后,通义团队对于模子进一步于年夜量多样化使命长进行了基在法则奖励与模子奖励的结合强化进修练习,使患上Qwen3-Max-Thinking拥有更智能联合东西举行思索的能力。这类自顺应的东西挪用能力可于QwenChat上完备体验,模子自立选用搜刮、个性化影象及代码注释器等三个焦点的Agent东西功效,提供专业人士同样程度的回覆,更适用户心意、更智能、更流利;同时,模子幻觉也年夜为降低,为解决真实繁杂使命打下基础。 今朝,开发者可于QwenChat上免费体验Qwen3-Max-Thinking模子,企业可经由过程阿里云百炼获取新模子API办事,平凡用户也可经由过程千问PC端及网页端试用模子。据相识,千问APP也行将接入新模子,所有效户均可免费体验千问最强模子。 雷峰网版权文章,未经授权禁止转载。详情见转载须知。