中国“AI四巨头”罕见同台,阿里、腾讯、Kimi与智谱“论剑”:大模型的下一步与中国反超的可能性

 中国“AI四巨头”罕见同台,阿里、腾讯、Kimi与智谱“论剑”:大模型的下一步与中国反超的可能性

硬AI 


大模型竞争已从“Chat”转向“Agent”阶段,重心从榜单分数位移至真实环境的复杂任务执行。行业预判2026年为商业价值落地元年,技术路径正向可验证强化学习(RLVR)演进。面对“中国反超”议题,领军者持冷静态度,将领先概率评估为20%以内,认为中美在算力投入结构、新范式引领及toB生态上的本质差距。
要点提炼:

竞争坐标迁移:Chat 时代的工程问题已基本解决,未来的胜负手不再是更聪明的“搜索框”,而是能否完成复杂、长链路的真实任务。AI 的核心价值正从“提供信息”转向“交付生产力”。
核心门槛更迭:Agent 的瓶颈不在于思维深度,而在于环境反馈。未来的训练范式将从人工标注转向 RLVR(可验证强化学习),只有让模型在具备明确对错判定(如代码数学、真实业务流)的“关卡系统”中自我迭代,才能实现落地。
效率成为新杠杆:高质量数据即将枯竭,未来的竞争是“能源转化效率”的竞赛。通过二阶优化器和线性架构实现更高的 Token Efficiency(单位数据学习效果),是在算力受限背景下突破智能天花板的关键。
概率的清醒认知:行业共识认为中国在旧范式(工程复现、局部优化、toC 落地)上的反超胜率很高,但在引领新范式(底层架构革新、长期记忆等)上的胜率可能不超过 20%,因为美国在基础研究上的算力投入高出数个量级。
弯道超车的机会窗口:反超的机会藏在两个变量里:一是当 Scaling Law 遭遇边际效应递减,全球被迫进入“智能效率”竞赛时,中国的节俭式创新可能突围;二是随着学术界算力条件的改善,2026 年前后可能出现由学术驱动的范式转向。
成功的终极变量:中国最缺的不是榜单分数,而是对不确定性的容忍度。真正的反超取决于我们是否敢于从“确定性的交付压力”中抽身,将资源投向那些可能失败但能定义未来的新范式,而非仅仅在旧赛道刷榜。
近日,由清华大学基础模型北京市重点实验室发起AGI-Next前沿峰会,把AI圈大半边天聚到了一块。基模四杰全员到场:智谱唐杰、Kimi杨植麟、阿里林俊旸,还有“突然贴脸跳屏”的姚顺雨。


他们认为,大模型竞争已从单纯的“聊天(Chat)”能力和榜单分数,转向能够进入真实环境、可验证并完成复杂任务的智能体(Agent)阶段。行业普遍预计,2026年将不再是“更强模型之年”,而是模型真正跑通业务流程、创造商业价值的关键年份。

针对投资者最为关心的“中国能否反超”这一议题,峰会传递出的情绪冷静而现实。尽管中国具备极强的工程复现与制造逻辑下的追赶能力,但多位核心人物将中国在下一代范式中领先的概率评估为不超过20%。这种谨慎源于中美在算力投入结构上的本质差异——美国倾向于投资“下一代研究”的高风险探索,而中国目前的算力更多被交付与产品化占据。

从“更会聊”到“能做事”:评估坐标发生质变
大模型行业的评估坐标系已发生根本性位移。唐杰表示,Chat这一代的问题已“差不多解决”,行业重心正从“更会聊天”转向“能完成任务”。过去市场追逐的是模型在考卷上的“分数”,而现在的核心指标变成了在真实环境中的“跑通率”。

对于企业而言,AI如果仅是更聪明的搜索框,其价值有限;但如果AI能将任务执行的成功率从偶然变为必然,则意味着生产力的质变。因此,唐杰、杨植麟等四位行业领袖达成共识:AI正在从Chat走向Thinking、Coding与Agent。

在这一阶段,RLVR(可验证强化学习)成为关键技术路径。唐杰强调,在数学、编程等结果可判定的领域,模型可以通过闭环自我探索;但在网页交互等复杂任务中,“可验证空间”稀缺。未来的竞争门槛,不是让模型多想几步,而是建立足够复杂、真实且可判分的“关卡系统”,让模型在其中通过“刷经验”实现迭代。

商业化分歧:ToB的高溢价与垂直分层
随着技术重点转向Agent,商业化路径也出现了明显的分化。姚顺雨指出,toC与toB的逻辑将渐行渐远。在toC市场,用户体验的提升并不必然带来留存提升;但在toB市场,企业最恐惧的不是慢,而是“错且不可控”。

此外,行业对“垂直整合”的看法也在修正。姚顺雨观察到,在toB领域,模型层偏向“硬核工业化”,拼的是预训练与算力;而应用层偏向“业务工程化”,拼的是流程与交付。这导致未来toB市场可能走向分层结构:最强的模型配合最懂场景的应用团队,而非单纯的“模型即产品”。这对中国公司是一个警示:不能只盯着榜单,而需关注在具体业务链路中的落地与迭代能力。

中国反超的概率:乐观预期下的结构性瓶颈
关于“中国领先概率”的讨论,峰会呈现出一种“结构性冷静”。尽管市场热衷于讨论“崛起”与“占榜”,但林俊旸等业内人士将中国领先新范式的概率上限压至20%。

这种谨慎评估基于中美在算力使用上的结构性差异:

投入方向差异: 美国将大量算力投向“下一代Research”,具备高容错率,旨在赌未来;中国则将大量算力用于交付与产品化,旨在“先活下来”。
范式话语权: 姚顺雨指出,中国在复现与工程化上极强,一旦路径被证明可行,能迅速做得更好(如制造业、电动车逻辑)。但真正的难点在于能否引领如长期记忆、自主学习框架等“新范式”,而不是在旧范式里“刷榜”。
算力瓶颈、软硬生态的完善度,以及toB市场的付费意愿,构成了制约中国模型发展的“三道门槛”。如果生态系统只奖励确定性的榜单数字,而将冒险精神挤出组织结构,那么反超将难以实现。

以下为演讲全文,由量子位整理:

唐杰

我的题目是「让机器像人一样思考」。

2019年,我们在清华的支持下完成成果转化,成立了智谱。

同一时期,我们也持续推动开源,既有模型和工具层面的项目,也有面向开发者的大模型 API 体系。

我在清华待了将近二十年。

回头看,我做的事情其实很简单,主要就两件:

一是早年做AMiner;二是大模型。

有一个对我影响很深的观念,我称之为「像喝咖啡一样做研究」。这件事和今天在座的一位嘉宾密切相关——杨强教授。

刚毕业那会儿我去港科大,学校几乎所有空间都在一栋楼里:教室、实验室、会议室、咖啡厅都在一起。

有一次在咖啡厅遇到杨老师,我说最近咖啡喝得有点多,可能该戒一戒。

他先说「对,应该戒一戒」,接着又说,如果我们做研究也能像喝咖啡一样上瘾,那研究大概就真的能做好了。

这句话对我触动很大,从2008年一直影响到现在。

做研究,本质上需要长期专注和持续投入。AGI正是这样一件事,它并不追求短期见效,而是一项多年投入的工程。

2019 年,我们实验室在图神经网络和知识图谱方向已经有一定国际影响力,但当时还是下定决心阶段性按下暂停键,几乎所有人都转向大模型相关研究。到今天,算是做出了一点点成果。

如果从大模型的发展轨迹来看,用「智能水平」来描述会比较直观。

2020年前后,模型主要解决的是MMU、QA等相对简单的问题;到2021、2022 年,开始进入数学计算和基础推理阶段;通过后训练,这些能力逐步被补齐。

到2023、2024年,模型从知识记忆走向复杂推理,甚至可以处理研究生层级的问题,并开始在SWE-bench这类真实世界编程任务中表现出可用性。

这个过程很像人的成长:从阅读、算术,到更复杂的推理,再到走向真实工作场景。

今年开始,大家也看到 HLE,也就是「人类终极测试」,其中不少问题连搜索引擎都无法直接给出答案,要求模型具备更强的泛化能力。

如何解决,目前仍然没有确定答案,但可以确认的是,到2025年,模型的整体能力仍在快速提升。

从另一个角度看,一个核心问题是:模型如何从Scaling走向真正的泛化能力。

人类一直期待机器具备泛化能力。教它少量例子,就能举一反三,解决更多甚至未见过的问题。

这和我们教孩子的期望一致:学会三个问题,就能解出第四个、第十个,甚至超出原本教学范围。

当前的路径,是希望通过Scaling提升这种泛化能力。但客观来说,模型的泛化水平仍有很大提升空间,我们只能在不同层面持续推进。

最早期的阶段,是用Transformer训练模型,通过大规模数据和算力,把大量知识「记住」。

第二个阶段,是对模型进行对齐和推理能力强化,让它更好地理解人类意图,并完成更复杂的推理任务。

这需要持续ScalingSFT,甚至引入强化学习。通过大量人类反馈数据,不断扩大反馈规模,使模型更准确、更可靠。

今年一个重要变化是RLVR。

过去强化学习难以大规模推进,核心原因在于依赖人类反馈,而人类反馈存在噪音大、覆盖场景有限的问题。如果引入可验证环境,模型就可以自主探索、自动获得反馈,在闭环中持续成长。

但这里的难点也非常明显。所谓「可验证」,在数学、编程等领域相对容易定义;可一旦扩展到更广泛的任务,比如网页是否美观、交互是否合理,仍需人工判断。

因此,当前RLVR面临的挑战在于:可验证场景正在逐渐耗尽。接下来是否能进入半自动验证,甚至不可验证的任务空间,让模型能力继续泛化,这是一个关键问题。

再往前看,当机器开始进入物理世界、执行真实任务时,如何构建智能体的环境、如何设计反馈机制,会带来更多挑战。可以看到,AI的发展已经不再局限于单一模型或Transformer结构,而是在演变为一个复杂的、系统化的智能体系。

从能力结构上看,模型最初集中在数理化等推理任务,从小学、初中、高中层级,逐步提升到GPQA等高难度理化生问题,再到接近奥赛金牌水平。今年HLE这一极高难度的智能评测基准,也开始出现明显进展。

在真实环境中,代码能力是另一个典型例子。2021年已经存在代码模型,当时也和俊旸、Kimi植麟等有过合作,那一阶段模型具备基础编程能力,但成功率和稳定性有限,往往写十个程序才能跑通一个。

如今情况发生了明显变化,模型在复杂任务中往往可以一次性跑通,已经开始实质性地辅助高级工程师完成更复杂的工程工作。

很多人会问,智能不断增强,是否只要持续把模型训练下去就可以了?

DeepSeek横空出世,当时我们在内部反复讨论一个问题:

Chat这一代问题基本已经被解决得差不多。继续优化,大概率也只是做到性能接近,或在个性化、情感化上做一些改进。从整体范式看,空间正在迅速收敛,剩下更多是工程和实现层面的挑战。

这迫使我们思考下一步方向。我们的判断是,新的范式不再只是「对话」,而是让每个人真正用AI完成一件具体的事情。

从Chat走向做事,这是一个明显的转折点。

当时摆在我们面前的,主要有两条思路:一条是围绕Thinking能力,结合Coding与Agent;

另一条是让模型更深度地与环境交互,用AI直接辅助研究,例如DeepResearch,生成复杂研究报告。这是一次取舍。

我们最终优先选择了前一条路径,强化Thinking能力并引入Coding场景,同时并未完全放弃与环境交互的方向。

7月28日,我们做了一次尝试,将Coding、Agentic和Reasoning能力整合在同一个模型中。

在7月28日发布的4.5版本中,我们用12个Benchmark做了系统评测,在智能体、推理和代码任务上取得了当时相对领先的结果。

随后我们很快将4.5开放给用户使用,让大家在真实场景中编程。

问题很快暴露出来。比如有用户希望一句话生成一个可玩的植物大战僵尸游戏,包含完整界面、交互逻辑、得分机制和后台系统。4.5在这类真实复杂环境中频繁出Bug,难以完成任务。

这正好指向RLVR可验证强化学习的价值。我们构建了大量真实编程环境,将其作为强化学习的可验证反馈源,同时结合SFT数据进行双向优化,使模型在真实交互中逐步提升稳定性。

类似的方法也被引入到Web场景中,通过Web环境反馈增强可验证性。

在这一策略下,我们在SWE-bench等真实世界评测中取得了较好的成绩,近期也持续保持不错表现。

但Benchmark成绩并不等同于主模型能力。如何将这些能力可靠地回灌到主模型,仍是一个巨大挑战。很多模型在单项Benchmark上表现突出,但用户真实体感未必提升。

另一个挑战在于训练体系本身。RL任务种类多样,序列长度和时间尺度差异极大,难以统一调度。为此,我们开发了一个全异步强化学习训练框架,使不同任务能够并行运行、动态收敛。这一框架也在今年完成了开源。

在此基础上,Agent和Coding能力获得了明显提升。近期发布的4.7版本,相比4.6和4.5,在这两个维度上都有显著进步。

体感评估同样关键。真实用户并不关心模型分数,而关心自己的程序能否跑通、结果是否可靠。为此,我们组织了大量人工评测,邀请经验丰富的工程师对真实编程任务进行主观评估。目前仍有不少问题有待解决,但方向已经逐渐清晰。

在整合这些能力之后,到2025年底,我们在ArtificialAnalysis榜单上取得了一个相对不错的综合成绩,算是阶段性的结果。

再往前一步,当模型真正进入Agent环境并尝试大规模落地时,问题会变得更加复杂。

可以把Agent的最基础能力理解为编程。程序写好后即可执行,对应到Agent中就是一个或几个action。但当任务复杂度继续提升,就会出现完全不同的形态。

左边是Claude提出的computer use,中间是豆包的手机Agent,右边是Manus所做的异步、超长链路任务。

如果你希望AI完成几十步、上百步的任务,比如全天候监控小红书上关于清华大学的讨论,自动整理主题并生成文档,这类任务本质上是完全异步的,也极其复杂。它不可能依赖人工盯着设备执行,更接近于一种Device use层面的能力。

这类问题带来的更大挑战,并不完全在于数据规模。很多应用场景本身几乎没有现成数据,更多是代码逻辑,典型的冷启动问题。

早期我们确实采集并整合了大量数据,通过SFT和特定领域的强化学习,在部分场景中取得了较好效果,但很快会发现一个现实问题:传统的iphone use或手机交互,本质是点按钮,而AI的交互对象并非人。

如果从系统角度看,AI并不需要操作手机界面,最理想的方式是直接调用API。但现实是,设备不可能完全API化,GUI依然存在。

这就需要一种混合方案。在对AI友好的场景下,优先采用API;在对人友好的场景下,让AI模拟人完成GUI操作。通过将API与GUI结合,我们在大量真实环境中采集交互数据,并进行全异步强化学习,使模型逐步获得一定程度的泛化能力。

需要强调的是,这种泛化能力仍然非常有限,与理想状态存在明显差距,但已经具备初步迁移和适应能力。

冷启动带来的另一个问题,是强化学习本身的风险。如果数据不足,模型容易在强化过程中陷入局部最优,表现为策略固化、路径收窄,最终整体效果偏移。

为应对这一问题,我们在训练过程中引入交替机制,在强化学习过程中周期性插入SFT,用以校正方向、恢复多样性,使模型具备一定的容错能力和回拉能力,从而形成可扩展的训练范式。

在移动端环境中,这一策略已经在安卓场景下取得了相对明显的效果提升。

另外在多任务的大模型强调学习上,我们也做了一定的工作,在算法上主要采用多轮的强化学习,工程上本质上就是Scaling,让它更大规模的往下。

今年我们大概在12月份的时候开源了AutoGLM,把里面所有的东西都开源。这个模型是9B模型,可以在人机交互里面动作特别快。

我们在9B规模的模型上引入了大量Agent相关数据,模型在Agent任务上的能力显著增强,但原有的一部分通用语言能力和推理能力会出现下降。它不再是一个完全通用的模型,而是更偏向Agent取向。

在未来更大规模的Agent模型中,如何在强化Agent能力的同时,避免损害通用能力,这是一个需要解决的问题。

2025年也是GLM的开源年。从1月到12月,我们陆续开源了多条模型线,涵盖语言模型、智能体模型以及多模态模型,包括GLM-4.6、4.6V、4.5V等一系列版本。

在Artificial Analysis榜单上,前五名中的蓝色模型几乎全部来自中国,说明中国在开源大模型领域已经形成了非常显著的影响力。

下面一个问题,我们还能否继续Scaling?下一个AGI范式可能是什么?同时也面临更多现实挑战。

在开源取得进展之后,容易产生一种乐观情绪,觉得中国大模型已经在某些维度上超过了美国。但差距未必在缩小,甚至可能在扩大。

下一步我们应该怎么做?

从大模型的发展路径看,它本质上一直在借鉴人脑认知的学习过程。最早阶段,是把世界的长期知识尽可能「背下来」,就像孩子先大量阅读;随后逐步学会推理、数学、抽象与演绎。

这条主线仍然成立,有几类能力,人类显著领先于当前模型,可能是新的突破方向。

第一,多模态。

人通过视觉、听觉、触觉等多种输入形成整体认知,感统能力不足会直接影响判断和行动。

模型如何建立类似的多模态「感统」机制,也就是原生多模态,是一个关键方向。

第二,记忆与持续学习。

人类具备多层级记忆结构,包括短期记忆、工作记忆和长期记忆。

进一步看,个体的长期记忆本身也并不等同于「知识」。只有当知识被记录,才会真正进入人类文明的长期记忆体系。

未来如何从个体记忆扩展到群体级、文明级的记忆结构,并将其纳入模型可持续学习框架,是一个重要问题。

第三,反思与自我认知能力。

当前模型已经具备初步的反思能力,但更深层次的自我认知仍然存在巨大争议。学界对此分歧明显,有人支持,有人反对。我个人倾向于认为,这是有可能的,值得探索。

人类认知是双系统,系统一和系统二。

系统一完成了95%的任务,比如「你今晚吃饭吗」,随口回答「吃」,这些是系统一背下来的。

系统二只在更复杂的情境中启动,占比大约5%。

对于大模型来讲同样的道理,我们在2020年画过一张参考人类认知的AI系统结构图:系统一、系统二,再加一个自学习模块。

引入「自学习」的想法,主要基于三点。

第一,系统一可以对应一个大规模模型,让它通过模式匹配与知识提取,覆盖大量常见问答与常规任务。

第二,系统二可以对应更强的知识融合与推理机制,例如指令微调、思维链等,使模型能处理更复杂的推理与决策。

第三,人脑在睡眠中会发生无意识的整合与巩固,如果缺少睡眠,人并不会变得更聪明。

对应到今天的路径,可以把其三类Scaling。

第一,Scaling数据与模型规模,提升智能上限。

第二,Scaling推理,让思考时间更长,用更多计算与搜索找到更优解。

第三,Scaling自学习环境,让模型有更多与外界交互的机会,从环境中获得反馈。

通过这三个Scaling,可以让机器来参考人的学习范式,学到更多。

对于系统一来说,既然已经有了Transformer,是否意味着只要不断加数据、加参数就够了?

但我们现在面临一个问题,Transformer的计算复杂度接近O(N²),context越长,显存开销越大,推理效率下降越明显。

最近有一些新型模型,例如用线性复杂度处理长序列的模型,尝试像人脑一样,用更小的「容量」承载更大的知识量。

但最近我也在反思,我们能不能找到更好的压缩方法,把知识压缩到更小的空间里面。这会带来两类问题。

第一,工程上能否做到?

第二,方法论上能否做到?

最近很多人在探讨,大模型要回归到研究上,不能单纯的Scaling。Scaling是一个很好的办法,但也是一个偷懒的办法,

关键在于找到一个新范式,让这个机器可以独立Scaling。自己来定义奖励函数、交互方法、甚至训练任务来做Scaling。

在具备上述两点之后,还要面对真实世界的超长任务。要让这个机器有像人一样规划,做一下,检查一下,再反馈一下。

网上已经有一些尝试,这个idea是模型生成,实验也是模型做的,报告也是模型做的,最后可以做一个Wordshop,但事实上还没有做出来。

给出我们的一些思考

大模型之前,大部分机器学习都是F-X到Y的映射,我学习一个函数,使得X样本可以映射到Y。

大模型来了之后,把这个问题变成F-X到X的映射,可也不是严格的X,但要让它完全用自监督来做多任务的自学习。

在第二层,我们通过引入更多数据,让模型学会推理,学会如何激活更底层的智能能力。

再往后,是让模型具备自反思与自学习能力。通过持续的自我评估与自我批判,模型能够逐步分辨哪些行为是有效的,哪些路径还有优化空间。

到未来,还希望模型进一步发展出更高层次的能力,例如自我认知。

还要教这个机器能学习到更多,比如说能学习到自我认知,让这个机器能对自己的行为,比如说AI生成了大量的内容可以自我解释,我为什么要生成这个内容,我是什么,我的目标是什么,在终极上也许有一天,AI也有意识。

我们大概有这么定义五层的思考

计算机有三个能力:计算、编程、搜索。这三个能力叠加在一起,可能能带来所谓的「超级智能」。

我常常会想起2019年的一件事。当时和阿里巴巴合作,对方希望我用一页PPT描述未来的方向,我给出的那一页叫作「AGI-Next30」,讨论的是未来30年我们应该做什么。

回到今天看,推理能力已经取得了一定共识和进展;记忆能力开始显现雏形,但仍然有限;意识仍然处在探索阶段。这也是我们持续投入的方向。

再往前看,如果继续参考人类认知,未来AI可能需要回答更根本的问题:什么是「我」,为什么是「我」;如何为模型构建意义系统;单个智能体的目标是什么;多个智能体作为群体时目标如何协调。通过这些问题,AI才有可能走向对未知的持续探索。

有人会认为这些问题过于遥远,甚至不可能。但从人类自身来看,文明的终极动力正是不断探索未知。那些看似不可能的方向,往往正是通往AGI道路上值得被认真对待的探索目标。

对我个人而言,2026年更重要的是专注,以及去做一些真正新的事情。

第一,Scaling仍然会继续,但需要区分两种不同方向。一种是Scaling已知路径,通过不断增加数据和算力,持续探索能力上限;另一种是Scaling未知路径,也就是寻找尚未明确的新范式。

第二,技术创新将变得更加关键。我们会推进全新的模型架构探索,重点解决超长上下文、高效知识压缩等问题,并进一步实现知识记忆与持续学习能力。

第三,多模态感统会成为今年的重点方向。具备这种能力之后,AI才能在真实工作环境中执行长链路、长时效任务,例如在手机、电脑等设备上持续协作。

同时,我也判断今年很可能会成为AI for Science的重要突破年份。随着多项基础能力的提升,AI能够参与的科研任务范围将显著扩大,也将打开更多新的可能性。

杨植麟

从2019年到现在所有的大模型基本上基于同一个第一性原理,Scaling Law,也是把能源转化成智能的一个视角。

如果有更好的方法,或者更好的芯片,其实可以把能源更好和更多转化成更高级的智能。

有更多的算力、数据、模型参数之后,你的模型的loss可以线性下降,这是整个技术发展的基础。

最早提出来的Scaling Law的这篇文章,里面对比了Transformer和Lstm在Scaling Law意义下的的区别,很有意思。

不管是在什么样的参数量下,Transformer的Loss都会比LSTM更低,也就是在Scaling Law的尺度下,可以用更少的FLoss或者更少的参数,就能得到更好的Scaling效果。

后面Transformer成为主流架构的一个核心原因,是因为它在Scaling Law上有更好的表现。

今天所有的模型架构的迭代,其实都是为了寻找一条线能够更接近左下角。如果你的网络架构越接近左下角,其实你就是更好的网络架构。

在当前的情况下,它会变的更有意义。互联网上的存量数据是有限,它是一个有限集合,高质量的数据增长速度其实是赶不上这个模型迭代的速度,所以当你有一个越靠左下角的象限的时候,你的智能上限就会更高。

但是,很多人可能会忽略,为什么Transformer会更好。关键在于Token efficiency。

什么是Token efficiency呢?比如说当你给一个一百K的上下文,你会去数里面第一、第二、第三、第四一到第一百个Token的log是什么,比如说还是loss,但是它是一个position loss,因为你的横坐标是你的Token efficienc,表示你在这个序列里面到底是第几个Token。

你可以看到在最前面的一百个Token里面,Transformer和LSTM完全一样的,基本上这两条线是交错在一起。就是说当你在很短的Context的时候,你去预测接下来的Context会变成什么样,基本上是相等的效果。

所以在一百很短的Context下面,其实Transformer并不是一个更好的架构。但是更好的架构体现在当你的Context非常长的时候,Transformer显著的比LSTM更好。

这也是另外一个视角拆解它是一个很重要的指标。

在不同的Context长度下,你的优势有多大。这个问题在Agentic时代会变的非常重要,因为很多agent的任务要求非常长的长上下文,你要问题很复杂的任务,所以当你一个架构有更低的position loss,说明它在做Agent任务的时候,会有好的多的技术上的潜力。

我们预训练策略或者模型设计策略,围绕刚刚两个维度做。

第一个是Token efficiency,我们希望做的事情是尽可能把这条线往左边平移,当你越往左边移动的时候,你的Token efficienc就越高,意味着你可以用尽可能少的Token得到一样的效果。

当你的整个预训练Token不够用的时候,Token是常量,吃完所有Token的时候你的智能上限更高,因为你的Loss更低,这是我们做预训练很重要的指标和优化方向。

第二个方向是Long context。

今天非常复杂的任务,必须在超长的Context下才能够完成。是因为延长了Context之后,Loss必然是下降,而且只有一个好的Agentic才能下降的更多,如果你是LSTM、CNN、RNN这种架构,到一百Token就停了。

可以做简单的做翻译的任务,但是你永远做不了一个编程任务,没有办法从零到一实现一个代码库的编写。这是我们整体的优化,Token efficienc再乘以Long Context两个东西,最终就可以做到非常好的agent智能。

所以在这里面有两个主要的工作,第一个是米用MUON优化器,是工业界二阶优化器,传统的是十几年前,2014年Adam优化器提出之后,它做标志性的一阶优化器。基本上用了十年的时间,可能主流大模型都是基于Adam训练。

但是我们发现可能基于MUON二阶优化器,它的效果会非常好,好的体现在它有两倍的Token efficienc的提升,当你看这两条线的时候,只用50%的数据就可以达到一样的Test Loss,等价的话是如果用一样的数据,你的Loss小或多,就会有一倍的Scaling的效果。

右边是我们最新研究的kimi Linear的架构,当你的这条线拉长的时候,降低的幅度是非常大的,也就是你在Long Context等各种任务上的效果会显著的变好。最后是这两个东西乘起来,我们认为在模型的训练策略上,可以达到最好的agent的效果。

这些都是为了做出来更好的agent,为什么要Token efficiency,本质上Agent的推理或者AgentRL的训练是搜索过程,比如说你想从头开发一个Lineaxr,你想从零做这个事情,本质上是搜索问题。

如果你有无限的数据,可以把所有可能的情况枚举遍,看一看里面哪个东西是好的操作系统,你让AI开发出来Linearx,提升它的效率,之前的agent是你用模型做很好的先验,过程中不需要枚举每一种可能的Token组合的情况,因为很多组合是没有意义或者错的,更好的预训练和基础模型是减少了搜索空间,提升了更好的先验。

今天有很多人研究怎么去减少先验,最终有可能是在先验非常少,或者几乎没有的情况下有可能实现AGI。但是我认为基于先验实现AGI,还是会更早发生,整个领域先基于先验实现AGI,你再去探索先验非常低的情况下,越来越低的情况下实现SCI的方式。

这里等价对应的是更强的先验,你是在有限数据的情况下,同样是一样多的数据,但是脑容量更大,学习效率更高,智能更高,有更好的先验就可以得到更强的agent。context是另外一个维度,你的Agent行为,需要它的工作记忆,所以你有更强的环境感知,做更长程的任务,最后是这两个东西的结合。

我们在这个基础上,整个2025年kimi的迭代是沿着刚说的两个方向做了新的探索和实践。首先是Muon优化器,我们曾经做了非常多的实验,发现有很多比较重要的技巧。

比如说需要加入VDK,你在搜索的过程中,原来是Adam的优化器,可能是接近1.0,如果用Muon的话,对照它的尺度其实效果会更好。通过这些比较重要的改进,我们得到了一个真正意义上比较好,而且在各种方面经得起时间考验的优化器,有2倍的Token efficienc提升。

所以,大家注意的是这里的efficienc不仅仅是efficienc,其实是智能上限,因为你的Token数量有限。我们也做了很多公平的比较,基本上所有的任务都会有提升,本质上是等价相当于训练了别人的两倍Token。

在提升这个优化器的过程中,能看到一些问题,在一个中等规模的实验上,发现Muon的优化过程里会出现一些挑战,左边这张图横坐标是训练的步数,纵坐标是最大的Logit取值,它是一个爆炸式的增长,其实是不健康的。

反映在右边的非常高的时候,你的Logit训练就有可能不收敛,Loss会爆炸,出现一些不稳定现象,其实这个模型最后的效果也不会好。

这里面很重要的一个点是通过一个新的方法解决Muon爆炸的问题,我们也试了很多方法,QK-clip效果非常火,但是这里有一些细节,你做QK映射的话,会乘上一个数值,这个数值是由当前QK最大的Logit决定的,可以动态的让它clip特定的取值里面。

效果就是这样的,一个加Clip,一个没有。

左边这两条线,但是这两条线是完全重叠在一起的,你可能看不出来,其实是完全重叠在一起。说明你加了Clip之后,对效果是没有任何影响,可以复现任何效果,但是logit会健康很多。

右边开始涨了,Logits涨到一百QK就发挥作用了,发现可能我不需要这个东西,这个时候会自动降下来,所以其实是很好稳定训练的作用,使得全新的优化器可以在一万亿参数的kimiK2的级别做稳定训练,不然就像之前那样炸了。

这张图是2025年见过最漂亮的东西,这个是世界上最美的东西。

它是一个完全平稳下降的Loss曲线,在整个15T的Token训练中没有任何的问题,可以全部把logits压下来,平稳的收敛到一个非常好的点上。当你有一个优雅的方法,就可以得到一个优雅的结果。

在kimiK2很好的模型上面,我们又做了很多强化学习,后训练等等,但是这不是今天重点,重要的是有几个点,我们在各种agent的能力上全面提升,而且可以对标美国前沿的公司。

同时,很重要的一个点是在最核心的点上,比如说HLE,里面99%的题我都不知道怎么做,但是模型现在可以做到45%的准确率,而且比OpenAI更高,你在最核心的数据上比美国公司更好,这是很重要的亮点。

同时,它是一个完全agent的模型,kimiK2是中国第一个agent模型,K2 Thinking升级以后,可以完成两百百步的工具调用,解决一个很难的题的时候用它写一写程序。两三百步之后,可以完成我完全看不懂的题,但是它的答案是对的。

得益于这些发展,我觉得很多中国的开源模型逐渐成为新的标准,包括前段时间eda发布新的产品,现在也有中国很多开源模型做标准的测试,这也是开源很大的一个好处,我们希望有更多的中国的开源力量,中国的模型能够逐渐去成为标准的制定者。

在K2之后我们在持续探索下一代模型有可能长什么样,我刚刚讲到开源的kimiLinear的工作,这个工作也是我们前期的尝试,接下来还会在这个基础上做更多的优化和改进来训练K3模型。

最重要的一个改进是kimi Delta Attention,它是一个新的线性注意力机制,这个技术有一段时间,但是一直没有成为主流模型,或者说最前沿的模型都还没有用上这个技术。

最主要的原因是在长距离任务上会掉点,当你的Context变长之后,你用线性注意力效果是打不过全注意力的,打不过原始的Transformer。

这是很重要的问题,因为现在很多任务需要长程的能力,Context变长之后,效果变差了,可能不太能去换。

kimi Linear最重要的一点是让这种线性注意力的机制能够在很长程的任务上,甚至比全注意力做的更好,但是同时又更快,因为它是线性的,所以它的效率会高非常多,一百万个Context的话,可能高6到10倍的端到端的速度上的优势。

同时又可以改进很多现有的线性注意力缺点,可能就是表达能力不够,导致了效果不够好,所以kimi Linear是第一个能够在线性注意力上不管是在短程任务,还是在长输入、长输出任务效果都比全注意力机制更好的一个线性注意力的架构。所以,它在实践里面会有非常重要的作用。

我们稍微看一下具体长什么样子,S表示当前线性的数据,可以看到它全部是线性的,ST相对ST减一来说的操作,称之为线性注意力。

这里面很重要的一个点是中间的对角化矩阵,FT每一个维度都会乘上一个值,等于说对于这个状态里面的每一个维度都可以精准的控制到底有多少记忆是从ST减1留到ST。

这个是很重要的点,它的表达能力会有很大增强,增强的同时如果你是一个非常粗糙或者没有优化过的数据,你的效率会大幅度降低,在这里面我们做了非常多的优化,你可以把刚才的那个数值做很多变化之后得到下面的形式。

它在工程实现上就可以得到很多好处,你去对比DPLR,我们在数据上有优势,减少矩阵操作,所以整体的效率是非常高的,你要得到一个好的架构,需要把很多底层的优化和模型的架构联合在一起,你不能只改动一些架构,如果没有高效的实现,很难得到一个很好的效果。

但是同时相比之前的线性注意力架构又有一个显著的优势,表达能力更强。

这张图里面的效果看一下,左边是性能对比,我们会考察两种任务,一种是短程的任务,MMLU,这些都是公平的比较,用完全一样的数据,一样大小的模型去跑。在短程上会显著做的更好,在长程任务上是更好的效果,相比于之前的很多线性注意力和全注意力的架构。

同时,右边的这张图的速度也是显著的变快,基本上跟之前的线性的注意力一样快,但是比全注意力要快非常多。

接下来在K2的基础上做更多的Scaling,当然这个Scaling并不只是加算力。而是说很多是技术改进,这些技术改进也会等效的变成Scaling的优势。当然这里面很重要的一个点是除了架构、优化器这样的挑战,更好的数据。

很重要的点是接下来的模型有更多的Taste,更多的品位和审美。

做模型的过程本质上是在创造一种世界观,你觉得什么样的东西是好的,一个好的AI应该是有什么样的表现,应该追求什么样的价值观,有点像乔布斯讲的Taste这是我们很相信的一个东西,因为智能和很多别的东西不一样,每个模型产生的Token,本身不是一个可交换的东西。

如果你今天看很多事情是相同的,你在深圳产生的一度电和北京一样,银行帐户里面最后一分钱是完全一样,它是等价交换。但是智能并不是这样,一个CEO产生的智能和一个设计师产生的智能和一个音乐家产生的智能是不同的。

在智能的维度,你有非常多的Taste的空间,空间是指数增加,你会有更多新的Taste出来,不是说这个模型会趋同,这是接下来我们很重要的一个目标。

我也经常和kimi对话,分享之前很有趣的一次对话,现在我们都在做AGI/ASI,可能会有更美好的未来,可以一起去探索宇宙,但是有可能会威胁到人类。

如果你的效果做的非常好,它现在也可以完成很多自动化的任务,甚至后面还会有大幅度的提升, 这个答案很有启发性。