Anthropic掌门人重磅访谈:AI正处于指数级增长尾声,2026年将迎“数据中心里的天才国度”,

 Anthropic掌门人重磅访谈:AI正处于指数级增长尾声,2026年将迎“数据中心里的天才国度”,营收正以10倍极速狂飙

article.author.display_name
董静


Dario Amodei在最新访谈中预测,2026-2027年将出现由AI组成的“数据中心里的天才国度”,其智力密度堪比数万名诺贝尔奖得主。在财务方面,他披露公司正经历每年10倍的“恐怖”增长,预计2025年营收将冲击100亿美元大关。Amodei解释了为何不敢豪掷万亿提前囤积芯片:一旦需求爆发延后一年,巨大的现金流压力将直接导致公司破产。
在AI技术指数级爆发的前夜,Anthropic掌门人Dario Amodei抛出了震撼业界的预测:我们正处于“指数增长的黄昏”,最快到2026年,人类将迎来由数万个顶尖大脑组成的“数据中心里的天才国度”。

近日,大模型独角兽Anthropic首席执行官Dario Amodei在与Dwarkesh Patel的深度访谈中,罕见地披露了公司惊人的营收增速预期,并对AGI(通用人工智能)的时间表、算力投资的财务逻辑以及地缘政治风险进行了详尽阐述。Amodei认为,AI技术正处于从量变到质变的临界点,未来2-3年将决定人类未来两百年的走向。

(Anthropic首席执行官Dario Amodei作客Dwarkesh Patel播客)

AI 正处于指数级增长末期
Dario Amodei在访谈伊始就指出,我们已逼近 AI 指数增长曲线的尾声,而世界尚未充分感知这场质变。

从 GPT-1 到如今的专业级模型,AI 完成了从 “聪慧高中生” 到 “博士水准” 的跃迁,编程、数学等领域甚至实现超越,底层扩展定律从未失效,算力与数据的投入仍在持续兑现明确收益。

指数增长的魔力藏在末期的爆发里。Dario表示,Anthropic 年营收 10 倍的跨越式增长,Claude Code 让工程师生产力倍增,模型上下文长度与泛化能力的快速突破,都在印证 “终点临近” 的信号。这场增长不只是参数的堆砌,更是智能本质的升级 —— 从数据拟合到自主泛化,AI 正在补齐最后几块关键能力拼图。

“数据中心里的天才国度”:重新定义2026
Amodei在访谈中提出了一个极具冲击力的概念——“数据中心里的天才国度”(A Country of Geniuses in a Datacenter)。他回顾了过去三年的技术演进,认为AI模型已从“聪明的高中生”进化为“专业人士”。

他大胆预测,到2026年或2027年,单一模型所展现出的智力水平、知识深度和逻辑推理能力,将不仅等同于一名诺贝尔奖得主,而是等同于数万名顶尖天才协同工作的集合体。

对于这一时间表的确定性,Amodei表现出极高的信心:

“对于10年内实现这一愿景,我有90%的把握;而对于这在未来1-2年内发生,我认为是50/50的可能性。”

他指出,唯一的变数可能来自地缘政治灾难(如芯片供应链中断)或社会剧烈动荡。

营收狂飙:从1亿到100亿美元的“恐怖”曲线
市场最为关注的财务数据方面,Amodei披露了Anthropic令人咋舌的增长曲线。他透露,公司营收正经历着“怪异的每年10倍增长”(bizarre 10x per year growth)。Amodei在访谈中直言:

“2023年,我们从0增长到1亿美元;2024年,从1亿美元增长到10亿美元;而2025年,我们预计将达到90亿至100亿美元。这一指数级增长大致符合我的预期,甚至在今年第一个月,我们又增加了数十亿美元的营收。”

Amodei强调,尽管受到经济扩散速度(Diffusion)滞后的影响,企业采纳AI需要经过法律审核、合规检查等漫长流程,但技术本身的能力提升正在推动这一疯狂的增长曲线。

算力豪赌与破产风险:CEO的财务平衡术
面对如此确定的技术前景,为何不现在就举债万亿美元囤积芯片?Amodei给出了极具现实意义的财务解释:算力扩容必须与收入增长和预测精度挂钩,否则将面临毁灭性风险。

Play Video

“如果我预测2027年会有万亿级需求,从而提前购买了价值1万亿美元的算力,但只要需求爆发的时间晚了一年,或者增长率稍微从10倍降至5倍,没有任何对冲手段能阻止公司破产。”Amodei解释道,这种基于“对数收益定律”的投资回报需要精密核算。

他指出,Anthropic目前的策略是“负责任地激进”,即投入的算力规模足以捕捉巨大的上行空间,但如果市场爆发推迟,公司凭借其企业级业务的高毛利和现金流,依然能够生存。

他预计,Anthropic有望在2028年左右实现盈利,届时AI将成为历史上盈利能力最强的产业之一。

软件工程的终局:从写代码到取代工程师
在具体落地场景上,Amodei将编程视为AI最先攻克的堡垒。他将AI在软件工程领域的进化分为三个阶段:

第一阶段:模型编写90%的代码行(已实现)。
第二阶段:模型处理90%的端到端任务,如修复Bug、配置集群、撰写文档。
第三阶段:模型具备“职场经验”,能够理解复杂代码库的上下文并设定技术方向。
Amodei预测,在1-3年内,AI将能够胜任高级软件工程师的所有职责。

“这并不意味着工程师会失业,而是生产力的巨大爆发。现在的模型能做到的不仅是补全代码,而是直接接管GPU内核编写等高难度任务。”

Anthropic首席执行官Dario Amodei深度访谈全文翻译如下:

我们究竟在扩展什么?
Dwarkesh Patel(以下简称Dwarkesh): 我们三年前谈过。在你看来,过去三年最大的更新是什么?现在和当时的感觉有什么最大的不同?

Dario Amodei(以下简称Dario): 从宏观上讲,底层技术的指数级增长基本符合我的预期。虽然有一两年的误差。我不确定我是否预测到了代码方面的具体发展方向。但当我看这个指数曲线时,它大致符合我对模型进步的预期——从聪明的高中生到聪明的大学生,再到开始做博士和专业级的工作,在代码领域甚至超越了这个水平。前沿进展虽然有些不均衡,但大体符合预期。

最令人惊讶的是,公众缺乏对我们距离指数曲线终点有多近的认识。对我来说,这真是太疯狂了——无论是圈内还是圈外的人——都在谈论那些老掉牙的政治热点问题,而我们已经接近指数曲线的尾声了。

Dwarkesh: 我想了解现在这个指数曲线是什么样子。三年前我问你的第一个问题是"扩展是怎么回事,为什么有效?"现在我有类似的问题,但感觉更复杂了。

至少从公众的角度来看,三年前有众所周知的公开趋势,跨越多个数量级的计算量,你可以看到损失函数如何改善。现在我们有了强化学习扩展,但没有公开已知的扩展定律。甚至不清楚这背后的原理是什么。这是在教模型技能吗?是在教元学习吗?现在的扩展假设是什么?

Dario: 实际上我的假设和2017年时一样。

我想我上次谈过这个,但我写过一篇叫做"大计算块假设"的文档。它不是专门关于语言模型扩展的。我写它的时候GPT-1刚出来,那只是众多事物之一。

那时候有机器人技术。人们试图将推理作为独立于语言模型的东西来研究,还有AlphaGo和OpenAI的Dota中那种强化学习的扩展。人们记得DeepMind的星际争霸,AlphaStar。

这是一份更通用的文档。Rich Sutton几年后发表了"苦涩的教训"。这个假设基本相同。

它说的是,所有的聪明才智,所有的技术,所有"我们需要新方法来做某事"的想法,这些都不太重要。只有少数几件事重要。我想我列出了七项。

一是你有多少原始计算能力。 二是数据的数量。 三是数据的质量和分布。它需要是广泛的分布。 四是你训练多长时间。 五是你需要一个可以扩展到极致的目标函数。预训练目标函数就是这样一个目标函数。另一个是强化学习目标函数,它说你有一个目标,你要去实现这个目标。在这其中,有客观奖励,比如你在数学和编码中看到的,也有更主观的奖励,比如你在RLHF或更高阶版本中看到的。

然后第六和第七项是关于归一化或条件化的东西,只是为了获得数值稳定性,这样大计算块就能以这种层流方式流动,而不是遇到问题。

这就是那个假设,也是我至今仍然持有的假设。我没有看到太多与之不符的东西。

预训练扩展定律是我们看到的一个例子。这些定律一直在持续。现在已经被广泛报道,我们对预训练感觉良好。它继续给我们带来收益。

改变的是,现在我们也看到强化学习出现了同样的情况。我们看到一个预训练阶段,然后是在此基础上的强化学习阶段。对于强化学习,实际上是一样的。

甚至其他公司在他们的一些发布中也发表了内容说,"我们在数学竞赛上训练模型——AIME或其他竞赛——模型表现如何与我们训练它的时间呈对数线性关系。"我们也看到了这一点,而且不仅仅是数学竞赛。这是各种各样的强化学习任务。

我们看到强化学习的扩展与我们在预训练中看到的扩展是一样的。

Dwarkesh: 你提到了Rich Sutton和"苦涩的教训"。我去年采访了他,他实际上非常不认同大语言模型。我不知道这是否是他的观点,但用一种方式来转述他的反对意见:真正拥有人类学习核心的东西,不需要所有这些数十亿美元的数据和计算,以及这些定制环境,来学习如何使用Excel,如何使用PowerPoint,如何浏览网页。

我们必须使用这些强化学习环境来内置这些技能的事实,暗示我们实际上缺少一个核心的人类学习算法。所以我们在扩展错误的东西。这确实提出了一个问题。如果我们认为会有类似人类即时学习能力的东西,为什么我们要做所有这些强化学习扩展?

Dario: 我认为这把几个应该分别思考的东西混在一起了。这里确实有一个真正的谜题,但它可能并不重要。事实上,我猜它可能不重要。

这里有一个有趣的事情。让我暂时把强化学习排除在外,因为我实际上认为说强化学习在这个问题上与预训练有任何不同是一个误导。

如果我们看预训练扩展,2017年Alec Radford做GPT-1时非常有趣。GPT-1之前的模型是在不代表广泛文本分布的数据集上训练的。你有非常标准的语言建模基准。GPT-1本身实际上是在一堆同人小说上训练的。那是文学文本,只是你能获得的文本的很小一部分。

那时候大概是十亿个词之类的,所以是代表你在世界上能看到的相当狭窄分布的小数据集。它的泛化能力不好。如果你在某个同人小说语料库上做得更好,它不会很好地泛化到其他任务。我们有所有这些衡量标准。我们有各种衡量它在预测所有其他类型文本方面表现如何的标准。

只有当你在互联网上的所有任务上进行训练——当你从Common Crawl这样的东西进行通用的互联网抓取,或者抓取Reddit中的链接(这是我们为GPT-2做的)——你才开始获得泛化能力。

我认为我们在强化学习上看到了同样的事情。我们首先从简单的强化学习任务开始,比如在数学竞赛上训练,然后转向涉及代码等更广泛的训练。现在我们正在转向许多其他任务。

我认为我们将越来越多地获得泛化能力。所以这在某种程度上消除了强化学习与预训练的区别。

但无论哪种方式都有一个谜题,那就是在预训练中我们使用了数万亿个token。人类看不到数万亿个单词。所以这里确实存在样本效率差异。这里确实有不同的东西。

模型从零开始,需要更多的训练。但我们也看到,一旦它们被训练好,如果我们给它们一百万的长上下文——唯一阻碍长上下文的是推理——它们非常擅长在那个上下文中学习和适应。

所以我不知道这个问题的完整答案。我认为有些事情正在发生,预训练不像人类学习的过程,但它介于人类学习的过程和人类进化的过程之间。

我们的许多先验知识来自进化。我们的大脑不只是一块白板。已经有整本书写过这个。语言模型更像白板。它们真的是从随机权重开始的,而人类大脑开始时就有所有这些区域连接到所有这些输入和输出。

也许我们应该把预训练——以及强化学习——看作存在于人类进化和人类即时学习之间的中间空间。我们应该把模型进行的上下文学习看作介于人类长期学习和短期学习之间的东西。

所以有这样一个层次结构。有进化,有长期学习,有短期学习,还有人类的即时反应。大语言模型的各个阶段存在于这个光谱上,但不一定在完全相同的点上。

没有与某些人类学习模式相对应的类似物,大语言模型落在这些点之间。这有意义吗?

Dwarkesh: 有意义,虽然有些事情仍然有点令人困惑。例如,如果类比是这就像进化,所以样本效率低是可以的,那么如果我们要从上下文学习中获得超级样本高效的智能体,我们为什么要费心构建所有这些强化学习环境?

有些公司的工作似乎是教模型如何使用这个API,如何使用Slack,如何使用其他东西。如果那种能即时学习的智能体正在出现或已经出现,为什么有这么多重点放在这上面,这让我感到困惑。

Dario: 我不能代表其他人的重点。我只能谈谈我们是如何思考的。

目标不是在强化学习中教会模型每一个可能的技能,就像我们在预训练中不这样做一样。在预训练中,我们不是试图让模型接触到单词可以组合在一起的每一种可能方式。

相反,模型在很多东西上训练,然后在预训练中达到泛化。这是我近距离看到的从GPT-1到GPT-2的转变。模型达到了一个点。我有过这样的时刻,我想,"哦是的,你只要给模型一列数字——这是房子的价格,这是房子的平方英尺——模型就能完成模式并进行线性回归。"

虽然不是很好,但它做到了,而且它以前从未见过那个确切的东西。

所以就我们正在构建这些强化学习环境而言,目标与五年或十年前预训练所做的非常相似。我们试图获得大量数据,不是因为我们想覆盖特定的文档或特定的技能,而是因为我们想要泛化。

我认为你提出的框架显然是有道理的。我们正在朝着AGI前进。此时没有人不同意我们将在本世纪实现AGI。关键是你说我们正在接近指数曲线的终点。

其他人看到这个会说,"我们从2012年以来一直在取得进展,到2035年我们将拥有类人智能体。"

显然,我们在这些模型中看到了进化所做的事情,或者人类一生中学习所做的事情。我想了解你看到了什么,让你认为这是一年后而不是十年后。

扩展是借口吗?
Dario: 这里可以提出两种说法,一种更强,一种更弱。

从较弱的说法开始,当我在2019年第一次看到扩展时,我不确定。这是一个50/50的事情。我以为我看到了什么。我的说法是,这比任何人想的都更有可能。也许有50%的机会会发生。

关于你所说的,在十年内我们将达到我所谓的"数据中心里的天才之国",我对此有90%的把握。很难超过90%,因为世界是如此不可预测。也许不可减少的不确定性使我们达到95%,你会遇到多家公司内部动荡、台湾被入侵、所有晶圆厂被导弹炸毁等情况。

Dwarkesh: 现在你给我们下了诅咒,Dario。

Dario: 你可以构建一个5%的世界,事情被推迟十年。

还有另外5%,那就是我对可以验证的任务非常有信心。对于编码,除了那个不可减少的不确定性,我认为我们将在一两年内达到目标。我们不可能在十年内还没有达到能够进行端到端编码的程度。

我的一点点根本不确定性,即使在长时间尺度上,是关于那些不可验证的任务:规划火星任务;做一些基础科学发现,比如CRISPR;写小说。

这些任务很难验证。我几乎可以肯定我们有一条可靠的路径到达那里,但如果有一点点不确定性,就在那里。

在十年时间线上,我有90%的把握,这差不多是你能达到的最确定的程度。我认为说到2035年这不会发生是疯狂的。在某个理智的世界里,这会被认为是主流之外的观点。

但对验证的强调暗示我对这些模型是泛化的缺乏信念。如果你想想人类,我们既擅长那些能得到可验证奖励的事情,也擅长那些不能的事情。

Dario: 不,这就是为什么我几乎确定。我们已经看到从可验证的事物到不可验证的事物有相当大的泛化。我们已经看到了这一点。

但似乎你强调这是一个会分裂的光谱,我们会在哪些领域看到更多进展。这似乎不像人类变得更好的方式。

Dario: 我们无法到达那里的世界是我们做所有可验证的事情的世界。其中许多会泛化,但我们没有完全到达那里。我们没有完全填满盒子的另一边。这不是一个二元的事情。

即使泛化很弱,你只能做可验证的领域,我也不清楚在这样的世界里你能否自动化软件工程。从某种意义上说,你是"软件工程师",但作为软件工程师的一部分工作包括写关于你宏大愿景的长备忘录。

Dwarkesh: 我不认为那是软件工程师工作的一部分。

Dario: 那是公司工作的一部分,不是专门针对软件工程师的。但软件工程师确实涉及设计文档和其他类似的东西。模型已经很擅长写注释了。

再说一次,我在这里提出的主张比我相信的要弱得多,以区分两件事。我们在软件工程方面已经几乎到了。

Dwarkesh: 按什么标准?有一个标准是AI写了多少行代码

如果你考虑软件工程历史上的其他生产力改进,编译器写了所有的软件行。写了多少行和生产力提高有多大之间是有区别的。"我们几乎到了"是什么意思?

Dario: 生产力提高有多大,不仅仅是AI写了多少行。

Dwarkesh: 我实际上同意你的观点。

Dario: 我对代码和软件工程做了一系列预测。我认为人们一再误解它们。让我列出这个光谱。

大约八、九个月前,我说AI模型将在三到六个月内编写90%的代码行。这发生了,至少在某些地方。它发生在Anthropic,发生在许多使用我们模型的下游人员身上。

但这实际上是一个非常弱的标准。人们以为我是说我们不需要90%的软件工程师。这些事情相距甚远。

光谱是:90%的代码由模型编写,100%的代码由模型编写。这在生产力上有很大差异。

90%的端到端软件工程任务——包括编译、设置集群和环境、测试功能、编写备忘录等——由模型完成。

100%的今天的软件工程任务由模型完成。即使发生这种情况,也不意味着软件工程师会失业。他们可以做新的更高级的事情,他们可以管理。

然后在光谱的更远处,对软件工程师的需求减少了90%,我认为这会发生,但这是一个光谱。

我在"技术的青春期"中写过这个,我用农业经历了这种光谱。

Dwarkesh: 我实际上完全同意你的观点。这些是彼此非常不同的基准,但我们正在以超快的速度通过它们。

你的愿景的一部分是从90到100会很快发生,并且会带来巨大的生产力提升。但我注意到的是,即使在绿地项目中,人们从Claude Code或其他东西开始,人们报告启动了很多项目...我们在外面的世界中看到软件的复兴了吗,所有这些否则不会存在的新功能?至少到目前为止,似乎我们没有看到。

所以这确实让我想知道。即使我从不需要干预Claude Code,世界也是复杂的。工作是复杂的。在自包含系统上闭环,无论是只写软件还是其他什么,我们会从中看到多大的更广泛收益?

也许这应该稀释我们对"天才之国"的估计。

Dario: 我同时同意你的观点,这是这些事情不会立即发生的原因,但同时,我认为效果会非常快。

你可以有这两个极端。一个是AI不会取得进展。它很慢。它将永远扩散到经济中。

经济扩散已经成为这些流行语之一,成为我们不会取得AI进展或AI进展不重要的原因。

另一个轴是我们将获得递归自我改进,整个事情。你不能只在曲线上画一条指数线吗?

在我们获得递归后的许多纳秒内,我们将在太阳周围拥有戴森球。我在这里完全是在讽刺这个观点,但有这两个极端。

但我们从一开始就看到的,至少如果你看Anthropic内部,有这种奇怪的每年10倍的收入增长。

所以在2023年,是从零到1亿美元。在2024年,是从1亿美元到10亿美元。在2025年,是从10亿美元到90-100亿美元。

Dwarkesh: 你们应该买10亿美元的自己的产品,这样你们就可以...

Dario: 今年的第一个月,那个指数曲线...你会认为它会放缓,但我们在一月份又增加了几十亿美元的收入。

显然那条曲线不能永远持续下去。GDP只有那么大。我甚至猜测它今年会有所弯曲,但那是一条快速曲线。那是一条非常快的曲线。我打赌即使规模扩大到整个经济,它也会保持相当快的速度。

所以我认为我们应该考虑这个中间世界,事情非常快,但不是瞬间的,它们需要时间,因为经济扩散,因为需要闭环。

因为它很繁琐:"我必须在我的企业内进行变更管理...我设置了这个,但我必须更改这个的安全权限才能使它真正工作...我有这个旧的软件在编译和发布之前检查模型,我必须重写它。是的,模型可以做到这一点,但我必须告诉模型去做。它必须花时间去做。"

所以我认为到目前为止我们看到的一切都与这样的想法兼容:有一个快速指数曲线,那就是模型的能力。然后还有另一个快速指数曲线,那是下游的,那就是模型扩散到经济中。

不是瞬间的,不是缓慢的,比任何以前的技术都快得多,但它有其限制。

当我看Anthropic内部,当我看我们的客户:快速采用,但不是无限快。

Dwarkesh: 我能试试一个大胆的观点吗?

Dario: 可以。

Dwarkesh: 我觉得扩散是人们说的借口。当模型不能做某事时,他们会说,"哦,但这是一个扩散问题。"

但你应该与人类进行比较。你会认为AI固有的优势会使新AI的入职扩散比新人类的入职容易得多的问题。

AI可以在几分钟内阅读你的整个Slack和你的drive。它们可以共享相同实例的其他副本拥有的所有知识。

当你雇用AI时,你没有这种逆向选择问题,所以你可以只雇用经过审查的AI模型的副本。

雇用人类要麻烦得多。人们一直在雇用人类。我们向人类支付超过50万亿美元的工资,因为他们有用,尽管原则上将AI整合到经济中应该比雇用人类容易得多。

扩展并不能真正解释。

Dario: 我认为扩散是非常真实的,并不完全与AI模型的局限性有关。

再说一次,有些人使用扩散作为一种流行语来说这不是什么大事。我不是在谈论那个。我不是在谈论AI将以以前技术的速度扩散。

我认为AI的扩散速度会比以前的技术快得多,但不是无限快。

我只举一个例子。有Claude Code。Claude Code非常容易设置。如果你是开发人员,你可以直接开始使用Claude Code。

大型企业的开发人员没有理由不像个人开发人员或初创公司的开发人员那样快速采用Claude Code。

我们尽一切可能推广它。我们向企业出售Claude Code。

大型企业、大型金融公司、大型制药公司,所有这些都在采用Claude Code,比企业通常采用新技术快得多。

但同样,这需要时间。任何给定的功能或任何给定的产品,比如Claude Code或Cowork,将被一直在Twitter上的个人开发人员、A轮初创公司采用,比被从事食品销售的大型企业采用要早几个月。

只是有很多因素。你必须通过法律审查,你必须为每个人配置它。它必须通过安全和合规。

公司的领导者离AI革命更远,他们有远见,但他们必须说,"哦,我们花5000万美元是有意义的。这就是这个Claude Code的东西。这就是它为什么帮助我们公司。这就是它为什么让我们更有生产力。"

然后他们必须向下两级的人解释。他们必须说,"好的,我们有3000名开发人员。我们将如何向我们的开发人员推出它。"

我们每天都有这样的对话。我们正在尽一切努力使Anthropic的收入增长每年20或30倍,而不是10倍。

再说一次,许多企业只是说,"这太有生产力了。我们将在我们通常的采购流程中走捷径。"

他们的行动比我们试图向他们出售普通API时快得多,许多企业都在使用。Claude Code是一个更引人注目的产品,但它不是一个无限引人注目的产品。

我认为即使是AGI或强大的AI或"数据中心里的天才之国"也不会是一个无限引人注目的产品。它将是一个足够引人注目的产品,也许可以获得每年3-5倍或10倍的增长,即使你在数千亿美元的规模上,这是非常难做到的,历史上从未做到过,但不是无限快。

Dwarkesh: 我认为它会是一个轻微的放缓。也许这不是你的主张,但有时人们谈论这个就像,"哦,能力在那里,但因为扩散...否则我们基本上就在AGI了。"

Dario: 我不相信我们基本上就在AGI了。我认为如果你有"数据中心里的天才之国"...

如果我们有"数据中心里的天才之国",我们会知道的。如果你有"数据中心里的天才之国",我们会知道的。这个房间里的每个人都会知道。华盛顿的每个人都会知道。农村地区的人可能不知道,但我们会知道。

我们现在没有那个。这是非常清楚的。

持续学习是必要的吗?
Dwarkesh: 回到具体预测...因为有太多不同的东西需要消除歧义,当我们谈论能力时,很容易互相误解。

例如,当我三年前采访你时,我问你一个关于三年后我们应该期待什么的预测。你是对的。你说,"我们应该期待这样的系统,如果你和它们交谈一个小时,很难把它们与受过良好教育的人类区分开来。"我认为你是对的。

我在精神上感到不满意,因为我的内部期望是这样的系统可以自动化白领工作的大部分。所以谈论你想从这样的系统中获得的实际最终能力可能更有成效。

我基本上会告诉你我认为我们在哪里。

让我问一个非常具体的问题,这样我们就可以准确地弄清楚我们应该很快考虑什么样的能力。也许我会在我很了解的工作背景下问这个问题,不是因为它是最相关的工作,而只是因为我可以评估关于它的主张。

拿视频编辑来说。我有视频编辑。他们工作的一部分包括了解我们观众的偏好,了解我的偏好和品味,以及我们拥有的不同权衡。他们在许多个月的过程中建立起对上下文的理解。

他们在工作六个月后拥有的技能和能力,一个可以即时掌握该技能的模型,我们应该什么时候期待这样的AI系统?

Dario: 我想你在说的是我们正在做这个三小时的采访。会有人进来,会有人编辑它。他们会说,"哦,我不知道,Dario挠了挠头,我们可以把那个剪掉。"

"放大那个。""有这个长讨论,对人们来说不太有趣。还有另一个对人们更有趣的东西,所以让我们做这个编辑。"

我认为"数据中心里的天才之国"将能够做到这一点。它能够做到这一点的方式是它将对计算机屏幕有一般控制。你将能够输入这个。

它还将能够使用计算机屏幕上网,查看你所有以前的采访,查看人们在Twitter上对你的采访的评论,与你交谈,问你问题,与你的员工交谈,查看你所做的编辑历史,并从中完成工作。

我认为这取决于几件事。我认为这实际上是阻碍部署的事情之一:在计算机使用方面达到模型真正精通使用计算机的程度。

我们已经看到基准测试中的这种攀升,基准测试总是不完美的衡量标准。但我认为当我们一年零一个季度前首次发布计算机使用时,OSWorld大约是15%。

我不记得确切数字了,但我们已经从那里攀升到65-70%。可能还有更难的衡量标准,但我认为计算机使用必须通过一个可靠性点。

Dwarkesh: 在你继续下一点之前,我能跟进一下吗?多年来,我一直在尝试为自己构建不同的内部LLM工具。

通常我有这些文本输入、文本输出的任务,应该是这些模型的核心能力。然而我仍然雇用人类来做它们。

如果是像"识别这个文本中最好的片段是什么"这样的事情,也许大语言模型在上面做了七分之十的工作。但没有这种持续的方式让我与它们互动,帮助它们在工作上做得更好,就像我可以与人类员工一样。

那种缺失的能力,即使你解决了计算机使用,仍然会阻碍我将实际工作外包给它们的能力。

Dario: 这回到了我们之前谈论的在工作中学习。这非常有趣。我认为对于编码智能体,我不认为人们会说在工作中学习是阻止编码智能体端到端完成所有事情的原因。

它们一直在变得更好。我们在Anthropic有不写任何代码的工程师。当我看生产力时,回到你之前的问题,我们有人说,"这个GPU内核,这个芯片,我以前自己写。我只是让Claude做。"生产力有巨大的提高。

当我看Claude Code时,对代码库的熟悉度或模型没有在公司工作一年的感觉,这不是我看到的投诉列表中的高位。

我认为我所说的是我们正在走一条不同的路径。

Dwarkesh: 你不认为编码之所以如此,是因为有一个外部的记忆支架存在于代码库中实例化吗?我不知道有多少其他工作有那个。

编码取得快速进展正是因为它有这个其他经济活动所没有的独特优势。

Dario: 但当你这么说时,你暗示的是,通过将代码库读入上下文,我拥有人类在工作中需要学习的一切。

所以那将是一个例子——无论它是否被写下来,无论它是否可用——一个你需要知道的一切都从上下文窗口获得的案例。

我们认为的学习——"我开始这份工作,我需要六个月来理解代码库"——模型只是在上下文中做到了。

我真的不知道如何思考这个,因为有人定性地报告了你所说的。我相信你去年看到了,有一项重大研究,他们让有经验的开发人员尝试在他们熟悉的存储库中关闭拉取请求。那些开发人员报告了提升。他们报告说使用这些模型他们感觉更有生产力。

但事实上,如果你看他们的输出以及实际合并回的内容,有20%的下降。他们使用这些模型的结果是生产力降低了。

所以我试图将人们对这些模型的定性感觉与以下几点相协调:1)在宏观层面,这个软件的复兴在哪里?然后2)当人们进行这些独立评估时,为什么我们没有看到我们期望的生产力收益?

Dario: 在Anthropic内部,这真的是毫不含糊的。我们承受着难以置信的商业压力,并且因为我们做的所有安全工作而让自己更加困难,我认为我们做得比其他公司多。

在保持我们的价值观的同时在经济上生存的压力是难以置信的。我们正在努力保持这个10倍收入曲线的增长。

没有时间胡说八道。没有时间感觉我们有生产力而实际上没有。

这些工具使我们更有生产力得多。你认为我们为什么担心竞争对手使用这些工具?因为我们认为我们领先于竞争对手。

如果这秘密地降低了我们的生产力,我们不会经历所有这些麻烦。我们每隔几个月就能看到最终生产力,以模型发布的形式。

对此没有自欺欺人的余地。这些模型使你更有生产力。

1)人们感觉自己有生产力是由这样的研究定性预测的。但2)如果我只看最终输出,显然你们正在取得快速进展。

但这个想法应该是,通过递归自我改进,你制造了一个更好的AI,AI帮助你构建一个更好的下一个AI,等等等等。

相反,我看到的是——如果我看你、OpenAI、DeepMind——人们只是每隔几个月就在领奖台上移动位置。也许你认为那会停止,因为你赢了或者什么的。

但如果事实上上一个编码模型有这些巨大的生产力收益,为什么我们没有看到拥有最好编码模型的人有这种持久优势。

Dario: 我认为我对情况的模型是有一个逐渐增长的优势。我会说现在编码模型给出的总因子加速可能是,我不知道,15-20%。那是我的看法。六个月前,可能是5%。

所以没关系。5%不算数。它现在刚刚到达一个点,它是几个因素中的一个,有点重要。那将继续加速。

我会说六个月前,有几家公司大致处于同一点,因为这不是一个显著因素,但我认为它开始加速越来越多。

我还会说有多家公司编写用于代码的模型,我们并不完全擅长阻止其中一些其他公司在内部使用我们的模型。

所以我认为我们看到的一切都与这种滚雪球模型一致。再说一次,我在所有这一切中的主题是所有这一切都是软起飞,软的、平滑的指数曲线,尽管指数曲线相对陡峭。

所以我们看到这个雪球聚集动力,它像10%,20%,25%,40%。随着你的进行,阿姆达尔定律,你必须把所有阻止你闭环的东西清除掉。

但这是Anthropic内部最大的优先事项之一。

退一步说,在我们谈论何时获得这种在职学习之前?

似乎你在编码方面提出的观点是我们实际上不需要在职学习。

你可以有巨大的生产力提升,你可以为AI公司带来潜在的数万亿美元收入,而没有这种基本的人类即时学习能力。

也许那不是你的主张,你应该澄清。但在大多数经济活动领域,人们说,"我雇了某人,他们在最初几个月不是那么有用,然后随着时间的推移,他们建立了背景、理解。"

实际上很难定义我们在这里谈论什么。但他们得到了一些东西,然后现在他们是一个强大的力量,他们对我们如此有价值。

如果AI没有发展出这种即时学习的能力,我有点怀疑我们是否会在没有那种能力的情况下看到世界的巨大变化。

Dario: 我认为这里有两件事。现在有技术的状态。

再说一次,我们有这两个阶段。我们有预训练和强化学习阶段,你把一堆数据和任务扔进模型,然后它们泛化。

所以这就像学习,但这就像从更多数据学习,而不是在一个人类或一个模型的一生中学习。

所以再说一次,这位于进化和人类学习之间。但一旦你学会了所有这些技能,你就拥有它们。

就像预训练一样,就像模型知道更多一样,如果我看一个预训练模型,它对日本武士的历史了解比我多。它对棒球了解比我多。它对低通滤波器和电子学了解更多,所有这些东西。

它的知识比我的广泛得多。所以我认为即使只是那个也可能让我们达到模型在一切方面都更好的地步。

我们还有,再说一次,只是通过扩展现有设置的类型,上下文学习。我会把它描述为有点像人类的在职学习,但稍微弱一点,稍微短期一点。

你看上下文学习,如果你给模型一堆例子,它确实能理解。上下文中确实发生了真正的学习。

一百万个token是很多的。那可以是几天的人类学习。如果你想想模型阅读一百万个单词,我需要多长时间才能阅读一百万个?至少几天或几周。

所以你有这两样东西。我认为现有范式中的这两样东西可能就足以让你获得"数据中心里的天才之国"。

我不确定,但我认为它们会让你得到其中的很大一部分。可能有差距,但我当然认为就目前而言,这足以产生数万亿美元的收入。那是第一点。

第二点,这个持续学习的想法,单个模型在工作中学习的想法。我认为我们也在研究这个。

很有可能在接下来的一两年内,我们也会解决这个问题。再说一次,我认为你在没有它的情况下走了大部分路。

每年数万亿美元的市场,也许所有我在"技术的青春期"中写的国家安全影响和安全影响都可以在没有它的情况下发生。

但我们,我想其他人,正在研究它。很有可能我们将在接下来的一两年内到达那里。

版权声明:
作者:ht
链接:https://www.techfm.club/p/233631.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>