《彭博商业周刊》封面文章丨中国人工智能领先计划内幕:DeepSeek只是个开始

Inside China's Plan For AI Supremacy

DeepSeek was just the beginning

DeepSeek’s ‘Tech Madman’ Founder Is Threatening US Dominance in AI Race

这家公司的突然崛起表明,尽管华盛顿努力遏制,中国的人工智能产业仍在蓬勃发展。

 

梁文锋身形瘦削,风格内敛,在会议中可能显得腼腆,甚至有些紧张。这位中国初创公司DeepSeek的创始人,最近颠覆了人工智能界,他讲话时常有停顿,沉默时间较长。但新员工很快就发现,绝不能将他的安静思考误认为是胆怯。一旦梁文锋理清讨论的细节,他会抛出一系列精准且难以回答的问题,涉及模型架构、计算成本以及DeepSeek人工智能系统的其他复杂细节。 

员工们称梁文锋为“老板”,这是中国对商业上司的常见尊称。但不同寻常的是,这位“老板”赋予年轻研究人员甚至实习生极大的自主权,让他们参与大型实验项目,经常到他们的工位查看进展,鼓励他们探索非传统的工程路径。讨论越技术化越好,尤其是当这些讨论能带来实际性能提升时,梁文锋会亲自在公司内部的Lark消息平台上分享这些里程碑。一位前DeepSeek员工表示:“他是个真正的技术宅。”这位员工与本文采访的许多人一样,因未获授权公开讨论公司事务而要求匿名。“有时候,我觉得他比研究人员更懂得研究。”  

梁文锋和他的年轻公司在今年1月一举成名,发布了人工智能模型R1,给人一种爆炸性突破的感觉。R1在多项用于评估人工智能性能的标准化测试中击败了西方主导的玩家,而DeepSeek声称其基础模型的构建成本仅为OpenAI的ChatGPT所依赖的GPT-4模型估算成本的约5%。 

测试结果引发了美国市场1万亿美元的抛售,并对美国通过出口管制减缓中国人工智能进展的策略提出了棘手问题。亚马逊和微软迅速将DeepSeek的模型纳入其云服务,与Meta和Mistral AI的竞争对手并列。亚马逊语言模型市场负责人阿图尔·德奥(Atul Deo)表示:“基本上一个周末,DeepSeek的关注度激增,我们立即采取行动。”  

中国在胜出吗?

DeepSeek揭开了美国人观察中国人工智能领域的迷雾窗口:此前,这个领域神秘莫测,容易被视为夸大的威胁,但实际上可能比美国愿意承认的更具挑战性。在这家初创公司崭露头角之前,许多美国公司和政策制定者抱有安慰的想法,认为中国在人工智能领域仍远远落后于硅谷,这让他们有时间准备应对未来的平等竞争,或阻止中国达到这一水平。 

现实是,DeepSeek所在的杭州以及其他中国高科技中心正涌现出一批被称为“AI小龙”的初创公司。本土初创公司如MiniMax和Moonshot AI的智能聊天机器人人气飙升,甚至在美国也广受欢迎。阿里巴巴集团的Qwen系列大型语言模型在谷歌和Anthropic等公司的模型排行榜上始终名列前茅;百度公司首席执行官李彦宏(Robin Li)在4月表示,凭借其自主研发芯片组装的新超级计算机,百度能够开发出与DeepSeek同样优秀但成本更低的模型。华为技术有限公司也因其与英伟达竞争的产品而广受好评,英伟达的图形处理器(GPU)为美国和欧洲最先进的人工智能模型提供动力。 

Counterpoint技术市场研究分析师孙伟(Wei Sun)表示,中美之间的人工智能差距现已缩短到几个月,而非几年。孙伟指出:“在中国,有一种集体主义精神和强烈的工作意愿,这带来了执行上的优越性。”他还提到,英伟达芯片的强制稀缺激发了新的AI创新。“这种动态创造了一种达尔文式的压力:生存属于那些能以更少资源做更多事情的人。”  

Anthropic首席执行官达里奥·阿莫代(Dario Amodei)在3400字的博客文章中呼吁加强美国出口管制,称DeepSeek必定通过新加坡第三方购买了大量英伟达GPU,包括其最先进的H100芯片。

处于争议中心的DeepSeek仍是一个谜。这家公司以开源其人工智能技术为傲,但对其内部运作或意图却毫不透明。它在公开论文中透露了研究的具体细节,但对构建人工智能的总体成本、当前GPU构成或数据来源等基本信息守口如瓶。 

“我们不知道DeepSeek的真正动机是什么,它有点像个黑盒。”

梁文锋长期以来被认为不善交际,中国人工智能界的一些领导者私下称他为“技术狂人”,这是对雄心勃勃的怪才企业家的昵称变体。在过去10个月,他未接受任何媒体采访,直到最近一张照片曝光了他年轻、戴眼镜的面容。梁文锋及其同事未回应本文的多次评论请求,仅有一名员工的自动回复表示正在处理询问:“感谢您对DeepSeek的关注和支持!”她的邮件补充道。 

为了进一步了解DeepSeek的运作及其在中国人工智能雄心中的角色,彭博商业周刊采访了梁文锋的11名前员工,以及三十多位接近中国人工智能行业的分析师、风险投资家和高管。 

由于缺乏公开露面,像阿莫代和OpenAI负责人山姆·奥特曼(Sam Altman)这样的批评者得以用负面猜测填补空白,这些猜测在美国观众中引发共鸣,他们倾向于将中国技术视为潜在威胁。但即使是对DeepSeek持谨慎态度的人,也不得不正视其人工智能的卓越实力。Perplexity AI公司首席商务官德米特里·舍韦连科(Dmitry Shevelenko)表示,其公司无人能与DeepSeek的任何人员取得联系。尽管如此,Perplexity已采用DeepSeek的技术,仅在美国和欧洲的服务器上托管。Perplexity将其命名为R1 1776(致敬美国建国年份),舍韦连科称这是对自由的致敬。“我们不知道DeepSeek的真正动机是什么,”他说,“它有点像个黑盒。”  

DeepSeek早已预料到其人工智能可能引发国外担忧。在2024年3月英伟达开发者大会上的一场鲜为人知的虚拟演讲中,DeepSeek的深度学习研究员陈德立(Deli Chen)谈到应将价值观与大型语言模型“解耦”,以适应不同社会的需求。在一张冷酷理性的幻灯片中,陈展示了DeepSeek为定制聊天机器人伦理标准的原型,开发者只需轻点按钮,就能设置赌博、安乐死、性工作、枪支拥有、大麻和代孕等问题的合法性。陈解释说:“他们只需选择适合自己需求的选项,就能享受专为其价值观定制的模型服务。” 

在DeepSeek,寻找高效的解决方法一直是文化常态。梁文锋和朋友们在2000年代中期于浙江大学学习机器学习、信号处理、电子工程等技术领域,并在全球金融危机期间开发了用于股票交易的计算机程序,可能是为了兴趣(当然,也为了赚钱)。 

毕业后,梁文锋独自继续开发量化交易系统,赚得一笔小财富后,与几位大学朋友在杭州联合创立了后来被称为幻方的公司。早期招聘广告宣称吸引了谷歌和脸书的顶尖人才,寻找具有《生活大爆炸》中谢尔顿式“古怪才华”的数学和编码“极客”。他们承诺提供免费零食、Herman Miller座椅、扑克之夜、鼓励穿T恤和拖鞋的办公文化,以及带有金融科技兄弟文化色彩的“与90后温柔可爱的女孩”和“从华尔街归来的犀利女神”共事的机会。 

与后来的DeepSeek一样,幻方培养了一种神秘感——其首条社交媒体帖子仅称梁文锋为“L先生”——同时致力于一种“让我证明给你看”的透明度。每周五,幻方会在微信上发布其10只原始基金的绩效图表。在2016年夏季将每周数据限制为注册投资者之前,其投资组合年化回报率平均达35%。 

数十亿美元最终流入幻方的资产,其投资和研究团队增至100多人。2019年,梁文锋开始为人工智能部门积极招聘,旨在挖掘庞大数据集以发现被低估的股票、高频交易的微小价格波动以及行业投资者忽视的宏观趋势。到疫情初期,他和团队构建了一个由互联处理器组成的高性能计算系统,称为集群。据幻方称,这个集群配备了1000块英伟达2080Ti芯片(常用于游戏和3D艺术)以及100块Volta系列GPU。(Volta GPU,即V100,是英伟达首个人工智能优化处理器。)相比之前需要两个月训练新经济分析模型的较小架构,新设备处理相同工作量只需不到四天。 

这些金融模型令人印象深刻,但远小于OpenAI等美国公司构建的通用模型。梁文锋推动建造一台由英伟达当时的新款A100 GPU组成的更大超级计算机,这是V100的升级版。一位参与项目的幻方前工程师表示,梁文锋是该集群的“最大单一用户”,估计80%的计算资源用于他的用户名开发模型。这位前工程师说,梁文锋似乎痴迷于深度学习,称之为“他的昂贵爱好”。为量化公司投入数亿美元于人工智能基础设施可能有些过头,但梁文锋当时赚的利润足以负担。“对当时的梁来说是小钱,”这位工程师回忆道,“更多计算能力,更好模型,交易中更多收益。”  

至少这是希望。幻方当时管理约141亿美元资产,在2021年12月致股东的信中为连续的低迷回报道歉。公司将问题归咎于人工智能系统,称其在疫情波动中虽选股明智,但未能有效把握退出时机。尽管如此,公司决定在人工智能上加倍投入:2022年1月,其在社交媒体上宣布已集齐5000块英伟达A100芯片,每块通常价值数万美元。3月,公司宣布该集群已扩展至1万块,仅在英伟达警告美国新限制可能影响此类芯片对华出口的六个月前。 

目前尚不清楚这些基础设施中有多少最终用于量化交易,多少用于梁文锋的“昂贵爱好”。次年春天,OpenAI推出ChatGPT约五个月后,他将DeepSeek剥离为独立研究实验室。在杭州和北京的独立办公室,金融不再是重点。在一份充满陈词滥调的未署名宣言中,幻方誓言摒弃平庸,迎接人工智能革命的艰巨挑战。其终极目标:通用人工智能。 

2023年,DeepSeek实验室全力推进AI代码助手、通用知识聊天机器人以及文本生成3D艺术工具的开发。梁(Liang)从幻方调来了工程师,又从微软北京办公室及中国顶尖科技公司和高校招聘了更多人才。刘博(Bo “Benjamin” Liu)表示,他于2023年9月加入DeepSeek担任学生研究员,入职前刚准备攻读博士学位。他说梁常常将至关重要的任务交给实习生,而在其他公司这些任务通常由资深员工负责。“以我为例:当我来到公司的时候,没有人负责RLHF基础设施(即人类反馈强化学习所需的基础系统),于是他就让我来做,”刘说。“他会信任你去做没人做过的事情。”(这种信任对DeepSeek还有一个额外好处:实习生的薪酬为每天140美元,另加每月420美元的住房补贴——在中国这算是相当丰厚的待遇,但仅相当于美国AI公司实习生薪酬的三分之一,和硅谷全职工程师的收入更是天壤之别。)

据两名前DeepSeek研究人员透露,梁很早便在“稀疏性”技术上下注,这是一种通过将大模型分解为不同“专长模块”来更高效地训练和运行大语言模型(LLM)的方法。以最初的ChatGPT为例,用户无论问“2+2等于几”还是“如何做一个派”,整个大模型都会被激活来寻找最佳答案。而稀疏模型则能更有效地利用资源,它被划分为多个“专家模块”,每次只激活与当前问题最相关的模块。

稀疏方法能大幅降低计算成本,但也带来了极大的复杂性。如果问题没有被分配到足够的模块,或者被送到错误的模块,答案质量就会下降。(比如数学模块知道圆周率π的用法,但不知道派的食材有哪些。)梁注意到谷歌和法国独角兽公司Mistral在这方面取得了进展:Mistral于2023年12月发布的稀疏模型由8个专家组成,每次查询根据上下文激活其中最相关的两个。于是梁动员团队设计出拥有更多专家模块的模型,这种方式可能会增加“幻觉”生成的概率,也可能导致知识碎片化。“这引发了公司内部激烈的讨论,”一位前DeepSeek员工表示。

接下来,DeepSeek不断取得新的突破,并逐步公开发布,这也吸引了中国竞争对手的注意。2024年底,DeepSeek发布了V3通用模型,其规模比当时最大的开源模型——Meta的同类产品——大了约65%。不过真正吸引谷歌、OpenAI和微软高层关注的,是V3研究论文的详细内容,尤其是在DeepSeek发布推理模型R1前约一个月。该论文中有一个惊人的数据引发了广泛关注:DeepSeek暗示V3的整体开发成本仅为560万美元。这个数字很可能只指最终训练阶段——即将模型原型精炼为完整产品的过程——但许多人误以为这就是整个项目的预算,惊叹其成本之低。相比之下,当前最先进模型的累计训练成本常常高达1亿美元以上。Anthropic的Amodei甚至在DeepSeek崛起前曾预测,下一代模型的训练成本可能在100亿到1000亿美元之间。

AI平台Hugging Face的研究主管Leandro von Werra表示,DeepSeek模型最令人印象深刻的并不是其“架构创新”。他从研究论文中最大的收获是:DeepSeek必定掌握了高质量的数据集——可能是从网络上巧妙清洗出来,或通过其他手段获取的——才能让V3模型成功诞生。“没有非常强的数据集,模型的性能是无法保证的,”von Werra说。“从这份报告可以很清楚地看出,DeepSeek拥有当前最好的LLM训练数据之一。可惜整份50页的报告里,对数据集的描述只有半页。”

DeepSeek之所以能如此快速进步,是因为梁把开源精神视为其核心理念。他认为,美国的顶级实验室(包括OpenAI和谷歌)所采取的“封闭核心技术并对强大模型收费”的做法只追求短期利益,难以带来持久成功。而完全开放并基本免费地将模型提供给公众,是最有效的方式,既能加速用户采纳,又能吸引创业公司和研究者基于其技术进行创新。通过这种方式,DeepSeek希望建立起“产品使用—反馈—优化”的正循环。正如DeepSeek在将近两年前首次公开其LLM时引用Linux开源操作系统发明人的话所说:“少说废话,给我看代码。”  

4月一个阴天的周日,在杭州繁忙的萧山国际机场,阿里巴巴字节跳动和华为的人工智能服务数字广告牌迎接旅客。航站楼内,一台蓝发人形机器人向乘客挥手致意。外面,一家自动驾驶初创公司正在测试用于运输货物的无人驾驶小卡车。尽管DeepSeek备受关注,西方人似乎忘了它只是中国众多硅谷等效城市中崛起的众多“AI小龙”之一。仅在杭州这座1250万人口的大都市,DeepSeek就属于被称为“六小龙”的精英科技初创群体。 

在风景秀丽的西湖区,有因《黑神话:悟空》而大热的游戏科学工作室,这款畅销动作游戏因使用机器学习技术使电脑角色更逼真而备受赞誉。不远处有两家机器人巨头和一家专注于3D空间软件的独角兽。附近还有浙江强脑科技有限公司,即BrainCo,可视为中国版Neuralink。该公司源于哈佛大学一名中国博士生韩璧丞(Bicheng Han)孵化的初创公司,现于杭州附属实验室开发仿生肢体和脑活动控制计算机的技术。BrainCo的一只人工智能驱动的假手目前在中国人工智能小镇的展览中心展出,这是杭州另一个新兴科技中心。 

据一位参加展览的人士透露,BrainCo近期为展品提供导览。参观者常想投资,但这些“脑力精英”似乎并不急需外部资金。一位参加导览的基金经理说:“他们基本上不需要钱。围绕六小龙的热潮让人们争相投资。”  

这些“小龙”正在倾听,且并非都那么“小”。阿里巴巴这家市值3000亿美元的集团主园区位于西湖以西约40分钟车程,拥有自己的湖泊。公司最近承诺在未来三年投入530亿美元建设更多人工智能数据中心,据称其最新Qwen3旗舰模型在性能和成本效率上可媲美DeepSeek。在中国以外,阿里巴巴通常被视为电子商务企业,但其增长更快的人工智能和云部门于2022年剥离至杭州郊区的一个独立中心。会议室里的大屏幕每72小时更新一次“行业洞察快讯”,详细介绍DeepSeek和OpenAI等竞争对手的最新成就。甚至洗手间也有每周更新的版本,提醒人们即使在自然召唤时,人工智能竞赛仍在继续。 

今年4月,阿里巴巴联合创始人马云在公司云部门成立15周年庆典上罕见发表演讲,据多位现场及通过香港和东京办公室观看直播的人士透露,马云表示希望人工智能服务人类而非统治人类,观众为他的强势回归感到振奋。 

这提醒人们,马云这样的科技巨星似乎重获青睐,而像梁文锋这样的后起之秀也加入其中,即使美国科技领袖的光环正在褪去。中国正涌现出日益强烈的民族自豪感,渴望证明能克服西方障碍。亚洲集团有限责任公司(Asia Group LLC)香港政策顾问董事总经理George Chen表示,顶尖中国工程师在苹果、谷歌、微软等美国领先公司工作后开始回国。特朗普政府的敌意是一部分原因,但他们也被东方的蓬勃发展吸引。“硅谷对中国的顶尖人才不再有吸引力,”陈说。 

01.AI创始人李开复更进一步。作为苹果、谷歌和微软的资深人士,李开复表示,下一代人才不再走他在美国公司历练后再回国创业的路。“这些年轻的人工智能工程师大多是本土培养的,”他说,“DeepSeek的成功以及其他新人工智能初创公司的成就,激励更多年轻人才加入中国的AI复兴。”  

如今,中国的科技公司中,没有哪家比DeepSeek更能激发民族自豪感。4月,27岁的加拿大计算机科学家冯麒(Kirby Fung)带家人游览了梁文锋的母校浙江大学。冯麒曾在此参加交换项目,想向祖父母和弟弟展示他与梁文锋同校的经历。“向加拿大朋友解释DeepSeek的创始人是我校友真的很酷,”冯说。 

游客和社交媒体网红也常蜂拥而至DeepSeek总部,这座四塔建筑群俯瞰中国著名的大运河。游客在附近商店寻找梁文锋的踪迹,包括DeepSeek大楼内一家高档火锅店,员工偶尔在那用餐。(服务员不得不告知,梁从不光顾。) 

认识梁文锋的人说,他在杭州和北京的DeepSeek办公室之间分配时间,北京办公室位于当地科技中心一座玻璃大楼的第五层。二十多岁的程序员在可调节高度的办公桌前埋头工作,茶水间备有能量饮料、康师傅方便面和辣条。白板上员工可写下额外食品请求。一位最近离职的研究员说:“在那儿吃几个月午饭和晚饭后,我胖了不少。”  

梁文锋极少同意与外人会面,有时甚至以全息投影形式参加少数会议。他拒绝了今年有影响力的巴黎人工智能行动峰会的邀请,该峰会吸引了OpenAI的奥特曼、谷歌和Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)及多位总理和总统。 

中国为DeepSeek欢呼,美国却将其视为水源中突然出现的神秘生物,检查其是否无害或有害。然而,DeepSeek自称与任何热门初创公司无异——是“纯粹的车库能量”的产物,其2月在X上的帖子称。公司与谷歌在同一北京园区运营,附近有汉堡王和两家Tim Hortons。仅仅因为人工智能行业此前未关注DeepSeek,并不意味着幕后有不可告人的事。“人工智能界没料到DeepSeek,”投资OpenAI和SenseTime的Alpha Intelligence Capital合伙人阿诺·巴泰勒米(Arnaud Barthelemy)说,“他们本该料到。”  

巴泰勒米表示,DeepSeek的真正启示是中国科技公司如何高效地将限制转化为优势。“中国有许多聪明才智,以更低的计算需求完成大量智能创新,”他说。 

2023年5月,DeepSeek成立的同月,英伟达首席执行官黄仁勋对《商业周刊》表示,美国对中国过度监管只会激励其超越障碍。他强调经济影响力是国家安全的有效工具,政府干预的意外后果将是严重的。“失去科技行业三分之一的市场将是灾难性的,”他说,提到限制美国科技对华出口的风险。“他们将在没有竞争的情况下蓬勃发展。他们将繁荣,并出口到欧洲、东南亚。”  

“你必须小心推动竞争的程度,”黄仁勋继续说,“突然间的反应是不可预测的。毫无顾忌的人会以令人惊讶的方式回应。”  

关于DeepSeek故事的一个重要争议仍存:它实际花费了多少来构建模型。美国研究公司SemiAnalysis在一份广受引用的报告中估计,幻方和DeepSeek可能拥有约5万块英伟达顶级H系列GPU的集群,价值14亿美元,大部分未公开。SemiAnalysis称,这些基础设施大多包括符合出口规定的GPU。(美国允许英伟达向中国销售H20和H800等性能受限的芯片,以符合白宫限制。)但该咨询公司还称DeepSeek额外获得1万块美国政府禁止对华销售的尖端H100芯片。 

三位前员工强烈否认这些说法,称DeepSeek的GPU少于2万块,包括较旧的英伟达芯片和受出口管制的芯片。博士候选人刘博说:“他们在散布谎言。”SemiAnalysis表示坚持其报告。 

无可争议的是,DeepSeek是否渴望获得美国科技公司那样的计算能力规模。公司似乎自信能比硅谷做得更多。一位前DeepSeek员工说:“现实是,大型语言模型研究人员对计算资源有巨大需求——如果我有数万块H系列GPU,可能会变得浪费,运行许多不必要的实验。”但更多资源是中国技术人员乐于应对的问题。“我希望我们中国公司有一天能有5万块GPU,”一位加入北京另一开源AI实验室的离职研究员说,“想看看我们能做到什么?”  

作者:Austin Carr, Saritha Rai and Zheping Huang, with Luz Ding, Claire Che, Matt Day and Jackie Davalos 

 

 

 

链接

版权声明:
作者:Zad
链接:https://www.techfm.club/p/213222.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>