一文读懂GPT-5发布会|价格屠夫、编程惊艳,新功能乏善可陈

 一文读懂GPT-5发布会|价格屠夫、编程惊艳,新功能乏善可陈

腾讯科技 


GPT-5性能提升有限,仅在部分基准测试中微幅领先竞品。最大亮点是编程能力显著增强和极具竞争力的定价策略,API价格仅为Claude Opus 4.1的1/15。模型幻觉率大幅降低45%,上下文处理能力提升明显。但新功能乏善可陈,多模态能力仍为短板,发布会还出现图表错误等问题。
北京时间8月8日凌晨1点的发布会上,GPT-5 总算在万众期待中姗姗而至,此时,距离GPT-4的发布已过去了两年半。

但这一次,比起ChatGPT 的惊艳亮相、GPT-4 的跨越式升级、o1 发布时的震撼全场,这场发布会显得格外平淡:不太惊艳的Benchmark,毫无新范式的影子;很难激起兴趣以及看出与竞品区别的用例展示;甚至还有被网友抓包的PPT展示错误,共同构成了这1小时20分钟的发布会。 

但这并不意味着GPT-5没有进步。极低的幻觉率、前端能力的加强、上下文能力的跃升和极为有竞争力的价格,都是这次难得的亮点。

尤其是价格,在GPT-5 精彩的编程表现之下,其API价格仅为昨天发布的Claude Opus 4.1的1/15,也比Gemini 2.5 Pro价格低。 

这可以说是对Anthropic的致命一击。

今天凌晨的OpenAI,虽失去了魔法的节奏、但依然在和其他厂商的肉搏中站稳了脚跟。

GPT-5本体:有限的升级、微末的SOTA 
本次GPT-5共有4个版本,分为GPT-5 、 GPT-5 mini、 GPT-5 nano,以及只对企业版和每月 200 美元高级版开放的GPT-5 Pro模式。

对于一般用户而言,默认的是统一模型GPT-5,它是由多个模型组成的系统,包括用于大多数问题的“智能且快速”模型(GPT-5-main)和用于更复杂问题的“更深层推理”模型(GPT-5-thinking)。

这种统一的实现,是由一个实时路由器决定针对特定查询使用哪个模型。

mini、nano的具体选择则是API用户可选。而GPT-5 Pro模式,则类似于Grok 4 Hard模式,使用了并行测试计算,一次多个模型一起并行计算更长时间。它用更大的算力,提供了最全面、最精准的答案。在超高难度的科学问题(GPQA)上,它刷新了世界纪录。在与人类专家的「盲测」中,10 次里有近 7 次被认为更优。

而在能力和评分上,GPT-5 几乎在每一项上都有提升,但都只比当下SOTA高了一点点,也只比o3强得很有限。

智力水平:体验最佳,但不是智力最佳
在智力的水平,各种主流评测集里,GPT-5都高于o3水平,但整体差距没有非常大。

细拆下来,其中提升最明显的前沿数学测试集里,我们能看到,GPT-5的效果还不如ChatGPT Agent,只有使用Pro模式下才会更强。

当与其他模型做比较时,我们就能发现,GPT-5大多数“智力”能力仅仅稍微高出竞争对手一点,部分能力甚至还并非SOTA,只能说整体以微小幅度领先。很难说是什么跨越式的能力提升。

综合来看,根据Artificial Analysis的排名,GPT-5 目前领先第一,但综合分仅比o3高了两分、比Grok 4仅高一分。

另一个显示出GPT-5能力不及预期的是Arc Prize的测试,在这个号称是AGI终极测试中,GPT-5不敌 Grok 4,而且是远远落后。

不过从这里我们也能看到,相对于o3,GPT-5在计算效率上确实有所提高,能以更少的token消耗,获得超过o3的效果,其效率也领先于Anthropic的模型。 

根据OpenAI的介绍,GPT-5 thinking在解决复杂问题时,使用的token数量可以减少了50%-80%。

这引得马斯克都激动的发推。

最近,Grok在AI国际象棋大赛上披荆斩棘,这次又压了OpenAI一头,感觉这个发布会过后,Grok反而获利最大。

不过在用户体验上,GPT-5扳回一城。

在LMArena这个主要由用户双盲比较不同模型优劣的排行榜上,GPT-5在所有项目上都得到了第一名。

编程:解决痛点,用Agent让Vibe coding “省心”
而在本次OpenAI着重强调的编程领域,GPT-5在thinking(思考)模式下,也较前代有比较明显的提升。

但同样,如果把一直强调编程的竞争对手Anthropic最新的Claude 4.1 Opus也算进来,优势又极其微小了。两者仅有0.3%的分差。

虽然在整体编程基准上,GPT-5的表现并不特别突出,但OpenAI确实在编程实际体验上做出了很多优化。发布会上,OpenAI介绍了编程的几个重要提升,主要体现在对编程要求的理解、对错误的改正能力和更多工具使用能力上。

这主要是归功于智能体式编码(Agentic Coding)系统的成熟。GPT-5擅长处理“智能体式”编码任务,可以调用多种工具,连续工作数分钟甚至更长时间来完成一个复杂的指令。

模型在编码时甚至会主动沟通,解释它的计划、步骤和发现,像一个协作的团队一样行动。

为了实现这种类似协作伙伴的行为,OpenAI的团队专门针对几个特性对模型进行了微调,提升了包括自主性(autonomy)、协作与沟通(collaboration and communication)、以及测试(testing)的能力。

编程要求的理解和指令遵循上的提升,让GPT-5能将模糊或详细的指令转化为实际可用的代码,帮助让即使不懂编程的人也能实现他们的想法。

推特上的部分用户也有相应的反馈。

而工具调用能力,经过OpenAI的特别微调后,也凸显出来了。

这一点在Tau这个测试集中表现明显。它是用来评估一个AI模型在模拟真实世界场景中,与用户进行动态对话,并有效使用外部工具(即API或函数调用)来完成任务能力的测试集。在电信领域,它的能力提升明显。

另一个非常重要的更新是“修Bug”能力的大幅提升。

在演示中,GPT-5能够深入一个真实的代码库(OpenAI Python SDK),通过搜索和读取文件来理解代码的结构和逻辑,并最终定位到问题的根源。它甚至能理解人类工程师做出某些架构决策的深层原因,例如为了加强安全性。

而且它还可以自动修复自己的bug。在演示一个前端应用开发任务时,GPT-5在编写完代码后,会自己尝试构建(build)项目。当构建过程中出现错误时,它能将这些错误信息反馈给自己,然后基于这些错误来修改和迭代自己的代码。这被OpenAI的演示人员描述为一个“深刻的时刻”和一个“自我改进的循环”。

在修复特定bug的过程中,模型也表现出了很高的智能。例如,它在运行代码检查(lints)时发现了其他一些问题,但它能判断出这些问题与当前要修复的bug无关,因此不会进行不必要的修改。

这一点对于当下的vibe coding而言十分重要。在今年的一篇论文中就曾提到一个反直觉的事实:用AI辅助编程反而可能会降低工作效率,而非提升。这其中最主要的原因是,日常程序员所面对的往往并非一个全新项目,而是要在一堆旧代码上迭代。

因此,如果没有对于复杂程序的的整体把握以及自我bug修复功能的话,AI编程在这类项目上的能力就会大受限制。

可见,这次OpenAI真是在编程上用上了产品经理的心思,针对痛点做了大幅调整和升级。在沃顿商学院教授Ethan Mollick的测试中,他也体验到了GPT-5编程“让人省心”的特点。 

GPT-5在编程上的另一个提升点是前端能力。现场展示中,OpenAI的研究员让GPT-5现场生成了一系列的内容,包括飞机空气动力学动态展示。

这一内容足足有400行代码,GPT-5写了2分钟。

还有一个教法语的贪吃蛇游戏,整体表现都很不错。

多模态:仍然是短板
之前在各种泄露中被广泛认为会大幅提升的多模态能力方面,GPT-5的提升也并不太显著。

而且与Gemini 这种大一统模型不同,GPT-5仍然是一个主要能进行文字和图像理解的模型。当下,它仍然不支持音频输入/输出和图像生成,视频就更别说了。

想短期内能追上刚发布的Genie 3,看起来对OpenAI来说还是太难了。 

一些惊喜:超低幻觉、上下文大跃进
虽然综合实力并不惊艳,只能说勉强保住了第一的位置。

但在一些小的方面,GPT-5的提升确实非常可圈可点。而且这些小的方面,也许能起到决定性的作用。 

首先是幻觉和安全。GPT-5 显著减少了幻觉的发生,它出现事实错误的概率比 GPT-4o 低约 45%,比 OpenAI o3 低约 80%。

这是个相当了不起的成就。仅有不到1%的幻觉率,这对于实际落地应用来讲极其重要,在工业环境以及实际工作环境中,幻觉都是致命的。

所以,也难怪OpenAI的核心研究员Noam Brown把针对发布会的唯一评论,献给了GPT-5在消除幻觉上的进步。 

 GPT-5在System Card中简要地提到了他们使用的大概方法。 

他们一方面强化训练模型能够有效地使用浏览工具来获取最新的信息。另外,当模型不使用浏览工具,而是依赖其自身的内部知识时,训练的重点是减少在这种情况下产生的幻觉。

更底层的原因,可能是GPT5 thinking经历的强化学习训练。在这些训练里,OpenAI似乎利用了一些最新的训练方法,让这些模型学会了“完善自己的思考过程,尝试不同的策略,并认识到自己的错误”。

也正是因为这个训练模式,GPT-5模型的“欺骗”行为也大幅减少,部分维度上居然可以减少近90%。(欺骗:在这里指的是模型可能会向用户谎报其行为,或者在任务无法完成、信息不足的情况下悄悄地不执行任务。这也和幻觉的下降直接相关。)

另一个非常重要的进步是上下文能力。

首先,所有的GPT-5版本目前支持的上下文都拓展到了400k,远超o3、4o的128k默认版本上下文。虽然赶不上Gemini 1M的上下文量,但相比于其他对手也已经算是领先一步了。

而且从测试上看,上下文的精准度提升堪称飞跃。大海捞针测试里,GPT-5的准确率比o3提升了将近一倍。这意味着GPT-5处理长文本的能力会有比较明显的强化。这对于需要处理复杂任务的编程、写作、分析都影响颇大。

这两点特别的小点,虽然不能提升GPT-5的综合智力,但可能会给GPT-5带来护城河式的优秀体验。

新功能:乏善可陈
如果说能力项上,我们还是可以在编程和幻觉上找到些许亮点,那GPT-5的新功能基本就只能说食之无味了。

首先是写作上的优化。OpenAI在演示中表示,与之前的模型相比,GPT-5在写作质量上有显著提升,能更好地帮助用户润色草稿、邮件乃至故事。

最重要的是,GPT-5更有人味儿,更少AI味儿。它生成的回应更有节奏感和韵律感,语言更真诚、更能引起情感共鸣。而且因为整体能力的提升,它能更好地理解情境的细微差别,让回应感觉不那么像AI。

然而,在演示过程中,这个其实很不直观。就像前两天奥特曼秀出GPT-5推荐的电影时候,大家看不太出来和4o有什么大的区别。

然后是语音功能。GPT-5的声音听起来极其自然,就像和真人对话。它还新增了视频输入功能,可以让语音助手看到你所看到的东西。这基本属于标配,现场感觉还是Grok 4的超高语音回应速度更让人印象深刻。 

记忆能力升级。虽然OpenAI在发布会上提到了对记忆功能进行了大量增强,但实际演示来看只是推出了与Gmail和Google Calendar的集成功能,允许ChatGPT访问用户的邮件和日历来帮助规划日程。也是一种未来标配的水平,而且和“记忆”关联性并不强。

最后是个性化功能:现在GPT-5允许用户自定义聊天界面的颜色了。它不禁让人想到,当一个前沿技术公司开始整这些花活儿的时候,这只能说明,它真的没有别的可展示了。

回应数据瓶颈质疑:左脚踩右脚,还是有效的
在之前Information的爆料中,GPT-5开发失速的主要原因之一,就是数据瓶颈。对此,OpenAI发布会上也给了一个解释。

他们揭示了在GPT-5的训练中,OpenAI试验了新的训练技术,让模型可以利用前一代模型创造数据。与填充型的数据不同,OpenAI专注生成的是“正确类型的数据”,其目的在于“教导”模型。他们利用其模型打造了一个高品质的“合成流程”,生成了以教导GPT-5的复杂数据。

而且他们这种跨代模型间的互动预示着一个递归式的改进循环,即前一代模型越来越多地帮助改善和生成下一代模型的训练数据。

也就是在o1模型推出时,大家一直猜想的由推理模型产生高质量数据,让预训练模型越来越强,再由此通过强化学习加强下一代推理模型的“左脚踩右脚”式训练方法,被OpenAI证实了。

不过从效果上看,这个方法明显Scaling的不那么有效。数据的困境,还没有被完全解决。

价格:绝对的杀招
如果说GPT-5的性能提升不尽人意,至少在价格上,它做到了皆大欢喜。

首先是对C端用户,免费用户也可以使用GPT-5,但有使用次数限制,这个限额也相当慷慨,每天可以聊“几个小时”。当达到上限后,会自动切换到GPT-5 mini模型。而对于Plus用户,将拥有比免费用户“高得多”的使用额度 ,基本满足日常应用。

而对与API用户来讲,GPT-5 几乎给出了一个难以拒绝的价格。每百万token输入1.25美元,输出10美元。

这个价格比起GPT 4o还要便宜。甚至比一直以“低价”著称的Gemini 2.5 Pro都更便宜。而mini和nano的价格,也都低于主要竞争对手的同等级模型。

如果GPT-5的编程能力确实如测试般强大,那对于价格高出15倍的Anthropic而言,将是毁灭性打击。

不过,谁能想到,一个一直以技术领先为核心定义的公司,居然开始打价格战了。这也是OpenAI这次发布会上实际上最大的亮点,也是最大的让人叹息之处。

先行者变得务实,也许才是技术快速发展期结束的最明显标志。

发布会:灾难式的错误,不直观的展示
比起GPT-5的平平表现,这场长达1小时20分的发布会堪称灾难。

首先是发布会上的“图表欺诈”。发布会刚开始没多久,眼尖的网友们就在发布会展示的PPT里发现,SWE Benchmark数据被以不成比例的方式展示,以凸显GPT-5的提升。

这里的比例完全错误,很快网友就还原了一个真实比例。

而且这样的错误还不止一处。在Tau 2 Benchmark的展示中,同样出现了55%比58.1%大的情况。

针对这些致命错误,很快,网友们就开始了嘲讽的狂欢。比如拿GPT序号建表,来讽刺OpenAI的“表格魔法”。

对于已经经历过IMO金牌风波,深陷在“炒作大师”印象中的OpenAI来说,这种错误简直就是火上浇油,更坐实了他们炒作、不可信的形象。

除此之外,这次的演示过程,只有最后用了GPT-5的Cursor生成的城堡小游戏稍微比较亮眼。其他的所有展示都冗长、过分专业、且效果平平。

对比Anthropic的让Claude运营自动售货机实验、Gemnini的宝可梦通关展示Agent性能这些更有冲击力,更能展示前沿探索的发布会环节来讲,实在是缺乏看点。 

而期间充斥的无聊的冷笑话、漫长的推理等待时间,更是让发布会的沉闷到了一种前所未有的水平。

如果说奥特曼是个营销大师,那这场发布会确实是名不副实了。

正是因为奥特曼在会前给出的“GPT-5比我都强”的高期待,和发布会时平淡表现的反差。加上错误连连的问题,这次OpenAI明显被舆论反噬。据Polymarkt的调查,发布会后,大家对OpenAI的模型能力评价甚至都一路下滑。

发布会背后,正在失速的AI行业
对于整个AI产业而言,这次发布会可能意味着一个阴影笼罩的未来。

从GPT-4.5(Orion)项目的失败,我们已经看到了参数Scaling Law逐渐放缓的迹象。而用了十倍算力堆强化学习的Grok-4尽管在某些测试中表现亮眼,但整体上也没有展现出革命性的跨越,这暗示着Test-Time Compute(TTC)Scaling Law也开始见顶。

到今天,GPT-5“小步前进"式的常规进步。这似乎说明着低垂的果实已经摘完了。

那堵看不见的AI快速增长之墙,从未像今天这般明显。

这也许意味着,我们不得不从那个"指数级增长"的狂欢中清醒过来,迎接一个更加务实、更加竞争激烈的新阶段。也许AI行业真的需要一个新的突破,才能重回如梦如幻般的AI一代一个大跨越的节奏中去。

但突破何时到来、以何种形式到来,已经变得颇为难测。

能确定的只有GPT-5,还远不是AGI。 

本文来源:腾讯科技,原文标题:《一文读懂GPT-5发布会|价格屠夫、编程惊艳,新功能乏善可陈》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

版权声明:
作者:lichengxin
链接:https://www.techfm.club/p/222785.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>