人工智能的真实状况:100万亿token揭示了什么
人工智能的真实状况:100万亿token揭示了什么
(视频)
100万亿次AI交互揭秘:我们发现的5个最令人惊讶的AI使用趋势
引言:打破AI炒作的迷思
过去一年是大型语言模型(LLM)发展的分水岭。随着o1等新一代推理模型的发布,AI领域正经历一场从“单次模式生成”到“多步审议推理”的根本性范式转变。在所有关于AI能力的新闻和讨论背后,一个核心问题浮出水面:人们究竟在用这些日益强大的模型做什么?为了拨开炒作的迷雾,我们深入分析了一项基于超过100万亿个token的真实世界使用数据的实证研究。本文将揭示五个与普遍认知相悖的、令人惊讶的发现,展现一个由数据驱动的AI应用新版图。
--------------------------------------------------------------------------------
1. 开源AI的最大用途并非工作,而是“角色扮演”
一、出乎意料的王者:角色扮演占据开源模型的半壁江山
与许多人认为AI主要用于编程、写作等生产力任务的假设相反,数据显示,在开源模型中,最大的用途是创意性角色扮演。在所有开源(OSS)模型的使用中,超过一半(约52%)属于角色扮演类别。这意味着,用户正将LLM用作故事讲述、角色扮演和互动游戏场景的强大引擎。
这种现象的出现并非偶然。开源模型因其内容限制较少、灵活性更高,成为了创意和娱乐应用的理想选择。尤其是在幻想、粉丝小说和互动游戏等领域,用户可以自由探索,而不受商业性安全或审核策略的过多束缚,这使得开源模型在创意领域展现出无与伦比的优势。
“超过一半的开源模型使用量用于角色扮演和讲故事。这与AI主要用于编写代码、电子邮件或摘要的假设相悖。现实中,许多用户是为了陪伴或探索而与这些模型互动。”
--------------------------------------------------------------------------------
2. “灰姑娘的水晶鞋”效应:为何某些AI模型能锁定用户
二、“灰姑娘效应”:赢得用户的关键在于“第一次”解决问题
在快速发展的AI生态中,我们发现了一种“灰姑娘的水晶鞋”效应。当一个新发布的模型首次成功解决了一个之前悬而未决的高价值工作负载时,它就实现了完美的“适配”——就像灰姑娘穿上了独一无二的水晶鞋。通常,这种“完美适配”是通过模型在智能体推理(如多步推理或可靠的工具使用)方面的新能力实现的,从而解决了一个以前棘手的业务问题。
这种“适配”的后果是产生了强大的用户锁定效应。一旦用户找到了能够解决其核心问题的“水晶鞋”模型,即使后来出现了更新、技术上可能更优越的模型,他们也很少会更换。例如,数据显示Gemini 2.5 Pro的2025年6月用户群和Claude 4 Sonnet的2025年5月用户群,其长期留存率远高于后续加入的用户群,因为他们是第一批用该模型解决了关键问题的人。
相比之下,像Llama 4 Maverick和Gemini 2.0 Flash这样的模型则展示了未能实现这种初始适配的后果。它们的留存曲线缺乏任何高绩效的基础用户群,表明这些模型从未被视为解决某个关键问题的“前沿”选择,因此未能锁定一个基础用户群 (foundational cohort)——即那些其问题被完美解决后表现出巨大忠诚度的用户群体,而是在一个高流失率的“足够好”市场中竞争。
“当一个新发布的模型恰好满足了之前未被满足的技术和经济约束时,它就实现了精确的适配——即象征性的‘水晶鞋’。对于那些工作负载终于‘适配’的开发者或组织来说,这种契合会产生强大的锁定效应。”
--------------------------------------------------------------------------------
3. AI不再只是“聊天”,而是进化为“行动者”
三、智能体崛起:AI正从“文本生成器”变为“任务执行器”
大型语言模型的使用正在经历一场根本性的转变,从简单的单轮问答(“聊天”)转向多步骤、集成外部工具的复杂工作流(“行动”)。我们称之为“智能体推理”(Agentic Inference)的兴起。现在的模型不仅仅是生成文本,而是通过规划、调用工具和处理长篇上下文来采取具体行动,解决复杂问题。
支持这一趋势的关键数据证据包括:
- 推理模型的普及:具备多步推理能力的模型现在处理了超过50%的总token量,成为市场的主流。
- 上下文长度的激增:在过去一年中,平均每个请求的输入token(prompt)数量增长了近四倍。这种不对称的增长主要由软件开发和技术推理用例驱动,表明用户正在让模型处理更复杂的背景信息。
- 工具调用的常态化:越来越多的请求开始调用外部API或工具来完成任务,这一比例已稳定在约15%并持续增长,标志着AI正成为连接数字世界的“行动中枢”。
最终,这些趋势表明,模型正在从简单的创意生成器进化为复杂的分析引擎,其核心任务是在大量用户提供的上下文中进行推理。
--------------------------------------------------------------------------------
4. 开源AI的“新版图”:中国力量与市场的碎片化
四、开源生态新格局:中国模型崛起,市场告别垄断
虽然专有闭源模型仍占据主导地位,但开源模型的市场份额已稳步增长至约三分之一。值得注意的是,其中很大一部分增长来自中国开发的模型,例如DeepSeek和Qwen(通义千问)系列,它们凭借强大的性能和快速的迭代,在全球范围内获得了大量用户。
与此同时,开源市场的内部格局也发生了巨变。2025年年中的“夏季拐点”(Summer Inflection)打破了早期由DeepSeek一家独大的局面,市场演变为一个多元化、竞争激烈的“多元生态系统”。如今,没有单一的开源模型能占据超过25%的份额,市场由五到七个主要模型共同分享。这种碎片化和良性竞争为开发者提供了更丰富的选择,也推动了整个开源AI生态的创新。
--------------------------------------------------------------------------------
5. AI的经济学:价格并非唯一决定因素
五、成本与价值的博弈:最好的模型不一定是最贵的
数据显示,AI模型的需求是相对“价格无弹性”的,即模型价格的高低与使用量之间没有强相关性。用户在选择模型时,会综合考虑成本、质量、可靠性和特定能力,而不是单纯追求低价。价值,而非价格,才是驱动选择的核心。
研究将市场上的模型划分为四种类型,清晰地揭示了这种动态:
- 高效巨头 (Efficient Giants):如Google Gemini Flash,成本极低、使用量巨大,是“高容量或长上下文工作负载的有吸引力的默认选项”。
- 高级领导者 (Premium Leaders):如Anthropic Claude Sonnet,成本高昂,但使用量同样很高,表明用户愿意为“卓越的推理能力和规模化的可靠性”付费。
- 高级专家 (Premium Specialists):如OpenAI GPT-4,成本极高、使用量相对较低,专门用于那些“输出质量远比边际token成本更重要的、小众且高风险的关键任务”。
- 长尾市场 (Long Tail):包含大量低成本、低使用量的模型,满足各种利基需求。
这一现象表明AI市场远未进入“商品化”阶段。对于决定业务成败的关键任务,企业愿意支付高昂的溢价。这种动态也解释了为什么像角色扮演这样占开源流量一半以上的创意应用,会在更便宜、更灵活的模型上蓬勃发展,因为它们对成本更为敏感。
--------------------------------------------------------------------------------
结论:AI的真实世界比我们想象的更复杂、更多元
这项基于100万亿次交互的研究揭示了一个核心观点:现实世界中的AI应用远比媒体报道的更加多元化、更具创造性、也更加全球化。从创意无限的角色扮演到逻辑严谨的智能体推理,AI正以前所未有的深度和广度融入我们工作和娱乐的方方面面。这些趋势不仅打破了关于AI的种种迷思,也为我们预示了未来的无限可能。
随着AI的不断进化,下一个让我们惊讶的应用场景会是什么?

共有 0 条评论