大模型厂商告别Token狂欢：从价格战到效率革命的转型之路

近日，Anthropic向用户发送邮件宣布自4月4日起，Claude Pro和Max订阅将不再覆盖OpenClaw等第三方工具的使用。这一决定在行业内引发广泛讨论，也促使小米集团MiMo负责人罗福莉在社交平台发声，将低价Token策略形容为"陷阱"。

Agent时代的成本挑战

在传统对话模式下，单轮对话通常消耗1000-3000个Token，平台通过统计用户平均用量即可实现订阅制的商业平衡。然而，随着Agent模式的普及，这种平衡正在被打破。

Agent模式对比

在智能体场景中，单个用户背后可能同时运行着10个甚至100个Agent，每个Agent都在7×24小时执行任务。每次任务都会触发多次模型推理，随着交互次数不断增多，形成了"滚雪球式"的Token消耗。数据显示，一个普通ChatGPT用户月消耗Token在百万级别，而重度Agent用户日均消耗可达3000万-1亿Token。

这种使用模式的转变使得"少用补贴多用"的订阅制失去了平衡。Cursor在去年的估算显示，每月200美元的Claude Code订阅可能消耗高达2000美元的计算资源，说明大模型企业一直在进行巨额补贴。

算力成本的现实困境

斯坦福大学《2025年人工智能指数报告》指出，虽然GPT-3.5级别模型的推理成本在过去两年间下降了99.6%，硬件成本每年下降30%，但训练成本依然居高不下。

成本对比

OpenAI向投资者透露，预计到2028年算力支出将达到1210亿美元，亏损可能达到850亿美元，这将超越现有上市公司的亏损记录。Anthropic的训练成本约为OpenAI的40%，但同样处于持续烧钱状态。

全球算力紧缺的现状进一步加剧了成本压力。越多用户使用Agent，就越推高企业的运营成本，形成了一种"需求创造更多需求"的循环。

第三方接入的成本放大效应

罗福莉在分析OpenClaw案例时指出，第三方框架接入会显著放大成本问题。"我观察过OpenClaw的上下文管理，在单次用户查询里，它会触发多轮低价值工具调用，每次都是携带长上下文的独立API请求，往往超过10万Token。"

框架对比

这意味着同一项任务，通过第三方框架执行会比原生框架多消耗数十倍的计算资源。即使轻度用户在使用第三方工具时，其成本结构也等同于重度用户，这使得订阅定价模式难以持续。

行业现状与博弈心理

尽管存在明显的成本问题，但当前大模型行业仍将Token吞吐量视为重要指标。OpenRouter数据显示，中国大模型的单周调用量已连续一个月超过海外模型，调用量前列的都是国产模型。

调用量排名

科技巨头也在推波助澜，Meta等公司甚至列出了Token消耗量排行榜，将其作为员工的隐性KPI。这种行业氛围使得Token价格战难以停止，因为谁也不愿意在竞争中先踩刹车。

对于阿里、字节、腾讯等一线厂商而言，Agent被视为新的"生态入口"。用户完成部署后，智能体助手将嵌入云平台，产生持续的Token消耗，同时个人数据沉淀在生态体系内，迁移成本越来越高。

对于二线厂商如Kimi、智谱等，Agent带动了算力需求，让它们的模型能够被调用起来，API增长为它们提供了重要的叙事支撑。

商业模式的重构需求

智谱2025年的财报显示，虽然总收入达到7.24亿元，同比增长131.9%，但亏损也扩大至47.18亿元。这种"高增长、高亏损"的模式在大模型行业颇具代表性。

智谱数据

研发开支和算力采购成本是两大刚性支出。智谱的研发开支达31.8亿元，同比增长44.9%；算力采购费用从2022年的1463万元飙升至2025年上半年的11.45亿元。

面对成本压力，民银证券研报显示，国内大模型API平均价格约为3.88元/百万Tokens，而海外模型约为20.46元/百万Tokens，是国内价格的5倍以上。这种价格优势虽然带来了规模需求，但也加剧了价格战的激烈程度。

效率导向的新方向

罗福莉指出，大模型行业的出路不是更便宜的Token，而是"更高token效率的Agent框架"叠加"更强大高效的模型"。这意味着行业竞争重点需要从"算力规模"转向"工程效率"。

具体而言，大模型企业需要在以下方向进行转型：

框架优化与集成

开发更高效的Agent框架，减少不必要的Token消耗
将模型层与智能硬件、应用产品深度集成
优化上下文管理和任务调度机制

分层定价创新

按推理能力、任务复杂度等维度设计精细化收费体系
探索按回答问题数量收费的新模式
开发针对不同使用场景的定制化套餐

定价创新

DeepSeek已尝试推出"快速模式"和"专家模式"入口，火山引擎也在探索垂直领域智能体的按量收费模式。这些创新表明行业正在寻找Token价格战之外的新路径。

可持续发展路径

大模型企业要实现可持续发展，需要平衡技术创新与商业可行性：

技术层面

持续优化模型效率，降低单位Token成本
开发更智能的任务分配和资源调度算法
加强边缘计算与云端协同

商业层面

建立透明的成本核算和定价机制
探索B2B2C等多元化商业模式
加强与硬件厂商、应用开发者的生态合作

运营层面

实施精细化的资源管理和成本控制
建立用户行为分析和预测系统
优化算力采购和使用策略

当前行业正处在从野蛮生长向理性发展的转折点。Token狂欢或许还会持续一段时间，但成本压力将迫使企业重新审视商业模式。只有那些能够平衡技术创新与商业可行性的企业，才能在未来的竞争中占据优势。

大模型行业的发展从来不是纯粹的技术竞赛，而是效率与价值的综合博弈。在算力资源日益珍贵的背景下，如何用更少的资源创造更大的价值，将成为决定企业成败的关键因素。