基于100万亿Token的实证数据,2025年人工智能领域迎来历史性转折:开源模型强势逆袭、推理优化模型流量占比突破50%、用户留存关键在于精准解决特定痛点、亚洲付费使用量实现翻倍、中文晋升为全球第二大AI交互语言、AI产业告别硅谷独角戏时代!
2025年成为AI演进历程中的一个关键分水岭。
OpenRouter与a16z联合发布深度调研报告,揭示AI行业正经历一场前所未有的「大分流」,系统总结了2025年AI发展现状,并提出了多个反直觉洞见!
报告名称:《基于OpenRouter的100万亿Token实证研究》全文2万余字 报告地址:https://openrouter.ai/state-of-ai
以往评估AI模型影响力的指标多局限于学术基准测试或宣称的用户规模。
然而,OpenRouter提供了首个基于真实算力消耗的全局视角。
该报告分析了过去一年处理的超100万亿Token元数据,这一规模足以消除任何营销噪音,真实反映开发者和企业如何应用AI。
本报告基于全球真实请求:100万亿Token,300多个模型,60多家提供商。
核心摘要:
开源模型流量占比已达30%,不再是闭源模型的「廉价替代」,而是特定场景的首选方案。
中国开源模型异军突起,占据全球流量近30%,在迭代速度和特定场景(如角色扮演)上展现统治力。
推理优化模型流量占比飙升至50%以上,AI从「文本生成」正式转向「问题思考」。
编程(占总流量50%+)统治生产力,角色扮演(占开源流量52%)统治创造力。
亚洲付费使用量翻倍至31%,中文以近5%份额成为全球第二大AI交互语言。
用户留存取决于「首次匹配即完美」。若新模型发布时能精准解决某类痛点(穿上水晶鞋),用户将极难流失;否则流失率极高。
整体降价10%仅带来<1%增量,但在特定高效模型上,极致低价引发了使用量的爆发式增长(杰文斯悖论)。
闭源模型仍占主导,但开源模型使用量已稳步增长至总流量的30%左右。
这一增长由一系列高质量模型发布推动,如DeepSeek V3/R1、Kimi K2、Qwen 3 Coder、GLM 4.6等,每次发布都带来显著流量波峰,且增长具持续性,证明开源模型已进入生产环境。
报告中一个突出数据是中国开源模型的崛起。
2024年末,中国模型使用份额仅1.2%;至2025年下半年,在某些周次,中国OSS模型(如DeepSeek、Qwen、MiniMax、Kimi、GLM等)使用量占比近30%。
这一增长得益于中国开发者惊人的发布速度和迭代能力。DeepSeek和Qwen家族通过高频更新,快速适应新兴工作负载。
在OpenRouter上:闭源大厂模型(OpenAI、Anthropic、Google等)支撑约70%的Token使用量——尤其在受监管、企业级、关键业务场景,用户更倾向使用它们。
开源与闭源模型对比:浅蓝色代表开放权重模型,深蓝色对应专有(闭源)产品,垂直虚线标记关键开放权重模型发布。
开源和闭源模型每周Token量:堆叠条形图显示各模型类别总Token使用量随时间变化。深红色对应专有模型(Closed),橙色代表中国开源模型,青色表示其他地区开源模型。
一个重要推手是中国开源模型的爆发。
如DeepSeek、Qwen、Kimi、GLM等模型上线后,中国OSS模型份额从几乎可忽略的1%+,攀升至某些周占近30%总Token。
在开源阵营内部,去年是DeepSeek一家占半壁江山:一度DeepSeek V3和R1两模型占所有开源Token超一半。
但2025年中后,局面迅速分散:Qwen、Kimi、MiniMax、GLM、OpenAI的GPT-OSS、Meta的LLaMA等不断加入;无任一开源模型在全年后半段能稳定占据超25%份额。
概括:去年是「一个DeepSeek,主导OSS」;今年变为「多个开源模型,各有稳定流量」。
对开发者而言,这是利好:不再仅有「唯一好开源模型」,而是多个可选方案,可按场景挑选。
按模型作者划分的总Token量(2024年11月–2025年11月)。
Top 15开源模型:每个色带代表一个模型对总Token的贡献。
过去「小模型(<15B)」和「大模型(>70B)」的两极分化正消失。2025年,「中型模型(15B-70B)」异军突起。
尽管Google Gemma等小模型不断涌现,但整体份额在下降。
随着Qwen 2.5 Coder 32B、Mistral Small 3等模型发布,用户发现这类模型在能力与效率间达到完美平衡。它们正成为新市场主流。
直觉上,多数人认为:要么用最小模型,便宜快捷;要么用最大模型,最聪明。
但真实使用数据表明:「中杯」模型正成为新主力。
开源模型规模与使用情况对比:每周由小型、中型和大型模型处理的开源总Token量占比。百分比按每周开源总使用量归一化计算。
如果说2024年是「聊天机器人」之年,那么2025年就是「智能体」之年。AI使用方式正从简单问答转向复杂多步任务执行。
推理与非推理趋势:自2025年初以来,通过推理优化模型路由的Token占所有Token的比例持续上升。
数据显示,推理优化模型流量占比已从年初微不足道飙升至50%以上。用户不再满足于模型「生成」文本,而是要求模型进行内部思维链计算、规划和反思。
在这一领域,xAI的Grok Code Fast 1异军突起,与Google的Gemini 2.5系列共同领跑,甚至超越早期先行者。
越来越多请求不仅是文本生成,而是包含「工具调用」指令。这标志模型正作为更大系统组件被调用,而非孤立对话者。
按推理相关Token量统计的顶尖推理模型:xAI的Grok Code Fast 1处理最大份额推理相关Token流量,紧随其后的是谷歌Gemini 2.5 Pro和Gemini 2.5 Flash。xAI的Grok 4 Fast与OpenAI的gpt-oss-120b构成头部阵营。
工具调用采用率上升趋势。
按工具调用量统计的Top10头部模型:工具调用功能主要集中在明确为智能体推理优化的模型上,例如Claude Sonnet和Gemini Flash。
平均输入Token数从1.5k增长到6k以上。
平均输出从150 Token增长到400 Token(主要因推理Token增加)。
这说明用户不再仅问简单问题,而是向模型提供整个代码库、长文档或复杂对话历史,要求深度分析和调试。
提示词数量呈上升趋势:自2024年初以来,平均提示词长度已增长近四倍,反映工作负载对上下文依赖度显著提升。
完成Token数量几乎增长三倍:输出长度也有所增加,尽管基数较小,这表明响应内容更丰富、更详细,主要归因于推理Token增长。
编程成为提示Token增长主要驱动力:自2025年春季标签功能上线以来,编程相关任务始终需要最大输入上下文。
平均序列长度随时间变化:每次生成的平均Token数(提示词+补全内容)。上图显示,过去20个月中平均序列长度增长超三倍,从2023年末不足2000标记增至2025年末5400以上。这一增长反映向更长上下文窗口、更深层任务历史记录和更精细生成结果的结构性转变。
其中,编程序列长度与整体对比:编程提示词系统性更长且增长更快。
通过Google Tag Classifier对数十亿次请求的分类分析,报告揭示AI使用场景真实分布。结果可能令人惊讶:编程和角色扮演是两大绝对主导。
编程类请求占比已从年初11%飙升至50%以上。
AI辅助开发工具(IDE集成)的普及。
Anthropic的Claude系列在编程领域占据统治地位,长期占60%以上份额。
虽然Claude仍是王者,但Qwen、MiniMax、GLM和OpenAI正蚕食这一市场。
编程作为主导且不断增长的类别,在所有LLM查询中被归类为编程的份额持续增加。
编程工作负载高度集中:Anthropic模型处理最大比例代码查询,其次是OpenAI和Google,MiniMax所占份额正在增长。其他提供商合计仅占很小部分。
在开源领域,角色扮演是绝对王者,占开源模型流量52%。这打破「AI主要是生产力工具」偏见。用户利用开源模型无审查、可定制特性,进行故事创作、游戏互动和情感陪伴。
在角色扮演领域,中国开源模型和西方开源模型平分秋色。DeepSeek流量中,超2/3是角色扮演和闲聊,显示其在消费者端极高粘性。
按总Token份额排名的前6大类别:每个条形图显示该类别内主要子标签细分。
接下来六个类别的Token份额分布:次级类别也有类似细分,展示各领域子主题集中(或分散)程度。
除上述两大巨头,其他场景如翻译、法律、科学等构成长尾。
主要集中在「机器学习与AI」本身问题,显示AI社区自指性。
需求高度碎片化,从医学研究到心理咨询,覆盖面极广。
下面针对每家公司进行详细数据统计。数据清晰勾勒出各家大模型「性格」:
硬核「程序员」,80%以上流量用于编程和技术任务。
高情商「陪聊」与「玩家」,主打角色扮演和闲聊。
博学「全才」,在翻译、科学、法律等长尾领域表现均衡。
正从早期科学/通用用途向编程/技术领域转型。
Anthropic:主要用于编程和技术任务(占比超80%),角色扮演使用极少。
谷歌:使用构成广泛,涵盖法律、科学、技术及部分常识性查询。
xAI:代币使用高度集中于编程领域,技术应用、角色扮演及学术用途在十一月下旬显著增长。
OpenAI:使用重心逐渐转向编程与技术任务,角色扮演和日常闲聊大幅减少。
DeepSeek:使用场景以角色扮演和日常互动为主。
Qwen:在编程任务上表现高度集中,角色扮演和科学类别使用随时间波动。
AI不再是硅谷独角戏。研究发现:亚洲地区付费使用量占比从13%翻倍至31%。这不仅因亚洲是模型生产地,更因这里拥有庞大应用场景和企业用户。
北美相对下降,虽仍是最大市场,但份额已不足50%。语言分布上,英语占82%绝对主导,但简体中文以近5%份额位居第二,不仅超西班牙语和俄语,也印证中文AI社区活力。
这是本报告理论层面最具洞察力部分。在模型快速迭代时代,传统「用户留存」概念失效。取而代之的是一种称为「灰姑娘的水晶鞋(Cinderella Glass Slipper)」现象。
当新前沿模型发布时,它就像水晶鞋。市场上存在大量未被满足的高难度潜在工作负载。如果新模型(水晶鞋)恰好能解决某类特定高难度任务(灰姑娘),那么这批早期用户就会形成「基石群组」。他们的留存率极高,不会因后续更便宜模型出现而轻易迁移,因他们已围绕该模型构建基础设施和工作流。
如果模型发布时未解决任何特定痛点,或仅「够用」,它就无法形成基石群组,用户流失率极高。
赢家:GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在发布初期都形成明显基石群组,留存率曲线在高位企稳。
输家:一些未能建立「模型-任务匹配」的模型,其所有群组留存率都极其惨淡。
DeepSeek「回旋镖效应」:DeepSeek数据出现有趣异常——用户流失后又回来。留存曲线在几个月后出现反弹。这说明用户在尝试其他竞品后,发现DeepSeek在特定场景(如性价比或特定任务)上依然不可替代。
如果认为将模型价格降到最低就能赢得市场,那就大错特错。通过对成本(Cost)与使用量(Usage)进行双对数坐标分析,研究人员发现以下规律:
首先,按类型将任务分成四个象限。
编程、科技。这是兵家必争之地。用户愿为闭源模型支付高价,因它们能解决复杂问题,产出价值远高于Token成本。
角色扮演、普通问答。这是开源模型舒适区。通过极致性价比捕获海量长尾需求。
金融、医疗、学术。单次调用昂贵,但总频次低。
翻译、法律助手。
0.73美元/百万Token的成本中位数,将场景垂直一分为二。
其次,按使用-成本将模型分成四个象限。
高级领导者(Premium leaders):成本不低,但使用量仍很高,如Claude Sonnet 4、Gemini 2.5 Pro等。
高效巨头(Efficient giants):价格非常便宜,但性能够好,如Gemini Flash、DeepSeek V3等。
长尾模型(Long tail):价格几乎接近免费,但使用量有限。
高级专家(Premium specialists):非常贵,专门服务「极少但极值钱」任务,如o1-Pro、GPT-5 Pro等。
第三,模型定价对使用量影响比想象中小。价格下降10%,使用量仅增0.5%-0.7%。这意味着,对于关键任务,用户对价格不敏感;对于低价值任务,单纯降价也未必带来指数级增长。
开源与闭源模型:成本与使用对比。
然后,加上「杰文斯悖论」:当某些模型变得足够便宜且好用时,人们会在更多地方、用更长上下文、更频繁地调用它;于是总Token反而飙升,总支出可能并不降低。
最后,配合前面类别分析,得到实用认知:
回顾以上分析,AI已不再是单纯技术竞赛,而是关于场景适配、成本控制与生态构建的综合战争。
编程正成为最大、最有战略意义类别。而角色扮演和娱乐类,也有着同样巨大用量,丝毫不比生产力弱。
闭源负责高价值及与收入挂钩的工作负载。而开源负责低成本和大容量任务。
更长上下文、更多工具调用、更复杂多步逻辑正成为常态;评判模型好坏,不再只看「单次回答质量」,而是看它在长链路中「执行持续推理」的可靠性和效率。
模型厂商真正「护城河」,是率先解决关键工作负载,并留住那批用户。即辛德瑞拉「水晶鞋效应」:早点抓住「合脚」场景,比多撑几个月排行榜第一更重要。
亚洲尤其是中国,已同时作为重要模型生产者+重度用户加入战局。「多语言、多文化适配」会变成下一阶段刚需能力。
研究局限说明:
本报告仅基于OpenRouter单一平台数据,未包含私有化部署及企业内部系统流量。鉴于部分指标依赖代理推算(如地理位置和推理模式),上述结论旨在揭示行业演进指示性趋势,而非绝对定论。
参考资料:
https://openrouter.ai/state-of-ai
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223156.html