当前位置：首页 > 科技资讯 > 正文

2025 AI发展大分流报告

主机测评网
科技资讯
2026-03-01
357

基于100万亿Token的实证分析披露了2025年AI领域的重大变革：开源模型实现逆袭，推理优化类流量占比突破50%，用户粘性取决于能否精准解决特定需求，亚洲地区付费使用量增长一倍，中文跃居全球第二大AI交互语言，AI发展已不再由硅谷独占鳌头！

2025年成为人工智能演进历程中的关键分水岭。

OpenRouter携手a16z发布了一项深入研究报告，揭示了AI行业正在经历一场显著的「大分流」现象，全面梳理了2025年AI发展格局，并提出了多项反传统认知的结论！

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第1张

研究报告题为《基于OpenRouter的100万亿Token实证研究》，全文逾两万字，详情请访问：https://openrouter.ai/state-of-ai

以往衡量AI模型影响力的指标多限于学术基准测试（Benchmarks）或自称的用户规模。

而OpenRouter首次带来了基于实际算力消耗的全局视角。

这份报告剖析了过去一年间处理的逾100万亿Token元数据，该数据量级足以过滤掉所有营销泡沫，真实展现开发者和企业如何应用AI。

报告数据源自全球真实请求：涵盖100万亿Token、300余个模型、60多家供应商。

太长不看版：

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第2张

开源不再陪跑

开源模型流量份额已达30%，已非闭源模型的「廉价替代品」，而是在诸多场景中成为首选。

中国力量崛起

中国开源模型迅速崛起，贡献了全球近30%的流量，在迭代速度和特定领域（如角色扮演）展现出统治力。

推理模型为王

推理优化模型流量占比飙升至50%以上，AI从「生成文本」正式转向「思考问题」。

两大场景统治

编程（占总流量50%+）统治生产力，角色扮演（占开源流量52%）统治创造力。

亚洲时刻到来

亚洲付费使用量翻倍至31%，中文以近5%的份额成为全球第二大AI交互语言。

水晶鞋效应

用户留存取决于「首发即匹配」。若新模型发布时能完美解决某类痛点（穿上水晶鞋），用户将极难流失；否则流失率极高。

价格弹性弱

整体降价10%仅带来<1%增量，但在特定高效模型上，极致低价引发了使用量的报复性增长（杰文斯悖论）

开源vs闭源：谁在统治模型江湖？

闭源模型虽仍处领先地位，但开源模型的使用量已稳步攀升，目前约占总体流量的30%。

这一态势的演进并非巧合，而是得益于一系列高质量开源模型的相继问世。

DeepSeek V3/R1、Kimi K2、Qwen 3 Coder、GLM 4.6等模型的推出，每次均引发显著的流量高峰，且增长势头持久，表明开源模型已步入生产应用阶段，而非短暂的技术展示。

报告中一个极为亮眼的数据是中国开源模型的崛起。

从1.2%到30%

2024年末，中国模型的使用份额仅为1.2%；而到了2025年下半年，在某些周次，中国OSS模型（如DeepSeek、Qwen、MiniMax、Kimi、GLM等）的使用量甚至占据了所有模型流量的近30%。

快速迭代

这一增长得益于中国开发者惊人的发布速度和迭代能力。DeepSeek和Qwen家族通过高频的模型更新，迅速适应了新兴的工作负载。

闭源顶梁柱，开源占三成

在OpenRouter上：

闭源大厂模型（OpenAI、Anthropic、Google等）依然撑起了大约70%的Token使用量——特别是在受监管、企业级、关键业务上，大家更倾向于用它们。

开源权重模型（OSS）的份额，却在这一年稳步上涨，到了2025年底，已经稳定在大约30%左右。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第3张

开源与闭源模型：浅蓝色代表开放权重模型，而深蓝色对应专有（闭源）产品，垂直虚线标记了关键开放权重模型的发布

更有意思的是：这三成已经大量地进入生产使用，新模型发布后，使用量往往不只是短期试用，而是持续维持。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第4张

开源和闭源模型的每周Token量：堆叠条形图显示随时间推移各模型类别的总Token使用量。深红色对应专有模型（Closed），橙色代表中国开源模型、，青色表示其他地区的开源模型

一个重要推手就是中国开源模型的爆发。

像DeepSeek、Qwen、Kimi、GLM等模型上线后，中国OSS模型的份额从几乎可以忽略的1%+，一路爬到某些周能占到近30%的总Token。

在开源阵营内部，去年还是DeepSeek一家几乎吃掉半壁江山：

一度DeepSeek V3和R1两个模型加起来占了所有开源Token的超过一半。

但2025年中以后，局面迅速被打散：

Qwen、Kimi、MiniMax、GLM、OpenAI的GPT-OSS、Meta的LLaMA等不断加入；

没有任何一个开源模型，在全年后半段能稳定拿到超过25%的份额。

用一句话概括：去年是「一个DeepSeek，打遍OSS」；今年变成了「五六个开源模型，各自都有稳定流量」。

对开发者来说，这是好消息：不再只有「那个唯一的好开源模型」，而是多个可选项，可以按场景挑。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第5张

按模型作者划分的总Token量（2024年11月–2025年11月）

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第6张

Top 15开源模型：每个色带代表一个模型对总Token的贡献

「中杯」模型才是真爱

过去「小模型（<15B）」和「大模型（>70B）」的两极分化正在消失。

2025年，「中型模型（15B-70B）」异军突起。

小模型的衰落

尽管Google Gemma等小模型不断涌现，但整体份额在下降。

中型模型的PMF

随着Qwen 2.5 Coder 32B、Mistral Small 3等模型的发布，用户发现这类模型在能力与效率之间达到了完美的平衡。它们正在成为新的市场主流。

直觉上很多人以为：要么用最小的，便宜、快；要么用最大的，最聪明。

但真实使用数据却在告诉我们：「中杯」模型，正在成为新的主力。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第7张

开源模型规模与使用情况对比。每周由小型、中型和大型模型处理的开源总Token量占比。百分比按每周开源总使用量进行归一化计算。

智能体推理的崛起

如果说2024年是「聊天机器人」的年份，那么2025年就是「智能体」的年份。

AI的使用方式正在从简单的问答，转向复杂的多步任务执行。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第8张

推理与非推理趋势。自2025年初以来，通过推理优化模型路由的Token占所有Token的比例持续上升。

推理模型已成主流

数据显示，推理优化模型的流量占比已从年初的微不足道，飙升至50%以上。

用户不再满足于模型「吐出」文本，而是要求模型进行内部的思维链（CoT）计算、规划和反思。

在这一领域，xAI的Grok Code Fast 1异军突起，与Google的Gemini 2.5系列共同领跑，甚至超越了早期的先行者。

工具调用常态化

越来越多的请求不仅仅是文本生成，而是包含了「工具调用」（tool use）的指令。

这标志着模型正在作为更大系统中的一个组件被调用，而非孤立的对话者。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第9张

按推理相关Token量统计的顶尖推理模型。

在推理模型中，xAI的Grok Code Fast 1目前处理着最大份额的推理相关Token流量，紧随其后的是谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash。

xAI的Grok 4 Fast与OpenAI的gpt-oss-120b共同构成了头部阵营。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第10张

工具调用采用率上升

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第11张

按工具调用量统计的Top10头部模型。工具调用功能主要集中在明确为智能体推理优化的模型上，例如Claude Sonnet和Gemini Flash。

输入更长，任务更重

Prompt长度暴涨4倍

平均输入Token数从1.5k增长到了6k以上。

Output长度翻倍

平均输出从150 Token增长到400 Token（主要是推理Token的增加）。

这说明用户不再只是问「如何做番茄炒蛋」，而是扔给模型整个代码库、长文档或复杂的对话历史，要求模型进行深度的分析和调试。

提示词数量呈上升趋势。自2024年初以来，平均提示词长度已增长近四倍，反映出工作负载对上下文依赖度的显著提升。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第12张

完成Token数量几乎增长了三倍。

输出长度也有所增加，尽管基数较小，这表明响应内容更丰富、更详细，主要归因于推理Token的增长。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第13张

编程成为提示Token增长的主要驱动力。

自2025年春季标签功能上线以来，编程相关任务始终需要最大的输入上下文。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第14张

平均序列长度随时间变化。每次生成的平均Token数（提示词+补全内容）。

上图显示，过去20个月中平均序列长度增长超过三倍，从2023年末的不足2000个标记增至2025年末的5400个以上。

这一增长反映了向更长上下文窗口、更深层任务历史记录和更精细生成结果的结构性转变。

其中，编程中的序列长度与整体对比。编程提示词的系统性更长且增长更快。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第15张

场景洞察：大家到底用AI干什么？

通过Google Tag Classifier对数十亿次请求的分类分析，报告揭示了AI使用场景的真实分布。

结果可能会让你大吃一惊：编程和角色扮演是两大绝对主导。

编程：统治一切的生产力

编程类请求的占比已从年初的11%飙升至50%以上。

主要驱动力

AI辅助开发工具（IDE集成）的普及。

模型偏好

Anthropic的Claude系列在编程领域拥有统治级地位，长期占据60%以上的份额。

竞争加剧

虽然Claude依然是王者，但Qwen、MiniMax、GLM和OpenAI正在蚕食这一市场。

编程作为一个主导且不断增长的类别，在所有LLM查询中被归类为编程的份额持续增加。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第16张

编程工作负载高度集中：Anthropic的模型处理最大比例的代码查询，其次是OpenAI和Google，MiniMax所占份额正在增长。

其他提供商合计仅占很小部分。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第17张

角色扮演：被低估的创意引擎

在开源领域，角色扮演是绝对的王者，占据了开源模型流量的52%。

这打破了「AI主要是生产力工具」的偏见。用户利用开源模型无审查、可定制的特性，进行故事创作、游戏互动和情感陪伴。

在角色扮演领域，中国开源模型和西方开源模型平分秋色。

DeepSeek的流量中，有超过2/3是角色扮演和闲聊，显示了其在消费者端的极高粘性。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第18张

按总Token份额排名的前6大类别。每个条形图显示该类别内主要子标签的细分。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第19张

接下来六个类别的Token份额分布。次级类别也有类似细分，展示了各领域中子主题的集中（或分散）程度。

长尾场景：科学、翻译与健康

除了上述两大巨头，其他场景如翻译、法律、科学等构成了长尾。

科学

主要集中在「机器学习与AI」本身的问题，显示出AI社区的自指性。

健康

需求高度碎片化，从医学研究到心理咨询，覆盖面极广。

下面，还针对每家公司进行了详细的数据统计。数据清晰地勾勒出了各家大模型的「性格」：

Anthropic

硬核的「程序员」，80%以上流量用于编程和技术任务。

DeepSeek

高情商的「陪聊」与「玩家」，主打角色扮演和闲聊。

Google

博学的「全才」，在翻译、科学、法律等长尾领域表现均衡。

OpenAI

正在从早期的科学/通用用途向编程/技术领域转型。

Anthropic：主要用于编程和技术任务（占比超过80%），角色扮演使用极少。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第20张

谷歌：使用构成广泛，涵盖法律、科学、技术及部分常识性查询。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第21张

xAI：代币使用高度集中于编程领域，技术应用、角色扮演及学术用途在十一月下旬显著增长。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第22张

OpenAI：使用重心逐渐转向编程与技术任务，角色扮演和日常闲聊大幅减少。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第23张

DeepSeek：使用场景以角色扮演和日常互动为主。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第24张

Qwen：在编程任务上表现出高度集中，角色扮演和科学类别的使用随时间波动。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第25张

地缘格局：AI使用的全球化

AI不再是硅谷的独角戏。研究发现：

亚洲地区的付费使用量占比从13%翻倍至31%。

这不仅是因为亚洲也是模型生产地，更因为这里拥有庞大的应用场景和企业用户。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第26张

北美的相对下降，虽然仍是最大市场，但份额已不足50%。

语言分布上，英语依然占据82%的绝对主导.

但简体中文以近5%的份额位居第二，不仅超过了西班牙语和俄语，也侧面印证了中文AI社区的活力。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第27张

留存率分析：「灰姑娘的水晶鞋」效应

这是本报告提出并在理论层面最具洞察力的部分。

在这个模型快速迭代的时代，传统的「用户留存」概念失效了。

取而代之的是一种被称为「灰姑娘的水晶鞋（Cinderella Glass Slipper）」的现象。

什么是「水晶鞋效应」？

当一个新的前沿模型发布时，它就像那只水晶鞋。

市场上存在大量未被满足的、高难度的潜在工作负载。

如果新模型（水晶鞋）恰好能解决某类特定的高难度任务（灰姑娘），那么这批早期用户就会形成一个「基石群组」。

他们的留存率极高，不会因为后续有更便宜的模型出现而轻易迁移，因为他们已经围绕该模型构建了基础设施和工作流。

如果模型发布时没有解决任何特定的痛点，或者只是「够用」，它就无法形成基石群组，用户流失率会极高。

实证数据

赢家：GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在发布初期都形成了明显的基石群组，留存率曲线在高位企稳。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第28张

输家：一些未能建立「模型-任务匹配」的模型，其所有群组的留存率都极其惨淡。

DeepSeek的「回旋镖效应」：DeepSeek的数据出现了一个有趣的异常——用户流失后又回来了。

留存曲线在几个月后出现反弹。

这说明用户在尝试了其他竞品后，发现DeepSeek在特定场景（如性价比或特定任务）上依然是不可替代的。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第29张

成本vs使用

如果你认为把模型价格降到最低就能赢得市场，那就大错特错了。

通过对成本（Cost）与使用量（Usage）进行双对数坐标分析，研究人员发现了以下规律：

首先，是可以按类型将任务分成四个象限。

溢价工作负载（高价+高频）

编程、科技。这是兵家必争之地。用户愿意为闭源模型支付高价，因为它们能解决复杂问题，产出价值远高于Token成本。

大众流量驱动（低价+高频）

角色扮演、普通问答。这是开源模型的舒适区。通过极致的性价比捕获海量长尾需求。

专业专家（高价+低频）

金融、医疗、学术。单次调用昂贵，但总频次低。

利基工具（低价+低频）

翻译、法律助手。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第30张

0.73美元/百万Token的成本中位数，将场景垂直一分为二

其次，是可以按使用-成本将模型分成四个象限。

高级领导者（Premium leaders）：成本不低，但使用量仍然很高，比如Claude Sonnet 4、Gemini 2.5 Pro等。

高效巨头（Efficient giants）：价格非常便宜，但性能够好，比如Gemini Flash、DeepSeek V3等。

长尾模型（Long tail）：价格几乎接近免费，但使用量很有限。

高级专家（Premium specialists）：非常贵，专门服务那些「极少但极值钱」的任务，比如o1-Pro、GPT-5 Pro等。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第31张

AI模型市场：成本与使用

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第32张

第三，是模型定价对使用量的影响比想象中要小。

价格下降10%，使用量仅增加0.5%-0.7%。

这意味着，对于关键任务，用户对价格不敏感；对于低价值任务，单纯降价也未必能带来指数级增长。

2025 AI发展大分流报告开源逆袭推理优化编程与角色扮演亚洲崛起第33张

开源与闭源模型：成本与使用

然后，再加上一点「杰文斯悖论」：

当某些模型变得足够便宜且好用时，人们会在更多地方、用更长上下文、更频繁地调用它；于是总Token反而飙升，总支出可能并不降低。

最后，配合前面的类别分析，就可以得到一个非常实用的认知：

闭源模型，主要吃：高价值、高风险、质量必须非常稳的任务；
开源模型，主要吃：大量、成本敏感，但对完美度要求略低的任务。
降价≠少花钱：有时候用户反而会「用得更多」。

2025年的AI启示录

回顾以上分析不难发现，AI已经不再是单纯的技术竞赛，而是一场关于场景适配、成本控制与生态构建的综合战争。

LLM不只「写文案」

编程正在成为最大、最有战略意义的类别。

而角色扮演和娱乐类，也有着同样巨大的用量，丝毫不比生产力弱。

多模型生态已成定局

闭源负责高价值，以及与收入挂钩的工作负载。

而开源负责低成本和大容量的任务。

智能体推理是新常态

更长的上下文、更多的工具调用、更复杂的多步逻辑，正在成为常态；

评判一个模型的好坏，不再只是看「单次回答漂不漂亮」，而是看它在长链路里「执行持续推理」的可靠性和效率。

留存的本质是「解决难题」

模型厂商真正的「护城河」，是率先解决关键的工作负载，并留住那批用户。

也就是所谓的辛德瑞拉「水晶鞋效应」：早点抓住「合脚」的场景，比多撑几个月的排行榜第一名更重要。

不再是美国的独角戏

亚洲尤其是中国，已经同时作为重要的模型生产者+重度用户加入战局。

「多语言、多文化适配」会变成下一阶段的刚需能力。

研究局限说明：

本报告仅基于OpenRouter单一平台数据，未包含私有化部署及企业内部系统的流量。鉴于部分指标依赖代理推算（如地理位置和推理模式），上述结论旨在揭示行业演进的指示性趋势，而非绝对定论。

参考资料：

https://openrouter.ai/state-of-ai

免费vps 阿里云服务器

本文由主机测评网于2026-03-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260327945.html

2025 AI发展大分流报告

开源vs闭源：谁在统治模型江湖？

闭源顶梁柱，开源占三成

「中杯」模型才是真爱

智能体推理的崛起

推理模型已成主流

工具调用常态化

输入更长，任务更重

场景洞察：大家到底用AI干什么？

编程：统治一切的生产力

角色扮演：被低估的创意引擎

长尾场景：科学、翻译与健康

地缘格局：AI使用的全球化

留存率分析：「灰姑娘的水晶鞋」效应

什么是「水晶鞋效应」？

实证数据

成本vs使用

AI模型市场：成本与使用

2025年的AI启示录

2026年车市前瞻：合资反扑与自主内卷

如何在MacOS上卸载并重新安装Homebrew

2025 AI发展大分流报告

开源vs闭源：谁在统治模型江湖？

闭源顶梁柱，开源占三成

「中杯」模型才是真爱

智能体推理的崛起

推理模型已成主流

工具调用常态化

输入更长，任务更重

场景洞察：大家到底用AI干什么？

编程：统治一切的生产力

角色扮演：被低估的创意引擎

长尾场景：科学、翻译与健康

地缘格局：AI使用的全球化

留存率分析：「灰姑娘的水晶鞋」效应

什么是「水晶鞋效应」？

实证数据

成本vs使用

AI模型市场：成本与使用

2025年的AI启示录

2026年车市前瞻：合资反扑与自主内卷

如何在MacOS上卸载并重新安装Homebrew

相关文章