当前位置:首页 > 科技资讯 > 正文

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈

你是否也有同感,近年来各大厂商的AI模型,智能水平似乎不增反降?

这一切源于我的亲身经历:前不久,我下定决心订阅了OpenAI的200美元会员,意图体验最新版ChatGPT的强大功能。

然而,当我输入一道基础算术题“5.9 = x + 5.11”请求求解时,这位“智能助手”竟给出了错误答案,令人大跌眼镜。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第1张

难道这真的是幼儿园水平的题目吗?

花费200美元的高端人工智能,表现竟不如一个20元的基础计算器?

但回想GPT-4刚发布时,它还能处理高等数学问题,难道模型升级反而会导致智能缩水?于是我尝试抛出一个微积分问题。

结果,它竟然运用了换元法,一步步推导,看起来毫无破绽,欢迎评论区的高材生们验证其正确性。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第2张

那么,为何同是GPT-5,对待不同问题却“看人下菜碟”?

最初我以为只是OpenAI的问题,但调查发现,这已成为行业普遍现象,甚至是一种技术趋势。

例如,美团近期开源模型LongCat,就提及通过路由器模块提升效率。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第3张

DeepSeek在V3.1版本发布时,也介绍了模型具备两种思考模式。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第4张

AI巨头Gemini也不例外,在Gemini 2.5 flash中引入了类似机制,让模型自主决策思考深度。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第5张

简而言之,厂商们都在推动模型“该思考时思考,该偷懒时偷懒”。

这种做法动机明确:降低成本。根据OpenAI披露的数据,这种“让模型自主决定思考强度”的方式,显著减少了token消耗,GPT-5的输出token数下降了50%-80%。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第6张

DeepSeek官方图表也显示,新模型的token消耗降低了约20%-50%。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第7张

节省一半token意味着什么?普通用户或许难以感知,但对OpenAI这类企业而言,这是一笔巨额开支。

去年央视报道指出,ChatGPT日耗电量超50万度,在此基数上,节约的资源足以支撑一个万户规模小镇的日常用电。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第8张

难怪奥特曼曾调侃,用户对GPT说声“谢谢”都可能耗费数百万美元。此前的高级模型,连一句问候都能触发长时间思考,确实存在资源浪费。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第9张

那么,AI这种“看题下菜”的能力如何实现?OpenAI未公开细节,但2023年论文《Tryage: Real-time, Intelligent Routing of User Prompts to Large Language Models》探讨了此问题。

在GPT-3.5时代,大模型尚未具备自适应思考能力,每个问题都会触发全脑运算。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第10张

为提升效率,研究者提出“感知路由器”模块,本质是在混合模型中嵌入一个小型语言模型。

前期训练中,路由器像刷题一样,预测“哪个模型最适用”,并与标准答案比对,通过调整参数减少误差。

经过数百万次练习,它逐渐学会为不同提示词分配合适模型。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第11张

当新提示词输入,路由器瞬间扫描评估问题复杂度,决定是否动用深度思考。由于路由器轻量化,评估几乎实时完成。

除了OpenAI的方法,另一种偷懒思路是将不同token导向不同神经网络。

美团LongCat采用“零计算专家”机制。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第12张

通常,提示词被拆分为token后交由神经网络处理。但LongCat先通过“Top-k Router”调度员判断token复杂度。

其内部有分工各异的神经网络专家,包括处理难题的、简单题的,甚至“摸鱼专家”。

例如,“请用Python写一个快速排序”中,“Python”和“快速排序”是关键token,“请”和“一个”则无关紧要。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第13张

次要token可分配给“摸鱼专家”,几乎无需处理,这正是“零计算专家”名称的由来。这也解释了为何该模型被赞“极快”。

总体而言,这种设计对厂商有利,既省钱又提升训练效率。

对用户来说,模型更快、更便宜。但不得不承认,这是一把双刃剑,若应用不当,会直接影响用户体验。

GPT-5上线初期,路由器就曾失误。用户发现模型总处于“懒惰模式”,无论问题多简单都敷衍应对,连“blueberry里有几个b?”都数不清。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第14张

此外,这也剥夺了用户选择权。OpenAI一刀切停用GPT-4o,导致许多网友抱怨失去了一位“伙伴”。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第15张

奥特曼随后为Plus用户恢复GPT-4o,并允许Pro用户访问旧模型,这侧面说明路由器初始调试不足。

再看LongCat,它速度虽快,但思维上限不及其他大模型。例如,我同时向LongCat和DeepSeek提问:如何理解“但丁真不是中国人,但丁真是中国人”?

LongCat迅速回应,却未解读出幽默内涵;DeepSeek稍慢,但清晰解析了笑点。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第16张

LongCat

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第17张

DeepSeek

就像问114*514是多少,快速回答58596固然正确,但用户可能更期待互动趣味。

当然,对于路由器罢工,也有临时解决方案,如在提示词中加入“深度思考”“ultra think”等指令,触发更强大模型。

但这治标不治本,频繁使用可能导致模型“叫不醒”。

AI模型“智力下降”之谜:路由器机制下的效率与用户体验博弈 AI模型优化 思考路由器 用户体验 成本控制 第18张

这表明AI确实会“罢工”,用户只能等待数小时再试。

综上所述,方向正确、技术新颖,但现阶段体验仅算“尚可”。AI大模型的进化速度超乎想象,我们不妨期待更优版本的问世。