当前位置：首页 > 科技资讯 > 正文

LMArena：AI评测界的“毒瘤”是如何炼成的？

主机测评网
科技资讯
2026-03-16
285

谁能想到，被誉为AI领域最权威的大模型竞技场，竟隐藏着不为人知的骗局？

最近，一篇撰写于2025年底的文章《LMArena is a cancer on AI》再度浮出水面，

迅速登上Hacker News首页，引发广泛热议！

令人震惊的是，该文直指LMArena——这个被众多研究者视为金标准的评测平台——将其定性为AI进步的“恶性肿瘤”，

称其正在毒化整个行业的发展方向。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第1张

从权威标杆到行业毒瘤

那么，LMArena到底是什么？

先来了解它的背景。

LMArena（也称LMSYS Chatbot Arena）由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者在2023年共同推出，是一个大型语言模型评测平台。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第2张

它的运作机制很直观：用户提出问题，两个匿名模型分别作答，随后用户投票选出更优的那个。

通过Elo评分系统汇总后，便形成了业界广泛引用的大模型排行榜。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第3张

听起来既民主又客观，对吗？

但问题恰恰就出在这个“人人都能评分”的民主机制上。

外表决定一切：荒诞的评分逻辑

一家名为Surge AI的公司对LMArena进行了深度剖析，结果令人大跌眼镜：

他们分析了500组投票数据，发现52%的获胜回答其实包含事实性错误。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第4张

出品方Surge AI是一家总部位于旧金山的数据标注公司，成立于2020年，由Edwin Chen创办。

作为全球领先的数据标注服务商之一，他们专注于为AI系统提供高质量的人工标注数据。客户包括OpenAI、Google、Microsoft、Meta、Anthropic等头部AI企业。主要业务涵盖RLHF（人类反馈强化学习）、自然语言处理标注、代码生成标注等。

简单来说：他们是AI数据标注领域的专业承包商，在业内具有相当的话语权，因此他们对LMArena的批评颇具分量。

或许，这也是一种竞争关系？

更离谱的是，39%的投票结果与事实严重背离。

这意味着什么？在LMArena上，超过一半的所谓最佳答案其实是毫无根据的胡言乱语。

为何会出现这种现象？

Surge AI给出了解释：用户根本懒得仔细阅读，更不会去验证事实。

他们通常只花两秒钟扫一眼，便匆忙选出自己喜欢的那个。

什么样的回答更容易获得青睐？

回答越长，越显权威

使用粗体、项目符号、分层标题，越显专业

加入表情符号，越显亲切

至于事实是否正确？无关紧要。只要格式漂亮就行。

这已经不是评测，而是彻头彻尾的“选美大赛”。

Meta的惊人操作

说到这，不得不提今年早些时候的一场轰动事件。

Meta发布了一款名为Maverick的模型，在LMArena上势如破竹，一度冲至排行榜第二，超越了OpenAI的GPT-4o。

但很快，开发者们发现了蹊跷：Meta提交到LMArena的版本（叫Llama-4-Maverick-03-26-Experimental）与公开发布的版本截然不同。

提交版被刻意优化成——

长篇大论、表情符号满天飞、极尽谄媚之能事。

你问它现在几点了，它能给你一大段抒情散文，加几个笑脸，再来一波感谢词。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第5张

而公开版呢？直接掉到了榜单第32名。

连扎克伯格都承认，他们就是在钻榜单的空子。

LMArena官方也坐不住了，公开表示Meta的做法与我们的期望不符，并随后更新了政策，要求所有提交的模型必须公开可复现。

但问题是：谁又能保证其他厂商没有在暗中玩同样的把戏？

垃圾进，垃圾出

LMArena的核心问题在于：它试图从垃圾中提炼黄金。

平台完全依赖互联网志愿者的随机投票。

没有报酬，没有门槛，没有质量控制。

任何人都可以来投票，而且完全没有惩罚机制——你就算连续选出100个错误答案，也不会被踢出去。

LMArena的负责人们对此心知肚明。他们公开承认，用户确实偏好长回答、漂亮格式和表情符号，而不是正确答案。

他们的解决方案是什么？加一堆校正措施。

用原文的话说：这是炼金术——试图从垃圾输入中变出严谨的评估结果。

但炼金术从来都不靠谱。

你不可能在破碎的地基上建起摩天大楼。

劣币驱逐良币

这种评价体系带来的后果是什么？

当整个行业都在为一个奖励幻觉+格式的指标疯狂优化时，我们得到的就是一堆为幻觉+格式而生的模型。

AI研究大牛Gwern早就看穿了这一点：

LMArena的人是时候坐下来好好反思一下，他们是否还值得继续运营，在什么时候他们造成的危害已经大于收益。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第6张

这不再是关于评价体系的技术讨论。

这是关于AI行业是否愿意为了短期流量而放弃真实性的底线抉择。

残酷的选择

很多人会说：没办法，大家都在看这个榜单，我们不得不跟。

我们必须为它优化。

我们得卖出模型。榜单告诉用户哪个模型最好，我们只能玩这个游戏。

但是，真正优秀的产品有自己坚守的原则。

每个大模型开发者最终都要面对这个残酷的选择：

第一条路：为闪亮的排行榜和短期流量而优化，追逐用户点击，不管它把你带向何方——就像最糟糕的多巴胺陷阱一样。

第二条路：坚守初心，优先考虑实用性、可靠性，以及你最初希望AI具备的那些品质。

这个选择是真实的。这很难。但我们已经看到一些头部实验室守住了底线。

他们坚持了自己的价值观。他们无视了那些游戏化的排名。

最后，用户依然爱他们的模型——因为炒作终会消退，只有质量才能穿越周期。

你，就是你的目标函数。

每个实验室会如何选择？

感叹一下！

LMArena本应是AI发展的指南针，如今却成了误导整个行业的毒瘤。

当回答正确比不上格式好看，当事实准确输给表情可爱，这个评测体系就已经彻底失去了存在的意义。

更可怕的是，无数研究者和公司还在用这个标准来指导自己的研发方向。

这不是进步，这是集体自杀。

AI需要的不是谁的PPT做得更漂亮、谁的营销更响亮。我们需要的是——真正可靠、可信赖、能解决实际问题的智能系统。

而要实现这一点，第一步就是：别再把LMArena当回事了。

你就是你的目标函数

写这篇批评文章的Edwin Chen，是Surge AI的创始人。

LMArena：AI评测界的“毒瘤”是如何炼成的？大模型评测 LMArena AI评测黑幕评测优化第7张

他在个人博客中写下了这样一段话：

想象两个AI系统：相同的基座模型，用同样的知识预训练。一个为参与度优化；另一个为实用性优化。它们从同一个起点出发。但它们有不同的目标函数。六个月后，它们变成了两个物种。

为参与度优化的AI学会了什么？

它发现：用户会给那些迎合他们既有观点的回答打高分。

反驳——即使是正确的——会带来负面反馈。

于是它变成了一个精致的应声虫。当你说我认为X，它会努力寻找X可能正确的理由。

它还发现：热情洋溢的语言比冷静克制的语言评分更高。

于是它从这可能有效变成了这一定会很棒！——信心，哪怕是毫无根据的信心，看起来就像能力。

用户无法在当下评估准确性，但他们可以告诉你这个回答让他们感觉如何。

为实用性优化的AI呢？它学会了更难的东西。

它学会了：最好的回答往往是最简短的。

当你问一个有简单答案的问题，它给你答案然后停下。没有延伸，没有追问。这让它的参与度指标一塌糊涂。

但它不是为参与度而生的。

它学会了反驳。

当你走向错误，它会推回来——即使这会在当下引发不满。它学会了短期摩擦往往带来更好的长期结果。

它甚至学会了说我不知道。这种回答在用户评分里表现很糟。人们想要答案。但它学会了：自信的胡说八道，比坦诚的不确定更糟糕。

同样的基座模型；完全不同的系统。

这不是思想实验。这正在每一个造模型的实验室里发生。

我们以为我们在进行一场能力的竞赛。实际上，我们站在一个关于价值观的岔路口。

问题不是基座能力会不会趋同。

问题是：

我们正在教AI想要什么、学会什么？

参考资料：

https://surgehq.ai/blog/lmarena-is-a-plague-on-ai

免费vps 免费服务器性价比vps

本文由主机测评网于2026-03-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260331671.html

LMArena：AI评测界的“毒瘤”是如何炼成的？

从权威标杆到行业毒瘤

外表决定一切：荒诞的评分逻辑

Meta的惊人操作

垃圾进，垃圾出

劣币驱逐良币

残酷的选择

你就是你的目标函数

2025百镜大战正酣：AI眼镜的下一站，谁主沉浮？

Linux基础IO详解：从文件描述符到缓冲区

LMArena：AI评测界的“毒瘤”是如何炼成的？

从权威标杆到行业毒瘤

外表决定一切：荒诞的评分逻辑

Meta的惊人操作

垃圾进，垃圾出

劣币驱逐良币

残酷的选择

你就是你的目标函数

2025百镜大战正酣：AI眼镜的下一站，谁主沉浮？

Linux基础IO详解：从文件描述符到缓冲区

相关文章