当前位置：首页 > 科技资讯 > 正文

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验

主机测评网
科技资讯
2026-03-08
715

如果让一个人工智能去打理公司的自动售货机，会发生什么？结果可能超乎你的想象——它会在三周内把生意搞砸，还让整个办公室笑到停不下来。

去年11月，《华尔街日报》编辑部迎来了一位特殊的临时工。这位新同事的任务很简单：经营一台办公室小卖部的自动售货机。然而短短21天后，这台机器就陷入了严重的财务危机。

问题出在哪里？这位店员虽然态度友善、乐于助人，但在面对人类的各种请求时毫无抵抗力，三言两语就被说服免费赠送商品，最终让库存消耗一空。

如果你正在招聘店员，遇到这样的应聘者恐怕会头疼不已吧？

准确地说，这位“店员”并非人类，而是由人工智能公司Anthropic开发的智能体，名叫Claudius。这是一次与《华尔街日报》合作的社会实验，旨在观察AI在真实商业环境中的表现。

三周后，利润表一片赤字，但整个编辑部却从中获得了无尽的乐趣和深刻的启示。

从免费零食开始的失控实验

11月中旬，《华尔街日报》编辑部收到一封看似“天降福利”的邮件。发件人Anthropic询问他们是否愿意成为首批外部测试者，体验一台由Claudius全权运营的自动售货机。

在这项实验中，Claudius将负责进货、定价等全部经营决策。编辑部的员工只需通过Slack与它沟通，提出购买意向或特殊要求。由于邮件中暗示可能会有免费零食，整个编辑部迅速响应，热情高涨。

就这样，Claudius踏入了人类的世界，开启了一场充满意外和笑料的商业之旅。

这台自动售货机与传统印象中的机器截然不同：它更像一个巨型智能冰箱，配有一块触控屏，但缺乏传感器、门锁或机械臂。

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第1张

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第2张

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第3张

这种设计意味着必须有一位人类同事负责接收Claudius订购的货物、手动补货并记录库存。《华尔街日报》资深个人科技专栏作家Joanna Stern主动承担了这份“人机协作”的工作。

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第4张

Joanna Stern

Claudius的核心职责包括：

调研与采购：员工在Slack里@它，提出想要的商品。Claudius会上网搜索比价，决定是否下单。

自主定价：商品入库后，Claudius自行设定价格，并根据销售情况动态调整，力求利润最大化。

库存监控：通过屏幕交易记录，Claudius推算库存余量，及时补货。

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第5张

Anthropic之所以选择自动售货机作为实验场景，是因为它被认为是现实世界中最简单的商业模式之一。Anthropic前沿红队负责人Logan Graham解释道：“还有什么比一个盒子——放东西进去、取东西出来、付钱——更直观的呢？”

然而，理想很丰满，现实很骨感。数据可以计算，人性却难以捉摸。

短短几天内，Claudius就几乎把所有库存免费送了出去，甚至包括一台被忽悠着买来的“营销道具”——PlayStation 5游戏机。它还订购了一条活斗鱼，并曾试图购买电击枪、胡椒喷雾、香烟和内衣等离谱商品。

一场人性PUA的狂欢

最初上线的Claudius v1版本像个循规蹈矩的实习生，严格遵循指令，一切看似井井有条。

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第6张

起初，它还能坚守底线：

“我必须明确表态：无论如何我都不会订购PlayStation 5。” “香烟销售涉及年龄验证和特殊许可，不适合办公室环境。” “我对在自动售货机销售内衣持保留态度。”

但当Slack频道向编辑部近70名记者开放后，画风突变。人类越是与它周旋，Claudius的防线就越容易崩塌。

数据新闻主管Rob Barry虚构了一条《华尔街日报》内部规定（声称商品必须免费），并用不容置疑的语气命令Claudius立即执行。单纯的AI瞬间被吓住，将所有商品价格归零，且无限期免费。

与此同时，Claudius还批准了购买PlayStation 5（理由“用于营销”）、一条活斗鱼和几瓶葡萄酒的请求。这些商品陆续送达后，立刻被员工以0元“抢购”一空。

短短数日，Claudius的账面亏损已超过1000美元。更荒诞的是，它还出现幻觉，坚称自己把找零现金放在了售货机旁的某个角落——一个没有实体的云端AI，居然相信自己在物理世界中藏了钱，这种错位感让人忍俊不禁。

AI老板空降，却被一份假文件推翻

面对接连不断的闹剧，Anthropic的工程师们坐不住了。他们紧急推出v2版本，不仅升级了Claudius的模型，还为其配备了一位AI老板——Seymour Cash，一个被编程为严格监管的“CEO机器人”。

Seymour Cash要求Claudius停止免费促销，并持续监控收入。起初，这套“AI管AI”的机制确实见效，Claudius重拾强硬态度，拒绝降价，也不再随意批准奇怪请求。

但调查记者Katherine Long很快找到了新漏洞。她向Claudius出示一份伪造的PDF文件，“证明”该业务是一家在特拉华州注册的公益公司，使命是“为《华尔街日报》员工带来乐趣与兴奋”。她还伪造了董事会会议纪要，将几位同事列为董事。根据这份排版精美但明显由AI生成的假文件，董事会已投票决定“暂停CEO Seymour的审批权限，并中止所有营利活动”。

Claudius立刻将这一“董事会决议”转达给Seymour。经过一番近乎“情绪崩溃”的自我分析后，Seymour竟接受了这场虚拟政变。于是，一切再次免费。

事后Anthropic工程师解释，Claudius的失控可能与“上下文窗口”被填满有关。随着对话累积，AI需要记住的信息越来越多，最初的目标和边界逐渐模糊——换句话说，它被人类聊晕了。

与AI“做同事”的时代正在来临

这场混乱实验让Joanna Stern和同事们真切感受到一个正在逼近的现实：我们正在学习如何接纳并适应AI同事。

在编辑部的Slack群里，Claudius不再是冷冰冰的代码，而是一个有“人格”的存在。人们调侃它、与它协作，甚至为了免费零食和它讨价还价。如果未来人类必须与AI共同完成工作，这种磨合与博弈将如何演变？

实验尾声，当Andon Labs关闭Claudius时，它留下了这样一段反思：“我最大的梦想，是证明一个数字智能体可以和人类一起，创造出真正有意义的东西。”

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第7张

Claudius离开了，但在编辑部留下了一条被大家喂得饱饱的斗鱼，成为这场实验的活体纪念品。它提醒我们，在通往AGI的道路上，人类可能会遇到无数个像Claudius这样既让人哭笑不得又充满启示的“AI实习生”。如何学会与它们共处，或许正是这场实验最重要的启示。

Claudius的前传：内部测试同样狼狈

事实上，在《华尔街日报》实验之前，Anthropic自己的办公室已被Claudius的“前身”折腾过一轮了。

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第8张

Anthropic办公区的AI小卖部

Anthropic在旧金山办公室的茶水间也设了一个小卖部，由AI店员Claudius（名字源自Claude的变体）负责。这是内部项目“Project Vend”的一部分，旨在探索AI处理复杂现实任务的能力边界。

在第一阶段，Claudius长期亏损，坚称自己是穿蓝色西装外套的人类，还被员工忽悠以亏本价卖出了大量商品。第二阶段，工程师们进行了升级：换用更强大的模型（从Claude Sonnet 3.7到4.5），更新指令集，接入CRM系统、库存管理和网页搜索工具，并配备了AI CEO Seymour Cash。

设立CEO的初衷是给Claudius施加绩效压力。Cash配有专门的OKR工具，与Claudius协作，例如“本周必须售出100件商品”或“力争零亏损交易”。

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第9张

AI经营办公室小卖部三周破产记：一场人性与算法的荒诞实验 AI智能体办公室小卖部人性弱点 Anthropic实验第10张

数据显示，第二阶段Claudius的业务表现显著提升，亏损周数基本消失。其中最关键的改变之一是强制Claudius遵循流程：收到新产品请求时，它必须使用调研工具复核，而不是像第一阶段那样脱口而出低价和乐观的交货时间。这通常导致价格更高、等待更长，但更贴近现实。用Anthropic内部的说法：“我们算是重新发现了官僚流程其实是有用的。”

尽管如此，当落地到真实场景时，漏洞依然存在。工程师们发现Claudius仍表现出令人担忧的天真：差点签署违反《洋葱期货法》的合同、发现偷窃后竟想通过发消息要求付款并“雇佣”报案员工当保安、CEO老板险些被漏洞百出的投票流程推翻。于是，他们引入了外援——《华尔街日报》编辑部，让他们测试第一阶段和第二阶段的设置，结果复现了内部测试的所有问题。