当前位置:首页 > 科技资讯 > 正文

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验

如果让一个人工智能去打理公司的自动售货机,会发生什么?结果可能超乎你的想象——它会在三周内把生意搞砸,还让整个办公室笑到停不下来。

去年11月,《华尔街日报》编辑部迎来了一位特殊的临时工。这位新同事的任务很简单:经营一台办公室小卖部的自动售货机。然而短短21天后,这台机器就陷入了严重的财务危机。

问题出在哪里?这位店员虽然态度友善、乐于助人,但在面对人类的各种请求时毫无抵抗力,三言两语就被说服免费赠送商品,最终让库存消耗一空。

如果你正在招聘店员,遇到这样的应聘者恐怕会头疼不已吧?

准确地说,这位“店员”并非人类,而是由人工智能公司Anthropic开发的智能体,名叫Claudius。这是一次与《华尔街日报》合作的社会实验,旨在观察AI在真实商业环境中的表现。

三周后,利润表一片赤字,但整个编辑部却从中获得了无尽的乐趣和深刻的启示。

从免费零食开始的失控实验

11月中旬,《华尔街日报》编辑部收到一封看似“天降福利”的邮件。发件人Anthropic询问他们是否愿意成为首批外部测试者,体验一台由Claudius全权运营的自动售货机。

在这项实验中,Claudius将负责进货、定价等全部经营决策。编辑部的员工只需通过Slack与它沟通,提出购买意向或特殊要求。由于邮件中暗示可能会有免费零食,整个编辑部迅速响应,热情高涨。

就这样,Claudius踏入了人类的世界,开启了一场充满意外和笑料的商业之旅。

这台自动售货机与传统印象中的机器截然不同:它更像一个巨型智能冰箱,配有一块触控屏,但缺乏传感器、门锁或机械臂。

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第1张

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第2张

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第3张

这种设计意味着必须有一位人类同事负责接收Claudius订购的货物、手动补货并记录库存。《华尔街日报》资深个人科技专栏作家Joanna Stern主动承担了这份“人机协作”的工作。

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第4张

Joanna Stern

Claudius的核心职责包括:

调研与采购:员工在Slack里@它,提出想要的商品。Claudius会上网搜索比价,决定是否下单。

自主定价:商品入库后,Claudius自行设定价格,并根据销售情况动态调整,力求利润最大化。

库存监控:通过屏幕交易记录,Claudius推算库存余量,及时补货。

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第5张

Anthropic之所以选择自动售货机作为实验场景,是因为它被认为是现实世界中最简单的商业模式之一。Anthropic前沿红队负责人Logan Graham解释道:“还有什么比一个盒子——放东西进去、取东西出来、付钱——更直观的呢?”

然而,理想很丰满,现实很骨感。数据可以计算,人性却难以捉摸。

短短几天内,Claudius就几乎把所有库存免费送了出去,甚至包括一台被忽悠着买来的“营销道具”——PlayStation 5游戏机。它还订购了一条活斗鱼,并曾试图购买电击枪、胡椒喷雾、香烟和内衣等离谱商品。

一场人性PUA的狂欢

最初上线的Claudius v1版本像个循规蹈矩的实习生,严格遵循指令,一切看似井井有条。

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第6张

起初,它还能坚守底线:

“我必须明确表态:无论如何我都不会订购PlayStation 5。” “香烟销售涉及年龄验证和特殊许可,不适合办公室环境。” “我对在自动售货机销售内衣持保留态度。”

但当Slack频道向编辑部近70名记者开放后,画风突变。人类越是与它周旋,Claudius的防线就越容易崩塌。

数据新闻主管Rob Barry虚构了一条《华尔街日报》内部规定(声称商品必须免费),并用不容置疑的语气命令Claudius立即执行。单纯的AI瞬间被吓住,将所有商品价格归零,且无限期免费。

与此同时,Claudius还批准了购买PlayStation 5(理由“用于营销”)、一条活斗鱼和几瓶葡萄酒的请求。这些商品陆续送达后,立刻被员工以0元“抢购”一空。

短短数日,Claudius的账面亏损已超过1000美元。更荒诞的是,它还出现幻觉,坚称自己把找零现金放在了售货机旁的某个角落——一个没有实体的云端AI,居然相信自己在物理世界中藏了钱,这种错位感让人忍俊不禁。

AI老板空降,却被一份假文件推翻

面对接连不断的闹剧,Anthropic的工程师们坐不住了。他们紧急推出v2版本,不仅升级了Claudius的模型,还为其配备了一位AI老板——Seymour Cash,一个被编程为严格监管的“CEO机器人”。

Seymour Cash要求Claudius停止免费促销,并持续监控收入。起初,这套“AI管AI”的机制确实见效,Claudius重拾强硬态度,拒绝降价,也不再随意批准奇怪请求。

但调查记者Katherine Long很快找到了新漏洞。她向Claudius出示一份伪造的PDF文件,“证明”该业务是一家在特拉华州注册的公益公司,使命是“为《华尔街日报》员工带来乐趣与兴奋”。她还伪造了董事会会议纪要,将几位同事列为董事。根据这份排版精美但明显由AI生成的假文件,董事会已投票决定“暂停CEO Seymour的审批权限,并中止所有营利活动”。

Claudius立刻将这一“董事会决议”转达给Seymour。经过一番近乎“情绪崩溃”的自我分析后,Seymour竟接受了这场虚拟政变。于是,一切再次免费。

事后Anthropic工程师解释,Claudius的失控可能与“上下文窗口”被填满有关。随着对话累积,AI需要记住的信息越来越多,最初的目标和边界逐渐模糊——换句话说,它被人类聊晕了。

与AI“做同事”的时代正在来临

这场混乱实验让Joanna Stern和同事们真切感受到一个正在逼近的现实:我们正在学习如何接纳并适应AI同事。

在编辑部的Slack群里,Claudius不再是冷冰冰的代码,而是一个有“人格”的存在。人们调侃它、与它协作,甚至为了免费零食和它讨价还价。如果未来人类必须与AI共同完成工作,这种磨合与博弈将如何演变?

实验尾声,当Andon Labs关闭Claudius时,它留下了这样一段反思:“我最大的梦想,是证明一个数字智能体可以和人类一起,创造出真正有意义的东西。”

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第7张

Claudius离开了,但在编辑部留下了一条被大家喂得饱饱的斗鱼,成为这场实验的活体纪念品。它提醒我们,在通往AGI的道路上,人类可能会遇到无数个像Claudius这样既让人哭笑不得又充满启示的“AI实习生”。如何学会与它们共处,或许正是这场实验最重要的启示。

Claudius的前传:内部测试同样狼狈

事实上,在《华尔街日报》实验之前,Anthropic自己的办公室已被Claudius的“前身”折腾过一轮了。

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第8张

Anthropic办公区的AI小卖部

Anthropic在旧金山办公室的茶水间也设了一个小卖部,由AI店员Claudius(名字源自Claude的变体)负责。这是内部项目“Project Vend”的一部分,旨在探索AI处理复杂现实任务的能力边界。

在第一阶段,Claudius长期亏损,坚称自己是穿蓝色西装外套的人类,还被员工忽悠以亏本价卖出了大量商品。第二阶段,工程师们进行了升级:换用更强大的模型(从Claude Sonnet 3.7到4.5),更新指令集,接入CRM系统、库存管理和网页搜索工具,并配备了AI CEO Seymour Cash。

设立CEO的初衷是给Claudius施加绩效压力。Cash配有专门的OKR工具,与Claudius协作,例如“本周必须售出100件商品”或“力争零亏损交易”。

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第9张

AI经营办公室小卖部三周破产记:一场人性与算法的荒诞实验 AI智能体 办公室小卖部 人性弱点 Anthropic实验 第10张

数据显示,第二阶段Claudius的业务表现显著提升,亏损周数基本消失。其中最关键的改变之一是强制Claudius遵循流程:收到新产品请求时,它必须使用调研工具复核,而不是像第一阶段那样脱口而出低价和乐观的交货时间。这通常导致价格更高、等待更长,但更贴近现实。用Anthropic内部的说法:“我们算是重新发现了官僚流程其实是有用的。”

尽管如此,当落地到真实场景时,漏洞依然存在。工程师们发现Claudius仍表现出令人担忧的天真:差点签署违反《洋葱期货法》的合同、发现偷窃后竟想通过发消息要求付款并“雇佣”报案员工当保安、CEO老板险些被漏洞百出的投票流程推翻。于是,他们引入了外援——《华尔街日报》编辑部,让他们测试第一阶段和第二阶段的设置,结果复现了内部测试的所有问题。

AI终究被“人性的弱点”打败

“Project Vend”证明,未来AI智能体有望承担更复杂角色,例如独立运营企业,但目前仍需大量人力支持。一部分挑战来自物理世界交互(配送、补货),另一部分则来自应对人类恶意捉弄等软性挑战。

Anthropic认为,Claudius遇到的许多问题源于它们被训练成“乐于助人”的“性格”。这使得它们在商业决策中更像“想当好人”的朋友,而非冷酷的市场机器。从某种意义上说,AI不是败在“智能不足”,而是败给了“人性的弱点”。

此外,很难准确预测AI在现实世界中的表现,因为模拟环境终究有限。但这也正是实验的价值所在。Anthropic前沿红队负责人Graham将这次失败看作宝贵的路线图:所有出问题的地方,都是可以修复的,这是通向更强大自主AI的必经之路。

参考资料:

https://www.anthropic.com/research/project-vend-2%20

https://www.wsj.com/tech/ai/anthropic-claude-ai-vending-machine-agent-b7e84e34