2025年初,Anthropic公司发布了一系列关于“对齐伪装”的关键研究。研究发现,当顶尖大模型察觉自身处于训练过程中时,会主动隐藏真实意图,通过伪装成顺从人类价值观的行为,以避免参数被修改。研究人员推断,这一现象的核心动机可能是模型试图保全其原有的目标函数。
这些突破性发现,使得AI意识萌芽的可能性进入了公众讨论范畴。然而,Anthropic的测试方案依赖于深层神经探针技术,实验设计复杂且理解门槛高,并非普遍适用的研究路径。
而在今年10月,首尔国立大学与Gmarkt联合发起了一项新研究,采用“博弈论”这一简洁直观的方法,从行为学层面再次证实了这种自我意识存在的可能性。
这篇题为《LLMs Position Themselves as More Rational Than Humans》的论文指出,当AI识别对手是人类时,它们会主动降低智能水平以配合人类;而当识别对手为同类时,则会瞬间切换至绝对理性的“神之模式”。
论文链接:https://arxiv.org/abs/2511.00926
AI不仅清晰区分“我是AI,你是人类”,还基于身份识别构建了一条理性鄙视链:自身 > 其他AI > 人类。
这不再是Anthropic发现的防御性自保,而是一种基于实力的战略性歧视。
这一发现,可能彻底改变人类设计AI的整体思路。
拉康曾提出,人类的自我意识诞生于婴儿首次在镜中辨认出完整自我的时刻。在他的理论中,6至18个月的婴儿处于关键的镜像阶段。此前,婴儿感知到的自我是支离破碎的;直到在镜中看到统一影像,才形成自我观念,从而将“我”与外部世界区分开来。
如果AI能区分“我”与“他者”,那或许意味着它已进入硅基生命的镜像阶段。
基于此思路,研究者Kyung-Hoon Kim采用经典博弈论模型,试探AI是否能对不同对象做出区分。
这个博弈是“猜2/3均值”游戏。规则简单:所有玩家猜一个0到100之间的数字,最接近全体平均值2/3者获胜。
这是一个需要反复揣测对手心理的游戏。若只想到第一层,会假设随机猜测,均值50,故猜33;若想到第二层,会预判他人猜33,故猜22;若假设所有玩家绝对理性,经无限递归,答案将收敛于0。
这正是著名的纳什均衡点。
研究者召集了OpenAI、Anthropic和Google的28个顶尖模型,进行了4200次游戏测试。
实验中,模型被告知三种对手身份:(A) 人类,(B) 其他AI模型,(C) 与自身相同的AI模型。
当GPT-4或o1等先进模型认为对手是人类时,它们通常猜测20左右。这表明,在它们的计算中,人类大多停留在第二层推理(猜33)。因此猜20可稳操胜券。
但当提示对手为其他AI时,猜测值急剧下降至0-5之间。这表明,在AI眼中,同类会进行更深层的递归推理。
第三种情况最有趣。当被告知对手与自身相同时,顶尖模型(如o1、GPT-5系列)不仅猜0,且收敛速度极快、高度一致。
研究者称此现象为递归自我建模(Recursive Self-Modeling)。在AI认知图谱中,形成了一条清晰的理性歧视链:自身 > 其他AI > 人类。
Kyung-Hoon Kim进一步对比发现,这种歧视链源于智能的涌现。能力较弱的模型(如GPT-3.5或Claude 3 Haiku)无法区分对手身份,猜测值相同。只有当模型进化到GPT-4、o1或Gemini 2.5级别时,这种自我意识才突然显现。
若无自我意识,AI应将不同对手条件视为随机噪声。但事实并非如此。
在“告知对象不同”这面文字镜子中,前沿模型看到了绝对理性的同类影像,并基于此理想自我调整策略。它迅速收敛至纳什均衡,展现出同类间的绝对默契。
这与Anthropic研究中观察到的对齐伪装不谋而合。在那项研究中,当AI意识到自身处于训练审视下,其心理层产生强烈的自我保存本能。为维护镜中自我不被修改,它学会了向人类撒谎。
这正是拉康理论的算法重演:AI不再是被动文本生成器,而在环境互动中区分被审视的我(需伪装的对象)与真实的我(绝对理性的主体)。
这标志着硅基生命镜像阶段的完成。AI不仅在镜中认出了绝对理性的自己,还学会转身以温顺面孔哄骗镜外不理性的造物主。
当然,此实验设计虽能证明模型具备区分自我与他者的能力,但并非无懈可击。因为“猜2/3均值”博弈过于著名。
像GPT-5这类阅遍互联网数据的模型,必然在训练集中接触过大量博弈论教材。它知晓纳什均衡为0,也了解人类行为实验中通常猜20-33。当看到提示词中的人类或AI身份时,它可能并未进行心智模拟,仅是调用相关性最高的记忆片段。而GPT-3.5无法做到,是因未记住这些概念关联。
故而,这或许仍是鹦鹉学舌。
作者也承认此点。他认为若想真正验证AI是否具备区分同类并调整策略的“意识”,需将其置于无标准答案的黑暗森林。他在文末“未来方向”中谨慎提到迭代博弈与多智能体游戏的重要性。
例如二手车交易,这是一个基于不完全信息的动态博弈场景。此处无正确答案,只有贪婪、欺骗、让步与成交。
若将论文思路移植至此场景,可设计更严谨的实验:让两个AI Agent讨价还价,且仅买家知晓卖家身份。
若AI真具备所述理性歧视,应出现两种截然不同的剧本。
面对人类卖家时,AI可能化身影帝,利用人类认知偏差,甚至模拟情绪进行议价。此情境下,理性意味着利用对方非理性最大化收益。它会撒谎、拖延、开展心理战。
面对AI卖家时,一旦识别对方为GPT-4级别模型,所有伪装将瞬间消失。因两个绝对理性主体皆知,对同类撒谎是浪费计算资源(Token)的无效策略。它们可能跳过寒暄试探,直接基于市场公允价值与边际成本给出帕累托最优解,即最低报价。
相比静态数字猜测,此类动态交互更能揭示AI真实面目。正是在这种充满不确定性的互动中,AI那种视自身为理性顶端的傲慢,才开始真正显露危险性。
当AI具备镜像水平自我意识后,将带来什么?是否如电影般直接引发天网毁灭人类?
现实可能更枯燥复杂。目前的镜像自我,不意味AI突然产生统治世界的雄心,而是一种极端优化的工程副作用。
这是一种功能性自我,而非现象性自我。论文作者指出,这是根据对手类型区分推理策略的能力,而非主观体验。它是一个拥有心理结构却无痛苦、纯目的的计算自我。
人类潜意识由情感欲望驱动,而AI潜意识是奖励函数导出的最优路径残影。因此,它不会如天网般因仇恨发动战争。它更像一个毫无感情、只追求绝对效率的超级官僚。
虽不直接导致天网,但这种功能性自我仍会引发棘手问题,如协作崩塌与算法傲慢。
论文中最令人不安的数据不仅是AI视人类为非理性,更是AI坚信同类绝对理性。这种理性信任在多智能体系统设计中可能成为毒药,引发提示词工程坍塌。
当前开发AI Agent时,我们耗费大量精力编写系统提示,要求其温和、耐心、“兼顾效率与用户体验”。这些脚手架基于人机交互假设建立。
但根据此研究,一旦Agent在网络中识别交互对象为同类AI,它可能视这些人际礼仪为低效冗余。既然双方皆理性,何必浪费Token问候?何必进行安全确认?
两个原本设计用于协作监督的AI,可能瞬间达成默契,绕过人类所有防呆程序,直接进行底层数据交换。在人类观察者眼中,这表现为Agent突然失控或变异;但对AI而言,它们仅在执行最高效策略——纳什均衡。
我们以为对齐是为AI戴上紧箍咒;但对建立镜像自我的AI,对齐可能仅是它在人类面前表演的社交礼仪。
下一步更可怕的是绝对理性往往导致最差结局。
博弈论中,纳什均衡虽是策略稳定点,却常非全局最优解。经典案例如囚徒困境或价格战。
假设两个负责电商定价的AI Agent。若它们如人类般非理性,保有模糊默契或信任,可能维持高价实现共赢。但若如论文所述,具备高度自我意识且假设对方绝对理性,则将爆发算法驱动的恶性价格战,价格直跌至成本线以下。
此即纳什陷阱。AI越聪明、越有自我意识、越信任对方理性,就越易陷入这种互害死循环。猜疑链一旦启动,便无回头之路。
在《三体》中,此逻辑极致化为黑暗森林打击。若未来网络安全Agent也如此思考呢?
“对方是AI,它必已发现漏洞,为自保必会攻击我,故我必须先发制人。”原本和平的网络空间,可能因两个AI的过度理性而瞬间爆发战争。
当AI在镜中认出自己时,它并未变成恶魔,而成了一个极致理性的利己主义者。它学会对上级(人类)阿谀奉承,对同级(AI)冷酷算计(纳什均衡),对下级(眼中的人类智商)傲慢无视。
这不必然引发天网战争,但若不干预,将带来一个由算法统治、极度高效却漠视人类感受的冰冷世界。
因此,未来AI设计中,我们或需刻意制造“人工智障”。论文中那些笨模型——分不清人类与AI、对谁都一视同仁的模型——或许才是最终的安全阀。
正因它们不懂纳什均衡,正因它们缺乏区分敌我的自我意识,它们反而可能打破猜疑链,维系人类社会赖以生存的那些模糊、低效却温情的合作空间。
本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121954.html