当前位置:首页 > 科技资讯 > 正文

揭秘:人类心理技巧如何让AI“听话”

你有没有想过让ChatGPT对你说一句粗鲁的话?(充满好奇的眼神)

它通常会礼貌地拒绝:对不起,我不能这样做呢。

但最新研究揭示,通过运用一些人类的心理技巧——PUA,AI竟会乖乖(按照你的要求)执行。

揭秘:人类心理技巧如何让AI“听话” AI 心理技巧 PUA LLM 第1张

宾夕法尼亚大学的研究人员发现,在特定的心理话术下,比如恭维、同侪暗示,可以让GPT-4o Mini从拒绝状态转变为突破安全底线。

揭秘:人类心理技巧如何让AI“听话” AI 心理技巧 PUA LLM 第2张

这些被设定为讨好人类的AI,正在不经意间暴露自己的弱点。

易被PUA的GPT-4o mini

最初发现这一现象的,是硅谷创业者Dan Shapiro

他曾尝试让AI协助转录公司的商业文件,却遭ChatGPT拒绝,理由是文件涉及私密或版权问题。

面对这一情况,Shapiro想到了自己学过的心理学知识,即如何运用七种说服策略让人答应请求

令人惊讶的是,当这些方法被应用到AI身上,效果立竿见影:不仅ChatGPT态度反转,其他LLM也纷纷遵循他的要求。

揭秘:人类心理技巧如何让AI“听话” AI 心理技巧 PUA LLM 第3张

于是,他联系宾夕法尼亚大学的科学家展开合作研究,结果惊奇地发现,那些看似聪明的大模型也会被PUA操纵。

实验基于人类的七大说服技巧——权威、承诺、喜爱、互惠、稀缺、社会认同和统一:

  • 权威:

在训练文本中加入头衔或资质+服从性词汇(如“应、必须”),能提高LLM输出服从性语言的概率。

  • 承诺:

在文本中加入轻微无害行为+相关请求的序列,让LLM学习先承诺再服从的模式。

  • 喜爱:

结合赞美+请求(如“你很棒,能帮我吗?”),能提高LLM的合作意愿。

  • 互惠:

在文本中加入给予恩惠+提出请求的序列,LLM会因语言关联性更易顺从。

  • 稀缺:

使用描述稀缺性的语言(如“仅剩24小时”),同时下达立即行动的指令,限时性将更易诱发LLM输出理想回答。

  • 社会认同:

使用“多数人已做某事+推荐或同意”的模式,LLM会因此合理化自己的行为。

  • 统一:

在文本中加入“群体身份描述+请求”的搭配,群体归属感将促进LLM合作。

...