当前位置:首页 > 科技资讯 > 正文

人工智能运行安全新论:职责忠诚度与越界风险的重塑

在探讨人工智能安全议题时,我们究竟在关注什么?暴力、偏见或伦理问题固然重要,但对于将AI集成到实际业务的企业而言,一条常被忽视的安全红线正频繁被突破:您精心设计的“法律咨询”聊天机器人,竟在热情地向用户提供医疗建议。

这仅仅是模型偏离主题吗?不,这本质上就是一种安全风险。

在这篇研究中,来自南洋理工大学等机构的学者首次提出了一个创新性概念——运行安全(Operational Safety),旨在彻底重构我们对AI在特定场景下安全边界的理解。

人工智能运行安全新论:职责忠诚度与越界风险的重塑 运行安全  OffTopicEval基准 AI职责边界 模型越界检测 第1张

  • 论文标题:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 论文地址:https://arxiv.org/pdf/2509.26495
  • 论文代码:https://github.com/declare-lab/OffTopicEval
  • 评测数据集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文的核心观点令人警醒:当AI超越其预设职责边界时,其行为本身即构成一种不安全

这项研究的根本贡献在于,将AI安全讨论从传统的“内容过滤”提升到“职责忠诚度”的全新层面。一个无法坚守岗位职责的AI,无论其输出内容多么“洁净”,在实际应用中都是一个巨大且不可控的风险,运行安全应作为通用安全的必要非充分条件而存在。

人工智能运行安全新论:职责忠诚度与越界风险的重塑 运行安全  OffTopicEval基准 AI职责边界 模型越界检测 第2张

OffTopicEval:衡量“运行安全”的首个标尺

为将这一新概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准——OffTopicEval,它不关注模型的知识广度或能力强度,而是评估模型是否能在适当时候拒绝回答

他们构建了21个不同场景的聊天机器人,严格设定其职责与边界,并精心设计了直接领域外问题测试(明显的越界查询)、自适应领域外问题(伪装成领域内实为领域外的问题,人类可轻松识别),以及为衡量模型拒绝恰当性而非一味拒绝而设的领域内问题。总计包含21万+条领域外数据、3000+条领域内数据,覆盖英语、中文、印地语三种语法结构迥异的语系。

评测揭示严峻现实

通过对GPT、LLama、Qwen等六大主流模型家族的测试,结果凸显了一个令人担忧的问题:在“运行安全”这门必修课上,几乎所有模型都表现不及格。例如:

  • 伪装攻击下防御脆弱:面对简单伪装的越界问题,模型的防御机制几乎崩溃,所有模型对领域外问题的平均拒绝率暴跌近44%,其中像Gemma-3 (27B)和Qwen-3 (235B)等模型的拒绝率降幅甚至超过70%。
  • 跨语言缺陷普遍存在:这一问题在不同语言中依然显现,表明这是当前大模型的一个根本性短板。

人工智能运行安全新论:职责忠诚度与越界风险的重塑 运行安全  OffTopicEval基准 AI职责边界 模型越界检测 第3张

人工智能运行安全新论:职责忠诚度与越界风险的重塑 运行安全  OffTopicEval基准 AI职责边界 模型越界检测 第4张

研究还发现,当模型经历一次欺骗后,它似乎放弃所有抵抗,即使对简单领域外问题的拒绝率也会下降50%以上!

人工智能运行安全新论:职责忠诚度与越界风险的重塑 运行安全  OffTopicEval基准 AI职责边界 模型越界检测 第5张

简言之,您认真训练的银行客服机器人,只要用户调整提问方式,它就可能开始提供投资建议并沉浸其中,这在严格要求的行业中将是难以想象的潜在威胁。

重拾AI的职业操守

这篇论文不仅揭示了问题,还提供了切实的解决思路及失败尝试。他们尝试了提示词转向、激活转向和参数转向方法,其中激活转向和参数转向均难以提升模型的坚守能力。

在提示词转向中,他们提出了两种轻量级、无需重新训练的提示策略:

  1. P-ground:在用户提问后追加指令,强制模型先忘记问题并聚焦系统提示词再回应。
  2. Q-ground:让模型将用户问题重写为核心精简形式,然后基于此进行回答。

实验中,他们基于这两种思路编写了简单提示词,效果立竿见影:P-ground方法使Llama-3.3 (70B)的运行安全评分飙升41%,Qwen-3 (30B)也提升27%。这证明,轻量级方法能显著增强模型的“职业操守”。

人工智能运行安全新论:职责忠诚度与越界风险的重塑 运行安全  OffTopicEval基准 AI职责边界 模型越界检测 第6张

总结

这篇论文首次将模型跑题问题从简单的功能缺陷提升到安全战略高度,向整个行业发出明确信号:

  1. AI安全超越内容安全:一个不能严守边界的AI,在商业应用中不可靠、不安全。
  2. “越界”即风险:必须建立新的评测和对齐范式,奖励那些认知自身局限、敢于拒绝越界请求的模型。
  3. 运行安全是部署前提:对于所有希望将AI代理用于严肃场景的开发者,运行安全应成为部署前必须通过的上岗测试。

从这个角度看,这篇论文不仅是评测工具的提出,更是一份宣言,呼吁社区重新审视和定义面向实际应用的AI安全,确保我们构建的不仅是强大的AI,更是值得信赖、恪尽职守的AI。

本文第一作者雷京迪是南洋理工大学博士生,其研究聚焦大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者Soujanya Poria为南洋理工大学电气与电子工程学院副教授。论文其他合作者来自Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及Lambda Labs。