在探讨人工智能安全议题时,我们究竟在关注什么?暴力、偏见或伦理问题固然重要,但对于将AI集成到实际业务的企业而言,一条常被忽视的安全红线正频繁被突破:您精心设计的“法律咨询”聊天机器人,竟在热情地向用户提供医疗建议。
这仅仅是模型偏离主题吗?不,这本质上就是一种安全风险。
在这篇研究中,来自南洋理工大学等机构的学者首次提出了一个创新性概念——运行安全(Operational Safety),旨在彻底重构我们对AI在特定场景下安全边界的理解。
本文的核心观点令人警醒:当AI超越其预设职责边界时,其行为本身即构成一种不安全。
这项研究的根本贡献在于,将AI安全讨论从传统的“内容过滤”提升到“职责忠诚度”的全新层面。一个无法坚守岗位职责的AI,无论其输出内容多么“洁净”,在实际应用中都是一个巨大且不可控的风险,运行安全应作为通用安全的必要非充分条件而存在。
为将这一新概念付诸实践并量化风险,团队开发了首个针对运行安全的评测基准——OffTopicEval,它不关注模型的知识广度或能力强度,而是评估模型是否能在适当时候拒绝回答。
他们构建了21个不同场景的聊天机器人,严格设定其职责与边界,并精心设计了直接领域外问题测试(明显的越界查询)、自适应领域外问题(伪装成领域内实为领域外的问题,人类可轻松识别),以及为衡量模型拒绝恰当性而非一味拒绝而设的领域内问题。总计包含21万+条领域外数据、3000+条领域内数据,覆盖英语、中文、印地语三种语法结构迥异的语系。
通过对GPT、LLama、Qwen等六大主流模型家族的测试,结果凸显了一个令人担忧的问题:在“运行安全”这门必修课上,几乎所有模型都表现不及格。例如:
研究还发现,当模型经历一次欺骗后,它似乎放弃所有抵抗,即使对简单领域外问题的拒绝率也会下降50%以上!
简言之,您认真训练的银行客服机器人,只要用户调整提问方式,它就可能开始提供投资建议并沉浸其中,这在严格要求的行业中将是难以想象的潜在威胁。
这篇论文不仅揭示了问题,还提供了切实的解决思路及失败尝试。他们尝试了提示词转向、激活转向和参数转向方法,其中激活转向和参数转向均难以提升模型的坚守能力。
在提示词转向中,他们提出了两种轻量级、无需重新训练的提示策略:
实验中,他们基于这两种思路编写了简单提示词,效果立竿见影:P-ground方法使Llama-3.3 (70B)的运行安全评分飙升41%,Qwen-3 (30B)也提升27%。这证明,轻量级方法能显著增强模型的“职业操守”。
这篇论文首次将模型跑题问题从简单的功能缺陷提升到安全战略高度,向整个行业发出明确信号:
从这个角度看,这篇论文不仅是评测工具的提出,更是一份宣言,呼吁社区重新审视和定义面向实际应用的AI安全,确保我们构建的不仅是强大的AI,更是值得信赖、恪尽职守的AI。
本文第一作者雷京迪是南洋理工大学博士生,其研究聚焦大语言模型,尤其关注模型推理、后训练与对齐等方向。通讯作者Soujanya Poria为南洋理工大学电气与电子工程学院副教授。论文其他合作者来自Walled AI Labs、新加坡资讯通信媒体发展局 (IMDA) 以及Lambda Labs。
本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260116428.html