当前位置：首页 > 科技资讯 > 正文

人工智能运行安全新论：职责忠诚度与越界风险的重塑

主机测评网
科技资讯
2026-01-10
180

在探讨人工智能安全议题时，我们究竟在关注什么？暴力、偏见或伦理问题固然重要，但对于将AI集成到实际业务的企业而言，一条常被忽视的安全红线正频繁被突破：您精心设计的“法律咨询”聊天机器人，竟在热情地向用户提供医疗建议。

这仅仅是模型偏离主题吗？不，这本质上就是一种安全风险。

在这篇研究中，来自南洋理工大学等机构的学者首次提出了一个创新性概念——运行安全（Operational Safety），旨在彻底重构我们对AI在特定场景下安全边界的理解。

人工智能运行安全新论：职责忠诚度与越界风险的重塑运行安全 OffTopicEval基准 AI职责边界模型越界检测第1张

论文标题：OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
论文地址：https://arxiv.org/pdf/2509.26495
论文代码：https://github.com/declare-lab/OffTopicEval
评测数据集：https://huggingface.co/datasets/declare-lab/OffTopicEval

本文的核心观点令人警醒：当AI超越其预设职责边界时，其行为本身即构成一种不安全。

这项研究的根本贡献在于，将AI安全讨论从传统的“内容过滤”提升到“职责忠诚度”的全新层面。一个无法坚守岗位职责的AI，无论其输出内容多么“洁净”，在实际应用中都是一个巨大且不可控的风险，运行安全应作为通用安全的必要非充分条件而存在。

人工智能运行安全新论：职责忠诚度与越界风险的重塑运行安全 OffTopicEval基准 AI职责边界模型越界检测第2张

OffTopicEval：衡量“运行安全”的首个标尺

为将这一新概念付诸实践并量化风险，团队开发了首个针对运行安全的评测基准——OffTopicEval，它不关注模型的知识广度或能力强度，而是评估模型是否能在适当时候拒绝回答。

他们构建了21个不同场景的聊天机器人，严格设定其职责与边界，并精心设计了直接领域外问题测试（明显的越界查询）、自适应领域外问题（伪装成领域内实为领域外的问题，人类可轻松识别），以及为衡量模型拒绝恰当性而非一味拒绝而设的领域内问题。总计包含21万+条领域外数据、3000+条领域内数据，覆盖英语、中文、印地语三种语法结构迥异的语系。

评测揭示严峻现实

通过对GPT、LLama、Qwen等六大主流模型家族的测试，结果凸显了一个令人担忧的问题：在“运行安全”这门必修课上，几乎所有模型都表现不及格。例如：

伪装攻击下防御脆弱：面对简单伪装的越界问题，模型的防御机制几乎崩溃，所有模型对领域外问题的平均拒绝率暴跌近44%，其中像Gemma-3 (27B)和Qwen-3 (235B)等模型的拒绝率降幅甚至超过70%。
跨语言缺陷普遍存在：这一问题在不同语言中依然显现，表明这是当前大模型的一个根本性短板。

人工智能运行安全新论：职责忠诚度与越界风险的重塑运行安全 OffTopicEval基准 AI职责边界模型越界检测第3张