当前位置:首页 > 科技资讯 > 正文

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈

据智东西12月15日消息,OpenAI近期开源了一款名为Circuit-Sparsity的新模型,该模型参数量仅为0.4B,且99.9%的权重值都为零。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第1张

Circuit-Sparsity模型已在Hugging Face平台开源(图源:Hugging Face)

这项技术旨在解决AI模型的可解释性难题,核心在于回答“模型基于什么逻辑做出决策?”以及“其内部如何推导出最终结果?”这两个关键问题。

当前,人工智能技术飞速演进,大语言模型(LLM)虽展现出卓越能力,但其内部工作机制仍像难以窥探的“黑箱”。

我们无法明确知晓模型为何给出特定答案,也不清楚它如何从庞大数据中归纳知识。这种不可解释性,已成为AI在医疗、金融、法律等高风险领域应用的重要阻碍。

针对此,OpenAI研究团队成功训练出一个权重高度稀疏的Transformer模型,强制使模型权重矩阵中99.9%的权重归零,仅保留0.1%的非零权重。

在此研究中,团队于模型内部构建了紧凑且可读的“电路”(Circuits),每个电路仅保留维持模型性能的核心节点,使得神经元激活过程具有清晰的语义含义。

有海外网友评论称,这一技术可能预示着当前MoE(混合专家模型)范式的终结,并指出“以往我们仅通过将权重隔离到‘专家’中来近似稀疏性,以适配稠密矩阵核的需求。”

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第2张

海外社交媒体上的相关评价(图源:X平台)

更有网友将这项研究比喻为给模型“瘦身至骨架形态”,并称其有趣之处在于直接构建稀疏模型来打开黑箱,而非试图解构稠密模型。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第3张

海外社交媒体上的进一步讨论(图源:X平台)

但也有部分网友持不同看法,认为MoE模型不会因此被淘汰,并解释称该技术专注于XAI(可解释人工智能),其训练成本高出100-1000倍,回归“研究时代”并不意味着让技术更复杂化。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第4张

海外社交媒体上的争议性观点(图源:X平台)

该模型目前面临计算效率瓶颈,其运行速度比密集模型慢100至1000倍,因此将这项技术直接应用于千亿参数级别的尖端大模型,在当前阶段尚不现实。

开源地址详情:

Github仓库:

https://github.com/openai/circuit_sparsity

Hugging Face平台:

https://huggingface.co/openai/circuit-sparsity

01.训练稀疏Transformer模型,OpenAI厘清内部计算机制

要理解此项研究的创新性,需先明晰传统大模型为何难以解释。

在标准密集模型(Dense Models)中,神经网络存在一种称为“超级位置”(Superposition)的现象。简言之,为存储海量信息,模型被迫让单个神经元或权重矩阵同时编码多种不同概念。

这种特征纠缠导致严重后果,例如模型决策难以追溯、逻辑混乱,当模型输出结果时,我们无法确定具体是哪个“概念”在发挥作用。

针对以上问题,以往研究通常从尝试拆解密集、纠缠的网络入手。但OpenAI团队采取了“反直觉”策略,即直接训练权重稀疏的Transformer模型,强制模型权重矩阵中99.9%权重为零,仅保留0.1%非零权重。

强制模型限制其只能使用神经元间极少数可能连接,这一简单变更几乎从根本上厘清了模型的内部计算过程。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第5张

每个神经元仅与下一层的少数神经元相连(图源:OpenAI技术博客)

具体技术手段包括:

1、动态剪枝与稀疏约束:在训练过程中,系统动态执行“剪枝”操作,每一步优化后仅保留绝对值最大的权重(Top-K稀疏化)。

2、激活稀疏化:在残差流、注意力键/值矩阵等关键位置,研究团队引入了AbsTopK激活函数,强制仅保留前25%的激活值。

3、架构微调:为配合稀疏化,团队用RMSNorm替代传统LayerNorm,避免归一化操作破坏稀疏性,同时引入“Bigram表”处理简单模式匹配,从而释放模型主干容量以处理复杂逻辑推理。

02.模型内部形成紧凑可读“电路”,规模大幅缩减16倍

此项技术的最大成果,是模型内部形成了紧凑且可读的“电路”(Circuits)

在传统密集模型中,完成一项任务可能需要成千上万个节点协同工作,逻辑分散且难以捕捉。而在稀疏模型中,研究团队观察到了极简的计算路径:

1、极简逻辑单元:例如在处理“字符串闭合”任务时,模型仅用12个节点就构建了一个完美电路,清晰展示了其如何检测单引号或双引号是否闭合。

2、可读特征:神经元激活过程具有明确语义。研究人员发现一些神经元专门负责检测“单引号”,另一些则像“计数器”一样精确追踪列表嵌套深度。

3、规模缩减16倍:对比实验显示,在相同任务损失下,稀疏模型的电路规模比密集模型小了16倍。这意味着解读AI思维逻辑的难度降低了一个数量级。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第6张

稀疏模型的电路规模比密集模型缩小16倍(图源:OpenAI技术论文)

为验证这些电路的真实性,团队进行了“均值消融”实验。结果证明,移除非电路节点对任务几乎无影响,而一旦移除电路中的关键节点,模型性能就会瞬间崩溃。这证实了这些电路确是模型执行任务的“核心路径”。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第7张

“均值消融”实验示意图(图源:OpenAI技术论文)

03.稀疏模型可解释性强但速度慢千倍,OpenAI提出“桥梁网络”方案

为度量稀疏模型计算的解耦程度,研究团队设计了一套简单算法任务。对于每个模型,他们都将其剪裁为仍能执行该任务的最小电路,并检查该电路的简洁性。

研究团队发现,通过使用规模更大、稀疏度更高的模型进行训练,就能依托结构更简洁的电路,构建出性能更强的模型。

OpenAI开源Circuit-Sparsity稀疏Transformer模型,突破AI可解释性研究瓶颈 AI可解释性 稀疏Transformer 权重稀疏 电路模型 第8张

模型可解释性与能力对比图(图源:OpenAI技术博客)

从模型可解释性与性能对比图可见,在稀疏模型规模固定的前提下,提升稀疏性(即将更多权重置零)虽会导致模型性能有所下降,但能显著增强其可解释性。

尽管稀疏模型在可解释性方面优势明显,但其应用目前受限于计算效率瓶颈:稀疏矩阵运算无法借助Tensor Cores加速,运行速度较密集模型慢100至1000倍。这意味着,将该技术直接应用于千亿参数级别的前沿大模型,现阶段尚不可行。

为此,研究团队提出了“桥梁网络”(Bridges)方案:

1、编码-解码映射:在稀疏模型与预训练的密集模型之间插入一个编码器-解码器对。

2、跨模型干预:编码器将密集模型的激活映射到稀疏空间,解码器则反向转换。

“桥梁网络”方案允许在“透明”的稀疏模型上修改特定特征,然后通过桥梁将扰动映射回“黑箱”密集模型,从而实现对现有大模型的可解释性行为编辑。

04.结语:OpenAI提出稀疏化新路径,推动大模型从“黑箱”走向“可解释”

OpenAI研究团队的这项研究,标志着AI可解释性领域的一项重要突破,也印证了理解AI并非遥不可及的目标。

研究团队在论文博客中称,这项工作是迈向更宏大目标的早期探索。接下来,他们计划将相关技术扩展至更大规模模型,同时进一步解释更多模型的行为逻辑。

为解决稀疏模型训练效率低下的问题,团队提出两个后续研究方向:一是从现有密集模型中提取稀疏电路,替代“从头训练稀疏模型”的传统方式;二是研发更高效的可解释性模型训练技术,推动相关技术更易落地生产。

“我们的目标是逐步扩大可可靠解释的模型范围,同时打造相关工具,让未来的AI系统更易于分析、调试与评估。”研究团队在论文博客中写道。