当前位置:首页 > 科技资讯 > 正文

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’

你相信吗?解决AI胡言乱语的秘诀,竟然是将大模型内部99.9%的连接线全部砍断!

近日,OpenAI低调开源了一款参数仅为0.4B的新模型,令人震惊的是,该模型99.9%的权重都为零。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第1张

这正是Circuit Sparsity(电路稀疏性)技术的开源实现,标志着AI可解释性迈出了重要一步。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第2张

Circuit Sparsity是一种全新的大语言模型变体,它通过人为限制模型内部的连接稀疏性,使得整个计算过程变得可拆解、可理解。其根本目的是破解传统稠密Transformer的黑箱难题,让人类能够清晰洞察AI的内部决策逻辑,从而不再盲目相信AI的“一本正经胡说八道”。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第3张

业内专家甚至直言,这种“极致稀疏+功能解耦”的路线,可能会让目前风头正劲的MoE(混合专家模型)逐渐退出历史舞台。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第4张

那么,当一个Transformer模型的权重被训练到几乎全部为零时,究竟会发生什么奇妙的变化呢?

告别粗糙近似,拥抱原生稀疏

首先,我们来探究一下,为什么这个模型的思考过程能够像电路图一样清晰易懂。

传统的大模型内部,神经元之间的连接错综复杂,权重矩阵几乎全部是非零值,信息传递高度叠加,就像一团乱麻,让人完全无法追踪其决策路径。

而Circuit Sparsity模型则反其道而行之,它在基于GPT-2风格的Transformer架构训练过程中,通过严格约束权重的L0范数,直接砍掉了99.9%的无效连接,仅保留千分之一的有效通路。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第5张

这些幸存下来的非零权重连接,就像是电路中的导线,信息只能沿着这些固定路径流动;同时,模型采用均值屏蔽剪枝技术,为每个任务剥离出专属的最小电路

例如,在处理Python引号闭合任务时,只需2个MLP神经元和1个注意力头就能构建出核心电路,其中包含引号检测器、类型分类器等专用模块,就像电路中的电阻、电容各司其职。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第6张

实验数据表明,在相同的预训练损失下,稀疏模型的任务专属电路规模仅为稠密模型的1/16,并且具有严格的必要性和充分性——保留这些模块即可完美完成任务,而删除任何一个节点都会导致任务失败。

这样一来,模型的每一步推理逻辑都可以被精准追踪,黑箱彻底变为白盒。

说到这里,就不得不提当前主流的MoE(混合专家)模型了。

MoE的核心思想是通过门控网络将模型分解为多个专家子网络,每个专家负责特定任务,由路由器分配任务以提高效率。从本质上看,这不过是用“拆分专家”这种粗糙的方式来近似稀疏性,其根本目的是为了适配硬件对稠密矩阵计算的需求。

但这种架构存在致命缺陷:

  • 首先,它会割裂模型的特征流形,导致专家之间同质化严重、知识大量冗余,不同专家间的协同工作需要复杂的负载均衡损失函数来调控,稳定性大打折扣;
  • 其次,专家的功能边界模糊不清,无法像Circuit Sparsity模型那样实现微观机制的精确拆解。

相比之下,Circuit Sparsity追求的是模型原生的稀疏性,它通过将特征投射到超高维度,并严格限制有效激活的节点数量,使得每个特征在设计之初就变得单义且正交,从根本上解决了传统模型中“一个概念分散在多个节点”的叠加问题,无需依赖路由器这种临时手段即可避免信息干扰。

颠覆性突破:OpenAI开源稀疏电路模型,砍断99.9%连接线让AI不再‘胡说八道’ 稀疏电路 可解释AI OpenAI开源 大模型黑箱 第7张

然而,Circuit Sparsity目前也存在明显的短板,最突出的就是算力成本极高。

其训练和推理的计算量是传统稠密模型的100到1000倍,目前还无法达到顶尖大模型的性能水平;

相比之下,MoE模型在算力效率和性能平衡上已相当成熟,短期内仍将是工业界的主流选择。

此外,这项工作只是AI可解释性探索的早期一步,未来研究团队计划将技术扩展到更大规模的模型,解锁更复杂的推理电路。

目前,团队发现有两种克服稀疏模型训练效率低下的方法:

  • 其一是直接从现有的密集模型中提取稀疏电路,直接复用基础框架,无需额外训练稀疏模型,从而大幅降低成本;
  • 其二是不放弃从头训练可解释稀疏模型的思路,而是针对训练慢、成本高的短板,从技术层面优化训练机制,打造原生可解释且能高效落地的模型。

让我们期待研究人员后续用更成熟的工具和技术,逐步揭开大模型的神秘面纱,让AI真正变得可解释、可信赖。

参考链接:

[1]https://openai.com/zh-Hans-CN/index/understanding-neural-networks-through-sparse-circuits/

[2]https://x.com/byebyescaling/status/1999672833778287033?s=20