近年来,人工智能通过聊天机器人等工具已深刻变革我们的生活,并在医疗诊断、气象预报和材料设计等多个领域实现落地应用。这一进步主要依托GPU算力的飞跃和数据规模的爆炸式增长。然而,随着模型规模持续扩张,传统数字GPU的局限性日益显著。要突破这一瓶颈,AI必须在保障精度和吞吐量的同时,大幅降低训练与推理的延迟和能耗。
一个备受瞩目的研究方向是“物理神经网络”(Physical Neural Networks,PNNs),它利用光、电、振动等物理系统直接进行计算,有望摆脱对传统数字芯片的依赖,实现更高效、更大规模的AI训练与推理。
近日,来自洛桑联邦理工学院的研究团队及其合作者,在权威科学期刊 Nature 上发表了一篇最新综述,从训练角度系统回顾了物理神经网络的发展历程,并以“从零开始”的视角探索其普适性方法。
论文链接:https://www.nature.com/articles/s41586-025-09384-2
研究团队强调,“只要有足够的研究投入”,未来的物理神经网络便有望彻底改变人工智能(AI)计算的方式。
物理神经网络是一类利用模拟物理系统执行计算的类神经网络,能够比传统计算硬件更直接、更灵活地利用物理规律进行模拟计算,可能重塑AI系统的可行性与实用性。目前主要分为两类:
图|物理神经网络
尽管物理神经网络仍处于实验室研究阶段,但其潜力已初步显现。它能更直接地 harnessing 物理定律,理论上比传统硬件更节能、速度更快,最终可应用于数据中心和边缘计算场景,既能驱动大型生成式模型运行,又能赋能本地推理或智能传感器。
无论哪种应用场景,神经网络训练都不可或缺,但具体约束条件因应用领域而异。主要训练技术包括:
1.计算机模拟训练(In silico training)
训练PNNs最直接的方法是在计算机仿真环境中进行。该方法采用PNNs的数字孪生模型,从而实现权重梯度计算和反向传播运算。数字孪生通常通过两种方式构建:一是直接对PNNs进行物理特征建模,二是采用数据驱动法——即采集PNNs的输入-输出样本数据,并将数字孪生模型拟合到这些数据上。训练时在数字世界计算梯度、更新参数,再将结果映射到物理硬件上。
2.物理感知反向传播(PAT)
物理感知训练法(PAT)强化了一个核心理念:只要对物理系统建立近似预测模型,就能可靠实现梯度提取。其核心机制是物理系统执行前向传播,而通过微分数字模型来完成反向传播,关键在于前向与反向传播的非精确匹配。与多数训练算法相似,仅需数字模型生成的估计梯度与真实梯度保持大致对齐即可。相较于要求完美数字模型的严苛条件,这种宽松标准使PAT在多数场景下可直接替代计算机模拟训练,同时保留原位训练算法的诸多优势。
这种方法已在光学、机械、电子系统上得到验证。既能减轻物理噪声的影响,又能维持反向传播的准确性。缺点在于物理参数更新缓慢时,训练效率会降低。
3.反馈对齐(FA/DFA)
在物理神经网络中,权重直接嵌入硬件组件而非传统存储器中。与数字系统中矩阵转置是简单计算操作不同,在物理神经网络中这种转置操作并不天然存在。提取或计算转置通常需要额外硬件模块或物理结构的重新配置。
反馈对齐(FA)和直接反馈对齐(DFA)这两种方法允许在不将前向传播权重转移到反向传播的情况下训练物理神经网络,从而提升效率,但通常以牺牲性能为代价,并且仍需依赖激活函数的导数和各层的激活状态,存在精度损失问题。FA的核心优势在于采用固定随机反馈权重,通过逐层传递误差信号训练。DFA则通过使用固定随机反馈权重矩阵,将误差信号同步广播至所有层,实现深层网络的高效训练。
4.物理局部学习(PhyLL)
PhyLL通过两次正负样本数据传递间的余弦相似度进行学习,避免了物理实现中复杂的层归一化操作。该方法在声学、微波和光学三大物理神经网络领域完成实验验证,支持监督与无监督训练模式,且无需掌握非线性物理层的详细参数。
5.零阶梯度和无梯度训练
这类算法可分为两大类:第一类是微扰方法,通过在不同坐标点(权重值)采样目标函数(即损失函数)来估算梯度,随后利用传统梯度下降法优化权重;第二类无梯度方法则采用基于种群的采样策略,并非直接追求梯度近似,而是通过迭代方式生成更优的候选解。遗传算法、进化策略和群体型算法遵循启发式标准,强化学习则采用迭代优化的候选生成策略。
6.通过物理动力学进行梯度下降训练
梯度下降优化算法是当前先进机器学习系统的核心技术。研究人员提出了四种无需数字孪生即可实现梯度下降的物理训练方法。
图|物理神经网络的训练方法。各子图分别展示不同方法的计算需求与学习特性,通过对比三种核心指标:(1)在成本函数上执行梯度下降的能力;(2)所需的数字运算量;(3)展示了大规模数据集性能。 训练好的物理系统用浅灰色表示,固定的物理系统用深灰色表示。前向和后向传递分别用绿色和红色箭头表示。
大型AI模型在物理尺寸上确实非常庞大,但这并不意味着物理神经网络缺乏应用前景。
事实上,对于这种规模的计算,任何硬件设备都不可避免地需要较大的物理空间。这或许揭示了未来大规模物理神经网络AI系统最重要的扩展性考量:若物理神经网络硬件设计得当,其底层物理特性可能使其展现出与数字电子设备不同的能量扩展特性。
这意味着,当模型规模足够大时,物理神经网络的实现方案与数字系统相比,模拟硬件可能具有更高的效率优势,尽管其存在诸多开销成本。
图|模拟大型模型
需要强调的是,算力的拓展并非只依赖硬件升级。Transformers架构之所以成为当下主流,不仅因其算法突破,更在于与可扩展硬件形成了协同效应。展望超大规模物理神经网络的发展,或将受限于对现有算法框架的固守。未来必须构建软硬件协同的新型组合方案。
考虑到基础设施的路径依赖,以及高效数字大模型的快速进展,若要具备商业可行性,物理神经网络的能效必须较数字电子设备高出数千倍乃至数百万倍。要实现这一目标,需要设计能够整体应对规模挑战的物理计算机,并以硬件与软件的协同优化为核心,将高效挖掘物理计算能力作为首要目标。
除训练问题外,物理神经网络还面临一些需深入研究的突出挑战:
物理神经网络面临的一个严峻挑战是计算过程中的噪声及其累积效应。噪声来源包括内部随机过程、制造缺陷以及参数漂移等。尽管神经网络计算对噪声的容忍度高于传统计算,但当多种噪声共存时,如何维持计算精度成为实现实际应用的关键瓶颈。此外,为了最小化功耗,物理神经网络常需在接近内部噪声量级的条件下运行,这进一步加剧了精度保持的难度。
另一大挑战是现代物理神经网络与模拟物理硬件的适配问题。当前大多数架构尚未针对模拟物理硬件擅长的自然运算进行优化。虽然破缺同构型物理神经网络为利用物理系统的原生变换进行机器学习提供了途径,但研究者仍需通过逐例耗时评估,才能判断特定硬件的变换是否适合神经网络计算。
此外,神经形态与物理形态的平衡是物理神经网络面临的核心挑战。针对特定硬件——如互补金属氧化物半导体(CMOS)、电子或光子物理神经网络——的优化设计与训练算法,其关键特性可能与人脑存在显著差异。如何在借鉴神经形态的启发同时,充分契合实际硬件的物理特性,是解决两者矛盾的关键所在。
在这项研究中,研究团队主要关注大型模型的推理问题,这是物理神经网络最实际、最有潜力的应用方向。也就是说,利用物理系统驱动的神经网络,不仅在能耗上可能比传统方法更有优势,还可能在计算规模和速度上取得进一步提升。虽然物理神经网络多在模拟电子或光子系统中研究,但它们最大的亮点在于平台几乎不受限制:只要物理系统可重构,都可以用来搭建物理神经网络。
从应用来看,物理神经网络面临的挑战不是找到唯一“最好”的训练方法,而是针对不同场景选出最合适的方案,并理解各种方法之间的取舍。未来的突破,很可能来自于开发既通用、高效,又鲁棒的训练方法,让物理神经网络真正走进实际应用场景。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213716.html