当前位置：首页 > 科技资讯 > 正文

D-CHAG：破解大规模模型训练瓶颈的创新方法

主机测评网
科技资讯
2026-07-05
418

源自美国能源部橡树岭国家实验室的科学家们创新性地提出了分布式跨通道分层聚合方法（D-CHAG），该方法对 token 化过程进行分布式处理，并采用分层策略进行通道聚合，使得极大规模模型能够在多通道数据集上高效运行。

基于视觉的科学基础模型在推动科学发现与创新方面潜力巨大，这主要得益于其能够聚合多样化来源的图像数据（例如不同的物理观测场景），并利用 Transformer 架构学习时空相关性。然而，图像的 token 化与聚合过程计算开销巨大，而现有的分布式方法如张量并行（TP）、序列并行（SP）或数据并行（DP），尚未充分解决这一挑战。

在此背景下，橡树岭国家实验室的研究团队提出了 D-CHAG 方法。该方法通过分布式处理 token 化过程，并采用分层策略进行通道聚合，从而实现了在多通道数据集上运行的大规模模型。研究人员在高光谱成像与天气预测任务上评估了 D-CHAG，发现结合张量并行和模型分片后，在 Frontier 超级计算机上内存占用最多可降低 75%，并在 1,024 块 AMD GPU 上实现持续吞吐量提升超过 2 倍。

相关研究成果以「Distributed Cross-Channel Hierarchical Aggregation for Foundation Models」为题，已发表于 SC25。

研究亮点：

* D-CHAG 解决了多通道基础模型训练中的内存瓶颈和计算效率问题

* 与仅使用 TP 相比，D-CHAG 可实现最高 70% 的内存占用降低，从而支持更高效的大规模模型训练

* 在天气预测与高光谱植物图像掩码预测两种科学工作负载上验证了 D-CHAG 的性能

D-CHAG：破解大规模模型训练瓶颈的创新方法 D-CHAG 大规模模型跨通道聚合分布式处理第1张

论文地址：https://dl.acm.org/doi/10.1145/3712285.3759870

利用两类典型的多通道数据集验证 D-CHAG

本研究采用两类典型的多通道数据集来验证 D-CHAG 方法的有效性：植物高光谱图像（Hyperspectral Images）和气象 ERA5 数据集。

其中，用于自监督掩码预测的植物高光谱图像数据由 Oak Ridge National Laboratory（ORNL）高级植物表型实验室（APPL）收集。数据集包含 494 张杨树（Poplar）高光谱图像，每张图像包含 500 个光谱通道，覆盖波长从 400nm 到 900nm。这些图像用于掩码自监督训练，模型任务是预测缺失内容，从而学习图像的潜在数据分布。

此外，研究团队在气象预测实验中使用了 ERA5 高分辨率再分析数据集。研究选择了 5 个大气层变量和 3 个地表层变量，生成 80 个输入通道。为了适配模型训练，原始数据被重网格化并采用 xESMF 工具包和双线性插值算法完成。