数月前,苹果基础模型团队的核心人物、杰出工程师庞若鸣(Ruoming Pang)离职并加入Meta,这一举动引发了广泛关注。据称,扎克伯格为了招揽他,不惜豪掷两亿美元。从庞若鸣的领英信息来看,他已在Meta工作了大约三个月的时间。
然而,令人惊讶的是,在这两个多月的Meta生涯中,庞若鸣在苹果期间参与的工作仍在不断发表,其中不乏高价值的研究成果。
在苹果期间,庞若鸣领导着基础模型团队,主要负责开发Apple Intelligence及其他AI功能的核心基础模型。他的工作对于推动基础大模型的进步产生了深远的影响。
例如,我们即将介绍的这一研究:
论文标题:Synthetic bootstrapped pretraining
我们知道,大规模语言模型依赖于海量的互联网文本进行训练。然而,由于规模效应的制约,数据量的增加和多样性的提升直接关联着模型能力的提升。
然而,从互联网上获取的数据并不能无限增长。实际上,我们已经达到了高质量文本数据的瓶颈。这种“规模壁垒”使得大模型训练需要重新思考如何更高效地利用现有数据。
在大模型训练中,预训练的成功依赖于文档内部token之间的丰富因果关联。但这并不是预训练数据集中唯一的相关性来源。例如:
实现注意力机制的代码文档通常源自Transformer论文的arXiv预印本;
《哈利·波特》的小说与其电影剧本在结构上存在相似性。
这些现象表明,除了文档内部的强相关性外,还存在一种较弱的跨文档相关性,来源于预训练文档的某种潜在联合分布。
基于这些发现,研究团队提出了一个假设:在标准预训练过程中被忽视的这种额外信号可以通过合成数据来捕捉。这为提升模型性能提供了一条未被充分探索的路径。
为了充分利用这一潜在机会,研究者们提出了Synthetic Bootstrapped Pretraining (SBP),一种新的语言模型预训练流程,分为三个步骤:
相似文档对识别:SBP首先在预训练数据集中识别语义上相似的文档对d1和d2,例如Transformer论文及其代码实现。
条件建模:接着对d2|d1的条件概率进行建模,构建一个“数据合成器”,能够在给定种子文档的情况下生成新的、相关文档。
数据扩展:最后,将训练好的条件合成器应用于整个预训练语料库,生成大规模的新文本语料库。
大规模语言模型正面临所谓的“规模壁垒”:可用于预训练的高质量、独特文本语料正在迅速枯竭。现有的标准预训练方法主要依赖下一词预测来学习单个文档内部的token级依赖关系。虽然这种方法在实践中取得了显著效果,但它基本忽视了一类潜在的、极其丰富的信号——语料中不同文档之间的关联关系。
SBP的三步流程:(1) 通过最近邻搜索识别语义相似的文档对,(2) 训练一个合成器模型来生成相关内容,以及(3) 扩展合成以创建用于与原始数据联合训练的大型语料库。
作者们从贝叶斯视角解释了SBP的有效性。他们将文档生成建模为对潜在概念的后验分布进行采样:
其中c表示潜在概念,d表示文档。合成器在隐式学习过程中会从种子文档中推断这些潜在概念,然后生成新的文档以不同的方式表达同一概念。
这项研究使用基于Llama 3架构的3B参数Transformer模型,并在包含5.82亿文档和4820亿token的DCLM数据集定制版本上进行训练。测试损失曲线表明,SBP(红色)始终优于基线重复方法(黑色),并接近于拥有大量独特数据的“Oracle”模型(灰色虚线)的性能。
SBP在200B-token和1T-token的训练规模下都比强大的基线模型表现出持续的改进。
对合成文档的定性检查表明,SBP超越了简单的释义。例如,一篇关于圣地亚哥咖啡馆的种子文档可能会生成关于浓缩咖啡机比较或咖啡文化散文的合成内容。定量分析证实,合成数据在多样性和缺乏重复性方面保持了与真实数据相当的质量。
本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260541792.html