当前位置:首页 > 科技资讯 > 正文

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹

美国卡内基科学研究所携手全球多所院校,成功开发了一种结合热解气相色谱-质谱与监督机器学习的“技术融合”方案,能够从复杂的分子碎片中识别出古老的生命遗迹。

解读深藏于地下岩层中的有机分子,对于理解地球历史和生命演化至关重要。这些分子作为生命活动的潜在证据,不仅能帮助解开地球生命起源之谜,特别是澄清光合作用的开始与大气氧化过程的联系,还能补全生命演化的时间线,为早期地球生态系统的构建提供关键线索。然而,这些“证据”与大型生物化石不同,它们经过地质时代的侵蚀,往往消失无踪,因此,如何从高度降解的有机残留中检测生命痕迹,成为了古生物学和地球科学领域的重大挑战。

长期以来,研究人员主要依靠化石形态和同位素分析来探索早期生命,但这些方法受限于样本的保存条件:例如,脂质和卟啉等复杂分子的清晰记录只能追溯到约16亿年前,远晚于其他证据指示的生命起源时间。此外,太古代岩石中有机分子的来源不明确,生物与非生物成因的区分困难,使得许多重要发现仍处于假设阶段。

为了突破这一困境,由美国卡内基科学研究所地球和行星实验室牵头,联合全球多家机构组成跨学科团队,提出了一种“技术融合”策略,他们首先应用热解气相色谱-质谱进行分析,然后利用监督机器学习对数据进行分类,从而在杂乱无章的分子碎片中捕捉古老的生命信号。

实验结果显示,这种技术融合模型表现卓越,能够100%准确区分现代有机物与陨石或化石有机物,识别化石植物组织与陨石有机物的精度达到97%。更值得一提的是,当应用于未知样本时,该模型成功检测出33.3亿年前和25.2亿年前古太古代和新太古代岩石中的生物成因分子组合,为探索更古老、更难以保存的生命痕迹提供了新方法。

这项研究以“Organic geochemical evidence for life in Archean rocks identified by pyrolysis–GC–MS and supervised machine learning”为题,发表在美国国家科学院院刊PNAS上。

研究亮点:

* 通过融合热解气相色谱-质谱与机器学习,突破了传统方法的限制,解决了分子降解后识别困难的核心问题。

* 研究样本涵盖范围广,从现代生物到数十亿年前的岩石,从地球物质到地外陨石,为模型训练提供了全面的对比数据。

* 实验证明该方法既科学又前瞻,不仅验证了太古代岩石中生命痕迹的存在,还为未来寻找未知生命痕迹开辟了新途径。

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹 热解气相色谱-质谱 监督机器学习 古老生命痕迹 太古代岩石生物成因 第1张

论文地址:https://www.pnas.org/doi/10.1073/pnas.2514534122

数据集:406份样本提供全方位对照

研究团队分析了406份包含有机分子的天然和合成样本,覆盖古代和现代、生物和非生物来源,时间跨度从约38亿年前(太古代)到1000万年前(新近纪)。样本类型包括沉积岩(141块)、化石(65份)、现代生物(123个)、陨石(42颗,其中39颗为碳质球粒陨石)以及实验室合成有机分子组合(35组),为机器学习分析提供了丰富多样的数据基础。

在这406份样本中,272份样本根据系统发育关系和生理特征被明确分为9个类别,用于监督机器学习的训练(75%)和测试(25%),具体如下:

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹 热解气相色谱-质谱 监督机器学习 古老生命痕迹 太古代岩石生物成因 第2张

九类样本的三维py-GC-MS数据可视化

* 现代动物:来自多种近期死亡的无脊椎动物和脊椎动物,代表现代非光合异养生物的有机分子特征,共21个样本。

* 现代植物(非光合组织):包括植物根、种子、花朵、果实和树液的非光合组织及分泌物,展示植物不同功能组织的分子差异,共40个样本。

* 现代植物(光合组织):主要以叶子和其他光合组织为主,作为光合生物分子特征的现代参考,共36个样本。

* 含光合蓝藻/藻类化石的沉积岩:从页岩或燧石中通过酸溶富集的有机残留物,且岩石具有可靠的蓝藻或藻类化石形态证据,作为古代光合微生物的分子记录,共24个样本。

* 木化石、煤和油页岩:以显生宙(<5.41亿年)样本为主,也包括元古代岩石中的复杂富烃沉积,如shungite和anthraxolite,代表古代高等植物及烃类物质的分子保存特征,共49个样本。

* 动物化石:均为显生宙样本,包括鱼类化石、三叶虫化石的碳化残留,以及中新世腹足类动物壳中提取的蛋白质,代表古代动物的有机分子残留,共9个样本。

* 现代真菌:包括多种木腐菌和酵母菌,补充真核生物中非植物、非动物类群的分子数据,共16个样本。

* 陨石:主要以碳质球粒陨石为主(39个),经化学溶蚀富集有机分子组合,作为明确的非生物有机来源参考,共42个样本。

* 实验室合成样本:通过Maillard反应、Formose反应等实验室合成过程获得的有机分子组合,模拟非生物成因的有机物质特征,共35个样本。

此外,研究团队还设置了两个辅助类别样本用于特定机器学习模型,以区分光合生物和非光合生物,共3个样本。包括两个现代蓝藻样本补充光合原核生物数据,以及一个现代嗜盐菌样本补充非光合古菌数据。

最后,剩余的131个样本主要是富含有机物的太古代或元古代沉积岩的酸溶富集残留物。这些样本的有机分子来源和生理特征未知或有争议,因此为验证机器学习分析的应用提供了新的测试平台。

研究方法及模型:py-GC-MS与机器学习的深度整合

实验主要分为四个步骤:

* 第一步,收集406种不同来源的含碳样本;

* 第二步,从陨石和古沉积岩中提取碳质大分子物质;

* 第三步,使用热解气相色谱-质谱联用技术对每个样本进行分析;

* 第四步,利用机器学习方法训练监督随机森林模型。

关键环节在于将py-GC-MS分析与机器学习进行“技术融合”。

在分析技术方面,研究团队采用CDS 6150热探针与Agilent 8860系列气相色谱仪及Agilent 5999四级杆质谱仪联用,使用Agilent 30 M 5%苯基PDMS色谱柱进行分离。热解产物立即由氦气带入色谱柱分析。具体操作如下:

* 热解:样本(10-100μg)装入预热石英管,在热探针中以500℃/s速率升温至610℃,保持10秒。

* 色谱:初始温度50℃,保持1分钟,以5℃/min升至300℃,保持15分钟,使用超高纯氦气作为载气。

* 质谱:在250℃下以70 eV电离能进行电子电离,扫描范围m/z 45-700,扫描速率0.80s/decade,扫描间延迟0.20秒。

为避免小分子挥发物干扰,实验前两分钟不采集数据。同时,排除常见污染物信号。每个样本转换为二维矩阵,记录信号强度,经标准化和平滑处理后保留8,149个有效特征。

在模型选择方面,实验采用随机森林方法,这是一种高精度、低计算成本且可解释的集成分类方法,通过构建多棵去相关决策树减少过拟合风险。模型基于Leo Breiman的随机森林理论。

研究人员使用两种验证策略:首先,采用75%训练集和25%测试集的分层随机抽样;其次,通过10次重复的10折交叉验证评估模型泛化能力,计算平均准确率。

实验测试了4个模型,分别用于区分现代生物源与非生物源、古代生物源与非生物源、特定古代生物源与非生物源、以及光合与非光合样本。

实验结果:多模型验证技术融合的有效性

在初步测试中,研究人员对9类样本的36种组合进行随机森林分类,在样本平衡的情况下,36个测试中有25个的训练集和测试集正确率≥90%,其中19个≥95%。详细结果如下表:

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹 热解气相色谱-质谱 监督机器学习 古老生命痕迹 太古代岩石生物成因 第3张

为进一步说明,论文展示了几组案例结果。例如,在现代植物(光合组织)与陨石的区分中,该方法达到100%准确率,所有样本的类别概率均>0.6或<0.4,显示显著的分子特征差异。如下图A所示:

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹 热解气相色谱-质谱 监督机器学习 古老生命痕迹 太古代岩石生物成因 第4张

训练集中样本属于两类别的概率分布直方图

此外,识别生物与非生物成因样本是关键目标。研究团队构建了3个随机森林模型进行验证。

在模型#1中,测试现代动植物与非生物源(陨石和合成样本)的区分,样本数量分别为97和77。整体正确率98%,AUC值训练集0.977,测试集1.000;10折交叉验证准确率98.3%。

模型#2用于区分古代生物样本和非生物样本,样本来自第4、5组和第8、9组,分别有87和77个样本。87个古代生物样本中83个被正确分类,正确率95%,其中70个(80%)具有高置信度生物成因概率(>0.6)。非生物样本正确率90%;AUC值训练集0.924,测试集0.926;10折交叉验证准确率92.7%。

将模型#2应用于109个未知来源的古代沉积岩,发现68个样本(61%)的生物源概率>0.50,32个样本概率>0.60。

结果还显示,生物源样本比例随地质年代递减:显生宙样本中93%为生物成因,元古代为73%,太古代仅47%。这表明随年代增加,生物分子降解或非生物输入增多。趋势图如下:

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹 热解气相色谱-质谱 监督机器学习 古老生命痕迹 太古代岩石生物成因 第5张

从太古代到现生宙,生物成因样本百分比变化趋势

模型#3用于区分古代生物源与非生物源,生物源样本来自89个页岩和燧石样本,非生物源为77个样本。生物源样本全部正确分类,80%具有高置信度生物成因概率(>0.60),非生物样本正确率77%;AUC值训练集0.873,测试集0.863;10折交叉验证准确率91.6%。

结合模型#2和#3,研究人员确认了11个古代样本为生物源,最古老的是33.3亿年前南非巴伯顿绿岩带的Josefsdal燧石。如下表所示:

机器学习与热解气相色谱-质谱技术融合突破:解码古老生命遗迹 热解气相色谱-质谱 监督机器学习 古老生命痕迹 太古代岩石生物成因 第6张

基于模型预测的生物成因样本列表

技术融合:生命起源研究的新工具

近年来,全球团队在早期生命痕迹和地外有机物溯源方面进行了多项创新探索。这些研究聚焦于复杂分子混合物的解析,通过算法模型挖掘传统方法难以检测的生物特征,为技术融合路径的可行性和地球生命起源追溯奠定了基础。

例如,卡内基科学研究所地球和行星实验室的先前研究,也采用了类似方法,用于确定行星样本和地球早期生命痕迹。该方法结合热解气相色谱-质谱与机器学习,在区分非生物与生物样本(包括高度降解样本)方面达到90%准确率,并体现了生物分子选择功能的重要性。

论文题目:A robust, agnostic molecular biosignature based on machine learning

论文地址:https://www.pnas.org/doi/10.1073/pnas.2307149120

py-GC-MS与机器学习的技术融合,不仅突破了早期生命探索的传统限制,还建立了古生物学与人工智能交叉的新范式。同时,该方法仍有优化空间,为未来研究指明方向。随着技术不断进步,它将帮助人类更深入地理解生命起源,甚至寻找地外生命迹象。