当前位置:首页 > 科技资讯 > 正文

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍

麻省理工学院的研究团队通过结合化学信息学工具与全新的有机溶解度数据库BigSolDB,在FASTPROP与CHEMPROP模型架构的基础上进行了创新性改进。新模型能够同时输入溶质分子、溶剂分子及温度参数,直接对logS进行回归训练。在严格的溶质外推场景下,与Vermeire等人的SOTA模型相比,优化后的模型RMSE降低了2–3倍,同时推理速度提升了最高达50倍。

在化学与材料科学领域,有机固体在不同溶剂中的溶解度是一项核心分子性质,对科研与产业具有深远影响。精准掌握溶解度不仅有助于筛选最优溶剂、优化反应条件,还能显著提升产物产率与纯度,降低生产成本。在环境科学中,它是解析污染物在土壤与水体中迁移归趋的关键参数;而在结晶、膜分离等工艺中,溶解度更是决定相行为与分离效率的核心变量。

然而,传统实验测定方法存在诸多局限:耗时耗材且易受干扰,导致数据准确性不足。尽管已有多种预测方法应用于实践,但往往存在通用性不足或难以兼顾精度与计算效率的问题。针对这一痛点,麻省理工学院的研究团队进行了创新性改进,使模型能够同时输入溶质分子、溶剂分子及温度参数,直接对logS进行回归训练。

在严格的溶质外推场景下,优化后的模型RMSE降低了2–3倍,推理速度提升最高达50倍。目前,该团队将FASTPROP衍生模型命名为FASTSOLV,并已将其开源发布,为相关科研与产业应用提供了高效而实用的工具。

相关研究成果以「Data-driven organic solubility prediction at the limit of aleatoric uncertainty」为题,发表于Nature Communication。

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍 FASTSOLV 溶解度预测 机器学习 模型优化 第1张

论文地址:https://www.nature.com/articles/s41467-025-62717-7

BigSolDB 驱动的数据集构建与评测体系设计

该研究的核心数据来源为BigSolDB,该数据库系统性收录了有机固体在多种有机溶剂及不同温度条件下、接近沉淀极限的溶解度数据,为通用预测模型的训练提供了关键支撑。

为实现「在无额外先验条件下实现新溶质外推」的研究目标,研究团队设计了严格的训练—评测体系:模型在BigSolDB上训练,并在SolProp与Leeds两个公开数据集上独立测试。为避免外推难度被低估,如下图所示,该研究首先剔除了SolProp中与BigSolDB重叠的全部溶质,并引入化学空间更广的Leeds数据集作为补充。

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍 FASTSOLV 溶解度预测 机器学习 模型优化 第2张

溶质外推性能

与SolProp相比,Leeds提供了更高的溶质多样性,但仅覆盖室温条件。既可检验模型在新化学空间的适配性,又因缺乏「多温度平均」的隐式降噪而具有更高的不确定性上限。值得注意的是,如下图所示,三个数据集的logS分布高度一致,均集中在–1附近,且在低溶解度端呈现长尾分布,保证了跨数据集性能对比的分布可比性。

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍 FASTSOLV 溶解度预测 机器学习 模型优化 第3张

标签的分布

在数据切分上,如下图所示,研究人员严格以溶质为单位:95%的溶质用于训练,5%用于验证和模型选择。同一溶质在不同溶剂与温度下的全部测量不会同时出现在不同子集中,从而有效规避了信息泄露。

此外,研究借助ASTARTES工具包,在训练数据中按「完整实验」为单位随机划分验证集。并在最终评测时分别从溶质和实验两个维度再次核查切分边界,确保评测的独立性与严谨性。

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍 FASTSOLV 溶解度预测 机器学习 模型优化 第4张

数据分割策略

BigSolDB 驱动下的 FASTSOLV 模型构建

依托BigSolDB数据集,如下图所示,本研究对FASTPROP与CHEMPROP两种经典模型架构展开定制化改造,构建了一套清晰的机器学习建模流程。

首先将溶质(solute, 如扑热息痛)与溶剂(solvent structures, 如乙酸乙酯)的分子结构分别映射为对应的表征向量(representation vectors);随后将这两个分子表征向量与溶液温度参数进行拼接形成完整的溶液综合表征(solute representation);最终将该表征输入全连接神经网络(fully-connected neural network),以logS(溶解度对数)为目标进行回归训练。通过这一改造,最终开发的模型实现了多有机溶剂+不同温度场景下小分子溶解度的统一预测。

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍 FASTSOLV 溶解度预测 机器学习 模型优化 第5张

机器学习解决方案

为进一步提升模型的稳健性与预测可靠性,研究团队并未依赖单一模型输出。而是在四个不同随机初始化条件下训练FASTPROP模型,再通过集成策略组合得到最终的FASTSOLV模型。后续所有性能对比、案例验证等关键分析均基于这一集成模型展开,有效降低了单一模型的随机波动风险。

以 2–3 倍精度与 50 倍速度刷新有机溶解度外推 SOTA

该研究对模型性能展开多维度测试与验证。插值场景下,优化后的FASTPROP模型RMSE=0.22、P₁=94%,CHEMPROP模型RMSE=0.28、P₁=90%,性能已逼近实验数据噪声上限。

新溶质外推测试中如下图所示,Leeds数据集上Vermeire模型因系统性高估表现不佳(RMSE=2.16、P₁=34%),而FASTPROP与CHEMPROP的RMSE分别降至0.95、0.99。在SolProp数据集上本研究模型同样更优(RMSE=0.83、P₁=80%),且FASTPROP推理速度约为Vermeire模型的50倍。

麻省理工FASTSOLV模型革新溶解度预测,速度提升50倍 FASTSOLV 溶解度预测 机器学习 模型优化 第6张

「数据集+AI」驱动分子性质预测的全球突破

在当今化学、医药与材料科学交叉创新的浪潮中,「大规模数据集+先进机器学习模型」的分子性质预测技术正成为破解实验耗时久、研发成本高、性能难预测等行业痛点的关键抓手。