一个由189,819 个字母构成的英文单词,以常规语速念完需要整整三个半小时——这正是人体内肌联蛋白(titin)的化学全名。
肌联蛋白作为人体最大的蛋白质,由超过 3.4 万个氨基酸组成。与仅含几百上千个氨基酸的普通蛋白质相比,它堪称巨无霸,因此科学家借用古希腊神话中巨人神族“泰坦”(Titan)之名,将其命名为 titin。
然而,自 1954 年肌联蛋白被发现以来,70 多年过去了,我们依然未能看清这位“巨人”的真实面貌。依靠传统实验方法解析其完整结构,几乎是一项不可能完成的任务。
过去,要揭示蛋白质的三维结构,科学家只能依赖核磁共振、X 射线晶体学或冷冻电镜等手段。即使是解析一个仅含几百个氨基酸的蛋白质,也需要反复表达纯化样本、测试条件,耗费数月甚至数年时间,设备成本高达数百万美元。对于肌联蛋白这种拥有三百多个结构域的超级蛋白质,拼出其全貌更是遥遥无期。
直到五年前,一款专门用于预测蛋白质结构的 AI 工具横空出世——那时,AI 还未被广泛用于洗稿、编论文或画色图。
蛋白质结构几乎决定了蛋白质的所有特性:它与谁相互作用,是否会引发疾病,以及哪里可以作为药物靶点。对科学家来说,蛋白质结构就像一张精确的地图,没有它,研究就如同在黑暗中摸索,只能依靠不断试错来寻找方向。
但现实是,在广阔的蛋白质世界中,人类通过实验真正解析并绘制成图的结构只占极小一部分。几十年来,全球科学家解析出的蛋白质结构不到 20 万个。在所有人體蛋白质中,也只有约 35% 的结构被实验解析,且许多并不完整。
能否直接从氨基酸序列预测出蛋白质的三维结构?这曾是生物学领域最艰巨、最核心的挑战之一。然而,2020 年 11 月 30 日,AlphaFold2 的出现改变了游戏规则。
DeepMind 将蛋白质数据库中实验获得的蛋白质结构“喂”给神经网络,让 AI 学习序列与结构之间的关联。最终,他们做到了科学家过去难以想象的事:在当年的“全球蛋白质结构预测比赛”(CASP)中,AlphaFold2 仅凭氨基酸序列预测蛋白质结构的准确率超过了 90%,直逼实验方法的精度。
如今,AlphaFold 数据库中的预测蛋白质结构已超过 2 亿个,其中包括人类蛋白质组98.5% 的结构。来自 190 多个国家的上百万科研人员正在利用这一开源的“蛋白质 GPS”,以前所未有的效率破解蛋白质的奥秘——随之而来的真实变革,已悄然融入我们的日常生活。
早在 AlphaFold2 正式发布之前,它就在人类危机时刻展现了强大威力。2020 年 3 月,新冠疫情刚刚爆发,DeepMind 就利用尚在开发中的 AlphaFold2,预测出了新冠病毒部分蛋白质的结构。在那样的紧急关头,等待数月甚至数年来解析结构并不现实。尽管 AlphaFold2 的预测并非最终答案,但它让研究者能迅速洞察一种新型病毒的生理机制,甚至加速筛选潜在的治疗药物。
它还在辅助科学家研发疫苗,以阻止下一次疫情。例如,英国牛津大学的研究团队利用 AlphaFold2 找到了疟原虫蛋白质的关键结合位点。如果将这些位点制成疫苗,让人体产生相应抗体,那么蚊子叮咬接种者后,抗体会进入蚊子体内,阻止疟原虫在其肠道中发育,从而从源头切断疟疾传播链。
正因为蛋白质结构至关重要,基因的错义突变一旦改变氨基酸序列,就可能影响蛋白质结构,进而引发疾病。如今,马耳他大学的科学家正在使用 AlphaFold 研究基因突变对骨质疏松的影响。他们生成正常蛋白质和突变蛋白质的结构模型,对比观察这些突变是否可能破坏蛋白质功能。
然而,这只是冰山一角。在人类基因组中,存在多达 7100 万种可能的错义突变,其中 99.9% 的变体意义不明,我们不清楚它们是否会导致疾病。
于是,2023 年,DeepMind 在 AlphaFold 的基础上推出了新模型 AlphaMissense。它不直接预测结构,而是利用 AlphaFold 对结构的“直觉”,判断某个错义突变是否可能致病。通过这种方法,研究团队成功归类了人类所有错义突变中的 89%,生成了一份“人类错义突变目录”。有了这份目录,科学家就能更精准地锁定罕见遗传病乃至糖尿病等复杂疾病背后的遗传因素。
AlphaFold2 的作用远不止于预测结构,它还能帮助科学家重新设计蛋白质,以解决过去棘手的难题,例如高效降解一次性塑料。
在英国朴次茅斯大学,科学家正从微生物中寻找具有降解潜力的酶。有了 AlphaFold,他们短短几天内就能获得上百种候选酶的三维结构。基于这些结构,他们可以设计出反应更快、稳定性更高、成本更低的酶,从而更有效地分解塑料垃圾。
当一些人用 AI 绘制色图时,另一些人已在用 AI 研发药物。例如,生物技术公司 Insilico Medicine 将 AlphaFold2 整合进他们的端到端 AI 药物发现平台 Pharma.AI。他们用生物计算引擎 PandaOmics 寻找疾病的关键蛋白质靶点,再用 AlphaFold 预测其结构,最后让 AI 药物设计引擎 Chemistry42 基于该结构设计药物。
采用这种全流程 AI 方法,他们在短短几年内就找到了一种有望治疗特发性肺纤维化的候选药物——Rentosertib。Rentosertib 不仅是全球首个完全由 AI 发现生物靶点并设计苗头化合物的试验药物,而且目前已进入 II 期临床试验阶段,真正踏上了药物开发的主舞台。
回到故事的起点——肌联蛋白。尽管连 AlphaFold2 也无法一次性给出其完整结构,但它将肌联蛋白的序列切分成 166 个“重叠群”(contig),每个长达上千个氨基酸,并分别给出了结构预测。
如今,科学家已将这些结构整合起来,获得了肌联蛋白中所有相互串联的双结构域的三维蓝图。同时,他们借助 AlphaMissense 等工具,评估了这一人体最大蛋白质不同突变的潜在致病性,让一个曾经几乎无法触及的研究对象变得有迹可循。
在 AlphaFold2 诞生后的五年里,生命科学不断前进。2024 年,科学家发现了一种比肌联蛋白还要大 25% 的蛋白质——PKZILLA-1,刷新了自然界已知最大蛋白质的纪录。
同年,谷歌发布了 AlphaFold3 和 AlphaProteo,前者能精准预测蛋白质与 DNA、RNA 等其他生命分子的相互作用,后者则能主动设计出能与疾病靶点结合的定制蛋白质。2025 年,谷歌又推出了 AlphaGenome,进一步把预测能力延伸到了 DNA 层面,从 DNA 序列预测基因突变对生物学过程的影响。
在蛋白质结构预测领域,AlphaFold 并非独行者。RoseTTAFold、ESMFold 和 I‑TASSER 等 AI 模型,也正从不同角度突破,协力解决困扰生物学界数十年的蛋白质折叠问题。
当你偶尔抱怨甚至厌烦满眼 AI,怀疑其泡沫属性时,不妨想想这些在最重要科研领域真实发生的变革,它们正悄然引领我们迎接一个更富潜力的新时代。
本文由主机测评网于2026-01-30发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121811.html