首页 > 科学研究 > 科研成果 > 龚海鹏课题组与合作者开发生成模型TopoDiff利用全局几何感知提升蛋白质骨架设计 返回列表

龚海鹏课题组与合作者开发生成模型TopoDiff利用全局几何感知提升蛋白质骨架设计

2025/06/18

2025年6月18日,清华大学生命学院/北京生物结构前沿研究中心龚海鹏课题组与合作者在《自然-机器智能》(Nature Machine Intelligence)发表了题为“利用全局几何潜在编码改进基于扩散的蛋白质骨架生成”(Improving diffusion-based protein backbone generation with global-geometry-aware latent encoding)的研究论文。该研究面对当前蛋白质设计领域中扩散生成模型(diffusion-based generative models)的关键瓶颈,提出了深度生成模型框架TopoDiff。TopoDiff通过无监督地学习一个能够捕捉蛋白质全局几何特征的低维潜空间(latent space),显著提升了生成蛋白质骨架的多样性和对自然蛋白质折叠空间的覆盖度,并实现了新颖的多维度、可解释的生成过程控制。研究团队通过该方法成功设计并验证了一系列具有全新拓扑形式的β折叠蛋白。





01

背景介绍

从头(de novo)蛋白质设计旨在创造自然界中不存在的、具有全新结构与功能的蛋白质分子,在生物医药、催化工程和合成生物学等领域拥有巨大的应用潜力。近年来,尽管扩散模型为代表的生成式人工智能极大地推动了该领域的发展,但仍面临两大核心挑战:首先,模型相对更难以在全局层面(如蛋白质的整体几何布局)进行有效控制,设计往往依赖繁琐的局部残基尺度约束;其次,现有模型的生成样本采样不均衡,模型倾向于生成简单且数据丰富的“热门”结构(如一些α螺旋束),而对其他同样重要,但拓扑更多样化的结构类别则覆盖严重不足。


02

研究内容

1

TopoDiff-解耦全局几何与局部细节的训练及采样框架

为解决上述挑战,研究团队提出了一种遵循“自顶向下”(top-down)设计哲学的生成模型框架。其核心创新在于“解耦”——将一体化的结构生成问题分解为“定义全局几何蓝图”与“构建原子细节”两个功能模块。它引入一个统一的、固定维度的低维隐空间,专门用于表征和调控蛋白质的宏观几何布局,而将复杂的原子坐标采样交由条件扩散模型完成。


这样的设计思想通过一个双阶段流程得以实现:首先,通过联合训练,使编码器学会“理解”并绘制蛋白质的几何蓝图,而解码器则学会“执行”该蓝图指令;随后,再训练一个轻量级的潜空间扩散模型,用于学习并采样新的、多样的全局几何编码。最终,整个生成过程演变为先采样一个全局编码,再由解码器据此生成完整结构,实现了从宏观到微观的清晰、可控的设计流程。


图1:TopoDiff整体框架


2

具备高度可解释性与泛化能力的全局几何潜空间


为验证模型是否真正理解了蛋白质的结构规律,研究团队利用训练好的编码器对CATH、SCOPe等多个数据库的结构进行编码和降维可视化。结果显示,在完全无监督的训练模式下,TopoDiff学到的潜空间流形与不同数据库的人工注释高度吻合。不同折叠类型的蛋白质在潜空间中自动聚类成清晰的区域。这种由数据驱动学到的连续空间表示,有效克服了不同分类体系因划分标准主观性(subjectivity)与离散性(discreteness)带来的不一致问题,为理解不同蛋白质折叠之间的连续过渡关系,乃至发现潜在的分类模糊区域和错误注释,提供了全新的、更客观的视角。


3

无偏采样与多样化的可控生成

为定量评估模型对已知折叠空间的覆盖能力,解决现有指标的空白,团队首次在蛋白质设计领域引入了“覆盖度”(Coverage)评估指标。在与多个前沿模型的性能基准测试中,结果显示,TopoDiff在保持高可设计性的同时,其覆盖度指标显著优于所有基线模型,尤其是在传统模型代表性不足的折叠类型上,展现出明显的优势,有效修正了采样偏差。更有趣的是,其独特的隐空间设计解锁了多种全新的可控生成模式,如属性引导生成、隐编码插值、全局与局部协同控制等,极大地丰富了蛋白质设计的工具箱。




图2:TopoDiff生成性能基准评测


4

全新拓扑形式β蛋白的从头设计及实验验证

为了最终检验TopoDiff在真实世界中的设计潜力,团队挑战了设计全新拓扑β蛋白这一公认难题。利用模型的可控生成能力,团队在计算层面高效地筛选出候选设计,并通过多种实验手段,验证了多个设计具有明确的单体状态、正确的二级结构和出色的热稳定性。其中,设计B10的高分辨率X射线晶体结构被成功解析,其结构与计算模型高度吻合,更重要的是,其展现出一种在自然界中前所未见的全新蛋白质拓扑结构。这一“从计算到现实”的成功闭环,强有力地证明了TopoDiff有能力突破自然演化的边界,探索并创造全新的蛋白质结构宇宙,为未来功能分子的理性设计开辟了新的道路。



图3: 新颖β蛋白的从头设计及实验验证


03

后记

在从头蛋白质设计的实践中,我们长期面临着一个“只见树木,不见森林”的困境。TopoDiff在继承了现有模型对于局部结构的精细刻画能力基础上,构建了全局几何拓扑这个抽象层级。正是这一设计,赋予了模型理解、表征并最终控制“整体”的能力,让“森林”的全貌得以清晰展现。我们希望本工作蕴含的核心思想——即通过学习和运用多层级的结构表示,从而实现真正意义上的“自顶向下”式设计——能够启发更多后续工作。循此路径,我们或许能一步步迈向那个终极目标:随心所欲地设计出精密、智能、能够执行复杂生命任务的蛋白质机器。


清华大学生命科学学院/北京生物结构前沿研究中心龚海鹏副教授与北京生命科学研究所徐纯福研究员为本论文的通讯作者,清华大学生命科学学院2021级博士生张昱阳、北京生命科学研究所2022级博士生刘宇航、加州大学圣迭戈分校博士生马子惠为本文共同第一作者。清华大学蛋白质晶体平台的李敏老师、范仕龙老师为研究提供了重要帮助。该项目研究获得中国科学技术部,国家自然科学基金和北京生物结构前沿研究中心的经费支持。