今天分享的是Ellen D.Zhong 在预印本上的新作CryoBoltz。它的适用场景一句话总结:我解析出了一个新的构象,密度还不错,但目前结构预测工具都预测不出来这个构象(AF3,Boltz-1),自动结构搭建(ModelAngelo)也不准确,怎么办?上CryoBoltz。
先说一下名字和标题,标题提到AF3,方法名字叫CryoBoltz? CryoBoltz 的实现是基于 Boltz-1 的扩散框架,而Boltz-1 本身是一个受AlphaFold3 启发的、序列驱动的扩散模型。作者把 Boltz-1作为底座模型,然后在其采样过程中加入多尺度的 cryo-EM 引导,因此命名为 CryoBoltz。
此前人们在AI + cryo-EM的典型工作包括:
1.异质性结构分析(Ellen D.Zhong 的cryoDRGN系列)
2.密度图优化(已经集成在cryoSPARC软件的由Carlos Oscar S. Sorzano & Javier Vargas团队开发的 DeepEMhancer、Sjors Scheres 继续部署在RELION的Blush Refinement等)
3.AI自动模型搭建(如清华张强锋团队徐魁博士开发的A2-NET、CryoNET; Sjors Scheres团队的ModelAngelo,国家超算广州中心杨跃东团队的陈晟博士开发的EModelX等)
CryoBoltz 的本体依然是原子模型搭建方法。研究的核心问题是:如何把 AlphaFold 的序列驱动优势与 cryo-EM 的实验数据结合,既能捕捉构象多样性,又能快速得到与实验一致的原子模型。
CryoBoltz 的核心是一个推理阶段的引导机制(multiscale guidance),在不需要重新训练(结构预测)模型的情况下,把 cryo-EM 的密度图信息引入 AlphaFold3 的扩散采样过程。
方法框架如原文中图2所示:
Warm-up 阶段
起始时先运行无引导的 AlphaFold3 扩散过程,让模型生成一个靠近原始偏好构象的结构。
Global guidance(全局引导)
把 cryo-EM 密度图转换成低分辨率的点云(用加权 k-means 聚类)。在此阶段,模型被引导去匹配大致的全局形状,避免过早陷入复杂的细节。
Local guidance(局部引导)
使用原始高分辨率的密度图,引导模型去拟合局部结构特征(例如螺旋、侧链)。这一阶段引入了基于物理的前向模型,使得结果在更高分辨率上与实验吻合。
Relaxation(松弛阶段)
最后几步取消引导,让模型自主修正细节,解决立体冲突、优化侧链。
这种 “由粗到细”多尺度引导 既利用了 cryo-EM 的实验约束,又避免了直接在复杂能量景观上采样时的不稳定性。简单看下部分实验和对比。
首先是关于STP10的两个构象预测,Boltz-1只能预测出向外开口构象,而AF3预测的向内开口,那么在提供了cryo-EM密度之后,CryoBoltz可以成功的对每个构象进行预测。
对比自动模型搭建方法,有了cryo-EM密度后,ModelAngelo只能搭建出其中的片段,而CryoBoltz可以完整的预测出每个密度对应的pdb,并与实验解析结果吻合。
最后简单提一下文章的不足之处,从数据准备上就能看出。实验用的cryo-EM 密度图,在和AF3、Boltz1比较时候,使用的由原子模型直接molmap生成的高分辨率密度(2Å),其实这种情况直接用ModelAngelo等搭建工具已经能够胜任了,文中并未提及。而轮到和ModelAngelo进行比较时,使用的cryo-EM真实密度分辨率在4Å 左右,这个分辨率确实是ModelAngelo可能开始逐渐力不从心的地方,文中对这个例子对比了Boltz-1、AF3预测的结果,由于只有数值指标,没有直观的看到对比图,所以是否这些情形下结构预测工具本身预测的就很好了,只需要直接phenix refine一下就能用呢?