自由能方法及应用(四) AMBER20中的炼金术结合自由能计算—药物发现进展和最佳实践

自由能方法及应用(四) AMBER20中的炼金术结合自由能计算—药物发现进展和最佳实践

引言

预测蛋白质与配体的结合亲和力以及相关的生物分子识别热力学是基于结构的药物设计的主要目标。炼金术自由能模拟为实现该目标提供了高度准确且计算效率高的途径。尽管数十年来,AMBER分子动力学软件包已成功地用于学术研究小组的炼金术结合自由能模拟,但由于先前AMBER炼金术自由能方法的局限性,再加上体系设置的挑战,因此对工业药物发现环境的广泛影响还十分有限。通过学术界和工业界的紧密合作,我们解决了许多以前的局限性,目的是提高工业药物发现应用中炼金术结合自由能模拟的准确性、效率和鲁棒性。本文我们重点介绍AMBER20在炼金术结合自由能(BFE)计算的一些最新进展,其计算强度低于探索完整结合/解离结合路径的其他结合自由能方法。除此之外,我们还描述了与运行相关炼金术BFE计算相关的基本实践方面以及最佳实践的建议,不仅突出了炼金术模拟代码的重要性,还强调了所需的辅助功能和专业知识以获得准确可靠的结果。本文旨在提供与在AMBER20中运行相对BFE模拟相关的科学、技术和实践问题的完整概述,重点关注现实世界中的药物发现应用。

背景介绍

在AMBER软件中首次实现自由能计算是在1986年,由Singh在先前开发的AMBER分子动力学(MD)代码库的基础上构建的。Singh和Kollman与UCSF Langridge实验室的Bash合作,将AMBER新命名的“Gibbs”模块随后应用于多个体系,他们共同在《科学》杂志上发表了第一篇描述AMBER在自由能计算中的应用的论文。在2000年代初期,由于对基础AMBER分子动力学平台的修改数量迅速增加,基本的Gibbs功能被重新实现到AMBER的Sander模块中,如今在AMBER PMEMD程序中也实现了自由能方法,该程序不仅复制了Sander的功能,并且为高度并行的CPU平台提供了明显更好的效率。AMBER11中引入的一项主要性能增强功能是能够使用图形处理单元(GPU)来大幅加速PMEMD,以进行显式溶剂PME和隐式溶剂/广义生成(GB)模拟。AMBER14和AMBER16通过充分利用单精度浮点格式(SPFP)在不牺牲数值精度的情况下显着提高了GPU的性能。尽管PMEMD的GPU加速版本(即PMEMD.cuda)已被设计为支持尽可能多的标准PMEMD功能,但是仍然存在一些限制,例如无法在GPU上执行炼金术自由能模拟。Giese和York认识到,无需修改PMEMD.cuda引擎就可以实现某些类型的仅涉及代表两个最终状态的力场参数插值的炼金术转换。通过使Sander中的Gibbs功能进行较小的扩展以与PME一起使用,可以使用后处理工具实现某些炼金术的转变。大约在同一时间,GPU加速的炼金术自由能模块首先作为AMBER16的补丁应用,随后被纳入官方的AMBER18版本。自此,AMBER中的自由能方法得到了大量的验证和应用,并且积极开发了炼金术自由能计算的许多进展,例如新型的软核势、各种约束类型和强大的分析方法。

AMBER20的进展

AMBER20中引入了许多重要的改进,以促进大规模RBFE和ABFE模拟计算。具体来说,使用平滑步长函数来改善软核势,这可以显著减少以前版本的AMBER中的许多已知问题(如端点灾难,粒子坍塌和dU /dλ曲线中的大梯度跳变)。此外,还应用了Boresch约束并且以自动化方式将其用于具有许多不同配体的ABFE模拟。进一步地,通过引入Boresch键合项可以用来控制哪些能量项包含在软核区域中。如表1所示,使用上述描述的方案以及GAFF2力场和TIP3P水模型的结果与同一数据集上的其他最新RBFE工具相当,并且随着即将发布的新的MM和QM力场用于配体结合的预测而能够进一步改进。

自由能方法及应用(四) AMBER20中的炼金术结合自由能计算—药物发现进展和最佳实践

表1. 8个蛋白质靶标的平均无符号误差(MUE),单位为kcal/mol

表格源自JCIM

实际BFE计算中应该考虑的因素

力场、采样、炼金术参数、体系准备、对接和置信度估计等多个方面对于获得可靠的BFE预测十分重要。1)力场。量身定制的分子力场与结合自由能的计算相比,其计算成本较低,但它们可能会大大提高预测准确性。目前已经开发了许多用于参数化小分子的自动化工具,例如CGenFF,GAAMP(https://gaamp.lcrc.anl.gov/index.html),FFTK和OpenFF Initiative开发的工具。我们相信,用于定制参数化的自动化程序将成为结合自由能计算的未来应用中的默认选项。2)蛋白准备。蛋白结构准备可能会对结果质量产生重大影响,并可能引入人为偏差。蛋白结构准备好后,建议手动检查结构,运行蛋白质分析程序(例如PROCHECK,WHATCHECK,MolProbity和SurVol),并执行适当时间尺度的MD模拟,以确保在运行计算成本较高的BFE模拟之前,体系具有较好的稳定性。3)配体准备。除了计算合理的配体状态(离子化状态、互变异构体、立体化学等)外,理想的方法是预测与每个状态相关的能量损失,以解决在溶液中生成每个状态所需的能量成本,然后应将此能量损失添加到计算出的自由能中,以获得最终的结合预测。此外,基于量子力学或机器学习的进展对于该领域的进步将是必要的。4)对接。从理论上讲,结合自由能的结果应与输入pose无关,因为假定要进行足够的采样以使用MD探索所有可能的pose,但是这在计算上将是非常昂贵的。因此,获得合理的初始pose也十分重要,并且在初始pose不明确的情况下,则应采用多种pose。对接问题的本质在RBFE和ABFE之间是不同的(并且与对接作为最终计算有所不同):对于RBFE计算,通常已知参考pose并且可以使用它来约束对接,而对于ABFE,通常没有参考pose,因此需要不受限制的对接。5)原子映射(atom mapping)。对于RBFE计算,关键步骤是确定参考原子与受扰结构之间的关系,以使普通原子(“映射”原子)被λ线性内插,并且未映射原子被软核函数形式处理以允许它们插入或删除。从理论上讲,最佳原子映射方案是使两个分子之间的热力学路径最小化的方案,但是实际上有许多因素需要考虑,例如原子类型、键序、环构成、手性和结合构象等。应该注意的是,在某些情况下,仅基于2D信息(如最大公共子结构),映射是不明确的,如图1A所示。在这个例子中,邻甲氧基取代的分子的优选构象是在酰胺氮和甲氧基氧之间形成分子内氢键。但是,大量的氯取代更倾向于另一种构象,并且仅使用2D拓扑信息,氧就朝向相同的取代载体。诸如此类的映射问题通常会由于状态之间不合理的长热力学路径而导致错误的结果(在这两个状态之间进行相互转换将需要高能构象转变)。幸运的是,基于3D pose的映射将产生正确的结果,如图1B所示。因此,强烈建议尽可能使用准确的3D pose执行原子映射。6)λ Schedule。通常,目的是要有足够但不是太多的λ窗口,以便以尽可能低的成本获得足够的精度。TI本质上可简化为被积物的分段线性逼近,并且大致等效于将相邻采样分布近似为高斯。使用该近似值仍可以为计算提供良好的结果,在该计算中,λ间距足够小,可以捕获整个λ= [0,1]轨迹中λ的被积物的变化的本质。我们发现,少至五个λ值就可以为小扰动提供可靠的结果。已经表明,在某些情况下,单步λ计划足以实现准确的结合自由能预测,尽管这种扰动很小的情况也不足以覆盖化学空间,从而对大多数药物发现应用都没有很大的影响。当时间和资源可用时,可以添加更多的λ值以增强相邻窗口之间的重叠,从而提高结果的可靠性。7)ABFE pose约束。ABFE中的pose约束的目的是在将相互作用缩放到极小的值(或零)时将配体保持在结合口袋中。因此,合理的标准是要求约束施加与完全相互作用的配体相似的取向。通常,这里的假设适用于相对强结合的化合物,不同的约束方案可能在其他方案中效果更好。在AMBER中,避免过长的距离(例如<30Å),非共线的角度(远离0°或180°)以及来自周期性边界的二面角(即不接近±180°)也是有用的。符合这些标准的原子或点选择的任何组合都应构成一组合理的约束。8)周期性和电荷校正。炼金术模拟对零能量的任意移动极为敏感,因为这仅基于系统电荷有效地移动了配体的结合自由能。9)置信度和误差分析。通过有意义的误差估计也可以改进自由能的预测。误差的来源也可以归因于验证数据集和数据集偏差;BFE计算中一些最常见的处理误差源的方法包括统计分析、结构分析、结合pose不确定性(Multiple Poses)、增强采样和力场改进。

自由能方法及应用(四) AMBER20中的炼金术结合自由能计算—药物发现进展和最佳实践

图1 使用(A)2D或(B)3D信息的原子映射

图片源自JCIM

未来发展方向

在学术界与工业界的合作推动下,AMBER的药物发现将聚焦于许多新的自由能方法的开发上面,包括开发新的力场(QM、MM和机器学习),增强采样方法(在λ维以及构象自由度上),改进的炼金术转化路径和RBFE网络的优化(包括整合实验约束)。值得一提的是,目前已经探索了其他方法来减少收敛QM或QM/MM自由能估计所需的能量和力的评估次数,主要包括轨迹重加权、冻结密度泛函近似的使用、哈密顿积分采样、正交空间随机游走策略以及超动力学。总体而言,这些方法可以极大地提高具有实用计算资源的炼金术自由能模拟的准确性和预测能力。通过此处报道的AMBER20中最近实施的先进方法,我们可以更好地探索炼金术领域中各种先进的增强采样方法,例如,已开发的SSC(2)方案非常适合于炼金术空间中的高级λ调度优化和增强的采样方案,在此情况下,需要单通道协同λ变换,包括λ动力学、哈密顿量副本交换方法、自适应偏置和自调整混合采样方法。对于力场来说,尽管可以通过微调力场中当前功能形式的参数来预期预测精度的进一步提高,但是可能需要进行更多实质性的修改才能达到实验水平的精度。现在人们普遍认识到,要精确地捕获分子周围的静电势,必须要有离原子中心的部分电荷,这些离原子中心的电荷被称为虚拟位点,由一个母体原子和最多三个与该母体原子共价键合的相邻原子组成。当前的AMBER代码仅支持有限数量的方式来放置虚拟站点,并将它们称为extra points(EP)。图2中显示了一些新型的虚拟位点类型,它们可能会在下一个正式版本中提供。但是,要使虚拟位点真正有用,需要大量工作来优化其位置和参数化其带电值的方法。 

自由能方法及应用(四) AMBER20中的炼金术结合自由能计算—药物发现进展和最佳实践

图2. AMBER的未来版本将提供七种类型的虚拟位点

图片源自JCIM

总结

本文我们描述了AMBER20中用于执行GPU加速的炼金术结合自由能模拟的新功能。我们还描述了AMBER之外用于准备和分析炼金术结合自由能模拟所需的辅助工具。对于一些高度验证的蛋白质靶标尽管已经有了十分成熟的工作流程,但每个靶标都面临着有关自由能全景图和采样相关蛋白质和溶剂运动的内在时间尺度方面的独特挑战。因此,目前,经验丰富的用户可以对其使用的软件包进行微调控制,从而获得最佳结果。确实,尽管炼金术自由能模拟即使使用当前的自动化软件包也能提供巨大价值,但需要注意的是与为药物发现应用获得准确而可靠的结合自由能预测有关的重大挑战仍然存在。我们希望这项工作已经阐明了一些应考虑的关键问题,并将有助于启发更多的研究人员在药物发现和对新兴领域(如精准医学)的相关应用中使用结合自由能模拟。

参考文献

Lee, T. S., Allen, B. K., et al. Alchemical Binding Free Energy Calculations in AMBER20: Advances and Best Practices for Drug Discovery. J. Chem. Inf. Model. 2020, 60(11), 5595-5623. DOI: 10.1021/acs.jcim.0c00613.

X