Wecomput Technology Co., Ltd.

引言

在过去的二十年以来，Bayer Pharma创建了以为早期药物发现中的各种药代动力学和理化性质建立模型为目标的药物吸收、分布、代谢和排泄（ADMET）计算平台。该工具在协助选择和设计新颖的先导化合物以及先导化合物的优化过程中非常有用。本文综述讨论了机器学习（ML）方法的开发，特别是数据、描述符和算法方面。作者认为高质量的数据和量身定制的描述符以及对实验结果的透彻理解对该模型的实用性至关重要，同时还借用具体的应用案例讨论了深度神经网络的最新进展。

背景

ADMET是发现和优化新药的关键参数。长期以来，制药公司已投入巨资开发新的检测方法并提高其检测能力，从而使他们能够在高质量的体外ADMET检测中表征数千种化合物。目前已有的结构-活性/结构-特征关系（SAR/SPR）数据是个巨大的宝库，并且有可能影响进行这些测定的特定项目的研究。计算研究人员们一直在使用这些数据来理解某些ADMET特征的基本原理，并开发可作为辅助工具来协助研究人员寻求新化合物的计算机模拟模型。这些模型的主要目的不是减少体外或体内ADMET实验的总数，而是让科学家们将实验更好地集中在最有希望的化合物上。

本文作者首先讨论了拜耳公司在过去20年间ADMET计算方法的发展。一般来说，ADMET计算可以由两种概念上不同的方法来实现，第一种是基于蛋白质结构的方法，其通过将化合物与对ADMET特性重要的蛋白质的相互作用建模并用于设计更好的化合物，它需要明显与单一ADMET相关蛋白（例如细胞色素P450酶，PXR，hERG，PgP或HSA）相关的ADMET效应以及这些蛋白的高分辨率X射线结构。本文作者主要集中于第二种概念方法，即使用许多化合物的体外/体内测量数据来构建使用ML的模型（图1）。

图1 机器学习（ML）三元组，包括数据、算法和描述符

图片源自Drug Discovery Today.

数据

在对数据进行建模之前，必须进行一些数据准备处理。首先对于化学结构，要除去盐离子，将电荷和互变异构体状态标准化，同时对结构进行3D立体化。而对于分析数据则通常需要更加细致的处理，对于不确定的数据必须删除；对于已经明确的数据，可以保留它们作为分类器，但针对回归模型必须将其删除或进行调整；在多次测量得到不同数据的情况下，必须对这些数据进行汇总，同时采用中值比平均值更好，因为它们受异常值的影响较小。此外，如果无法以有意义的方式合并数据，则可以选择将这两种测定数据用作多任务模型中的不同任务。一般来说，数据集越大，化学性质越多样化，值的分布范围越广且分布越均匀，且实验误差越低，模型的性能越好。多年来，随着文章作者的专有数据集的规模不断扩大，作者进而能够将模型从分类器转变为回归模型（图2）。

图2 拜耳公司的ADMET/理化计算模型。其中模型类型C（分类器），N（数值），C（N）是作为分类器呈现给用户的数值模型。PLS：偏最小二乘，RF：随机森林，SVR：支持向量回归，SVM：支持向量机，ANN：人工神经网络，MTNN：多任务神经网络。从红色（质量不佳），浅绿色（良好模型：高质量分类器和中等质量数字模型）到深绿色（稳健模型：高质量数字模型）的颜色过渡显示了2005年以后模型质量的历史发展。

图片源自Drug Discovery Today.

描述符

分子是包含原子核和电子的动态多构象3D实体。直接将分子化学式转换为机器可读的描述符会导致信息丢失。根据分子场或来自3D结构的量子化学所提供的信息，可以通过增加复杂性将描述符分为1D构造描述符（例如分子量），2D或拓扑描述符（例如指纹）和3D描述符。自2001年以来，文章作者提出的work-horse描述符得到了十分广泛的应用，其通过圆形扩展连通性指纹（circular extended connectivity fingerprints，ECFP）将原子及其邻近原子属性编码为一定半径、特征类型和折叠的位向量进行计算取得了不错的效果。受机器翻译模型的启发，作者又开发了一种将分子的SMILES编码为512D连续空间的方法，以及使用递归网络将嵌入的分子编译回SMILES的规范形式。这种类型的网络仅取决于化学结构，可以在具有数千万个结构的超大型数据集上进行训练。所得的分子描述符对于建立定量构效关系（QSAR）模型（尤其是与支持向量机结合使用）和虚拟筛选时很有用。

或者，一个分子可以看成是一个图，原子是节点，成键是边。这为生成用于机器学习的描述符提供了另一种方法。图卷积网络是一种特定的神经网络体系结构，可以以端到端的方式学习节点和和成键特征。每个节点的特征表示通过使用所谓的“邻接矩阵”对其邻近原子的特征求和或求平均值来聚合。然后将聚集的节点反馈至神经网络，该神经网络使用具有学习权重的仿射变换和非线性激活函数进行仿射变换，其效果是学习了原子特征，并且图中的相邻原子可以相互影响。需要注意的是，由于训练过程是端到端的（即提取的特征是针对当前问题量身定制的），因此需要大量的训练集来避免过度拟合。

特别地，尤其是对于超出类药五规则的化合物以及近来颇受关注的大环化合物，从2D表示中得出的描述符是远远不够的。因此需要添加新的描述符，例如极性表面积或（分子内）氢键。从分子动力学中衍生出来的MDFP正是一类能够满足该需求的描述符，可以将其用于构建无溶剂化的能量和分布系数。总之，好的分子3D特征的描述将是一种改进ADMET计算和其他ML模型的有效方法。

算法

描述符和特征（endpoints）之间的依赖关系往往是非线性的，因此也需要非线性算法。作者多年来的实践发现支持向量机和随机森林通常是最有用的算法，而偏最小二乘法有时会产生在更长时期内更稳定的模型。此外，回归模型始终优于分类器，因此，需要不断对新算法进行评估。

过去5年当中，深度神经网络在计算化学中的使用急剧增加，其非常适合多任务学习，并且通常十分有效果，因为它们可以提取不受特定指纹选择影响的化学特征。指纹和随机森林的经典方法在分类性能上与深度学习相同，而用于exposure的回归模型只能通过深度学习方法来实现。深度学习还使多任务学习（即在一个模型中同时学习多个相关任务）变得非常自然。尤其是对于理化性质预测，将图卷积网络与多任务训练相结合可以使所建模型的性能显着提高。受益于这种新型多任务深度学习网络的endpoints之一是分子的溶解性预测。在这里，我们能够用回归模型取代之前的分类模型来进行分子溶解性的预测（图2）。

模型质量评估

通过嵌套交叉验证（CV）和独立测试集对模型进行正确评估，对于确保在用于训练的除化学空间之外的可靠建模至关重要。对于分类或回归问题，必须应用不同的度量指标。分类模型的通用指标源自所谓的“混淆矩阵”（confusion matrix），该矩阵提供了真阳性、真阴性、假阳性和假阴性的数量，并提供了整体准确性、敏感性、特异性、阴性/阳性精度值以及Matthews相关系数（MCC）。另一种流行的指标是ROC曲线下的面积（AUC），它为每个可能的类别阈值提供了模型的分类性能。对于回归模型，常用指标为R2（确定系数R的平方）、均方根误差（残差的标准偏差）和Spearman’s rho参数（非参数秩相关系数）。

除了选择正确的度量标准之外，精心选择的统计验证手段对于在过拟合和欠拟合模型的两个极端之间找到合适的平衡也至关重要。通常，我们会保留20％的数据作为外部测试集以确保最终模型的质量。其他80％用作CV设置中的训练数据。随机拆分的CV不足以用于类似药物的化学同类系列。按时间顺序的“time-dependent” CV或“leave-cluster-out”的CCV是更实用的estimators，它表明模型可以外推到无法预料的新化学空间。K-Means聚类是我们首选的“leave-cluster-out”验证方法，因为它便于计算并能够产生不错的结果。作者认为对于分类模型，MCC应该大于0.4，而对于回归模型，Pearson R2应该大于0.3，Spearman R2应该大于 0.6。

源自测试集的预测误差能够提供有关此集合的平均性能的信息，但不能提供有关单个新分子的预测可靠性的信息。因此，近年来引入了许多不同的所谓“适用范围”（applicability domain，AD）方法，这些方法可以分为两类，即将距离量度用于将新对象嵌入训练集中的程度的方法称为“新颖性检测”（novelty detection），而量化到分类器决策边界距离的方法称为“置信度估计”（confidence estimation）。前者可以应用于使用例如cosine、Tanimoto或Mahalanobis distance到完整训练集的任何算法，而后者则完全取决于算法。大多数Bayer模型都提供算法固有的可靠性估计以及实际值。对于随机森林，这是决策树的百分占比，而对于SVM，这是距超平面的距离。低于某预定义阈值（例如，随机森林为0.6）的预测模型没有被报道，而多任务模型尚未提供可靠性指标。

应用实例

作者所在的拜耳公司的内部数据信息平台已成为协助先导化合物选择、化合物和合成路线选择的有用工具，它使拜耳公司的所有科学家都能快速访问最新模型。典型的决策电子表格如图3所示。

图3 拜耳公司的内部数据信息平台展示的电子表格信息。

图片源自Drug Discovery Today.

ADEMT计算平台是Next Generation Library Initiative (NGLI)的组成部分，其旨在利用50万个新设计的化合物增强筛选效果，并应用Pareto设计获得良好的物理化学和ADMET预测性能。图4a显示了与拜耳高通量筛选（HTS）库相比，NGLI化合物的口服PhysChem评分的分布情况，口服PhysChem评分是五个预测的物理化学性质（溶解度、拓扑极性表面积、分子量、亲脂性和分子柔性）的综合评估。分数越低（在0-10之间），则说明性质越好。此外，作者还开发了两种用于代谢转化的区域选择性建模的方法，即CypScore和MetScore，这些方法已经在许多旨在降低肝脏清除率的项目中得到应用。其中一个例子是盐皮质激素受体拮抗剂系列（图4b），其提出了此前未知的代谢清除途径。作者所在团队也一直在研究几种与ADMET相关的蛋白质的基于蛋白质结构的ADMET设计，但是成功的例子很少。那些易脱靶蛋白往往具有较大且高度灵活的配体结合位点，可以识别各种配体。通常，在这种情况下，当X射线晶体学显示每个新共结晶的配体具有新颖的蛋白质构象时，常用的对接方法就无法得到较好的效果。为了解决这个问题，作者采用了一种新的配体与孕烷X受体（PXR）共结晶，结合对接和利用蛋白质结构信息减少蛋白质与配体的接触并克服持续的Cyp3A4诱导问题。图4c显示了具有强PXR结合能力的高亲和力凝血酶抑制剂结合情况。在PXR配体结合位点（Trp299和Phe288之间，橙色表面，红色箭头）的高度亲脂性区域引入酚羟基会导致结合相互作用的显著降低。

图4 拜耳公司ADMET计算工具的应用实例。

图片源自Drug Discovery Today.

结论与展望

在过去的二十年中，在开发、应用和实验ADMET计算工具模型时，作者总结这些工具的成功应用主要取决于：（i）模型质量；（ii）与研究过程的模型相关性；（iii）易于获取和解释结果。数据、算法和描述符都有助于模型质量。大量同质数据和量身定制的描述符对于实现稳健适用的模型至关重要。自动生成大量模型（数据拆分、描述符和ML算法的组合）以及选择最准确的模型是有十分有用的。计算机模型与易于获得的体外/体内试验的比对，对于来自不同领域的许多科学家来说，对于药物开发项目中计算机方法的接受和使用非常重要。尽管理化特征的建模工作已经相当不错了，但是口服生物利用度的主要优化参数（例如细胞渗透和代谢清除率）以及体内方法仍需要进行重大改进。单一制药公司的有限数据集和已发布的数据集可能不足以实现该目标。因此，保护隐私数据共享的新颖方法可能是克服数据不足并进一步推动该领域发展的一种解决方案。考虑到分子内氢键和互变异构体，更好的基于3D的分子描述符可以带来进一步的改进。当前和未来的挑战是如何将ADMET计算模型正确地嵌入到整体人工智能方法（以及结合亲和力和化合物合成能力的预测）以及适用性范围评估的高级解决方案。

参考文献

Andreas H. Göller, Lara Kuhnke, Floriane Montanari, Anne Bonin, Sebastian Schneckener, Antonius ter Laak, Jörg Wichard, Mario Lobell, Alexander Hillisch, Bayer’s in silico ADMET platform: a journey of machine learning over the past two decades, Drug Discovery Today,2020, https://doi.org/10.1016/j.drudis.2020.07.001.

实时关注公司行业最新动态

DDT | 拜耳医药20年基于机器学习ADMET预测平台的经验总结