Wecomput Technology Co., Ltd.

引言

人工智能（AI）算法在各种应用领域都进步神速，包括药物发现在内。定量结构活性关系（QSAR）研究是早期药物开发的关键要素之一。多年来，已经积累了大量的生物活性数据可以用于QSAR模型的构建，如ChEMBL、PubChem等。尽管如此，更大量的数据其实属于内部数据集，保留在制药公司内部不对外公开。在构建QSAR模型时借助机器学习算法已经非常常见，深度学习更是比传统机器学习算法更适用于靶点预测场景。相较于传统机器学习算法需针对每个靶点单独训练模型，深度神经网络使一个模型预测同时预测多个靶点的多任务模型的构建成为了可能。尽管许多研究论文已经报道了深度学习算法在公开数据集上巨大的优越性，但仍有一个问题还未被回答：深度学习在业界的内部数据集上的表现是否和在公开数据集上一样？具体来说，内部数据集往往数据量比公开数据集大得多，同时化学空间的分布与公开数据集有一定差异，这些是否会影响模型的可迁移性？

来自阿斯利康和Johannes Kepler University Linz的研究者们使用ExCAPE公共数据集和AstraZeneca和Janssen的两个内部数据集进行了研究，将深度神经网络（DNN）、XGBoost（XGB）以及Bayesian matrix factorization approach（MF）三种模型在ExCAPE数据集上训练后，在ExCAPE和两个内部数据集分别评价了模型的预测效果，发现三种模型均具有较好的迁移能力，同时DNN模型的预测效果总是优于另外两种模型。

方法

数据集

公共数据集：使用ExCAPE-DB数据集，该数据集活性标注为对数转换的活性值（pXC50值）。对于分类任务，我们根据数据点的pXC50值将其分配给两个类别（即无活性，活性）。如果满足pXC50≥6（活性≤1 µM）的标准，则将目标化合物该条记录定义为有效。仅保留具有至少300个活性数据点的靶点（同时应包括至少75种活性化合物和75种无活性化合物）。最终，数据集称为ExCAPE-ML数据集，由955,386种化合物组成，涵盖526种不同的靶蛋白，共计49,316,517个活性数据点（稀疏度约为90％），总体活性与无活性比率接近1：100。

业界内部数据集：以ExCAPE-ML中的526个靶点为问询式，在AstraZeneca和Janssen的内部数据集中进行检索。所有检索到的活性记录均根据ExCAPE-DB的标准化协议进行了标准化。ExCAPE-ML数据集中存在的化合物则会从AstraZeneca和Janssen数据集中排除。此过滤步骤得出的AstraZeneca数据集包含808,699个化合物，共覆盖352个靶点；Janssen数据集包含1,794,089个化合物，涵盖465个靶点。图1展示了AstraZeneca数据集和Janssen数据集不同靶点对应的化合物数量的分布。

图1 AstraZeneca数据集和Janssen数据集不同靶点对应的化合物数量的分布

图片来源Journal of Cheminformatics

描述符

作者使用ECFP指纹（radius = 3, count values, unfolded），共需要1,459,681个特征来描述完整的ExCAPE-ML数据集。使用基于CDK开发的AMBIT工具包生成。

前瞻性和回顾性模型评估

作者将在ExCAPE-ML数据集上训练并评估模型称为回顾性评估，将在ExCAPE-ML数据集上训练但在AstraZeneca和Janssen的内部数据集上进行评估称为前瞻性评估。如图2所示，作者将ExCAPE-ML数据集分为3折，首先使用两折数据进行超参数优化，优化后在最后一折进行回顾性评估。进行前瞻性评估时，作者使用全部的ExCAPE-ML数据集进行超参数优化和模型训练。通过回顾性评估可以知道模型在用以训练的公开数据集上表现如何，以此作为基线标准；通过前瞻性评估可以知道模型是否可以成功的从公开数据集迁移到内部数据集，是作者在本篇论文里主要探讨的问题。

图2 前瞻性与回顾性评估流程

图片来源Journal of Cheminformatics

评估指标

作者使用的主要预测性能指标是接收器工作特征曲线下的面积（ROC-AUC），该指标反映了模型将活性化合物正确排序为高于非活性化合物的能力，这是用于分类任务的经典评估指标。此外，作者也使用了Kappa值和F1打分来用作额外的、但非主要的参考指标。

交叉验证中数据的划分

为了避免过高估计模型性能，作者通过结构聚类避免相似结构化合物同时出现在训练集与测试集中来避免“类似结构偏差”。

机器学习模型的实现与超参数选择

对于深度学习，作者只评估了前馈全连接深度神经网络（DNN）。因为本篇文章并非要研究哪种深度学习架构最有效的问题，同时图卷积网络和循环网络往往计算较大，因此作者并未将这些模型纳入研究。DNN的基本架构为4个隐藏层，每层最多4096个神经元。作者还考虑了两种整体架构ReLU架构和SELU/SNN架构。网络输入的特征数经过特征选择降低输入特征数以降低计算量，最终大约在2300到2600之间，因使用的具体训练数据而异。作者加入了Dropout机制，输出层使用Sigmoid函数。损失函数使用交叉熵，优化器使用SGD。

对于MF和XDB两种传统机器学习算法，超参数优化均使用Grid Search方法。对于XGB，需要针对每个靶点独立训练一个活性预测的分类器。对于XGB和MF，同样通过特征分析降低输入特征数，最终固定在29,413个特征，这一数据大于DNN模型是因为DNN模型需要考虑显存占用的问题。

结果和讨论

回顾性评估验证模型效果

作者通过交叉验证评估了在公开数据集ExCAPE-ML上三种机器学习算法的预测能力，如图3所示。作者根据ROC-AUC统计数据通过假设验证计算出，DNN表现优于XGB或MF，p值分别为8.01e-48和1.80e-71。此外，所有这三种的方法的预测能力都可以在一定程度上迁移到训练时未见过的化合物上，从而说明从ExCAPE-ML中学到的知识是可以被迁移到外部数据集上的。

图3 回顾性评估结果

图片来源Journal of Cheminformatics

前瞻性评估结果

为了进一步研究在ExCAPE-ML数据集上训练的模型在外部数据集上表现如何，作者在 AstraZeneca和Janssen的两个企业内部数据集上进行了模型前瞻性评估，结果如图4所示。总体而言，与回顾性评估中得到的结果相比，工业数据集上的ROC-AUC值略有下降（AstraZeneca数据集低13％至17％，Janssen数据集低18％至21％）。不过，除了模型对未见过的分子也具有预测能力以外，三种方法都在至少25％的靶点上达到ROC-AUC≥0.7的效果（AstraZeneca数据集的352个靶点中有99个靶点，Janssen数据集的465个目标中有116个靶点），从而说明在公开数据集上上训练的模型对工业内部数据集是由一定价值的。通过假设检验，作者发现DNN的效果仍总是优于XGB和MF模型。

图4 在AstraZeneca和Janssen数据集上的前瞻性评估结果

图片来源Journal of Cheminformatics

与ExCAPE-ML相比，性能下降的原因可能是ExCAPE-ML与AstraZeneca和Janssen数据集具有不同的化合物活性分布。在ExCAPE-ML数据集上，有许多靶点的活性数据可能是通过高通量筛选获得的，因此活性记录与无活性记录的数量比接近于0；而在工业数据集上没有这种趋势。此外，与性能下降有关的另一个重要原因可能是不同数据集里含有不同的活性测定技术得到的数据以及化学空间分布可能不同，但这些难以量化研究。

作者进一步研究了ExCAPE-ML中训练集中每个靶点对应的活性记录的数目与该靶点在工业数据集中的预测效果间的关系，发现两者在AstraZeneca和Janssen数据集上的spearman相关性系数的分别为0.18和0.09。当该系数大于0.01时即具有显著性，所以可以说明训练集中每个靶点对应的活性记录的数目与该靶点在工业数据集中的预测效果间还是有一点相关性的但并不强。

总体而言，作者得出以下结论：（1）对于大多数靶点来说，模型可以成功的迁移，但性能有所下降；（2）在工业数据集的靶点预测研究中，深度学习的性能优于该研究中的其他两种发放。

在不同靶点家族上的预测表现

在该研究的最后部分，作者分析了不同靶点家族间的预测效果差异。如图5所示，可以看到在ExCAPE-ML数据集上，机器学习算法均可以比较好的预测各种靶点家族对应的化合物的活性。尽管作者也发现三种算法在ExCAPE-ML上的家族间相对预测能力差异与AstraZeneca和Janssen数据集上的并没有很强的关联性，但模型预测能力在跨膜受体、离子通道和催化代谢的酶中的迁移效果良好。

图5 模型在不同家族的靶点预测能力分析

图片来源Journal of Cheminformatics

此外，作者还分析了对每个靶点来说三种算法哪种表现最好，并且进一步统计了每个家族中DNN表现最好（即获胜）的靶点数目，观察是否大于三分之一，结果如图6所示。总的来说，作者认为，在包含靶点数目足够多的家族里，可以认为DNN获胜的概率要大于三分之一，这表明在大多数家族深度学习具有更强的优越性。明显例外的情况似乎是，Janssen数据集的Transferase家族（MF赢得65个靶标）和AstraZeneca数据集的Oxidoreductase家族（其中XGB是9个靶标的最佳方法）。

图6 靶点家族间预测效果对比

图片来源Journal of Cheminformatics

结论

在该研究中，作者利用公开数据集ExCAPE-DB与来自于AstraZeneca和Janssen的企业内部数据集对三种机器学习算法DNN、XGB和MF的靶点预测效果进行了研究。在回顾性分析中，作者证实了前人的观察结果，即深度学习方法优于传统机器学习方法。在前瞻性分析中，作者发现模型在直接迁移到工业数据集上时仍可保持良好的预测质量，其平均ROC-AUC在0.65到0.70之间。尽管性能有些许下降，但对许多要求预测能力为AUC至少0.70的研究来说，还是可以得到有用的模型。同时，在不同的靶点家族中均模型的预测能力可以成功的迁移。作者最终得出结论，尽管公开数据集与业界内部数据集在数据分布上可能不同，但预测能力是可以较好的迁移过去，尤其是深度学习模型具有很好的效果。

参考文献

Sturm et al. J Cheminform (2020) 12:26. DOI: https://doi.org/10.1186/s13321-020-00428-5

实时关注公司行业最新动态

JC | 阿斯利康和杨森利用内部数据集评估深度学习在靶点预测中的效果