Wecomput Technology Co., Ltd.

引言

每次DEL筛选都会产生海量的数据，传统方法是从大量潜在的hit中挑选化合物，并合成不带DNA的化合物(off-DNA synthesis)进一步检测结合活性。数据分析的规模受人力和合成的限制，Hit的来源也被局限在DEL中。利用DEL筛选产生的海量数据（未进行off-DNA合成和验证），训练具有泛化能力的GCNN模型，跳出DEL，从商业化合物库和易于合成的虚拟化合物库中筛选hit并快速验证。作者用这种策略在3个靶点上都获得了很好的结果。碍于篇幅，本文不会介绍太多细节，而是尝试理解为什么GCNN模型对DEL外的化合物有预测能力（泛化能力）。

先睹为快

单位和作者

Google和Chem-X公司

Google的Patrick Riley为通讯作者，是第一个图神经网络通用模型MPNN的三作。

靶点

sEH，ERα，c-KIT

训练集

DNA编码化合物库（DEL）筛选数据（未进行off-DNA合成和验证）

模型

图卷积神经网络（GCNN）和随机深林（RF）

筛选库

商业化合物库（Mcule）和虚拟化合物库（XVL，来自Chem-X）

结果

最好的靶点(sEH) hit rate (< 1 μM) 高达29%, 最差的靶点(c-KIT)也找到78个hit (< 30 μM)。

GCNN比RF有更好的泛化能力

模型训练数据来源于DEL筛选，简单来说，X是两个片段的组合(disynthon), Y是它是否被富集。但应用于DEL外的化合物库筛选，这要求模型有泛化能力。

RF模型用分子指纹（RDKit中的ECFP4）作为特征；GCNN则把分子当作图自动学习特征。可以看到3个靶点中，GCNN表现都比RF要好，说明GCNN泛化能力更强。但RF也能预测Hit，在sEH上表现和GCNN相差不大，说明这类任务可能没有想象中那么难。

GCNN能更好地学习化合物的局部特征

文章补充材料中展示了训练集(DEL)中和Hit（不属于DEL）最相似的化合物，可以看到大部分Hit和DEL中化合物尽管整体相似度（Tc）很低（0.2~0.4），但有局部完全一致。推测GCNN对DEL外的化合物有预测能力来源于这种局部相似性，且GCNN需要学到该局部特征和活性相关。由于DEL数据量巨大，这种的信息很难被分析人员全部捕捉，但GCNN可以全部学习到这些特征，并应用于筛选。

总结

AI模型需要大量数据训练，该工作用海量DEL数据训练AI模型，并应用于化合物库的筛选, 可以说是相得益彰。即解决了DEL数据分析的问题，而且跳出了DEL的限制，还极大降低了合成化合物的成本，相信能助力hit的快速发现。

参考文献

Kevin McCloskey, Eric A. Sigel, Steven Kearnes, Ling Xue, Xia Tian, Dennis Moccia, Diana Gikunju, Sana Bazzaz, Betty Chan, Matthew A. Clark, John W. Cuozzo, Marie-Aude Guié, John P. Guilinger, Christelle Huguet, Christopher D. Hupp, Anthony D. Keefe, Christopher J. Mulhern, Ying Zhang, and Patrick Riley*. Machine Learning on DNA-Encoded Libraries: A New Paradigm for Hit Finding. J. Med. Chem. 2020. DOI: 10.1021/acs.jmedchem.0c00452

实时关注公司行业最新动态

JMC | 跳出DNA编码化合物库，AI赋能Hit发现新策略