引言
每次DEL筛选都会产生海量的数据,传统方法是从大量潜在的hit中挑选化合物,并合成不带DNA的化合物(off-DNA synthesis)进一步检测结合活性。数据分析的规模受人力和合成的限制,Hit的来源也被局限在DEL中。利用DEL筛选产生的海量数据(未进行off-DNA合成和验证),训练具有泛化能力的GCNN模型,跳出DEL,从商业化合物库和易于合成的虚拟化合物库中筛选hit并快速验证。作者用这种策略在3个靶点上都获得了很好的结果。碍于篇幅,本文不会介绍太多细节,而是尝试理解为什么GCNN模型对DEL外的化合物有预测能力(泛化能力)。
先睹为快
单位和作者
Google和Chem-X公司
Google的Patrick Riley为通讯作者,是第一个图神经网络通用模型MPNN的三作。
靶点
sEH,ERα,c-KIT
训练集
DNA编码化合物库(DEL)筛选数据(未进行off-DNA合成和验证)
模型
图卷积神经网络(GCNN)和随机深林(RF)
筛选库
商业化合物库(Mcule)和虚拟化合物库(XVL,来自Chem-X)
结果
最好的靶点(sEH) hit rate (< 1 μM) 高达29%, 最差的靶点(c-KIT)也找到78个hit (< 30 μM)。
GCNN比RF有更好的泛化能力
模型训练数据来源于DEL筛选,简单来说,X是两个片段的组合(disynthon), Y是它是否被富集。但应用于DEL外的化合物库筛选,这要求模型有泛化能力。
RF模型用分子指纹(RDKit中的ECFP4)作为特征;GCNN则把分子当作图自动学习特征。可以看到3个靶点中,GCNN表现都比RF要好,说明GCNN泛化能力更强。但RF也能预测Hit,在sEH上表现和GCNN相差不大,说明这类任务可能没有想象中那么难。
GCNN能更好地学习化合物的局部特征
文章补充材料中展示了训练集(DEL)中和Hit(不属于DEL)最相似的化合物,可以看到大部分Hit和DEL中化合物尽管整体相似度(Tc)很低(0.2~0.4),但有局部完全一致。推测GCNN对DEL外的化合物有预测能力来源于这种局部相似性,且GCNN需要学到该局部特征和活性相关。由于DEL数据量巨大,这种的信息很难被分析人员全部捕捉,但GCNN可以全部学习到这些特征,并应用于筛选。
总结
AI模型需要大量数据训练,该工作用海量DEL数据训练AI模型,并应用于化合物库的筛选, 可以说是相得益彰。即解决了DEL数据分析的问题,而且跳出了DEL的限制,还极大降低了合成化合物的成本,相信能助力hit的快速发现。
参考文献
Kevin McCloskey, Eric A. Sigel, Steven Kearnes, Ling Xue, Xia Tian, Dennis Moccia, Diana Gikunju, Sana Bazzaz, Betty Chan, Matthew A. Clark, John W. Cuozzo, Marie-Aude Guié, John P. Guilinger, Christelle Huguet, Christopher D. Hupp, Anthony D. Keefe, Christopher J. Mulhern, Ying Zhang, and Patrick Riley*. Machine Learning on DNA-Encoded Libraries: A New Paradigm for Hit Finding. J. Med. Chem. 2020. DOI: 10.1021/acs.jmedchem.0c00452