引言
分子骨架在药物化学领域使用十分广泛,尤其是那些具有较好生物活性的骨架(在某些定义下的优势骨架),常被用作先导化合物优化的起点。为了能够更好地利用骨架里包含的信息进行药物设计,研究人员开发了各种算法来识别、组织和可视化骨架。近年来,随着深度学习在药物设计领域的应用不断增加,许多基于深度学习的算法也被开发用于分子生成。其中一些是从头生成算法,而另一些则是基于分子骨架的方法(即骨架衍生)。
目前已有许多基于骨架的生成算法来实现骨架衍生,但这些算法的共同缺点是难以直接被药物化学家使用。部分算法仅提供了对模型架构的简单描述,使得不具备深度学习知识的研究人员无法重现模型。一些程序开源了代码,但是仍需要研究人员配置环境部署服务,这对于不熟悉服务器端操作系统(通常为Linux)的人来说仍很困难。由于这一缺点,这些方法的贡献通常局限于学术界,而没有被更广泛地应用。目前还没有有效且易用的在线工具来实现骨架衍生。
近日,望石智慧公司和北京大学药学院发表了AIScaffold,一个基于深度生成模型的骨架衍生在线工具。该工具基于他们先前提出的算法DeepScaffold,并添加了排序方法,可以快速进行大规模骨架衍生。通过GPU加速,该工具可以对用户给出的起始骨架在几分钟内完成数十万量级的衍生并推荐排名前500的分子,且支持定点衍生等特性。工具注册后提供90天试用期,且提供离线部署解决方案,从而可以被学术界和工业界轻松使用,加速药物设计进程。
方法——分子生成
生成模型基于用户提供的分子和参考分子执行骨架衍生,该过程逐步进行,在每个步骤中,模型决定采取以下哪一个操作:(1)添加新原子;(2)连接两个现有原子;(3)终止生成。生成模型的体系结构和训练方法与DeepScaffold相同,生成过程中的唯一修改是添加了定点衍生。在药物设计中,有一些子结构对于分子的生物活性至关重要。药物化学家需要确保这些子结构在多元化后保持不变,即衍生仅发生在特定地点。定点衍生通过给policy matrix添加mask来实现,具体操作方法见3.2。
方法——生成后筛选
生成模型可以在几分钟内生成多达五十万个分子,而药物化学家通常只需要几十个甚至十几个分子作为药物设计的起点。这就需要高质量的筛选算法来确定最有前景的分子。算法筛选过程分为两个阶段,每个阶段均由多个模块组成(图1)。第一阶段是粗筛层,目的是快速去除生物活性低、不稳定或难以合成的分子,从而减少分子整体数量。粗筛层由基于药效团的分子相似性打分、基于经验的集团筛选和合成可及性打分三个模块组成。每个模块均为高通量算法,可以使用单核CPU在几分钟内对多达五十万个分子进行打分,并将其中有潜力的前十万个呈递到下一阶段(精筛层)。第二阶段是精筛层,该阶段的目的是快速准确地挑选出具有更好生物活性的分子。在精筛层,模型从第一阶段呈递过来的十万个分子挑选最有前景的五百个分子展示给用户,该过程在几分钟内完成。精筛层由基于机器学习的活性预测模型、基于机器学习的ADMET、3D叠合模型和对接方法四个模块组成。
图1. 生成后筛选流程。
图片来源:J. Chem. Inf. Model.
网站服务器——模型工作流程
模型对用户的输入执行大规模的骨架衍生,得到约五十万个分子,之后进入筛选阶段,在粗筛层之后保留前十万个分子,而在精筛层之后呈递最有前景的500个分子。整体工作流程如图2所示。
图2. AIScaffold工作流程。
图片来源:J. Chem. Inf. Model.
网站服务器——输入
输入包括:(1)起始骨架;(2)参考分子;(3)定点衍生(可选)。起始骨架是骨架衍生的起点,输入方式包括(1)输入SMILES;(2)使用JSME分子编辑器绘制;(3)上传结构图片;(4)上传后缀为”.sdf”、”.mol”或”.smi”的文件。输入支持3D结构,并会根据起始骨架与参考分子的3D叠合进行打分。参考分子用于筛选衍生结果,保留潜在的生物活性分子,并去除无活性分子。参考分子可以是生物活性分子或药物,其输入方式与起始分子相同。定点衍生可以使部分子结构在衍生后保持不变,即衍生仅发生在特定位点。输入的起始骨架显示在JSME编辑器中后,通过单击编辑器上方的蓝色按钮即可选择需要在衍生后保持不变的原子。
网站服务器——任务列表
提交任务后,页面将自动重定向到任务列表界面,可在此页面查看任务名称、开始时间和状态等。用户可以一次提交多个任务,后提交的任务将在队列中等待之前的任务完成。用户可以在任务完成后单击任务名称查看结果。通过单击任务的“收藏”按钮,该任务将被添加到收藏列表中。通过单击顶部栏中的按钮,用户可以随时访问任务列表。
网站服务器——输出
经过两个阶段的筛选,模型给出了最有前景的500个分子,同时这500个分子会与ChEMBL数据库进行对比,那些出现在ChEMBL中的分子会被标记。对ChEMBL中分子的重现可以证明该模型生成活性分子的能力。对于结果中那些排名在ChEMBL重现分子之前的分子,用户可以给予特别注意。因为这些分子在生物活性和ADMET特性方面可能比已知的ChEMBL分子更好,但尚未被报道。对于最终结果中的每个分子,输出包括(1)2D结构和3D构象;(2)计算得到的QED值(越大表明类药性越好);(3)合成可及性打分(越小越容易合成);(4)计算得到的分子属性、官能团以及理化性质;(5)ADMET性质预测及对应概率;(6)叠合分数;(7)排序在该分子之后的重现ChEMBL分子。
网站服务器——部署
网站服务器托管在微软云平台上,使用Java和Python3开发,在Ubuntu操作系统上运行。硬件包括一个12核CPU,112G内存和2个用于加速的NVIDIA K80 GPU。此外还提供了离线部署解决方案,以保护知识产权。
案例展示
作者通过案例来说明如何使用该在线工具进行骨架衍生。以二苯甲烷作为起始骨架,选择苯海拉明作为参考分子。输入如图3a所示。提交后,页面会自动跳至任务列表界面,并显示任务状态(图3b)。通过单击任务名称,将显示衍生结果。在最终的500个分子中,有10个是ChEMBL中已经存在的。这10个分子的排序从第11到第476,表明该模型同时考虑了新颖性和生物活性。对于每个分子,可以查看预测的分子属性。输出如图3c所示。(注:由于生成过程是通过从policy matrix中采样来完成的,因此相同的输入可能会产生不同的结果。这保证了所生成分子的多样性)
图3. AIScaffold使用图示:(a)任务输入;(b)任务列表;(c)衍生结果
图片来源:J. Chem. Inf. Model.
结论
AIScaffold这一在线骨架衍生工具可以进行大规模的骨架衍生,基于图的深度生成模型可以在几分钟内生成约五十万个分子,在经过两阶段筛选算法后,将最有前景的500个分子提供给用户,同时支持定点衍生等特性。大规模的衍生确保了搜索到的化学空间足够广,两阶段多模块筛选确保最终推荐的分子具有理想的性质,高性能计算使用户仅需几分钟即可查看结果。该工具可以简化骨架衍生过程,从而加快药物设计过程。除了基于参考分子的衍生外,基于靶点的衍生工具也正在开发,预计将在未来几个月内可用。
在线工具网址
https://iaidrug.stonewise.cn
参考文献
Lai, J., Li, X., Wang, Y., Yin, S., Zhou, J., & Liu, Z., AIScaffold: A Web-Based Tool for Scaffold Diversification Using Deep Learning. J. Chem. Inf. Model. 2020, ASAP.