JMC | 如何设计高通量筛选?诺华5年实战经验总结

JMC | 如何设计高通量筛选?诺华5年实战经验总结

诺华生物医学研究所(NIBR)高通量筛选平台

诺华生物医学研究所(NIBR)高通量筛选平台最早的是所有可用化合物的集合。在2015年,我们设计了第一代筛选平台以方便访问具有优化属性的各种子化合物库。我们将这些化合物分配为2D网格上的plated子集,在一个维度上基于属性的排名在另一个维度上增加了结构丰富性。从2015年筛选平台获得的经验应用于2019年下一代产品的设计。

我们发现,使用传统的类先导化合物标准(主要是分子量、clogP)会降低子集筛选中有吸引力的化学起始结构的命中率。因此,2019年的筛选平台主要依靠溶解性和渗透性来选择首选化合物。除了结构多样性外,2019年的平台设计还使用NIBR的实验分析数据和推断的生物学活性概况来定义整个化合物库的丰富性。

基于平板的高通量筛选(HTS)仍然是药物发现中小分子化合物命中的主要来源,尽管出现了无板编码的筛选方法,例如DNA编码文库和基于微流体的方法,以及计算方面的虚拟筛选方法。因此,许多制药公司继续投资于平板型低分子量(LMW)筛选平台并将其视为关键资产。NIBR项目团队通常以迭代方式筛选总化合物集合的子集(超过200万种独特的化合物)。通过去除低质量的样品或具有不良化学结构的化合物,“全筛选平台”已减少到不足150万个样品。

在过去的十年中,表型筛选在药物发现中再次变得越来越重要,其实际结果是测定和筛选级联变得越来越复杂,从而限制了可以筛选的化合物的数量。迭代筛选可以减少总体筛查化合物的数量,节省化合物库存,缩短时间表和成本,更重要的是在进行大规模筛查之前先验证或优化测定形式。在经典的HTS中,所有化合物均经过测试,化合物在平板筛板上的分布对结果影响不大。但是在迭代多样性驱动的子集筛选中(如NIBR所实践),正确的分配对于获得合理的结果至关重要。

本文章综述了我们如何设计和实施一个筛选平台,该平台最初用于2015年在NIBR进行的多样性驱动的子集筛选,并在2019年进行了修订。

筛选平台设计原则

一个“理想的”多样性驱动的筛选平台,两个最重要的标准是:首先,它应包含在最小的子集内拥有所有可能的靶标和作用机理的化合物;其次,物质和实体样品的特性应具有最高的质量(即没有不希望的性质的阳性化合物,例如,诱导蛋白质沉淀的化合物样品)。我们的筛选平台的设计是基于以下两个主要特征:第一,生物多样性能够以尽可能少的化合物解决尽可能多的靶标,第二,最佳的化合物样品特性以将不希望有的性质的阳性化合物限制在最低。同时我们要知道筛选平台的设计依赖于历史筛选产生的经验,因此,我们定义了一个筛选平台设计过程(见图1),并且每3到4年进行重新设计和优化。

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图1 NIBR的筛选平台设计是一个迭代过程

图片源自JMC.

化合物处理技术是让设计的筛选平台工作的基础

将化合物溶解并接种到384孔平板中,按顺序进行初次筛选,这些筛板作为所有进行HTS的源头,并在约6年的循环时间内从固体样品中不断更新,其自动拣选功能允许每周最多拣选几千个样品。NIBR的化合物管理小组从2008年到2012年在重建其化合物流通能力方面作了重要的努力,主要包括两个方面:(a)从LC-MS质量控制的固体样品中为所有化合物样品(>1.2M)生产10 mM储备溶液,以及(b)安装自动化系统以实现从试管中进行拣选和处理,并且在24小时内可吸附多达40k管的微量滴定板(见图2)。凭借10 mM的库存收集和图2中描述的自动化设置,在2015年诞生了第一版NIBR筛选平台。在2019年,基于进一步的设计迭代(包括学习和经验),在2015年的基础上诞生了第二个版本。

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图2 自2015年以来,化合物管理设置专为多样性驱动的子集筛选而设计

图片源自JMC.

创建筛选平台多样性网格

如上文针对筛选平台的设计所述,我们主要考虑了两个目标:第一个目标是最大化筛选平台子集的多样性。生物活性空间的多样性是我们的主要目标。对于化合物,存在大量的描述符和多样性指标,其中有些是部分多余的。没有简单的方法可以将它们组合为一个统一的指标。因此,我们做出的选择是独立使用几个相关度量,以通过聚类为每个度量定义复合类。其他化合物的分类由现有的离散化合物注释产生。一旦将化合物分为生物活性和化学结构类别,多样性选择过程的目的就是生成最小尺寸的子集,确保每个类别的预设最小覆盖率。第二个目标是优化化合物的特异性和主要的理化性质,由于要考虑多种此类属性,因此需要将它们组合成一个多目标得分。这样的打分是每种化合物的单独属性,允许在单独的基础上对化合物进行比较和排名。

为了设计具有最大多样性和最佳属性的子集,我们开发了以下过程:给定一个已定义用于分层的化合物类别,以及基于多目标属性的排名,然后从每个类别中对最佳排名的化合物进行抽样就得到具有最佳属性的子集,该子集可以满足必须覆盖所有类别的约束条件。重复此过程,直到最终选择了所有化合物,从而跟踪选择化合物的选择过程。最终,每种化合物具有两个关联的属性:属性等级和选择该化合物的选择回合。通过适当的装箱策略,可以将该2D空间划分为一个或多个板块,将它们堆叠成一个或多个板块,将2D网格划分为一组,从而使科学家可以从该网格中选择用于检测的板块组。通过选择与N个选择回合中的第一个回合相对应的网格单元,可以获得最大覆盖范围的子集。通过集中在具有最高性能等级的网格单元上,可以获得良好性能的子集。整个流程在图3中概述。 

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图3 多样性网格的生成

图片源自JMC.

化合物个体属性排名

图4中展示了分配给2019筛选平台中化合物样品的所有警告标志的概述。根据表1中所述的属性,可以将化合物分为三个属性类别:由于“高溶解度和高渗透性”,最上面的类别“高溶解度和渗透性”包含正标记的化合物;第二类“中性”涵盖所有没有负标记的化合物;所有剩余的带有一个或多个警告标记的化合物都被添加到“属性警告标记”类别中。在每个类别中,按照表1的定义应用优先级排序。

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图4 2019筛查平台考虑的化合物样品的排除原因和警告标志(多个标志可以应用于一个样品)

图片源自JMC.

JMC | 如何设计高通量筛选?诺华5年实战经验总结

表1.2019筛选平台的化合物排名标准

图片源自JMC.

生物活性和化学结构空间覆盖

在对网格的X轴进行属性排名的情况下,我们需要为拾取回合定义一种覆盖多样性的方法,以生成Y轴。我们使用了几种分类方法,这些方法可以分为以下几类:单个生物靶标类、生物化合物轮廓空间类和化学空间覆盖类。

1) 单个生物靶标类。有关单个生物靶标的生物活性数据是从我们的内部系统“hithub”中提取的,该系统包含所有内部生物活性数据,并定期通过来自主要公共数据源(ChEMBL,Clarivate Integrity,GOSTAR)的生物活性数据进行更新。

2)生物化合物轮廓空间类。按单个靶标对化合物分组的一种补充方法是跨多个靶标或分析使用生物学谱数据。预测配置文件是在单个目标基础上计算的,以基于pfam数据库中的蛋白质域注释获得贝叶斯活性指纹(BAFP)以及每个蛋白质家族来获得贝叶斯域指纹(BDFP)。

3)化学空间覆盖类。NIBR开发了一种化合物骨架分类方法,称为“骨架树”,随后扩展到了“骨架网络”。该网络用于纯粹基于化学结构来定义类别。

4)手动分类。以上所有分类都是通过计算得出的,还需要有根据化学家们的经验知识来指定的分类。所有分类总结与表2。

JMC | 如何设计高通量筛选?诺华5年实战经验总结

表2.化合物空间覆盖分类

图片源自JMC.

迭代化合物选择过程

如上所述,现在的目标是对定义为空间覆盖目标的类进行迭代,从每个类中选择排名最好的化合物样本,然后重复此循环多次。一旦所有化合物均已按属性进行了排序并分配给不同类型的空间覆盖类别,并且已定义了每次迭代的最小簇大小,则可以运行选择算法以生成多样性网格。该算法的流程图如图5所示。

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图5 选择算法的流程图

图片源自JMC.

2015筛选平台和2019筛选平台的比较

图6(分子量)和图7(clogP)展示了2015年和2019年平板子集的特性曲线。2015年的筛选平板网格显示,MW <350 Da的偏差很大,A和B类的clogP范围为1-3,使这些化合物几乎呈碎片状。我们还发现,2015年筛查平板的A和B类命中率大大低于C类,即分子量和clogP范围受限会导致整个筛选的化合物多样性失衡。基于这些观察,我们决定更改2019版网格的排名标准:引入高溶解度和高渗透性作为A列的正选择标准,而MW和clogP不再直接考虑。

但是,为了同时获得良好的渗透性和溶解性,较低的MW和clogP仍然是有利的。如图9和图10所示,与其他两列相比,2019版第一条高溶解度和渗透率色谱柱的MW和clogP分布已移至较低值。更重要的是,2019版的新设计还似乎对前两列和前三行中的化学起始点产生了积极影响。 

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图6 2015年和2019年筛板的分子量分布

图片源自JMC.

JMC | 如何设计高通量筛选?诺华5年实战经验总结

图7 2015年和2019年筛板的clogP分布

图片源自JMC.

总结

目前,2019年的筛选平台网格是NIBR基于平板多样性驱动的子集筛选的主要来源,它可用于50-100个子集筛选,每年在NIBR中有超过5万种化合物用于生化和细胞测试。二维多样性网格基于筛选化合物集合的关键特征:针对尽可能多的靶标的多样性覆盖范围以及根据需要干扰靶标的适当化合物属性。这种大小合适的化合物板组的网格为迭代和子集筛选提供了灵活性,从而允许基于分子特性以及化学和生物多样性标准选择板组。

从2015年筛选平台获得的一项重要经验是,将溶解度和渗透性作为决定化合物是否有价值的主要决定因素,而不是MW和clogP范围。此外,最新可用的机器学习模型在基于2019版推断的生物活性的分类基础上扩大分类选择中发挥了关键作用,从而减少了化学骨架分类在分类选择中的主导地位。

具体而言,添加基于化合物库的参考活性概况聚类,使我们能够在选择过程中增加生物活性信息的权重。总体而言,我们认为我们的2019年基于平板的筛板可以实现多样性驱动的子集和迭代筛选,并且当前的设计在筛板中提供了均衡的化合物分布。

参考文献

Evolution of Novartis’ Small Molecule Screening Deck Design.Ansgar Schuffenhauer,* Nadine Schneider, Samuel Hintermann, Douglas Auld, Jutta Blank, Simona Cotesta, Caroline Engeloch, Nikolas Fechner, Christoph Gaul, Jerome Giovannoni,Johanna Jansen, John Joslin, Philipp Krastel, Eugen Lounkine, John Manchester, Lauren G. Monovich,Anna Paola Pelliccioli, Manuel Schwarze, Michael D. Shultz, Nikolaus Stiefl, and Daniel K. Baeschlin*. J. Med. Chem. 2020, DOI: 10.1021/acs.jmedchem.0c01332

X