跳到主要内容

基于化学结构的药物性肝损伤(DILI)预测和机制分析

抽象的

背景

药物性肝损伤(DILI)是一个主要的安全性问题,其发病机制复杂多样。为了在药物开发的早期识别DILI,迫切需要更好地了解损伤和具有更好预测性的模型。这方面的一种方法是硅模型,其目的是根据化合物结构预测DILI的风险。然而,这些模型还没有显示出足够的预测性能或可解释性,对决策本身是有用的,前者部分源于潜在的问题,即以一种有意义的方式标记化合物的体内DILI风险,以生成机器学习模型。

结果

作为大规模数据分析(CAMDA)“CMAP药物安全挑战”2019的关键评估的一部分(http://camda2019.bioinf.jku.at),使用二值化的Dilirank注释产生基于化学结构的模型。支持向量机(SVM)和随机森林(RF)分类器对先前发布的型号显示了可比的性能,具有在预测外部0.759±0.027的10倍训练方案内使用5倍Loco-CV产生的模型的平均平衡精度。测试集。在使用预测蛋白靶标作为复合描述符的模型中,我们确定了最丰富的富含信息的蛋白质,同意非甾体抗炎药(NSAIDs)的作用和毒性机制,其中最重要的药物课程之一导致帝力,压力通过TP53和生物转化的反应。此外,我们确定了多种蛋白质,其涉及异丙酚代谢的多种蛋白质,其可以是新的Dili相关的偏移,例如CLK1和Dyrk2。此外,我们衍生出帝力的潜在结构警报,具有高精度,包括呋喃和肼衍生物;然而,所有衍生的警报都存在于批准的药物中,并且特定表明需要考虑定量变量,例如剂量。

结论

使用基于化学结构的描述符,例如结构指纹和预测的蛋白质目标,帝力预测模型采用与先前文献相当的预测性能构建。此外,我们从这些模型与Diri相关的蛋白质和途径的见解和统计上(潜在的因果关系),并推断出与这种不利终点相关的新的结构警报。

背景

药物诱导的肝损伤(DILI)是一个主要的安全问题,临床药物开发和市场戒断的主要原因之一,可以在几乎所有类别的药物中找到[1]。DILI可能以肝炎或胆汁淤积性损伤或两者的混合形式出现,可以进一步区分内在DILI和特殊DILI [1]。如果一种药物在临床前模型和人类(如对乙酰氨基酚)中以剂量依赖的方式具有肝毒性,则被认为引起内在DILI。另一方面,特发性DILI的特点是缺乏明确的剂量依赖性和罕见性(通常在1万名接受治疗的患者中不到1人出现DILI症状)。与内在性DILI相比,特发性DILI是患者罕见的遗传和非遗传风险因素组合的结果,这是导致他们对药物敏感的原因[2]。因此,在大多数情况下,不能在临床前研究中检测到特质DILI [3.]。DILI的特性也妨碍了定量构效关系(QSAR)模型对其进行预测,因为特性意味着潜在原因超出了化合物的固有属性。由于DILI的发生率较低,揭示药物使用和观察到的肝损伤之间的因果关系是一项艰巨的任务[4.[这减少了对提供了Diri标签的信心,并进一步使QSAR模型的建设变得高预测性。

检测肝毒性化合物的动物模型的有限能力提高了在体外和硅模型中的替代测试策略,以及更好地了解潜在的生物学。使用体外方法预测帝力的主要挑战在于识别相关的测定[5.],并从检测浓度推断与肝毒性风险相关的体内血液浓度[6.]。基于分子结构生成了许多硅模型[7.8.9.10.11.12.13.]体外读出,如生物活性[14.], 基因表达 [15.]在细胞培养或读出的组合中[16.],它能够比随机更好地预测DILI,但其性能还不足以在实践中作出决策。

在计算预测的情况下,DILI通常简化为一个分类问题,即在数据集中分离有或没有该注释的化合物[7.8.9.11.14.]。然而,这些标签不提供关于剂量依赖性或受影响的患者人口等重要因素的信息,因此,这种模型的实际适用性是有限的。虽然有关定量化合物毒性的更详细信息难以检索,但是倾向于的证据权重通常提供在可用的数据集中。提请注意用于模型生成的数据的质量,先前已被证明是相关的;例如,Kotsampasakou等。(2017)[9.[展示了更好的模型可以越来越较小,但高质量的数据集。

目前的作品是从参与大规模数据分析(CAMDA)“CMAP药物安全挑战”2019的关键评估(http://camda2019.bioinf.jku.at)目的是从不同描述符空间开发更多预测模型。在这项研究中,我们从Dilirank中检索了复合肝毒性注释[17.]和sider [18.这些数据库被用作标签来生成基于化合物的DILI分类器。DILIrank中的注释是通过考虑与DILI相关的市场退出和药品标签中的警告,并结合评估药物使用与DILI发生之间的因果关系来分配的。该药物在两种不同的严重级别(“vMost-DILI关切”和“vLess-DILI关切”)中标注为“DILI阳性”,只有在与DILI的偶然联系能够得到确认的情况下。存在关注但缺乏因果证据的药物被标注为“模糊DILI关注”,而没有关注的药物被标注为“vNo-DILI关注”。CAMDA挑战设定的任务是预测55种药品的标签,这些药品以前被标注为“模糊的DILI问题”,最近被FDA重新分类。为此,从化学结构中提取多个描述符,用于建立DILI分类模型:化学指纹[19.]描述二维化合物结构,以及Mordred分子描述符[20.]和预测蛋白质目标推断Pidgin [21.22.23.]。使用两种不同的外部测试集评估结果模型的预测性。我们也使用CAMDA提供的L1000基因表达数据建立了模型,但这些模型的表现并没有显著优于随机模型,也没有进行进一步分析(附加文件1)。

除了预测性能之外,我们还专注于DiRi预测的两种实际相关方面,即模型在化学空间中推断的能力,以及由于可解释的模型更为信任,因此帝力的相关分子和生物因素的解释,因为监管机构的例子[24.]。为了进入生物过程的见解,从蛋白质目标的机器学习模型中提取具有明显较高的稀释性概率的蛋白质靶标和DiRI分类的最高信息。基于这些,我们使用源自MsigdB的基因来确定与当前数据集中的DiRI标签相关联的生物过程[25.]显示对基于化学结构的特征空间的基于化学结构的特征空间,可以获得对基础德里的机械理解。

从纯化学方面,我们通过分子亚结构矿物(MOS)的分子碎片矿物算法(MOFA)来源于iniLi的可解释结构警报与Dili相关的可解释的结构警报。[26.]和基于片段的SARpy包[27.],这可以引导铅优化以降低帝力的风险,目前目前对其他毒性的标准做法是[28.]。然后,我们将派出的结构警报的质量与Liu等人的最近审查进行了近期审查帝力相关的结构警报。(2015)[29.]。

结果

预测建模

我们首先比较使用不同输入描述符训练的支持向量机(SVM)和随机森林(RF)模型的性能,以预测DILI阳性化合物。为此,比较了具有不同DILI标签置信度和大小水平的三个数据集(总结见表1):“Dilirank(-vlessconcerncerncern)”,包括标记为最大的稀释剂化合物,标记为最大核心或vnoconcern(高置信度),“illirank”另外含有来自Dilirank Vlesscerncers(低置信度)的化合物和“Dilirank(+ Sider)”另外包括来自Sider数据库(低置信度)的渎差。

表1用于生成预测Diri模型的数据集

从图中可以看出。1使用直径4(ECFP4)描述符的扩展连接指纹训练的模型显示了休假 - 一簇出跨验证(LOCO-CV)和RF和SVM的所有数据集的外部测试设置的类似预测性能算法。例如,使用DilirAnk(-VlessConscerncerncerncern)数据集接受训练的RF模型在交叉验证期间具有0.734±0.044的平均平衡精度,外部测试集0.746±0.032(表S1)。其次,所有模型都达到了比Y扰型模型更高的预测精度(图。1),证明他们所有人都有一个超出纯机会的预测力量[30.]。第三,对于LOCO-CV和外部测试集,使用最高置信度数据集比使用较低置信度数据集的预测性能略好,尽管需要注意的是,考虑到不同的数据集大小,这些模型并不具有直接可比性(图1)。1和表格1)。例如,对于SVM模型,LOCO-CV平均平衡精度从稀释(-Vlessconcerncern)上的0.714±0.058降至0.671±0.043(Dilirank)和0.643±0.045(Dilirank(+ Sider))。此外,平均外部测试设定平衡精度从0.759±0.027(Dilirank(-VluserConcern))降低至0.697±0.048(Dilirank)和0.709±0.036(Dilirank(+ Sider))。对于使用MORD分子描述符训练的模型,还观察到这三种发现[20.]和蛋白质目标描述符[21.22.)(见表S1和图S1S2)。

图。1
图1

使用ECFP4描述符训练的RF和SVM型号的DILI标签预测性能(平衡精度)。使用表中描述的数据集进行培训模型1。在5倍Loco-CV和外部测试集之间的性能稳定,但在预测FDA验证集时,观察到预测精度的明显下降。因此,尽管证明了外部测试集中的新化合物(在训练期间未见)的能力,但模型缺乏推广到FDA验证集中的新化合物的能力

在FDA验证集上的大多数模型中,均衡精度低于0.6(图。1),这表明模型对FDA验证集的推广能力不如对外部测试集的推广能力。这些发现也被观察到使用Mordred分子描述符训练的模型[20.]和蛋白质目标描述符[21.22.表示模型的有限泛化,而不管描述符空间如何发生。跨越最多度量的最佳执行模型是使用使用Lirirank(-vlessConscern)数据集进行的SVM模型,该数据集利用线性内核,C参数为0.1和“一个与REST”决策功能。该模型分别实现了外部测试集和FDA验证集的0.759±0.03和0.655±0.0003和0.655±0.00的平均平衡精度,从而与产生的所有其他模型相比,在两个独立的测试集中展示了相对高的预测电力(图。1和表格S1)。

接下来,我们在训练集中的5个最近邻居和外部测试集的分类性能之间调查了化合物'Tanimoto相似性与其5个最近邻居之间的关系(图。2a).这是通过生成一个SVM模型来实现的(与前面提到的最佳模型具有相同的超参数),在留一交叉验证(lo - cv)方案的每个折叠中,检索化合物的预测DILI标签和与训练集的谷本相似度(见方法)。请注意,由于这组化合物的DILIrank标签被保留,因此对FDA验证集进行这样的分析是不可能的。研究发现,65%的化合物与它们在0.0-0.2之间的5个最近邻具有平均谷本相似度,被正确分类(已经可以与FDA验证集上相同模型的预测性能相比较——平均精度0.673±0.000)。对于谷本相似度大于0.5的化合物,这一比例为100%(图1)。2一种)。在训练数据集和外部测试和FDA验证集之间找到相似相互作用的分布(图。2b),可以暂时预期FDA验证化合物的更高预测性能(与外部测试集合)而不是实践中所示的(图。1)。

图2
图2.

分析化学相似性与分类性能之间的关系。一种在LOO-CV Vs中的分类率。平均5 nn tanimoto复合相似性。在Dilirank(-VluserConcern)数据集中观察到正确分类率(%)和化学相似性之间的清晰链接。唯一的例外是第一个垃圾箱,它仅由单个化合物定义(N.=正确分类的化合物的数量,因此不是代表性速率),并表明更好地预测了与训练集类似的外部测试装置化合物。B.DILIrank(−vLessConcern)训练数据集和相应测试集之间的平均5个最近邻间相似性的分布。研究发现,55种FDA验证集化合物与训练集(橙色)的结构相似性与外部测试集(蓝色)中的化合物相当。两个直方图都是左闭的

蛋白质目标的生物解释

然后,基于Dilirank(-vlessConscerncerncern)数据集,比较了RF和SVM模型中蛋白质的中位特征重要性,该数据集显示了跨Loco-CV,外部测试集和FDA验证集的蛋白质目标描述符的最佳分类性能(图。S2)。模型“绝对相应特征重要性之间的Pearson相关性低(0.29),表明它们将不同的蛋白质目标识别为对DiRI分类很重要。(图。3.

图3.
图3.

蛋白质的分布特征在最佳的RF和SVM模型中的特征重要性。在Dili类中显着富集的蛋白质在橙色标记,而所有其他蛋白质都是蓝色的。在具有高特征重要性的蛋白质中,许多人之前已经建立了帝力,例如AKR1B1,CYP1A2和MAPK11,并且该分析可能在涉及Dili的新蛋白质中进一步提示

鉴于对蛋白质的重点设定为具有与DiRi风险相关的生物活性的蛋白质,我们只进一步检查了那些通过Wilcoxon等级试验确定的帝米相关化合物显着富集的那些。这包括醛糖还原酶Akr1b1,其已与Apap诱导的氧化应激和肝毒性相关[31.],CYP酶CYP1A2和CYP2C9,其涉及肝脏中的异黄代谢[32.]和P38激酶MAPK11已知在肝毒性中介导应力相关的信号[33.]。此外,Aldo-Keto还原酶系列1构件C3(AkR1C3)对于II期药物代谢途径和跨膜脯氨酸4-羟基化酶(P4HTM)灭活是必需的,据报道,对Dili具有保护作用[34.35.36.]。

然而,也发现了新的蛋白,如双特异性蛋白激酶(CLK1)和双特异性酪氨酸磷酸化相关激酶2 (DYRK2)。有趣的是,其中一个被鉴定的新蛋白,即腺苷A1受体(ADORA1),是与肝损伤中已知的ADORA2A蛋白家族的成员[37.38.]。事实上,腺苷受体adora1和adora2股份生理职能[39.40]已发现adora1有助于肾功能障碍与大鼠急性肝损伤相关,支持该靶标在Dili中的合理介绍[41]。鉴定为包含具有RF和SVM方法的当前数据集分类的最高特征重要性的蛋白质的完整列表及其已知或潜在的肝毒性链接S2

在下一步骤中,在顶部蛋白质靶标中确定过度代表的途径,其显着富集在Dili阳性化合物(假发现率(FDR)<0.05)中,并且在RF或SVM模型中显示出高特征重要性。虽然不同特征重要性阈值的结果如图4和图5所示。S3S4,分别对特征重要性最高的19个目标进行分析的代表性结果如图所示。4.。从RF和SVM模型,生物转化和细胞色素P450被鉴定为显着超出持续的过程,每个过程基于多种基因(见表S3,无花果。S3和图。S4),这两种途径在肝脏损伤中的累积得到了广泛的表征,特别是对于与药物代谢物有关的伤害[4243444546]。此外,SVM模型检索了脂质的植物酸代谢和代谢的脂质的代谢,其在Dili中起着良好的作用,特别是对乙酰氨基酚诱导的伤害[4748]。相反,RF从数据中识别出p53信号和前列腺素合成是DILI的特征(图。4.),这是对肝脏损伤的特定保护作用的细胞应激反应的关键调节因子[4950]。值得注意的是,前列腺素合成和花生四烯代谢是严格相关的过程,RF和SVM都在不同的特征重要阈值下进行了识别。S3和图。S4)。事实上,前列腺素是花生素酸的代谢物,其生产由环氧化酶(COX)控制,其又被NSAID抑制,如上所述涉及DILI [5152]。孕酮介导的卵母细胞成熟也以SVM和黄体酮本身对抗伊莱的保护作用[53]。更具体地,该基因中的蛋白质在细胞周期(M相诱导磷酸酶1 CDC25A以及细胞周期蛋白CCNB2和CCNB3)和细胞生长(RPS6KA6)中,在CyclIs的iniLI中的作用中具有据报道的作用[54]。因此,这两种算法都优先考虑已知参与DILI关键过程的蛋白质。基于DILIrank和DILIrank (+SIDER)数据集的低绩效模型的相同分析没有检索到许多相关蛋白和通路(结果没有显示)。

图4.
图4.

帝力相关的过程从预测的目标和途径注释推断出来。进程基于SVM(RED)和RF(黄色)模型或DILI(-VlessConscern)数据集的(橙色)。所有方法均链接到灰色的相应的过度代表蛋白质(19个蛋白质,具有最高特征重要性)。将多种高度相似的基因组合在于在表中映射的个体基因组成的植物素酸代谢,细胞色素p450和生物转化组合S3。生物转化和细胞色素P450被两种方法识别,而SVM识别的其他途径指向脂质代谢和细胞周期,TP53调控被RF识别。此外,花生四烯酸代谢(SVM)和前列腺素合成(RF)是两个生物学上密切相关的过程

结构警报

233个MoSS结构性警报(SAs)和20个SARpy SAs来自DILIrank(−vLessConcern)数据集,其中23个和11个被认为是显著的(P.- 分别为≤0.05)。派生SAS的数量对所选择的参数敏感,并反映了两种算法的实现(方法)。推断的SAS的质量,同时源于刘等人的最近审查文献。(2015)(其中5个是重要的)[29.,使用多个指标进行评估(表S4),特别关注标记为Dili阳性的化合物的精度和覆盖(图。5.),表中的每个结构警报源的度量摘要2。此外,对药物银行中SAS发生的分析[55.进行了批准的化合物。

图5.
图5.

有关帝力相关结构警报的精度和百分比覆盖(SAS)(P.值≤0.05)。SAs(由SARpy生成的苯衍生物)的最高覆盖率为77.6%,但平均覆盖率为6.68%。所有moss衍生的SAs的精密度均为1,SARpy衍生的SAs的精密度平均较低,但仍较高,平均精密度为0.85,而文献衍生的预警的平均精密度为0.88

表2帝力相关的重要结构警报度量(P.-Value≤0.05)

总的来说,对于数据和文献衍生的SA,观察到精度和覆盖之间的常见权衡,即如果子结构具有高精度,则很少具有高覆盖度(图。5.)。例如,SAS苯衍生物(Sarpy)和苯胺衍生物(Sarpy)具有相对低的精度(0.47和0.65),相对于Sarpy SAS的平均精度为0.85±0.18,但相反的覆盖率相对较高(77.59和31.61%)相对于Sarpy SA的平均覆盖率为14.11±22.54%。桌子2在本研究中分析的三种来源中的每一个来提供SA的精度和覆盖之间的比较。特别是,有人指出,刘等人提取的SAS。[29.]覆盖率低于由苔藓和豆皮产生的覆盖范围,但来自所有来源的SA平均精确度高。此外,可以看出,来自所有方法的SAS在来自药物仓库数据库的至少一些批准的化合物中发现。

最大精度为1分中的29例,其中39分中有效SA中的29个,其中肼衍生物对所有三种来源观察,并在DiRi阳性化合物(7.47%)中具有最高的覆盖率。因此,例如,例如,例如,Sarpy可以通过精确度产生SAS,分析的SAS过度特异性并且仅以达米阳性化合物的非常小的比例发生。

讨论

预测建模

总的来说,本研究中产生的最预测的模型是使用Dilirank(-VlessConcerncerncern)数据集和ECFP4化学结构描述符训练的SVM模型(线性内核,C = 0.1,'一个与静置函数)。与诸如使用RF产生的那些的非线性模型相反,该SVM模型利用的线性内核确保了输入变量之间的缺乏相互作用,这可能已经促进了模型的改进的泛化特性。这种型号排名第三,首先是交叉验证(0.714±0.058)和外部测试集(0.759±0.03),分别通过均衡准确度,在寻求为Diri开发Diri的分类模型的研究中,尽管数据集明显较小用于本研究中的模型培训(表3.)。应当注意,这些研究中使用的数据集,特征和交叉验证方案有所不同,因此可以直接比较绩效度量。在其他情况下,在本研究中实施了Loco-CV方案,以避免预测与训练数据高的Tanimoto相似性的化合物,这比Kotsampasakou等人使用的随机分裂更保守。[9.] (桌子3.)并转化为更严格的内部模型性能评估。

表3在文献中报告了几个帝力分类模型的绩效指标的比较

确定了与培训数据质量和模型偏差有关的两个关键趋势。首先,大量的模型,无论描述符类型如何,在交叉验证和外部测试集之间都显示出一致的性能,但是在FDA验证组上观察到在性能下的陡度下降(图。1S1,S2),尽管与外部测试集的化学相似性分布相似(图1)。2b)。为此一个解释是,两个测试集都使用该模型填充了不同地区的化学空间区域,在一个区域中显示出更好的性能,或者在填充类似地区的化学空间区域时,这些都没有明确归因于其中一个帝力课程和本质上难以预测。缺乏普遍化的替代解释也可能归因于训练数据和外部测试集中的化合物具有更高的置信度,因此该模型可能能够区分DiLi阳性和DiRi负化合物。相比之下,FDA验证集的化合物,原本被标记为含糊不清的含糊不清的证据,可能是固有的更难预测。鉴于因因果评估的不确定性以及试图纳入剂量和患者群体等施用因素,提供精确的化合物的精确帝力标签是复杂的过程。此外,即使在临床前研究中,通常在临床前的研究中通常不能检测到特质的现象,并且仅在亚步骤中发生,使得精确帝力标记的任务更加困难[3.]。

其次,在所有描述符类型(ECFP4,MERFP4,MERFERED分子描述符和预测的蛋白质目标)在交叉验证和外部测试集中的平衡准确度随着训练数据集从高累施数据集扩展而减少(Dilirank(-vlessConcern))较低置信数据集 - Dilirank或Dilirank(+ Sider)(图。1S1,S2)。This indicated that the inclusion of compounds from the vLessConcern class from DILIrank i.e. those with lower annotated evidence for DILI risk, as well as inactives derived by text-mining of package label inserts of marketed drugs (SIDER), harmed predictive performance despite increasing the number of training samples. While this is consistent with previous studies [9.[这表明仔细的数据策级可以提高性能,应当注意,外部测试集的样本大小,特别是FDA验证组(49种化合物)小。这使得难以准确地评估模型性能,并因此进入自信地比较模型(图。1)。

需要较大的数据集来允许增强化学空间的细粒度采样和建立模型适用性域。在本研究中,对FDA验证组的差的概括表明,化学结构与导致DILI的倾向之间的关系对于模型来说,从使用的小型训练数据集中学习(401种化合物)。然而,必须注意的是,即使获得了更大且高质量的数据集,仍然是有限的模型预测性,作为相关信息,这些信息可能与DiLi的表现有关,例如剂量或代谢在形成肝毒性前药中的形成的影响在本研究中使用的描述符中考虑。

蛋白质目标

从使用预测蛋白质目标作为特征的模型,我们通过使用Pidgin的生物活性的先验知识和基于来自MsigdB的多个数据库的途径映射的蛋白质的功能背景提取生物过程。25.]。SVM和RF均鉴定生物转化和细胞色素P450,两个重要途径涉及药物代谢和消除和与Dili严格相关的途径[4243444546]。此外,鉴定了花生素酸代谢和前列腺素合成,其生理学上涉及炎症过程[4950] NSAIDS的作用和毒性的机制,帝力最常见的原因之一[5152]。虽然已知推断的生物过程与Dili相关,但对于许多通过特征重要性本身鉴定的许多蛋白质不存在(表S2),例如Clk1和Dyrk2。鉴于分析基于目标结合概率,可以假设这些蛋白质可能直接(或间接)涉及Dili的发病机制。所描述的工作流程因此能够从复合帝力注释的生物过程中获得功能假设,随后可以通过实验研究。

结构警报

在本研究中,与DILI相关的结构性警报(SAs)使用SARpy [27.]和苔藓[26.]使用Dilirank(-VlessConcerncern)数据集的算法。发现苔藓和萨尔皮衍生的SA被发现与刘等人审查的那些相当。(2015)[29.[精确和覆盖范围。应该注意的是,与Sarpy和苔藓的SA相反,明确地派生和随后在本研究中使用的数据集上进行测试,Liu等人的SA。(2015)使用来自不同来源的数据来源的,主要是Livertox [56.]。

在SARpy、MoSS和Liu等人(2015)获得的显著SA中,只有联氨衍生物(NN)在它们之间存在重叠(表54.)的精度为1。然而,药品银行[55.]数据库检索的显著SA显示,所有使用MoSS衍生的显著SA都出现在至少3种已批准的药物中,而来自SARpy和Liu et al.(2015)的显著SA出现在至少10种已批准的药物中(表1)S4)。例如,分别存在苯胺衍生物(Sarpy)和酶衍生物(Sarpy),分别存在于422和80种营销药物中(表S4)。从方法的角度来看,虽然SA可以是有关毒性的增加的概率,但在该研究中分析的所有结构警报的存在证明了它们的诊断性是分离的诊断。管理剂量是在开发治疗方法时进行的关键考虑因素,并且在简单地筛选存在结构警报时,不会考虑。例如,肼衍生物(在豆瓣,苔藓和刘等人之间分享)可以增加肌肉,神经,肾,肝,血液和脾脏毒性[57.然而,它存在于例如时。procarbazin,它是用于霍奇金病治疗的注册抗肿瘤剂,是胶质瘤的孤儿药[58.]。该示例表明,接受增加的毒性风险有利于延长患者的生命,这可能是有益的。

表4与dili相关的重大结构性警报(P.- 高≤0.05)精度和覆盖率最高(%)

SAS可以在初始筛选和探索性分析中发挥支持性作用,通过早期标记可能的毒性化合物[59.60.]和指导药物化学家的先导优化[61.]。他们的主要优势是,他们很容易理解和实现[62.]。然而,当解释频率分析时,在复杂端点的情况下,当SAS可能无法捕获的潜在的生物机制可能无法捕捉到导致高假阳性和假负率的情况下,人们应该是谨慎的63.]。

结论

在本研究中,通过使用与ECFP4指纹,确定的分子描述符或预测的蛋白质靶标作为化学结构导出的描述符,使用来自DilirAnk和Sider数据库的数据进行训练使用来自DilirAnk和Sider数据库的数据进行培训。使用更可靠的数据(不包括Dilirank Veslconncern类和Sider Text-Mined Distive)时,可以看到最佳预测性能。这强调了数据质量对此类方法的重要性,尽管应该指出的是,在数据集之间的大小和通常少量的样本中,难以困难。最佳模型在交叉验证和外部测试设置到文献中报告的模型中实现了相当的性能(表3.)。另一方面,Camda提供的附加测试集的性能(http://papers.camda.info/)低得多,强调难以验证稀释型号的稀有量较少的标记化合物。在本研究中,用于评估DiLi模型的数据集既小,也分别由80(对于高置信数据集)和49种化合物组成,尽管两个数据集的结构相似性相当的结构相似性,但后者的证明是更难以预测的到模型训练数据集。

蛋白质目标描述符实现了较差的预测性能,但与MORD分子描述符和ECFP4指纹相比,它们的优点是每个单独的特征对应于蛋白质,因此从生物学的角度来看可解释。基于预测模型中的特征重要性,因此可以识别参与帝力的已知和潜在的新型蛋白质,以及药物诱导的肝细胞凋亡中的重要生物过程,例如生物转化和NSAIDs的作用机制和毒性。众所周知,这是帝力的常见原因。

此外,我们推断出具有相当的精度和覆盖范围的结构警报,并覆盖以前衍生的。然而,由于Dili注释化合物的高结构多样性,发现衍生的警报本身具有相当低的化合物覆盖。此外,发现所有警报都存在于批准的药物中,进一步突出了挑战帝力实际上有用的结构警报的挑战,并在筛选稀释剂筛选方案中的定量因素如剂量等定量因素的重要性。因此,总体而言,这项工作取得了类似的结果,如先前的研究中看到的关于预测帝力的表现;另一方面,它引入了利用生物可解释的预测蛋白目标对该领域的利用,并强调了在为DILI开发预测模型时大型和可靠的数据集注释的重要性。

方法

数据准备

化合物的SMILES字符串从DILIrank数据库(1036化合物)中检索[17.]和Sider 4.1数据库(1430个化合物)[18.]。使用MedDRA(监管活动医学词典)的首选术语在SIDER中记录副作用,MedDRA提供了不良事件的分级组织。从整个SIDER数据集(SIDER 4.1)开始,所有含有MedDRA系统器官类肝胆疾病中至少有一种副作用的化合物被丢弃,只保留没有肝相关副作用报道的药物。从DILIrank和SIDER中检索到的SMILES使用Atkinson等人(2016)的Python包Standardiser进行标准化[64.]。这包括去除反离子和溶剂,并在必要时中和剩余的碎片。此外,还根据标准化器中实现的规则对互变异构体进行了标准化。随后,至少属于下列类别之一的化合物被丢弃:一种以上活性成分的混合物、无机分子、金属有机化合物和分子量超过1 kDa的化合物。如果化合物同时出现在DILIrank和SIDER数据集中,那么将删除来自不活动的SIDER数据集中的化合物,以避免重复条目。最后一组包含923个化合物,组成如下:DILIrank: 174 vLess-DILI-Concern, 260 vLess-DILI-Concern, 227 vNo-DILI-Concern, SIDER: 262个化合物,未报告与肝脏相关的副作用。

ECFP4 [17.使用Python Library RDKit(2019.03.1.0版)生成散列到2048位[65.]。使用MORDRED的PYTHON包生成一千八十九个1D和2D分子描述符[20.]。对于模型的产生,分子描述符的值被缩放到高斯分布,具有零均值和单位方差使用标准架子scikit-seather python库中的函数(版本0.21.2)[66.]。使用PIDGINV3软件预测1673个人蛋白靶标的生物活性[21.22.23.]。选择10 μM作为高活性和边缘活性化合物的生物活性截止点。为了对每个复合目标对进行预测,没有对适用域设置阈值。923种药物中有6种(其中4种来自SIDER)没有进行蛋白靶标预测,因为在PIDGINv3软件中无法对其结构进行内部标准化。

为了实施Loco-CV方案(确保类似的化合物不在不同折叠中),我们进行了化合物的等级聚类。基于使用ECFP4计算的成对Tanimoto相似度,使用分层聚类生成一棵树,与SCIPY中实现的最近点算法(版本1.2.1)[67.]。通过在0.5的距离处切割分层树产生簇,这导致具有至少0.5的Tanimoto相似性的化合物在同一簇中。

模型生成

概述

我们选择SVM和RF作为对良好和强大的性能的方法,并且与更复杂的方法相比,容易出现过度拟合。对于这两种方法,我们使用Scikit-Searn Python库(版本0.21.2)实现来培训Diri的二进制分类模型。为所有三个输入特征空间开发了模型(ECFP4指纹,蛋白质靶标和MORD分子描述符)。此外,我们使用不同的DilirAnk类别的不同数据子集生成模型以及来自Sider数据库的额外渎品(表1)。

模型超参数网格搜索

首先,对于SVMS [68.]we used a classifier as implemented in the sklearn Python library and performed a hyperparameter grid search over the following parameters: Kernel: [‘linear’], Class weight: [‘balanced’], Decision function: [‘one vs. rest’], Shrinking: [‘True’], C: [0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 1]. Of the possible SVM kernels implemented sklearn, we only evaluated ‘linear’ as it alone allows for easy interpretation of model feature importances. Secondly, for RFs [69.]我们使用了Sklearn Python库中实现的分类器,并在以下参数上执行了HyperParameter网格搜索:Bootstrap:['true'],类重量:['平衡subsample'],max。树深:[10,15,无],min。每片样品:[123.],数字估算器:[100,200,300,400,500,750,1000]。

培训程序

使用10倍训练方案内的5倍交叉验证评估模型的预测性能。原始数据集基于Scikit-Gearning中的STRIDIZEKFORD函数分为10分层折叠,使用SCICIT-GEATHING参数:N_SPLITS = 10,SHUFFLE = TRUE来评估不同培训数据对模型预测性能的影响。在每个训练折叠中,使用内部5折Loco-CV进行模型超参数的内部网格搜索,以选择每个训练折叠的最佳型号。然后,通过均衡精度评估的每个折叠中的最佳模型,然后用于预测HoldOut外部测试集。Loco-CV方案在Scikit中的Groupkfold函数实现 - 仅限于仅包含具有ECFP4 Tanimoto相似性的化合物的群集[70]大于或等于0.5。不管描述符类型如何利用这种交叉验证方案。此外,如上所述,使用相同的步骤训练和评估基线模型,但是用现有的输出标签的y扰码(3个不同的随机爬行器)。为了进一步评估模型预测性能,由49个化合物组成的FDA验证集(其中55个 - Camda组织者65岁的子集)以前标记为魔法 - 帝力关注,但后来将被标记为Dili阳性或者FDA的DILI负作为额外的测试集。

为了评估化合物的平均化学相似性与其5个最近邻居的训练集和模型正确分类率之间的关系,为最佳性能模型进行了LOO-CV(SVM,Dilark(-VlessConcern,(图。2一种)。这需要使用ECFP4指纹计算训练数据集和左右化合物之间的Tanimoto相似性,并在每个LOO-CV折叠内预测其DILI标签。此外,与外部测试集的相应相似度进行比较,将FDA验证的Tanimoto 5最近邻相互相似性进行比较(图。2b).正如我们之前评估的模型(SVM, DILIrank(−vLessConcern))与10个不同的外部测试集(在10倍交叉验证方案;见上面),所有10对训练和测试集的相似性被平均。

平衡准确性(EQ。1)主要用于评估模型的预测性能。我们还利用了特异性来比较模型到以前在文学中发表的那些人(表3.)。这些指标由由真正的阳性(TP),真正的否定(TN),假阳性(FP)和假否定(FN)组成的混淆矩阵计算。

$$ \ mathrm {balanced} \ \ mathrm {complecy} = \ frac {\ frac {tp} {\ left(tp + fn \ light)} + \ frac {tn} {\ left(tn + fp \ light)}}}}}}}}}}} {2} $$
(1)

解释蛋白质目标

使用单面紫唑克逊秩 - 和试验测定具有富集富集的靶向富集的靶向富集靶标更高的抗粘连性概率的蛋白质靶标。其中,对于RF和SVM模型,鉴定了10个火车测试分裂中位数高的蛋白质特征。在Scikit-Rearn中实现的RF模型的特征重要性[66.]描述了一个特征所达到的节点杂质的减少,以分数的形式在森林中所有树木上取平均值,因此模型中包含的所有特征的重要性之和为1 [69.]。在使用线性内核的SVM模型中,特征的重要性被描述了超平面的系数的大小反映了[68.]。标志表示通过存在给定功能的哪个类。用于进一步分析的值是10个火车测试分裂跨越功能的中值。

使用ClusterProfiler R包(3.17.5版)进行过度富集分析[71.]。为此,途径地图来自MsigdB [25.]通过来自反应的Msigdbr R包[72.],kegg [73.]及维基通道[74.]。为此,用生物art包将具有最高特征重要性的蛋白质靶点映射到Entrez基因id上[74.]并且Pidgin靶蛋白的名单用作背景。只考虑含有10种或更多基因的基因套P.-值采用benjami - hochberg程序进行调整。分析使用不同的特征重要阈值扫描的绝对特征重要值的顶分位数。

结构警报

衍生结构警报

我们使用了两种SA推导算法,以DILIrank(−vLessConcern)数据集作为输入——MoSS和SARpy。MoSS是一种基于图的深度优先搜索方法,用于化学子结构挖掘[26.],我们使用KNIME (v3.7.2.) [61.在当前的研究中,MoSS的实施。它将潜在的sa作为只有重原子的“子图”派生出来,这些重原子既不是SMILES也不是SMARTS。用户可能决定使用SMARTS来近似子图,以便将子结构与分子匹配(由SMILES表示)。这个程序搜索频繁的分子子结构和鉴别片段在一组分子图。在图中,顶点表示一个原子,边表示一个键。每个顶点都有与原子类型、电荷以及是否为芳香环的一部分相关的属性。边缘表示键的类型。搜索从图树的根(即单个原子)开始,然后递归地搜索与叶原子相连的原子和随后的键。然后根据图树的每个状态创建子结构,如果在活动类中出现的子结构低于定义的最小焦点支持(MFS),则对其进行修剪。

为了找到鉴别性片段,用户应定义两个阈值。第一个是用于修剪的上述MFS,第二个是最小补体支持(MCS)即非活动类中的子结构发生。选择以下KNIME MOSS设置:1%MFS(DILI阳性类的片段含量的最小分数 - 真正的阳性率),0.01%MCS(帝力阴性的碎片中含药的最大分数)类 - 假阳性率)。另外,仅保留其中2至15的键数量的子结构。纯碳碎片被忽略并施加戒指。

Sarpy是一种基于字符串的搜索方法,用于化学子结构挖掘[27.]。简而言之,通过递归地破坏直接工作在输入数据集的微笑串上的每个键组合的每个组合来生成智能字符串形式的SAS。然后在数据集中的所有化合物内部验证片段,然后提取减少的一组次结构“规则”。在这项工作的实施中的萨尔皮(v.1.0)的实施中碎片化功能参数minAtoms和maxAtoms分别设置为2和15,“目标”(即DILI正或DILI负)设置为None。使用提取功能参数:5 min命中,1 minLR, 0 min精度。这些设置与Yang等人(2017)使用的相同[75.[除非未应用精确阈值以便产生更大的SA族分析。

结构警报评估

结构警报的智能与使用rdkit的化合物的微笑匹配HassubStructMatch功能在Python (RDKit 2018.09.3.0)。精度(eq。2)和Dili阳性化合物的覆盖率均用于评估SAS的预测性能。此外,通过的重要性测量P.-value也使用SciPy (version 1.3.0) stats模块为每个sa计算fisher_exact函数可选参数设置为' greater '。

$ $ \ mathrm{精密}\ \离开(\ mathrm P{} \右)= \压裂{TP}{\离开(TP + FP \右)}$ $
(2)

如前所述,由于MoSS使用基于图的搜索方法,它可能不会考虑芳香族和脂肪族原子之间的细微差别,从而在将其子结构与SMILES匹配时导致不匹配。例如,在MoSS中,“N-C”可以匹配氨基呋喃(NC1 = CC=CO1)和氨基四氢呋喃(NC1CCCO1)。但是在SMARTS中,“C”和“C”是不同的,所以RDKit不会将“N-C”与氨基呋喃匹配,因为碳是芳香的。尽管如此,这些sa的重要性是基于使用RDKit计算的存在的。

为了调查SA在已经批准和销售药物中的存在,SAS与药物商数据库中的化合物相匹配[55.](第5.1.4)使用rdkit(2018.09.1版)[65.]HasSubstructMatch功能。这涉及使用Atkinson等人的Python封装标准化器首先标准化化合物的微笑。(2016)[64.]。由于一些微笑无法标准化,但该步骤将分析中的药物银行化合物的总数降低到2411至2136。

数据和材料的可用性

在当前研究期间生成和分析的数据集可在GitHub存储库中获得https://github.com/anikaliu/camda-dili.

缩写

ADORA1:

腺苷A1受体

AKR1C3:

Aldo-keto还原酶家庭1会员C3

Camda:

大规模数据分析的关键评估

CLK1:

双特异性蛋白激酶CLK1

Dyrk2:

双特异性酪氨酸 - 磷酸化相关激酶2

帝力:

药物诱导的肝损伤

ECFP4:

直径4的扩展连通性指纹

FDR:

假发现率

FN:

假阴性

外交政策:

假阳性

TN:

真正的消极

TP:

真阳性

Loco-CV:

Leave-one-cluster-out交叉验证

LOO-CV:

留出 - 一次性交叉验证

主持人:

最小的补充支持

MedDRA:

医学词典监管活动

MFS:

最小焦点搜索

外交部:

分子片段矿工算法

摩斯:

分子亚结构矿工算法

纳什:

非酒精性脂肪肝

nsaids:

非甾体类抗炎药

p4htm:

跨膜脯氨酰4-羟基化酶

QSAR:

定量结构 - 活动关系

rf:

随机森林

SA:

结构警报

SVM:

支持矢量机器

参考文献

  1. 1。

    David S,Hamilton JP。药物诱导的肝损伤。美国Gastroenterol肝肝庚醇Rev.2010; 6:73-80。

    PubMedpmed中央谷歌学术

  2. 2。

    Mostale M,Watkins PB。药物诱导的肝损伤:机械理解的进步将为风险管理提供信息。临床药狼。2017; 101(4):469-80。

    CASPubMedpmed中央文章谷歌学术

  3. 3。

    关键词:特征性药物性肝损伤;国际肝病杂志。2014;8(7):721-3。

    CASPubMed文章pmed中央谷歌学术

  4. 4.

    Chen M, Vijay V, Shi Q, Liu Z, Fang H, Tong W. fda批准药物标签用于药物性肝损伤的研究。《今日药物发现》2011;16(15):697-703。

    PubMed文章pmed中央谷歌学术

  5. 5.

    适应性应激反应通路激活的动态成像用于预测药物诱导的肝损伤。拱Toxicol。2018;92(5):1797 - 814。

    CASPubMedpmed中央文章谷歌学术

  6. 6。

    关键词:激光,激光,激光,光学元件预测人药物性肝损伤(DILI)与口服剂量和血药浓度的关系。拱Toxicol。2019;93(6):1609 - 37。

    CASPubMed文章pmed中央谷歌学术

  7. 7。

    艾红,陈伟,张磊,黄磊,尹智,胡辉,等。使用集成学习方法和分子指纹预测药物性肝损伤。Toxicol Sci。2018;165(1):100 - 7。

    CASPubMed文章pmed中央谷歌学术

  8. 8。

    他,ye t,王r,张c,张x,sun g等。一种在硅模型中预测药物诱导的肝毒性。int j mol sci。2019; 20(8):1897。

    CASpmed中央文章谷歌学术

  9. 9。

    Kotsampasakou E,Montanari F,Ecker GF。预测药物诱导的肝损伤:数据策委的重要性。毒理学。2017; 389:139-45。

    CASPubMedpmed中央文章谷歌学术

  10. 10.

    张超,程飞,李伟,刘刚,李pw,唐勇。基于亚结构模式识别方法的药物肝毒性预测。中国生物医学工程学报,2015,34(5):457 - 464。摩尔通知。2016;35(3 - 4):136 - 44。

    PubMed文章CASpmed中央谷歌学术

  11. 11.

    张H,Ding L,Zou Y,Hu S-Q,Huang H-G,KONG W-B等。用幼稚贝叶斯分类器方法预测人诱导的人类肝损伤。j计算辅助mol des。2016; 30(10):889-98。

    CASPubMed文章pmed中央谷歌学术

  12. 12.

    Hong H, Thakkar S, Chen M, Tong W.使用大量fda批准的药物预测人类药物诱导肝损伤的决策森林模型的开发。Sci众议员2017;7(1):1 - 15。

    文章CAS谷歌学术

  13. 13。

    Minerali E,Foil DH,Zorn Km,Lane Tr,Ekins S.比较机学习算法预测药物诱导的肝损伤(DiRi)。Mol Pharm。2020; 17(7):2628-37。

    CASPubMed文章pmed中央谷歌学术

  14. 14。

    Liu J, Mansouri K, Judson RS, Martin MT, Hong H, Chen M, et al. .利用ToxCast体外生物活性和化学结构预测肝毒性。毒物学杂志。2015;28(4):738-51。

    CASPubMed文章pmed中央谷歌学术

  15. 15.

    Wang Z, Clark NR, Ma 'ayan A.使用LINCS L1000数据预测药物不良事件。生物信息学。2016;32(15):2338 - 45。

    CASPubMedpmed中央文章谷歌学术

  16. 16。

    Williams DP, Lazic SE, Foster AJ, Semenova E, Morgan P.预测药物诱导的肝损伤的贝叶斯机器学习。中国生物医学工程学报。2010;33(1):239-48。

    CASPubMed文章pmed中央谷歌学术

  17. 17。

    陈M,铃木A,Thakkar S,Yu K,Hu C,童W. dilirank:最大的参考药物清单是在人类中发育药物诱导的肝损伤的风险排名。今天的药物迪斯科舞厅。2016; 21(4):648-53。

    CASPubMed文章pmed中央谷歌学术

  18. 18。

    Kuhn M, Letunic I, Jensen LJ, Bork P.药物和副作用的SIDER数据库。核酸研究2016;44(数据库版):D1075-9。

    CASPubMed文章pmed中央谷歌学术

  19. 19。

    罗杰斯D,哈恩M.扩展连接指纹。J Chem Inf Model. 2010;50(5): 742-54。

    CASPubMed文章pmed中央谷歌学术

  20. 20.

    Moriwaki H,Tian Y-S,Kawashita N,Takagi T. Mordred:分子描述符计算器。J Cheminformatics。2018; 10(1):4。

    文章CAS谷歌学术

  21. 21.

    LHM30。LHM30 / PIDGINV3 [Internet]。2019年[引用2019年10月28]。可从:https://github.com/lhm30/pidginv3.

  22. 22.

    Mervin LH,Afzal Am,Drakakis G,Lewis R,Engkvist O,Bender A.利用负面生物活性数据覆盖大化学空间的目标预测。J Cheminformatics。2015; 7(1):51。

    文章CAS谷歌学术

  23. 23。

    Aniceto N, Freitas AA, Bender A, Ghafourian T.一种新的适用域技术,映射预测的可靠性跨化学空间的QSAR:可靠性密度邻域。J Cheminformatics。2016;8(1):69。

    文章CAS谷歌学术

  24. 24。

    Idakwo G,Luttrell J,Chen M,Hong H,Zhou Z,Gong P等人。硅毒性预测机器学习方法综述。J环境SCI健康部分C. 2018; 36(4):169-91。

    CAS文章谷歌学术

  25. 25。

    Liberzon A,Birger C,Thorvaldsdóttirh,Ghandi M,Mesirov JP,Tamayo P.分子签名数据库(MSIGDB)Hallmark Gene集合。细胞系统。2015; 1(6):417-25。

    CASPubMedpmed中央文章谷歌学术

  26. 26。

    Borgelt C,Meinl T,Berthold M. Moss:分子次结构挖掘的程序。在:第1次国际研讨会的常规数据挖掘频繁模式挖掘实施 - OSDM '05 [Internet]。芝加哥,伊利诺伊州:ACM媒体;2005. [2019年10月28日引用2019年]。p。6-15。可从:http://portal.acm.org/citation.cfm?doid=1133905.1133908

    谷歌学术

  27. 27.

    法拉利T,Cattaneo D,Gini G,Bakhtyari Ng,Mangenaro A,Benfenati E.从化学结构中自动知识提取:突变预测的情况。SAR QSAR环境。2013; 24(5):365-83。

    CASPubMed文章pmed中央谷歌学术

  28. 28。

    Limban C,Nuţădc,chiriţăc,negreşs,arsene al,goumenou m等。使用结构警报以避免药物的毒性。毒素代表2018; 5:943-53。

    CASPubMedpmed中央文章谷歌学术

  29. 29。

    刘R,yu x,Wallqvist A.数据驱动的结构警报识别,用于减轻药物诱导的人肝损伤的风险。J Cheminformatics。2015; 7(1):4。

    文章CAS谷歌学术

  30. 30.

    LipińskiPFJ,Szurmak P. Scramble'n'gamble:一种用于QSAR模型的统计评估的随机数据的快速和容易产生的工具。Chem Zvesti。2017; 71(11):2217-32。

    PubMedpmed中央谷歌学术

  31. 31。

    Ahmed MME, Al-Obosi JAS,奥斯曼HM, Shayoub ME。醛糖还原酶的过表达使小鼠肝细胞对醋氨酚诱导的氧化应激和细胞死亡更加敏感。中国生物医学工程学报。2016;31(2):162-70。

    CASPubMed文章pmed中央谷歌学术

  32. 32.

    Zanger UM,Schwab M.细胞色素P450酶在药物代谢中:基因表达,酶活性和遗传变异的影响。药狼。2013; 138(1):103-41。

    CASPubMed文章pmed中央谷歌学术

  33. 33.

    黄勇,吴超,叶勇,曾军,朱军,李勇,等。DEHP对JNK/p38/p53通路的干扰导致ROS升高是肝毒性的原因。中国环境科学,2019;16(3):356。

  34. 34.

    Barski OA,Tipparaju Sm,Bhatnagar A. Aldo-keto还原酶超家族及其在药物代谢和解毒中的作用。药物元纲领2008; 40(4):553-624。

    CASPubMedpmed中央文章谷歌学术

  35. 35。

    陈卫东,张燕。醛酮还原酶在人类疾病中的调控作用。杂志。2012;3。

  36. 36。

    Laitakari A, Ollonen T, Kietzmann T, Walkinshaw G, Mennerich D, Izzi V等。小鼠缺氧诱导因子脯氨酸4-羟化酶2的全身性失活对酒精性脂肪肝的保护氧化还原杂志。2019;22:101145。

    CASPubMedpmed中央文章谷歌学术

  37. 37。

    Leitinger B. Discoidin结构域受体在生理和病理条件下起作用。INT Rev Cell Mol Biol。2014; 310:39-87。

    CASPubMedpmed中央文章谷歌学术

  38. 38。

    Chiang Dj,Roychowdhury S,Bush K,McMullen Mr,Pisano S,Niese K,等。腺苷2A受体拮抗剂预防和逆转肝纤维化在乙醇加剧肝纤维化小鼠模型中。Plos一个。2013; 8(7):E69114。

    CASPubMedpmed中央文章谷歌学术

  39. 39.

    黄杰,陈m-n,du j,刘h,何y-j,li g-l等。腺苷P1受体Adora1和adora2a与胶质瘤发育和肿瘤相关癫痫相关的差异表达。neurochem res。2016; 41(7):1774-83。

    CASPubMed文章pmed中央谷歌学术

  40. 40。

    boborea PA, Gessi S, Merighi S, Vincenzi F, Varani K.腺苷受体药理学:最新进展。杂志启;2018 98(3):1591 - 625。

    CASPubMed文章pmed中央谷歌学术

  41. 41。

    明Z,风扇y,杨x,lautt ww。肝腺苷A1受体对大鼠急性肝损伤相关的肾功能障碍的贡献。肝脏。2006; 44(4):813-22。

    CASPubMed文章pmed中央谷歌学术

  42. 42。

    Villeneuve J-P,Pichette V.细胞色素P450和肝病。Curr药物元。2004; 5(3):273-82。

    CASPubMed文章pmed中央谷歌学术

  43. 43。

    袁玲,卡普洛维治。药物性肝损伤的机制。临床肝病杂志2013;17(4):507-18。

    PubMedpmed中央文章谷歌学术

  44. 44.

    冯S,他X. Cyp450的机制抑制:药物诱导的肝毒性指标。Curr药物元。2013; 14(9):921-45。

    CASPubMed文章pmed中央谷歌学术

  45. 45.

    Mitchell Jr,Snodgrass Wr,Gillette JR。生物转化在化学诱导的肝损伤中的作用。环境健康持态度。1976年; 15:27-38。

    CASPubMedpmed中央文章谷歌学术

  46. 46.

    Gu X, Manautou JE。化学性肝损伤的分子机制。专家Rev Mol Med. 2012;14:e4。

    PubMedpmed中央文章CAS谷歌学术

  47. 47。

    Suciu M,Gruia At,Nica Dv,Azghadi SMR,MIC AA,MIC FA。对乙酰氨基酚诱导的肝损伤:对脂质代谢和逐芍信号通路的颞稳态的影响。Chem Biol相互作用。2015; 242:335-44。

    CASPubMed文章pmed中央谷歌学术

  48. 48。

    半乳糖胺/内毒素致大鼠急性肝损伤中花生四烯酸的代谢。同济医科大学学报1994;14(3):169-72。

    文章谷歌学术

  49. 49。

    Cavar I,Kelava T,VukojevićK,Saraga-Babićm,Culo F.前列腺素E2在急性乙酰氨基酚肝毒性中的作用。母组织组织疗法。2010; 25(7):819-30。

    CASPubMedpmed中央谷歌学术

  50. 50。

    Peltekian km,Makowka L,Williams R,Blendis Lm,Levy Ga。肝脏失效和移植的前列腺素:再生,免疫调节和细胞保护。肝脏转机Surg。1996; 2(3):171-84。

    CASPubMed文章pmed中央谷歌学术

  51. 51。

    vane Jr,滴水rm。抗炎药物的作用机制。Scand J Rheumatol。1996年; 25(SUP102):9-21。

    文章谷歌学术

  52. 52。

    非甾体抗炎药物对肝细胞的损害。中华医学杂志,2003;

    文章谷歌学术

  53. 53。

    Toyoda Y,Endo S,Tsuneyama K,Miyashita T,Yano A,Fukami T等人。黄体酮对药物诱导肝损伤的加剧作用机制。毒素科学。2012; 126(1):16-27。

    CASPubMed文章pmed中央谷歌学术

  54. 54。

    Lu XP, Koch KS, Lew DJ, Dulic V, Pines J, Reed SI等。肝再生过程中细胞周期蛋白mRNA和细胞周期蛋白相关组蛋白H1激酶的诱导中国生物医学工程学报。1992;267(5):2841-4。

    CASPubMed文章pmed中央谷歌学术

  55. 55。

    Wishart DS,Feunang Yd,Guo Ac,Lo EJ,Marcu A,Grant Jr等。Drugbank 5.0:2018年核酸库的药物商数据库的主要更新。2018; 46(D1):D1074-82。

    CASPubMed文章pmed中央谷歌学术

  56. 56.

    Hoofnagle JH,Serrano J,Knoben Je,Navarro VJ。Livertox:药物诱导的肝损伤网站。Hepatol Baltim MD。2013; 57(3):873-4。

    文章谷歌学术

  57. 57.

    老鹰队A,HICKS RM,Holsman JW,Magee Pn。大鼠和小鼠1,2-二甲基肼和1-甲基肼的形态学和生物化学作用。BR J癌症。1974; 30(5):429-39。

    CASPubMedpmed中央文章谷歌学术

  58. 58.

    Kim S-H,Yoo H,Chang Jh,Kim C-Y,Chung DS,Kim Sh,等。ProCarbazine和CCNU化疗,用于丙虫胶质母细胞瘤,MGMT启动子甲基化。j韩版med sci。2018; 33(24):E167。

    PubMedpmed中央文章CAS谷歌学术

  59. 59。

    杨H,Sun L,Li W,Liu G,唐Y.在硅预测用机器学习方法和结构警报进行化学毒性的化学毒性。前化学。2018; 6:30。

    PubMedpmed中央文章CAS谷歌学术

  60. 60.

    Greene N,Fisk L,Naven Rt,Note RR,Patel ML,Pelletier DJ。发展肝毒性预测的结构 - 活性关系。Chem Res毒品。2010; 23(7):1215-22。

    CASPubMed文章pmed中央谷歌学术

  61. 61.

    Pizzo F,Lombardo A,Mangenaro A,Benfenati E.基于统计和专家的结构警报的预测药物诱导的肝损伤的新的结构 - 活动关系(SAR)模型。前药狼。2016; 7。[引用2020年11月9日]可从:https://www.frontiersin.org/articles/获得https://doi.org/10.3389/fphar.2016.00442/full

  62. 62。

    Naven Rt,Louise-May S.计算毒理学:其在减少药物磨损方面的重要作用。嗡嗡声毒素。2015; 34(12):1304-9。

    CASPubMed文章pmed中央谷歌学术

  63. 63。

    Allen Teh,Goodman JM,Gutsell S,Russell PJ。定义风险评估不利结果途径框架中的分子启动事件。Chem Res毒品。2014; 27(12):2100-12。

    CASPubMed文章pmed中央谷歌学术

  64. 64。

    Atkinson F. Flatkinson /标准化者[Internet]。2019年[引用2019年10月28]。可从:https://github.com/flatkinson/standardiser

  65. 65。

    开源化学信息学软件[互联网]。[引用2019年10月28日]。可从:https://www.rdkit.org/

  66. 66。

    Pedregosa f,Varoquaux g,gramfort a,michel v,ripior b,grisel o等。Scikit-Learn:Python的机器学习。J Mach Learn Res。2011; 12:2825-30。

    谷歌学术

  67. 67。

    Pauli Virtanen,Ralf Gommers,Travis E. Oliphant,Matt Haberland,Tyler Reddy,David Cournaveau,Evgeni Burovski,Pearu Peterson,Warren Weckeser,Jonathan Bright,StéfanJ.Vander Walt,Matthew Brett,Joshua Wilson,K. Jarrod Millman,Nikolay Mayorov, Andrew R. J. Nelson, Eric Jones, Robert Kern, Eric Larson, CJ Carey, İlhan Polat, Yu Feng, Eric W. Moore, Jake VanderPlas, Denis Laxalde, Josef Perktold, Robert Cimrman, Ian Henriksen, E.A. Quintero, Charles R Harris, Anne M. Archibald, Antônio H. Ribeiro, Fabian Pedregosa, Paul van Mulbregt, and SciPy 1.0 Contributors. SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 2020;17(3):261-72.

  68. 68.

    支持向量网络:机器学习;1995.p . 273 - 97。

  69. 69.

    兰登森林。机器学习2001;45:5-32。https://doi.org/10.1023/a:1010933404324

  70. 70。

    Bajusz D, Rácz A, Héberger K. Why is Tanimoto index an appropriate choice for fingerprint-based similarity calculations?J Cheminform。2015; 7:20。https://doi.org/10.1186/s13321-015-0069-3

  71. 71。

    yu g,王l-g,韩y,他q-y。ClusterProfiler:用于比较基因集群中的生物主题的R包。OMICS J INTERT BIOL。2012; 16(5):284-7。

    CAS文章谷歌学术

  72. 72.

    Fabregat A,Jupe S,Matthews L,Sidiropoulos K,Gillespie M,Garapati P等。反应途径知识库。核酸RES。2018; 46(D1):D649-55。

    CASPubMed文章pmed中央谷歌学术

  73. 73.

    Kanehisa M,Goto S. Kegg:Kyoto Encyclopedia基因和基因组。核酸RES。2000; 28(1):27-30。

    CASPubMedpmed中央文章谷歌学术

  74. 74。

    Slenter DN,Kutmon M,Hanspers K,Riutta A,Windsor J,Nunes N等。Wikipathways:多方面的途径数据库向其他OMICS研究桥接代谢组学。核酸RES。2018; 46(D1):D661-7。

    CASPubMed文章pmed中央谷歌学术

  75. 75。

    杨H,李吉,吴Z,李文,刘G,唐y。使用化学ames诱变数据设定为基准的结构警报鉴定的不同方法评价。Chem Res毒品。2017; 30(6):1355-64。

    CASPubMed文章pmed中央谷歌学术

下载参考

致谢

我们感谢Camda和FDA用于组织2019年Camda CMAP药物安全挑战,并为我们提供有机会在Camda / ISMB会议上展示我们的贡献。

资金

AL由Glaxosmithkline和PW提供资金,通过国家中心的替代,改进和减少研究(NC3RS)的资金提供资金。

作者信息

从属关系

作者

贡献

基于化学描述符和基因表达的预测模型分别由MW和AE生成。对MW、PW、AL和声发射模型进行了性能分析。AL分析蛋白质靶标和衍生通路,结果得到AL和DD的文献研究支持,AMB和PW进行结构预警分析,HY进行修改,AL、PW、MW、AMB、DD、HY撰写论文。AL和AB监督了这项研究。所有作者都阅读并批准了原稿。

作者的信息

不适用。

相应的作者

对应于对刘Andreas Bender.

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

www.v66088.comSpringer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1:si。

基因表达数据准备概述,DILI模型生成和使用L1000基因表达数据衍生的模型的模型和DILI标记预测性能。为所有化合物提取14个不同细胞系时间剂量组合的基因表达数据,用稀硅标记萃取。对相同化合物的复制测量不是聚合,导致每个数据集的正数和负数据点的数量不同。使用Dilirank或DilirAnk(-VlessConncerncerncerncern)数据集进行单独的RF和SVM分类模型,用于14个不同的细胞线时间剂量组合中的每一个。与使用从化学结构导出的描述符生成的模型不同,开发的RF和SVM模型没有比Y扰型模型更高的预测准确性。

附加文件2:图S1。

使用Dilirank(-VlessConserncern)数据集和5折Loco-CV,外部测试集和FDA验证集(方法)的RF和SVM型号的RF和SVM型号的Diri标签预测性能(平衡精度)。使用不同的训练数据集(DILIrank(−vLessConcern)、DILIrank、DILIrank (+SIDER))和训练数据集分割训练的10个模型的5倍内部交叉验证、外部测试集和FDA验证集的平衡精度通过须状图显示。3个y-置乱模型的中值模型性能显示为三角形的交叉验证和外部测试集。交叉验证和外部测试集之间的预测精度是稳定的,但在预测FDA验证集时,观察到预测精度的明显下降。

附加文件3:图S2。

使用DILIrank(−vLessConcern)数据集和5倍LOCO-CV、外部测试集和FDA验证集(Methods)的蛋白质目标描述符训练的RF和SVM模型的DILI标签预测性能(平衡精度)。使用不同的训练数据集(DILIrank(−vLessConcern)、DILIrank、DILIrank (+SIDER))和训练数据集分割训练的10个模型的5倍内部交叉验证、外部测试集和FDA验证集的平衡精度通过须状图显示。3个y-置乱模型的中值模型性能显示为三角形的交叉验证和外部测试集。交叉验证和外部测试集之间的预测精度是稳定的,但在预测FDA验证集时,观察到预测精度的明显下降。

附加文件4:图S3。

使用Dilirank(-vlessConcerncerncerncerncerncerncerncerncerncerset的RF的不同特征的富集途径。丰富的途径显示在不同的特征重要性界限,这些特征的重要性界限由所覆盖的dili富集蛋白目标的百分位数确定。显著途径(FDR < 0.05)用-log (FDR)表示,没有任何基因存在的途径用白色表示,不显著途径用灰色表示。通过磷酸化调节TP53是在识别显着途径的最高阈值下保守的途径。其他鉴定的途径包括花生酸代谢和前列腺素合成。

附加文件5:图S4。

通过使用DILIrank(−vLessConcern)数据集,支持向量机在不同特征重要性界限之间的丰富路径。丰富的途径显示在不同的特征重要性界限,这些特征的重要性界限由所覆盖的dili富集蛋白目标的百分位数确定。显著途径(FDR < 0.05)用-log (FDR)表示,没有任何基因存在的途径用白色表示,不显著途径用灰色表示。虽然有些通路仅在高阈值时才显著,如类固醇激素生物合成,但其他通路仅在低阈值时才显著,如TLR信号通路。此外,一系列的途径包括生物转化,细胞色素450和花生四烯酸代谢通过大多数阈值观察到。

附加文件6:表S1。

使用Dilirank(-VlessConcerncern)数据集进行培训的模型的性能。Shown is mean ± standard deviation for 7 metrics (MCC - Matthew’s Correlation Coefficient, PRAUC - Precision-Recall Area Under Curve, ROCAUC - Receiver-Operator-Characteristic Area Under Curve) for models trained using ECFP4, Mordred molecular descriptors (MD), and protein target descriptors (PT). Row names correspond to the descriptor type, algorithm, and the test set - external test set (ET), FDA validation set (FDA). The best external test set and FDA validation set performance per metric are shown in大胆的。对于FDA验证集,PRAUC和Rocauc仅作为Camda提供预测的混淆矩阵。使用SVM和ECFP4描述符接受训练的模型实现了FDA验证集的最佳性能。

附加文件7:Tables2。

RF和SVM具有高特征重要性的蛋白质,以及与DiLi的链接。显示了具有RF或SVM模型中最高特征重要性的19个蛋白质。如果蛋白质在相应模型中排名第一的蛋白质,则以粗体显示该特征重要性。许多蛋白质具有肝脏药物代谢和细胞应激的已知功能。具有合理性参与帝力的蛋白质以斜体表示。

附加文件8:Tables3。

RF和SVM中具有高特征重要性的途径,以及与Dilei的链接。示出了具有RF或SVM模型中具有最高特征重要性的19种蛋白质的超人效益的基因集。许多鉴定的途径具有肝脏药物代谢和细胞应激的已知功能。

附加文件9:Tables4。

最重要的结构警报(P.值≤0.05)。显示以下质量指标:精度,DiRi阳性化合物(%)的覆盖率,以及药物银行的数量[44]显示有批准的具有子结构的化合物。* MOSS子结构表示法以较重的原子形式为子图,既不是微笑也不智能。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

刘,A.,沃尔特,M.,Wright,P。et al。基于化学结构的药物性肝损伤(DILI)预测和机制分析。Biol Direct.16,6(2021)。https://doi.org/10.1186/s13062-020-00285-0

下载引用

关键字

  • 药物性肝损伤(DILI)
  • 机械模型
  • 结构警报
  • 蛋白质目标