基于图正则化矩阵分解的药物与靶点相互作用的预测外文翻译资料

 2022-08-28 11:52:57

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于图正则化矩阵分解的药物与靶点相互作用的预测

Ali Ezzat, Peilin Zhao, Min Wu, Xiao-Li Li, and Chee-Keong Kwoh

摘要

药物与靶点相互作用的实验测定既费时又费钱。因此,存在一个连续的对使用计算技术更准确地预测相互作用的需求。已经设计了算法来推断新的在全球范围内的相互作用,这些算法的输入是药物靶网络(即边连接的二部图)一对已知相互作用的药物和靶点)。然而,这些算法很难预测涉及新技术的交互作用没有已知相互作用的药物或靶点(即网络中的“孤立”节点)。因为数据通常位于对于低维非线性流形,我们提出了两种利用图正则化的矩阵分解方法来学习这类流形歧管。另外,考虑到网络中许多未出现的边缘实际上是未知或缺失的情况,我们将开发了一个预处理步骤,通过添加带有中间层的边来增强“新药”和“新靶”情况下的预测互动可能性得分。在我们的交叉验证实验中,我们的方法比其他三种最先进的方法取得了更好的结果方法在大多数情况下。最后,我们模拟了一些“新药”和“新靶点”案例,发现GRMF预测了漏掉的结果互动相当好。

关键词:药物-靶标相互作用预测,矩阵分解,图正则化,流形学习。

1、介绍

药物开发是一个耗时且昂贵的过程被称为高磨损率[1]。这就导致了从业者们的极大不满对药物重新定位的兴趣(可重复使用)新适应症的药物)由于其潜在的开发新产品所固有的时间、成本、风险和努力药物[2]。对药物重新定位工作非常重要是存储和维护的在线生物数据库已知药物和药物靶点信息交互;此类数据库的示例包括KEGG[3],DrugBank[4]、ChEMBL[5]和STITCH[6]。不过,撇开从存储在在线数据库中的交互中,还有更多的相互作用有待发现,推动了各种预测新药靶点的计算技术互动。这些计算技术有助于预测,有了合理的信心,新的未被发现的互动为了进一步的实验研究和确认,从而大大促进了药物的开发过程。

从这些计算技术来看,本文是对全球范围的药物-靶点相互作用预测感兴趣有利于药物开发过程确定已知药物以前未知的靶点以及可能导致不良副作用的偏离目标[7]. [8]中提供了此类方法的最新概述。

药物靶向相互作用的早期方法用于对接模拟的预测[9]或基于配体的方法[10]。然而,这些技术中的每一种都有缺点:用于对接在模拟中,目标蛋白质的三维结构必须可供选择,但通常情况并非如此;对于配体基在这种情况下,如果已知的配体很少或没有,就会出现一个问题目的蛋白。

由于这些困难,越来越受到人们的关注所谓的化学基因组学方法来自药物和目标双方的信息同时用于改进预测。其中一个开创性的化学基因组学方法[11]计算了药物之间的成对化学结构相似性以及它们之间的成对基因组序列相似性目标(蛋白质)。计算出的成对相似性有一个特定的药物靶向网络(相互作用的药物目标与边缘连接),然后用作输入到基于核回归的方法来推断新的互动。

使用相同的输入,一个二部局部模型提出利用支持向量机进行预测药物-靶点相互作用[12]。每对药物靶点,两个模特是独立训练的,一个来自药物方面另一个来自目标一侧。这两个模型是用于给出两个预测,从中得出最终预测结果由一个聚集函数得到。之后,另一个二部局部模型,使用正则化最小提出了最小二乘法()和另一种方法()这两个模型来自药物和靶点双方合并成一个采取克罗内克产品药物和靶点相似性矩阵[13]。

此外,其他研究人员也开始着手解决这个问题预测新药或靶点相互作用的问题没有已知的相互作用[14]。他们提议的NII(基于邻居的交互轮廓推断)加强了新药或药物的培训程序通过为目标导出临时交互配置文件。

基本的预测算法(在这种情况下为)将能够提供更好的预测结果。 在NII之后不久,有人提出了类似的程序WNN(加权最近邻),其目标与NII相同,是针对提出的[15]。 使用NII或WNN的方法的结果表明,这种预处理步骤确实有利于预测结果。

矩阵分解技术最近也已用于预测交互。 这样的技术将代表药物靶标网络的矩阵分解为多个低阶矩阵,这些矩阵由潜在(或隐藏)特征组成,这些潜在特征被认为可以控制药物-靶标相互作用。 这种技术的两个示例是贝叶斯矩阵分解方法KBMF2K [16]和协作矩阵分解方法CMF [17]。

我们观察到如何改善新药或靶标的预测结果是药物发现中的关键任务,但是由于新药与任何靶标之间没有已知的相互作用,新靶标与任何药物之间都没有已知的相互作用,因此这是一项具有挑战性的任务。 尽管已经提出了一些现有方法来改善对新药或靶标的预测性能,但其结果表明仍有改进的空间[14],[15],[17]。

基于我们的观察,许多缺失边缘实际上是未知的相互作用,我们设计了一个预处理步骤,该步骤添加了具有中间相互作用可能性分数的边来辅助预测。[18]为该预处理步骤提供了额外的动力,其中最近邻信息在药物中的重要性 -目标相互作用的预测被强调-作者对预测孤儿目标的配体感兴趣,并且他们的实验表明,只要有这些孤儿目标的近邻(已知配体)可用,就可以以合理的准确性预测孤儿目标的配体,无论用于 配体或目标。 请注意,就像配体一样,许多药物都是小分子,因此这也适用于药物与靶标的相互作用。

运行预处理步骤后,我们使用矩阵分解来预测药物-靶标相互作用。 但是,与CMF和KBMF2K不同,我们使用图形正则化来防止过度拟合。 在图正则化中,通过仅将每种药物/目标物的相似度值保持为最接近的邻居,来预先稀疏相似度矩阵。 通过这样做,图正则化能够了解假设数据位于(或接近)数据上的流形。 由于以前的研究表明(例如[19],[20],[21]),数据通常位于(或接近于)歧管上,因此,学习这样的流形方法有望得出更准确的结果。

为了评估我们提出的方法,我们使用交叉验证将其与其他三个最新方法(即BLM-NII [14],RLS-WNN [15]和CMF [17])进行比较。 此外,我们通过计算模拟了一个新的目标案例和一个新的药物案例(通过排除它们各自的相互作用),并在这些案例中测试了我们提出的一种方法,以研究其预测剩余相互作用的能力。

本文的其余部分组织如下:我们的工作中使用的数据集在第2节中进行了描述。

表1:每个数据集中的药物,靶标和相互作用

以及本文其余部分中使用的符号。 第3节简要介绍了三种最先进的竞争方法,其后是第4节,介绍了我们提出的方法。 然后,在第5节中展示我们工作的实验结果并提供相关讨论。最后,在第6节中得出结论。

2、数据

我们使用[11]中介绍的相同的四个数据集,它们对应于四种不同的目标蛋白类型,即核受体(NR),G蛋白偶联受体(GPCR),离子通道(IC)和酶(E)。 表1列出了这四个数据集的一些简单统计量,每个数据集包含三个矩阵:Yisin;,isin;和isin;。 矩阵Y是编码药物-靶相互作用的邻接矩阵,其中以ns药物为行,以m靶为列,如果已知药物对靶相互作用,则为1,否则为0。 矩阵代表药物对的化学结构相似性,矩阵代表目标对的基因组序列相似性。使用SIMCOMP [22]获得药物相似性,目标相似性为标准化的Smith-Watermanscores [23]。

3、相关工作

3.1 BLM-NII

BLM-NII是[14]中提出的预测药物-靶标相互作用的方法。 它使用二分局部模型( [13])作为基础算法,并使用NII对其进行扩充,从而得出新药或靶标的临时相互作用概况以协助预测。对于每个药物-靶标对(,)isin;Y,如果 是新的,NII可以通过考虑其与所有其他药物的化学相似性来推断其概况(即药物是新的(即与任何靶标之间没有已知的相互作用)之间的相互作用)。 新的药物二(Y的抛物线向量)的相互作用曲线定义为

然后通过最小-最大规格化将其规格化如下

然后,使用GIP(高斯交互作用分布图)内核从药物分布图中获取药物网络相似性矩阵。 两种药物和之间的网络相似性计算为exp(-gamma;),其中gamma;是一个参数。 然后,药物网络相似度矩阵与药物化学相似度矩阵线性组合,得到最终药物相似度矩阵。 为了从目标侧获得预测,获得最小二乘解为

其中是(Tikhonov)正则化参数,Y()是Y的第个列向量。类似地获得了来自药物侧的预测后,使用聚合函数将来自药物侧和目标侧的预测合并在一起,得出最终预测为

其中涉及药物靶标的药物靶标对的最终预测分数。 在[14]中,聚集函数为g=最大值。 但是,从我们的内部实验中,我们发现avg(i.e. =( )/ 2)给出了更好的结果,这就是我们用来获得本文所报告结果的方法。

3.2 RLS-WNN

我们将[15]中提出的工作称为RLS-WNN。 它使用[13]中的作为其基本算法,并使用WNN对其进行扩充,该过程与NII相似并且具有与NII相同的目标。

对于每一种新药,WNN用于推断其相互作用情况

其中,到是根据它们与d的相似性以降序排列的药物,而 =,其中eta;是衰变项当eta;lt;1。 请注意,或者,每个新目标t可能具有由WNN推断为的交互配置文件,如下所示:

WNN更新所有新药物(或靶标)后,将使用GIP内核最终获得最终药物和靶标相似度矩阵和。 获得最小预测的最小二乘解为

其中vec(Y)是一个列向量,其中包含所有药物靶点对,是一个(Tikhonov)正规化参数和K =otimes;是一个药物靶点对上的核,该核是通过获取和的克罗内克乘积而获得的。

3.3 CMF

CMF是文献[17]中提出的矩阵分解方法,可将目标函数降至最低

其中是逐元素积,权重矩阵,如果为未知,则 = 0,否则为 = 1。

第一行是WLRA(加权低秩近似)项,它试图找到可重构Y的潜在特征矩阵A和B。 第二行是Tikhonov正则项。 第三行和第四行是分别要求相似药物/靶标的潜在特征向量相似且不相似药物/靶标的潜在特征向量相似的正则化术语。

将等式8中作为L的目标函数并且让和成为第和表示为A和B的列向量,分别通过设置和来推导两个替代更新规则(一个用于更新,一个用于更新)。 交替运行更新规则,直到收敛为止。 最后,通过将A和B相乘得到药物-靶相互作用的预测矩阵。

4、方法

在这里,我们提出解决药物-目标相互作用预测问题的方法。 它包括两个步骤:

  1. WKNKN(加权K最近已知邻居),该预处理步骤将给定的药物靶标矩阵Y中的二进制值转换为交互作用似然值;
  2. GRMF(图正则化矩阵分解),用于预测药物-靶标相互作用的矩阵分解技术。 还提出了GRMF的一种变体,称为WGRMF(加权GRMF)。
    1. 加权K最近已知邻居(WKNKN)

给定的药物-目标矩阵有n个药物行和m个目标列。 Y中的第行,表示为Y(),是对药物的相互作用曲线。 类似地,Y中第列表示为目标Y()的相互作用曲线。已知的一种药物(或一种靶标)意味着它的特征曲线中至少有一个相互作用,而它是新的意味着它的特征曲线中没有任何相互作用。 Y的许多非互动(或0)都是未知情况,可能是真正的互动(即它们是假阴性)。 因此,我们认为将WKNKN作为预处理步骤,以基于未知邻居估计这些未知案例的交互可能性。 也就是说,假设等于0,WKNKN将其替换为0到1范围内的连续值,分为以下三个步骤:

  1. 水平方向更新:在已知最接近药物的已知K的分布图中获取相应值的加权平均值(权重是与这些最邻近药物的相似性)。
  1. 垂直方向更新:在已知最接近目标的已知K的分布图中获取相应值的加权平均值(权重是与这些最近的邻居的相似度)。
  1. 最终更新:取上述两个值的平均值代替 = 0,代表两次交互的总体和可能性。

图1:加权K最近已知邻居计算程序

图1包含详细描述上述过程细节的伪代码。eta;是一个衰减项,其中eta;le;1,并且KNearestKnownNeighbors()根据他们与和的相似度以降序返回K已知最近邻居。

注意,要推断药物-靶点对的相互作用可能性,WKNKN不会简单地使用“近邻”邻居。 它使用了K已知最近邻居,这是合理的,因为已知邻居具有附加的交互信息,将比其交互配置文件均为0的新邻居贡献更多的信息。

    1. 图正则化矩阵分解(GRMF)
      1. 稀疏相似矩阵

相似矩阵的稀疏化是图正则化之前使用的一种技术[24]。 在这项工作中,我们从每种药物和目标相似性矩阵和推导出一个p-nearest图。 也就是说,给定药物相似性矩阵,p-nearest邻居图N生成为

其中是药物的p最邻近的集合.N然后用于稀疏相似性矩阵作为:

这导致药物的稀疏相似度矩阵。 对目标相似度矩阵进行相同的过程。

第4.2.3节中描述的图形正则化有助于了解假设数据位于其中的药物和目标空间的流形; 学习流形时的一个假设(称为局部不变性假设)是,原始空间中彼此靠近的点在学习的流形中也应彼此靠近,这是通过获取保留原始数据的局部几何形状的p最近邻图来实现的[24 ]。

      1. 低阶近似

GRMF依赖于低秩逼近(LRA)的基本思想,该思想将药物目标矩阵分解为两个低秩潜在特征矩阵(针对药物)和(针对目标),从而将 LRA目标

其中符合Frobenius范数,并与A和B中的潜在特征数k相同。 请注意,这里的k与WKNKN的K不同。

      1. 正则化

为了防止过度拟合并提高泛化

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405267],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。