英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
基于MapReduce的支持向量机大规模预测蛋白质-蛋白质相互作用
祝洪友,于建中,林竹,李帅,文振坤
- 深圳大学计算机科学与软件工程学院,广东深圳518060
- 同济大学电子与信息工程学院,上海201804
c.香港理工大学计算学系,香港,中国
A R T I C L E I N F O
文章历史:
2013年12月23日收到修改后的表格
2014年3月29日-2014年5月1日接收
2014年7月5日在网上可见
关键词:
蛋白质间交互作用
映射
支持向量机蛋白质序列
自相关描述符
A B S T R A C T
蛋白质-蛋白质相互作用(PPIs)是大多数生物化学过程的关键,包括代谢周期,DNA转录和复制,以及信号级联。虽然通过高通量的实验技术已经生成了大量不同物的蛋白质-蛋白质相互作用数据,但与可能的PPIs总数相比,数量仍然有限。此外,识别PPIs的实验方法既费时又昂贵。因此,开发自动化计算方法来有效、准确地预测PPIs是一项迫切而又具有挑战性的工作。在本文中,我们提出了一种新的基于映射的并行支持向量机模型,该模型仅利用蛋白质序列的信息来预测蛋白质与蛋白质之间的相互作用。首先,从蛋白质序列中提取由自相关描述符表示的局部序列特征。然后利用映射框架对支持向量机(SVM)分类器进行分布式训练,在保持较高精度的同时,显著提高了训练时间。实验结果表明,所提出的并行算法不仅可以
处理大规模的PPIs数据集,而且在速度和精度的评价指标上都有较好的表现。因此,该方法可以作为一种具有良好性能和较短时间的大规模PPI预测工具。
2014年爱思唯尔版权所有
1. 介绍
蛋白质-蛋白质相互作用(PPIs)的研究对于揭示细胞调控过程至关重要。到目前为止,已经开发了许多创新技术,包括酵母双杂交(Y2H)筛选[1,2]、亲和纯化和质谱(AP-MS)分析、串联亲和纯化(TAP)[3]、质谱蛋白复合物鉴定(MS-PCI)[4]和其他高通量的实验技术,用于检测以前未加碳或新的PPIs。这些高通量技术已应用于果蝇黑腹果蝇[5]、酿酒酵母[6]、优雅型枯草杆菌[7]、大肠杆菌、人[9]等大量模型生物的PPIs全基因组研究。
尽管这些数据库是非常有价值的资源,但它们通常存在很高的错误交互率(假阳性)覆盖一小部分完整的PPI网络(假阴性)[11-16]。因此,开发高效、准确的计算方法,从间接线索[11]推断新的蛋白相互作用具有重要的现实意义。基于不同的数据类型,已经提出了许多预测PPIs的计算方法,包括基因组文化学、系统发育概况、基因邻域、基因融合、相互作用蛋白间的序列保存、文献挖掘等[17-19]。也有将来自多个不同数据源的交互信息组合起来的方法[20-22]。然而,如果对这些蛋白质没有这样的预先了解,这些方法就无法实施。
近年来,一些直接从氨基酸序列中提取信息的方法引起了人们的特别关注[23-25]。近年来,许多学者致力于基于序列的PPIs新发现方法的研究,实验结果表明,单凭氨基酸序列的信息就足以预测PPIs。其中,沈等人开发的基于svm的方法是一项优秀的工作。本研究根据20种氨基酸的偶极子和侧链的体积将其聚类为7类,并在氨基酸分类的基础上,采用联合三联法提取蛋白质对的特征。
-----
通讯作者:
电子邮箱:zhyou@szu.edu.cn ,shuaili@polyu.edu.hk (S. Li)。http://dx.doi.org/10.1016/j.neucom.
2014.05.072爱思唯尔版权所有
将该方法应用于人类PPIs的预测,预测精度高达83.9%。因为联合三方法不能考虑了邻近效应和交互作用通常发生在不连续的氨基酸片段序列,另一方面工作郭等人开发了一种基于支持向量机和自协方差方法提取信息的交互不连续的氨基酸片段序列[11]。将该方法应用于酿酒酵母PPIs的预测,预测精度为86.55%。在我们之前的工作中,我们也利用自相关描述符和相关系数获得了良好的预测性能。
近年来,随着高通量基因组测序技术的迅速发展,序列数据量迅速增长。因此,准确、大规模地直接从氨基酸序列预测蛋白质与蛋白质之间的相互作用是计算生物学的一大挑战。因此,计算算法的并行化是一种自然的解决方案。这些分布式计算范式通常将一个大的训练数据集划分为小的部分,并使用计算机集群的资源并行地处理每个部分。Collobert等人提出了一个并行模型,该模型利用整个训练数据集的子集对一对SVM进行训练,然后将多个分类器集成到一个最终的决策分类器[28]中。Zanghirati和Zanni提出了一种基于消息传递接口(MPI)分解技术的SVM训练算法的并行实现,该算法将问题转化为更小的二次规划子问题。然后将每个亚亲blem的结果合并为[29]。Syed等人提出了分布式支持向量机算法,该算法在一个中央处理中心[30]中局部查找SVs并对其进行处理。目前分布式SVM方法的主要思想是先进行数据分块,然后并行实现SVM训练。但是,在这些方法中没有考虑全局同步开销。
大规模PPI数据集训练的其他解决方案包括使用专用处理硬件,如图形处理单元(GPU)或大规模并行处理(MPP)环境[31,32]。Do等人提出了一个创新的变化,将核心处理元素卸载到GPU[33]。Matsuzaki等人采用混合并行(MPI/OpenMP)技术开发了一个高吞吐量和超快PPI预测系统,该技术假定应用于大规模并行超级计算系统。实验结果表明,[31]的速度有明显的提高。然而,这种方法的一个关键挑战在于专门化的环境和配置需求。
映射是一个著名的并行分布式框架,用于处理由谷歌[34]首先开发的大型数据集。它目前已成为大规模数据密集型应用的重要分布式处理模型。本文提出了一种基于映射约简的支持向量机并行模型,该模型仅利用蛋白质序列的信息来预测蛋白质与蛋白质之间的相互作用。通过对云计算系统数据节点上的训练集进行分割,对每个子集进行迭代优化,得到单个全局分类器函数。这种方法的基本思想是从每个云节点上的每个优化的训练集子集中收集sv,然后将它们合并为全局支持向量。更具体地说,首先从蛋白质序列中提取由自相关描述符表示的局部序列特征。然后利用映射框架对支持向量机(SVM)分类器进行分布式训练,在保持较高精度的同时,显著提高了训练时间。实验结果表明,所提出的并行算法不仅可以处理大规模的PPIs数据集,而且在速度和精度的评价指标上都有较好的表现。因此,本文提出的方法是一种有前途的新方法。强大的工具,大规模预测PPI与优良的性能和更少的时间。
- 材料与方法
2.1数据源
我们利用Pan等人在[35]研究中使用的人体PPI数据对该方法进行了评价。数据集从人类蛋白质参考数据库(HPRD)下载。去除自作用和重复作用后,9630种不同人类蛋白之间剩余的36630对PPI对构成最终的阳性数据集。
金阴性数据集的选择对预测精度的影响是可变的,对阳性数据中占主导地位的样本的偏倚可以人为地夸大金阴性数据集的选择对预测精度的影响。对于金阴性集,我们遵循之前的工作[35]假设在单独的亚细胞间隔中的蛋白质不相互作用。本研究从57.3版本的Swiss-Prot数据库中提取金阴性数据集,依据四个准则:(1)去除带有不确定亚细胞位置项标注的蛋白序列。(2)由于缺乏唯一性,删除了多个位置标注的蛋白序列。(3)去除标注“片段”的蛋白序列。(4)去除氨基酸残基少于50个的蛋白序列,因为它们可能是片段。
严格按照上述步骤,我们最终从6个亚细胞定位中获得1773个人类蛋白。然后通过随机配对来自不同亚细胞间隔的蛋白质来构建非相互作用的蛋白质对。我们还下载了带有实验证据的人类金阴性数据集,用于Smialowski等人的[36]研究。结合上述两个阴性数据集,最终的金阴性数据集由36,480对非相互作用的蛋白质对组成。整个数据集由73,110对蛋白质对组成,其中近一半来自阳性数据集,另一半来自阴性数据集。从阳性和阴性数据集中随机选取五分之四的蛋白质对作为训练数据集,其余五分之一作为测试数据集。
2.2特征向量提取
2.2.1生成蛋白质的理化性质序列
利用机器学习方法从蛋白质中预测PPIs序列,其中最重要的计算挑战之一是从蛋白质序列中提取特征向量,其中蛋白质的重要信息内容被充分编码。本节选取6种氨基酸的序列理化性质来反映氨基酸的特性。这些物理化学性质包括疏水性(H)、氨基酸侧链体积(VSC)、极性(P1)、极化率(P2)、溶剂可达表面积(SASA)和氨基酸侧链净电荷指数(NCISC),为PPI预测提供依据。每种氨基酸的这六种理化性质值如表1所示。
通过这种方法,氨基酸残基首先被转换成表示物理化学性质的数值。然后根据式(1)将其归一化为零均值和单位标准差(SD):
其中Pij为第i个氨基酸的第j个描述符值,Pj为第j个描述符在20个氨基酸上的均值,Sj为
2.2.2自相关描述符
大多数机器学习技术,如SVM,都需要一个固定长度的特征向量作为输入。然而,由于蛋白质序列长度不等,往往存在长度不等的特征向量。本研究采用Wold等[37,38]提出的统计工具自相关描述符(autocorrelation descriptor, ACD)将这些数值向量转化为均匀矩阵,ACD在计算生物学[39]领域得到了广泛的应用。给定一个蛋白质序列,自相关描述符(ACD)描述氨基酸性质沿[40]序列的分布,并根据其特定的理化性质[38]描述两个蛋白质序列之间的相关性水平。因此,该方法可以考虑序列中残基的局部环境。这里我们使用Moran自相关描述符[37]对蛋白序列进行描述,定义为:
其中N是蛋白质序列的长度,dfrac14;1; 2; 3;hellip;hellip;; 30残渣和邻国之间的距离,Pj的属性值和Pjthorn;d氨基酸分别为j和jthorn;d位置。P是考虑的性质P沿蛋白序列的平均值,即:
最后,莫兰自相关描述符由一共有30 6frac14;180描述符的值,即:,构建了一个180维的载体来表示蛋白质序列。通过将该蛋白质对中两个蛋白质序列的Moran自相关描述符串联起来,形成了相互作用对的表示形式。
2.3支持向量机
支持向量机(SVM)是最早由Vapnik[41]开发的一种用于解决分类和回归问题的有监督学习算法。由于其在生物信息学等许多实际应用中比其他技术具有更好的泛化性能,近年来引起了广泛的研究关注。支持向量机起源于结构风险最小化理论[41]的思想。该方法与包括神经网络在内的许多传统分类方法的主要区别在于,它将结构风险最小化,而不是将经验风险最小化。该原则基于这样一个事实,即最小化泛化误差的上限而不是最小化训练误差,预期会取得更好的效果。SVM训练始终寻求全局最优解,避免过度拟合,具有处理大量特征的能力。一个完整的描述SVMs理论的模式识别是在Vapnik的书[41]。
利用SVM模型进行分类的基本思路如下:首先,将原始数据X通过线性或非线性映射函数映射到高维特征空间F中,这与核函数的选择有关。然后,从第一步开始,在特征空间内寻找一个优化的线性划分,即构造一个超平面,将数据分成两类。
给出实例-标签对fxi的训练数据集;钇铁石榴石;我frac14;1;2hellip;;N xiARn输入数据和输出数据的标签yiA fthorn;1;1 g。SVM实现的分类决策函数表示为:
系数alpha;i在哪里得到解决后凸二次规划(QP)问题:
在式(6)中,C是一个正则化参数,控制边距和误分类误差之间的权衡。这些xj称为支持向量只有相应的alpha;j40。
在这项工作中,径向基函数(RBF)内核,该公式被应用,更好的边界响应和大多数高维数据集可以用高斯近似分布。实验采用著名的LIBSVM软件进行分类。
2.4 映射模型
映射是一种编程模型,支持在类似于商品集群的并行计算机上运行的数据密集型应用程序。它最初由谷歌开发,并基于并行[34]中的原则构建。映射由两个主要的并行处理阶段组成,Map阶段和Reduce阶段。Map阶段为分布式数据集的每个元素使用用户定义的Map函数。Map函数包含以键-值对作为参数并发出键-值对。Reduce阶段使用用户定义的Reduce函数用相同的键聚合所有值。使用相同的键收集键值对的阶段称为shuffle的成功
图1所示 MapReduce框架的说明
MapReduce模型之所以简单,是因为用户只需要关注数据处理功能,而不需要关注paralle-lism细节。用户提供高级并行性信息,并允许映射和Reduce函数跨多个节点并行执行。MapReduce模型已被用于开发各种数据密集型应用,如机器学习、计算生物学等。
2.5.Hadoop概述
Apache Hadoop是MapReduce模型在计算机集群上的成功实现。Hadoop框架由两个主要组件组成:作为存储层的Hadoop分布式文件系统(HDFS)和作为分析引擎的Hadoop MapReduce。Hadoop集群由一组连接到网络的计算机(节点)组成。一个节点被指定为主节点,而其他节点被称为从节点。通常,主节点控制一组从节点,映射
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[439853],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。