RFCRYS:基于序列的随机森林蛋白质结晶倾向预测外文翻译资料

 2022-08-26 16:33:23

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


内容列表可在SciVerse ScienceDirect上找到

理论生物学杂志

杂志主页:www.elsevier.com/locate/yjtbi

RFCRYS:基于序列的随机森林蛋白质结晶倾向预测

Samad Jahandideh a,n,1, Abbas Mahdavi b,1

美国阿拉巴马大学伯明翰分校生物统计系,统计遗传学组

强调

  • 与其他方法相比性能最高。
  • 我们的结果可以用来指导晶体学家选择更可行的替代目标。
  • 我们的研究结果将节省资源来解决更多的蛋白质。
  • 我们的结果表明,RF很好地适应于结晶倾向的预测。

文章信息

文章历史:

2011年11月25日收到修改后的表格

2012年1月27日

2012年4月24日

2012年5月2日

关键字:

随机森林算法x射线晶体学

蛋白质结构

摘要

制作高质量的衍射晶体是利用x射线晶体学确定蛋白质三维结构的关键步骤。只有2%-10%的结晶项目可以得到高分辨率的蛋白质结构。在此之前,已经发展了几种预测蛋白质结晶性的计算方法。本文介绍了一种基于随机森林的蛋白质结晶性预测方法RFCRYS。RFCRYS利用单肽、二肽和三肽的氨基酸组成、氨基酸在不同物理化学基团中的频率、等电点、分子量和蛋白质序列的长度,利用两个不同的数据库预测蛋白质的结晶性。将RFCRYS方法与已有方法进行了比较,结果表明,我们提出的基于该特征集的预测方法具有更高的预测精度、MCC和特异性。特别是,我们的方法具有较高的特异性,为0.95,这意味着RFCRYS很少错误地预测蛋白链是可结晶的,这将有助于节省时间和资源。综上所述,RFCRYS为蛋白质链的可结晶性提供了准确的预测,可用于支持获得衍射质量晶体的高成功率的结晶项目。

由爱思唯尔有限公司出版。

1. 介绍

蛋白质的功能特性是由蛋白质的三维结构决定的,而三维结构又依赖于氨基酸序列(Anfinsen, 1973),因此了解蛋白质的三维结构对于理解蛋白质的功能是很重要的。大规模的测序项目导致了已知蛋白序列数量与已知结构数量之间的差距,从而找到相关的规律,三维蛋白质结构的氨基酸序列是当代分子生物学研究的主要目标之一。为了减少这种序列-结构缺口,结构基因组学旨在解决这个问题(Chandonia和Brenner, 2006;Marsden等,2007)。

蛋白质三维结构的测定通常采用x射线晶体学和核磁共振波谱法。蛋白质三维结构的研究对于合理设计药物具有重要意义。虽然x射线晶体学是确定蛋白质三维结构的有力工具,但它既费时又昂贵。特别是,并不是所有的蛋白质都能成功结晶。例如,膜蛋白很难结晶,它们中的大多数不会在正常溶剂中溶解。因此,目前对膜蛋白结构的研究很少。虽然核磁共振确实非常强大。

近年来发表的一系列文献和最近的评论(Pielak and Chou, 2011),它是费时和昂贵的。为了及时获取结构信息,必须借助各种结构生物信息学工具(如Chou, 2004)。遗憾的是,利用结构生物信息学开发高质量三维结构的模板数量非常有限(Chou, 2004)。鉴于此,开发一种仅根据蛋白质序列信息预测蛋白质结晶倾向的有效方法将非常有帮助。本研究旨在解决这一问题。

从历史的角度来看,许多理论方法包括OB-score (Overton和巴顿,2006),秘密提出了结晶倾向的预测方法。预测方法的范围从统计方法到机器学习方法,输入特征的范围从简单的序列派生特征到组合序列派生和预测结构派生特征(Huang et al., 2010;Pugalenthi等,2010;肖和周,2011;王等,2011;肖等,2011)。

在目前的调查,我们应用随机森林(RF)的最准确的学习算法来预测crystal-lization倾向使用sequence-derived特性包括mono - di - tri-peptides氨基酸成分,频率不同理化组的氨基酸等电点、分子量、和蛋白质序列的长度,从主序列。初步得到的结果表明,利用该特征集进行RF预测结晶倾向具有良好的序列驱动特征。

根据近期的综合综述(Chou, 2011),要建立一个真正有用的蛋白质系统统计预测因子,我们需要考虑以下步骤:

  1. 构建或选择一个有效的基准数据集来训练和测试预测因子;
  2. 用有效的数学表达式来编制蛋白质样本,真实地反映其与预测目标的内在相关性;
  3. 引入或开发一个强大的算法(或引擎)来进行预测;
  4. 正确进行交叉验证试验,客观评价预测器的预测精度;
  5. 为预测器建立一个方便使用的网页伺服器,供市民查阅。

下面,让我们描述一下如何处理这些步骤。

2. 材料和方法

2.1数据库

在这项工作中,我们使用了两套数据库;(1)一个旧的数据库,包含1500个蛋白质训练集TRAIN1500和两组500和144个蛋白质,TEST500和TEST144。TRAIN1500和TEST500最初由Kurgan等人(2009)描述,并收集了Overton等人(2008)提出的使用程序。还有来自Overton等人(2008)的TEST144,由72个可结晶蛋白序列和72个不可结晶蛋白序列组成,

用来评价我们在1500列火车上的训练方法。(2) Mizianty and Kurgan(2011)最近报道的数据库包括一个包含3585个蛋白质的训练集和一个包含3587个蛋白质的测试集。为了避免同源性偏差和去除冗余序列,我们设置了25%的截止阈值来排除那些与同类中任何其他蛋白具有25%成对序列一致性的蛋白。尽管他们以不同的方式分配蛋白质,我们用两个类标签标注蛋白质,非结晶性和结晶性,用于二元预测程序。

2.2一种新的蛋白质特征向量伪谱分析模型

在本研究中,为每个数据库生成了一组特性。由于第一个数据库的规模较小,因此只定义并生成了31个序列派生特性。这些特征包括:(i)氨基酸(AAs)组成;为了定义AAs成分,我们使用了之前用于预测结晶性的成分向量(Chen et al., 2007;Overton等,2008;Smialowski等,2006)。给定20个AAs (A, C,y, W, y),按字典顺序排列,记为AA1, AA2,y,AA19, AA20, AAi在序列中出现的次数(记为ni),则组合向量定义为

eth;n1 = k, n2 = k,hellip;, n19 = k, n20 = kTHORN;

其中k是蛋白质链的长度。

除氨基酸组成外,还生成了微量、微量、脂肪族、芳香族、非极性、极性、带电、正、负9个不同理化基团的氨基酸组成。我们还生成了等电点、分子量(MW)和序列长度(31个特征)。为了计算序列驱动特性和等电点,我们在R环境中使用了seqinr包。

对于第二个数据库,除了前面的特性外,还生成了二肽和三肽氨基酸组合物。为了开发一个强大的蛋白质系统预测器,其中一个重要的关键是制定出有效的数学表达式的蛋白质样本,能够真实地反映其与预测目标的内在相关性(Chou, 2011)。为了实现这一点,提出了伪氨基酸组成(PseAAC)的概念(Chou, 2001)来代替简单氨基酸组成(AAC)来表示蛋白质样品。自从PseAAC的概念被引入以来,它被广泛地应用于研究蛋白质和蛋白质相关系统中的各种问题(如Mohabatkar, 2010;Esmaeili et al., 2010;林,2008;曾等,2009;陈等,2009;丁等,2009;周等,2007;林和王,2011)。根据最近一次综合评审(Chou, 2011)的Eq.(6),可以生成PseAAC的形式并表示为

Pfrac14;frac12;c1c2Cu CO T eth;1THORN;

T是一个转置运算符,而订阅O是一个整数,它的价值以及组件c1, c2, y将取决于从氨基酸序列中提取所需的信息特征向量生成的p .这里,我们有Ofrac14;(20thorn;202thorn;203thorn;11)frac14;8431组件。

我们使用t检验来选择重要的特征。我们使用这些功能的原因是增加了数据库的大小,这提供了足够的重复二肽和三肽氨基酸组成。

2.3随机森林分类

随机森林(RF)是由Breiman(2001)开发的。射频分类扩展了决策树的概念,并得到了广泛的应用,成功应用于各种生物问题。RF是决策树的集合,而不是一棵树,其中每棵树都使用来自训练数据集的引导样本进行训练。然后在每个节点上使用随机选择的谓词子集来生成这些树。构建完所有树之后,就可以根据拥有最多选票的类标签对新对象进行分类,其中每一票都是由林中的每一棵树决定的。最后,使用引导样本中遗漏的观察值(称为out-of-bag (OOB)观察值)估计预测性能。RF的一个优点是,树木的森林包含了大量关于变量和观测值之间关系的信息。这些信息可用于预测、聚类、输入缺失数据和检测异常值。RF算法由randomForest (version 4.6-2) R包实现(Liaw and Wiener, 2002)。我们使用了调谐随机森林(tuneRF)函数,树的数量和步长因子分别设置为1000和2。然而,不同的特性都有默认值,这些值由程序提供,我们在本文中使用了它们。

在建立了训练集方法后,利用训练集方法对测试集进行了性能验证。

2.4方法评价

采用阈值相关的方法对射频性能进行了评价。这些测度可由四个标量导出;TP(真阳性:数量的正确预测蛋白质链可结晶的蛋白链),TN(真正的底片:正确地预测数量non-crystallizable蛋白质链non-crystallizable蛋白质链),FP(假posi-tives:错误地预测数量non-crystallizable蛋白质链可结晶的蛋白链)和FN(假阴性:不合适数量预测可结晶的蛋白链non-crystallizable蛋白质链)。采用以下公式计算方法输出结果的准确性、Mathew相关系数(MCC)、灵敏度和特异性等4项指标:

准确性 frac14;eth;eth;TPthorn;TNTHORN;=eth;TPthorn;TNthorn;FPthorn;FNTHORN;THORN;100eth;2THORN;

MCC frac14;eth;TP TN FP FNTHORN;= Oeth;TPthorn;FPTHORN;eth;TPthorn;FNTHORN;eth;TNthorn;FPTHORN;

eth;TNthorn;FNTHORN; eth;3THORN;

灵敏度 frac14;TP =eth;TPthorn;FNTHORN; eth;4THORN;

特异性 frac14;TN =eth;TNthorn;FPTHORN; eth;5THORN;

3.结果

在统计预测中,经常使用以下三种交叉验证方法来检验预测器在实际应用中的有效性:独立数据集检验、亚采样检验和jackknife检验(Chou and Zhang, 1995)。然而,阐明在周和沈(2008)和证明了Eqs.28 - 32周(2011),三种交叉验证方法中,重叠测试至少被认为是任意的(最客观),可以产生一个独特的结果对于一个给定的基准数据集,因此越来越多的广泛使用和被调查人员检查各种预测的准确性。然而,为了减少计算时间,我们在本研究中采用了与许多研究者一样的独立测试数据集交叉验证,并使用SVM作为预测引擎。本算法的编程与实现采用R语言版本R.2.13.1。

3.1利用first数据库预测RF方法的性能

RFCRYS的总体性能是使用前一节描述的两个不同的测试集来评估的。采用准确性、MCC、特异性和敏感性四种阈值相关指标评价RFCRYS的性能。根据该方法的输出,得到表1所示的结果。在TEST500上得到的准确率为80.40%,MCC为0.61,特异度为0.86,灵敏度为0.75。此外,在TEST144上得到的结果在准确性、MCC、特异性和敏感性上分别为81.25%、0.63、0.83和0.79。

得到的性能测量值与偏聚pcp、基于svm的集成、OB-Score、

表1

第一个数据库的测试集TEST500和TEST144的结果摘要。在TEST500和TEST144测试集上的结果比较了RF、偏pcp、基于svm的meta预测器、ParCrys、CRYSTALP2、XtalPred和o- score。

表2

第二个数据库的结果摘要。第二数据库测试集的测试结果对比了RF、ParCrys、obo - score、blast、CRYSTALP2、偏pcp、SVMCrys、XtalPred、SVM_POLY、max、PPCpred。

我们的方法在TEST144上提供了更高的精度、MCC和灵敏度值,这表明它提供了有用的输出。此外,我们的方法与偏聚pcp和XtalPred的特异性值相同,均为0.79。

另一方面,在TEST500上得到的结果表明,偏置pcp优于我们的方法。但是值得注意的是,meta- pcp是一种预测因子,它是基于obo - score、ParCrys、XtalPred和CRYSTALP2等预测因子生成的不同类型的特征(如PDB中同源物的数量、肉汁水解指数和等电点值)而开发的。

3.2利用第二数据库预测射频方法的性能

为了构建我们的方法,我们选择了一些重要的特征,包括1341个序列派生特征作为训练和测试集的输入。所选择的特征多为单个残基或具有不同构象熵的残基组合。例如,Glu (E)、Gln (Q)和Lys (K)具有较高的构象熵,Ala (A)、Tyr (Y)、Thr (T)、Ser (S)和His (H)具有较低的构象熵和较高的介导晶体接触的电位。将RFCRYS与近年来的结晶倾向测定方法进行了比较;请参见表2中第二个数据库上的结果。RFCRYS在二值预测(基于准确性、MCC和特异性)方面优于现有方法。现有的最佳方法是PPCpred,这可能是由于使用了一组全面的特性,其次是基于maxbased、SVM_POLY、XtalPred和SVMC

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[439860],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。