用于DNA丙型肝炎病毒趋势突变分析的混合K均值,模糊C均值和层次聚类外文翻译资料

 2022-12-19 17:42:45

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


用于DNA丙型肝炎病毒趋势突变分析的混合K均值,模糊C均值和层次聚类

a Department of Electrical Engineering, Institut Teknologi Sepuluh Nopember, Surabaya, Indonesia

b Department of Biomedical Engineering, Institut Teknologi Sepuluh Nopember, Surabaya, Indonesia

c Department of Computer Engineering, Institut Teknologi Sepuluh Nopember, Surabaya, Indonesia

d Department of Rehabilitation Medicine, University Medical Center Groningen, University of Groningen, Groningen, the Netherlands e Department of Biomechanical Engineering, University of Twente, Enschede, the Netherlands

摘要:每条DNA链由10个核苷酸序列组成。这些序列不能分开或随机排列,因为每个DNA序列都含有某种基因组编码。当病毒发生变异时,已经给予病人的该病毒的药物或疫苗将变得无用。因此,需要一种分析DNA突变的可能方向的方法,以便可以更快地调整预防措施。RNA型病毒能够改变受感染DNA的模式,这是这种病毒自我防御的一种方式。在本文中,我们提出了一种新的混合聚类方法,它结合了K均值,模糊C均值和层次聚类来预测DNA突变趋势的方向。我们在混合聚类方法中将这三种不同的方法结合起来,并在具有37种HCV引物的1000个分离的阳性丙型肝炎病毒(HCV)感染和未感染的DNA链的两个数据集上进行测试。我们将结果与其他八种聚类方法的结果进行比较,并且比较显示我们的方法实现了0.998的灵敏度和特异性值。在考虑进行比较的八种方法中,聚类分割的精确度也比第二高的精确度高0.004。从该研究中,可以找到最常出现在分离的DNA中的引物趋势,并且可以推断出这些趋势在分离的DNA中的起源。

关键词:混合聚类;K-means;模糊C均值;分层聚类;丙型肝炎病毒

  1. 介绍

聚类方法已广泛应用于各个领域的分类分析,其中之一是DNA的分析模式(Nguyen,Ngo,Pham,&Pedrycz,2015; Shinde&Tidke, 2014; Torshizi&Zarand,2014)。一个简单快速的分组过程 与其他机器学习方法相比,聚类方法的优势之一(Veselka, 2014年).当形成一个组作为聚类过程的一部分时,应该生成一个质心作为聚类的中心;这个质心可以随机生成或手动指定。然后,对于每个数据点,将计算到质心的距离,并且距质心最短距离的节点将被视为该聚类的成员(Francisco et al,2014;Gorunescu, 2011年)。分析DNA模式时,分类和聚类方法用于识别生物中的疾病,某些物种之间的关系以及DNA模式的变化。

K 均值聚类是一种无人监督的建模方法,最初被使用 麦奎恩(1967).它的工作原理是根据相对于中点或最近质心的现有类别或条件将多个对象划分为多个分区。该方法最小化同一群集中的数据之间的变化,并最大化不同群集中的数据之间的变化。

可以通过评估DNA分离物和引物之间的相似性来分析DNA数据。这样的分析旨在找到分离DNA中的模式,因为我们想分析与不同国家的分离DNA互补的引物类型是否可能相关。要解决此问题,应应用适当的层次聚类模型。层次聚类有两种方法:凝聚(自下而上)和分裂(自上而下)。在凝聚聚类中,在找到最短距离后,可以使用三种方法来确定如何将数据分配给聚类,即单一联系(最短距离)方法,完全连接(最远距离)方法,以及平均连接方法。

在从单一生物分离的DNA中,存在约9000至15,000个核苷酸序列。这允许分离的DNA文件显示出与多于一种引物的相似性。在这种情况下,模糊C均值(FCM)聚类是一种合适的方法,因为FCM聚类允许将数据分配给多个聚类。每个孤立的数据都具有相对于每个质心的一定程度的成员资格。在FCM群集中,指定了群集中成员资格的最低要求,并且如果数据满足指定的最小距离,则该数据可以属于多个群集。

实际上,不能说聚类过程像预期的那样简单。有时,由于非结构化数据和分层分类,所使用的数据集很复杂,预期目标可能是多维的。分离的DNA由一组包含数百万个序列的字符串数据表示。每个序列都是包含某些信息的模式。然而,这些模式有时是非结构化的,尽管它们相似,并且模式的变化称为突变。前面段落中描述的三种聚类方法各自具有相应的优点并且适用于特定情况。K-means聚类适用于独占聚类,层次聚类适用于明显的聚类,FCM聚类适用于重叠聚类。如果正在研究的数据有时包含可能突变的重叠数据,并且质心是不同的,但预期结果是分层的,该怎么办?本文提出了一种混合聚类方法,该方法继承了所有三种方法的优点,预期结果是每组DNA序列都显示出与特定引物相似的趋势。K-means聚类用于鉴定DNA分离物与特定引物的相似性,基于引物与分离DNA的来源之间的关系,使用分级聚类分析某些国家的丙型肝炎病毒(HCV)的传播,和FCM聚类用于分析HCV突变趋势。我们还将我们提出的方法的结果与八种替代聚类方法的结果进行比较:决策树,支持向量机,Apriori,期望最大化,k-最近邻,分类和回归树,朴素贝叶斯和一般Kmeans方法。

决策树方法是一种分类和预先的方法基于根据决策结果确定数据相关性的措辞。可以根据常规属性和共存标准计算这些结果(盛磊和清华,2018年)或通过使用差别隐私的概念来计算杂质关于增益信息和基尼系数的指标(Xiaoqian,Qianmu,Tao,&Dong,2018)。给定大量数据,决策树 随机森林可用于机器学习模型生物信息学和生物学中的复杂相互作用( Fratello &Tagliaferri,2018)。 Yashuang,Xiaodong和Lidong(2018)实施基于Pearson相关系数(PCC-Tree)的决策树模型作为特征质量的新度量,以确定最佳分离属性和决策树生长期间的分离点。当同一级别的每个节点与相同属性相关联时,这将在特征选择期间导致错误;这样的树也被称为不经意的决策树。因此,一种分析决策中的分类错误的方法需要随机舍入算法的树( Aline,Eduardo,&de A. Mello Pereira Felipe,2017)。决策树方法可以 应用于预测服务性能,可以实现硬件,可用于生物信息学分析(Benjamin&Delvin,2018; Hanspeter & Kaoru , 2011; Sankari & Manimegalai , 2017; Struharik&Vukobratovic,2018)。与决定相反树方法,K均值聚类是一种非层次聚类方法,其中现有数据被划分为一个或多个集群(Preeti,Deepali和Shipra,2016年).然而,K-means方法中的质心可能是变幻无常的;与群集中所有其他节点的距离最短的节点将成为质心(Marco,Aritz和Jose,2017年).

在机器学习中,支持向量机(SVM)是一种学习系统,它使用空间假设,例如在高维空间中以特征表示的线性函数(志远, 孟忠, 建伟, amp; 科, 2017).SVM分类器基于结构风险最小化(SRM)原理工作,以找到在输入空间中分离两个类的最佳超平面(Dimitris,Dimitris和Dimitris,2010年).SVM的学习算法基于im-的优化理论统计学习中的学习偏见(Tang,Zhang,&Huang,2007)。一些研究人员已将 SVM 应用于 DNA 片段 - 为了预测蛋白质的位置(Byungkyu,Jinyong,Narankhuu,Wook,&Kyungsook,2014; Huet al,2017; Muhammad,Khurshid,Muhammad,&Maqsood, 2016; Shinn-Ying , Fu-Chieh,Chia ) -Yun ,& Hui-Ling ,2007)。为了简化搜索,DNA 预测方法只能关注密码子区域(Ma,Nguyen,&Rajapakse,2009)。

用于分类的发生强度等级在特定模式中,可以使用Apriori算法。该算法根据相对于特定标准的数据强度对数据集进行分类(Zhishuai amp; Wei, 2017).该方法可以应用于决策支持系统。期望最大化(EM)算法用于找到概率模型的参数值的最大似然(ML)估计这也取决于一个未知变量(Xenia,Joatilde;o,&Ana,2016)。该方法的核心包括E步骤,其中 计算可能性期望的表达式,以及M步骤,其中通过最大化在E步骤中提取的似然性的值来计算ML估计。然而,这两种方法(Apriori和EM)很少用于文献中DNA的分类和预测(Anguraj,Michelle和Rakesh,2008年)。申请文献中有许多报道超的k-近邻(k-NN)方法了解学习条件(Bhuvaneswari&Therese,2015; Lulli,Debatty,DellAmico,Michiardi,&Ricci,2015; Zhenyun,Xiaoshu,Debo,Ming & Shichao,2016; Zulfany &Reina,2017)。k-NN algorithm基于其邻域中的其他节点对查询实例进行分类。为了确定节点是否在邻域中,可以使用欧几里德距离方法。将计算到所有节点的距离,并且具有最近距离的k个节点被认为是查询实例的邻居,其中k是在过程开始之前指定的值。然后,使用所选择的k个邻居,将计算这些节点中的多数结果以生成决策。

另一种可以应用于监督学习的方法是分类和回归树(CART)方法。该方法以统计非参数方式描述响应变量(因变量)和预测变量(自变量)之间的关系。刘等人。应用回归树方法是因为数据采样形成的响应变量是连续的;但是,如果现有样本数据对应于分类响应变量,则应使用分类树方法(Juntao等,2016).分类树由三个阶段组成,需要学习样本(L)。第一阶段是分离器阶段,其中每个分拣机仅依赖于一个独立变量。对于具有样本空间n的连续独立变量Xj,存在n-1个不同的分类器。对于类别L的标称类别,相应地获得分隔符。但是,如果Xj是序数类别,则执行L1排序(Binh,Indra, amp; Dieu, 2018 年).排序方法对于CART,可以基于基尼指数(Jouml;rg,Ulrich,&Christian,2017)。

我们考虑用于比较的最后一种方法是朴素贝叶斯方法。我们选择朴素贝叶斯方法与我们提出的方法进行比较,因为它易于实现,基于模糊属性和各种决策条件的比较。由Naive Bayes分类器获得的决策可以作为评估数据分类结果的参考。朴素贝叶斯方法中的属性是自由的,彼此无关;在贝叶斯分析过程中,属性称为条件。在给定的数据集中,假设变量i对应于属性值的向量(x1,x2,...,xn),因此,感兴趣的属性是Xi(iisin;[1,n])。

在本文中,我们将我们提出的混合聚类方法的结果与之前列出的八种方法的结果进行比较,所有这些方法都在上面进行了描述。所有这些方法测试了它们在分类或聚类中的表现使用两个分离的DNA数据集进行DNA挖掘,一个阳性和一个阴性用于HCV感染。分类准确度是根据一种方法与之间的差距大小进行评估所有方法中的其他方法和中值。预测病毒突变趋势的能力有望帮助解决基于对由这种病毒本身的突变引起的RNA模式的分析来设计疫苗。

  1. 用于DNA的杂交聚类
    1. 数据集准备

使用的数据是来自世界基因库系统的分离的DNA,其对HCV感染呈阳性和阴性。我们使用HCV作为我们样本数据的焦点,因为HCV具有高突变率。 HCV 引物用作基于几种的比较物讨论这些引物的文章(Apichartpiyakul,Chittivudikarn,Miyajima,Homma,&Hotta, 1994; Juniastuti等,2014; Soetjipto等,1996)。每种引物用作簇质心。

通常,对数值数据进行聚类,而分离的DNA表示为四种核苷酸A,T,G和C的组合。因此,在聚类过程之前,进行基于语义相似性的数据归一化和特征提取。在所提出的杂交聚类方法中,将分离的DNA数据加工成核苷酸序列以研究它们的特征。然后将核苷酸序列按其特征和它们与各种引物的相似距离分组;在这种情况下,测试的引物是HCV引物。当相同序列与两个或多个引物的相似性相同时,年间距将计算为常数。

在分析聚类结果之前,将分离的数据标准化为FASTA形式。下一个过程是进行DNA切片。切片的目的是为了便于在聚类期间进行比较。在所提出的混合聚类方法中,为了加速分类过程,我们基于上述编辑中的每个引物的模式将每个序列切割成片段,然后查找每个序列相对于每个引物的相似性值。我们还考虑每种引物和分离物之间的年份距离。这使得群集过程更容易,更快捷。在分析生物的分子钟DNA时,年份是一个重要特征,因此,在本研究中,年份被用作x轴的基础。x轴上的值计算为分离的DNA年与引物年的接近距离。每增加一年将使标准化值增加或减少0.1。

n

xn = sum; (0.1 lowast; (xy minus; py)) , (xy ge;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[19807],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。