TabSQL: MySQL工具方便用户数据的公共数据库的映射外文翻译资料

 2022-12-04 15:12:34

英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料


TabSQL: MySQL工具方便用户数据的公共数据库的映射

Xiao-Qin Xia*1, Michael McClelland*1,2 and Yipeng Wang*1,2

摘要:背景:随着高通量基因组学和蛋白质组学的研究进展,生物学家们对大数据文件进行处理, 并将它们的数据映射到公共数据库中是具有挑战性的。结果:我们开发了TabSQL,

基于应用的工具,用于查看MySQL、过滤和查询数据文件的大量排序。TabSQL提供的功能,下载和安装公共数据库中包括的基因本体数据库文件,Ensembl数据库、基因组数据库、UCSC基因组生物信息学网站。任何提供标签delimi的其他数据库泰平文件还可以导入。下载的基因注释表可以查询用户数据使用图形界面或TabSQL命令行。结论:TabSQL允许查询到用户的数据和公共数据库,无需编程。这是一个方便的工具,生物学家注释了丰富的数据。

背景

在高吞吐量的基因组学和蛋白质组学的研究中,原始数据和分析结果通常都是有一个表一样的格式(例如,[1~3]),代表基因或探针的行,而列MNS表示实验特点,如样品标识符、基因注释、褶皱的变化信号,或P值的统计分析。它是常见的生物学家要添加附加的注释。有公共数据库,可以是有用的来源,这样的注释。基因本体项目http://www.geneontology.org开发和维护控制基因和基因产品属性的词汇,并提供了详细的、统一的基因和基因产物注释文件[4,5];Ensembl项目http://www.ensembl.org提供基因组数据库各种生物[6];UCSC基因组生物信息学网站http://genome.ucsc .edu /也被来自世界各地的研究者广泛使用。微软Access http://office.microsoft.com/access是常用的桌面数据库管理系统是生物学家使用的视图,地图和查询的大型数据文件。然而,访问不提供在基因组研究中直接链接到公共数据库的任何工具。因此,我们设计了TabSQL,查询内或跨表一样,我们已经实现了预定的功能数据文件的通用工具从有用的数据库下载并安装数据文件。

实施先决条件

MySQL http://www.mysql.com是TabSQL的搜索引擎,因此,用户需要在一个MySQL服务器有一个用户帐户。用户可以访问一个专门的MySQL服务器或者,更可能的是,安装MySql为我们在他们当地的电脑上。在第一次运行TabSQL,用户将被要求在MySQL账户的信息服务器,或MySQL管理员账户创建新用户账户。TA用纯Python BSQL。它需要2.3或以后的版本,三个包,其中不包括在Python标准库。这些额外的三包:HTTP://wxPythonww.wxpython.org的图形界面开发;pycrypto http://www.pycrypto.org/用于加密和http://mysql-python.sourceforge MySQLdb。网/ TabSQL和MySQL服务器之间的接口。TabSQL可以运行在多种操作系统(OS),包括微软的Windows和POSIX系统。它已被测试的窗口2000,Windows XP,Windows 7,和一系列的GNU / Linux系统,包括CentOS 4 x 5,x,Fedora Core 3,Fedora Core 6,Fedora 9,Fedora 12和Ubuntu 8.04到9.10。TabSQL应该在其他操作系统环境如果安装环境三个额外的Python包。一个具体的应用实例TabSQL教程可以帮助文档在线http://www.webarray。org /软件/ TabSQL / help.html。

接口

对TabSQL图形界面由一个主窗口和一个或多个项目窗口(见图1)。

图1 TabSQL的接口:主窗口和项目窗口显示,多个项目窗口可同时被打开。

主窗口

主窗口是一个图形界面,用于查询数据的子集,随后将被项目窗口中显示。从主窗口,我们还可以创建/打开/删除项目。

项目窗口

每一个项目都将显示在一个项目中,这显示了在扩展板中包含的数据。查询的结果将被添加到项目中,并在项目窗口中显示。

数据组织

TabSQL允许用户交叉引用他们的数据导入数据库然后过滤使用自己的阙里斯。MySQL开源数据库管理系统采用的是http://www.mysql.com数据库引擎。在TabSQL所有数据都存储在一个MySQL数据库,其中的数据被组织成项目。一个项目是由一系列的数据库表,项目名称为“分享九所有表的名称。数据可以导入到一个项目后,它已创建或打开。标签SQL可以使用MySQL服务器在本地计算机或另一台计算机在同一个局域网。虽然可以使用MySQL服务器通过互联网,这是不可取的因为大量数据和安全问题,如SQL注入攻击、传

输速率慢。如果用户需要使用实习生ET连接访问MySQL服务器,我们建议使用一个SSH(Secure Shell)隧道转发远程MySQL端口到本地计算机,从而加密TabSQL和T之间的通信他的MySQL服务器。

数据源

TabSQL旨在帮助用户标注自己的数据与公共数据库中的注释。

用户数据

一般情况下,用户数据被组织在一个类似于表的格式中,在标题行中显示列名称。这些数据应保存在制表符分隔的ASCII文件,它可以很容易地导入到一个标签QL项目由“添加”在项目窗口菜单命令。TabSQL自动确定每一列的数据类型,扫描后的用户数据,创建一个合适的数据库表E的结构,在其中用户数据是有限的存款。如果在其他格式存在的用户数据,他们应该被转换为制表符分隔的ASCII文件。这种转换是大多数SPR的一个标准特征eadsheet程序。在某些情况下,用户数据可作为一个MySQL转储包。用户可以加载数据到MySQL数据库导入到TabSQL使用“导入”命令,这是为了在同一个MySQL服务器数据库导入表。

公共数据库

一些公共数据库提供MySQL格式的数据文件或制表符分隔的ASCII文本文件下载。在这种格式的数据可以导入TabSQL以同样的方式为用户数据。TabSQL提供菜单为自动下载和存放三-亚群命令已知基因组注释的公共数据库的GO数据库,Ensembl数据库和UCSC基因组数据库。去省DES三子集下载-“termdb”、“assocdb”、和“seqdb”,即呈现给用户的选项。因为Ensembl数据库和UCSC基因组数据库收集的多E数据库不同的生物物种,TabSQL将打开一个窗口,让用户选择感兴趣的数据库时,用户点击菜单上的命令。所有必要的文件将被下载我们从公共数据库FTP服务器并保存到本地计算机上的临时目录,随后所有的表将被加载到当前TabSQL项目。对于经常更新等公共数据库,用户可以同步本地副本与最新的数据可通过重复使用相同的命令,如被用来下载的数据,在第一个实例。tabsq如果一个输入的公共数据库在给定的时间范围内没有被更新,我会提醒用户。

互联网连接速度可以为公共数据库为SQL介绍标签的瓶颈。这个介绍的时间成本主要取决于下载速度。我们的测试T在客户端在本地网络与T1互联网连接(1.544兆比特每秒),确定引进或去“termdb”数据库可以在一分钟内完成更新。这个在生物信息学网站数据库UCSC Ensembl或大小差异很大,下载时间这么做。下载需要几分钟到几个小时,这取决于用户选择的子集。

虽然TabSQL旨在与特定查询出的公共数据库,这些数据库不是TabSQL强制性成分。TabSQL可单独操作和查询用户数据文件。此外,自动访问其他流行的数据库将被添加到TabSQL由作者根据用户的请求。

查询

有两种方法使查询,也可以通过图形用户界面(GUI)在主窗口或通过在命令行界面输入命令(CLI)在项目窗口。有在线文档中详细指南的例子。每个查询将生成一个项目中的新表。用户可以“复制”、“粘贴”或“保存”表的内容。TabSQL通信使用结构化查询语言(SQL)的MySQL服务器环境。SQL查询语句的使用可以保存为一个文本文件,它可以用来帮助初学者学习SQL语法。

使用图形用户界面,可以通过点击主窗口中的选项进行查询。有五个部分用于查询。这些部分用于确定为输出选择的列,以指定搜索标准,排序和名称结果表。基于所选的选项,TabSQL自动构SQL“选择”命令,并将其提交给MySQL服务器。考虑这一事实查询性能可以显着提高对索引表,在项目窗口中的菜单命令提供了建立索引的表。

图形用户界面很容易使用,即使对于初学者来说。然而,命令行界面(CLI)提出了一种更灵活的方式来构建查询。在项目窗口中键入命令,用户可以使非常复杂和复杂的查询。TabSQL支持完整的语法三SQL命令“选择”、“改变”和“更新”。这些命令用于查询,改变结构表的目录或内容,或在表上创建索引。当运行在一个单一的表格,TabSQL允许命令在三的简化形式,其中只有完整的SQL语句的一部分需要TYPED。

从“更新”命令中“设置”子句。例如,命令“设置柱= 5,columnb gt; 10”将改变价值5如果有一columnb柱大于10的值在同一行。

“为了”从“选择”命令的条款。利用塔的“评分”活动表排序,用户可以简单的输入“为了分数”升序排序,或按评分排序”降ORDER。

“选择”命令的“从何处”子句。仅用“在哪里”的条款,关键字“哪里”不应该键入,例如,一个命令可以简单如“0.01”或“0.01”,由。前一个它允许数据被保持基因在显著性水平0.01过滤,后者可进一步由P值的基因排序。

这些简化命令应当遵守相应条款的语法因为TabSQL直接使用这些命令作为一个完整的SQL语句的一部分。

讨论和结论

TabSQL具有三个显著特点:(1)TabSQL将自动建立一个表的制表符分隔的文件;(2)TabSQL将建立从外部数据库表像去;和(3)TabSQL将运行查询IES通过GUI。公共数据库和加载用户数据到数据库使TabSQL方便整合这些彼此容易进口。通过查询表之间没有规划,生物学家能够注释和筛选他们的数据很容易。基于TabSQL允许很多记录被进口相比微软Excel数据库。此功能是特别重要的在处理高吞吐量的基因组数据集时。因此,TabSQL是生物学家安诺泰特的有用工具和丰富的数据。

可用性

Tab TabSQL是一个开放源代码的软件包的GNU通用公共许可证下发布://www.gnu.org

/licenses/gpl.txtHTTp。源代码代码是免费下载在http://tabsql.sourceforgr.net。编译的可执行文件对Windows也是可支持的。

作者的贡献

所有作者参加了软件的设计和测试。 XQ编码软件并起草了手稿。 MM和YW促成了手稿的最终版本。所有作者阅读并同意稿件的最终版本。

致谢
我们要感谢弗雷德长期和斯特芬Porwollik审查的人,uscript。我们承认对以下赠款支持:NIH R21AI083964,U01CA0114810,U01A152237,R01AI07397,R01AI039557,R01AI077645,R01AI083646,R01AI075093,DOD W81XWH-08-1-0720和BARD IS-4267-09。

作者详细信息
位于美国圣地亚哥屈尔河10835路的疫苗研究所和位于加州大学欧文分校教研室的病理及实验医学中心的教研员。

参考文献

  1. Rayner TF, Rocca-Serra P, Spellman PT, Causton HC, Farne A, Holloway E, Irizarry RA, Liu J, Maier DS, Miller M, Petersen K, Quackenbush J, Sherlock

G, Stoeckert CJ, White J, Whetzel PL, Wymore F, Parkinson H, Sarkans U, Ball CA, Brazma A: A simple spreadsheet-based, MIAME-supportive format for microarray data: MAGE-TAB. BMC Bioinformatics 2006, 7:489.

  1. Xia X, McClelland M, Wang Y: WebArray: an online platform for microarray da

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[28933],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。