基因组管线通常依赖多个第三方研究软件的组合,这些应用程序往往是学术原型,在安装、配置和部署方面经常有一定困难。在一个特定环境中运行的程序,对其它程序,库和组件有很多隐含的依赖。因此,在一个环境中构造出来的计算分析流程,很难在另一个环境中不付出大量努力便顺利运行起来。过去,我们会采用虚拟化技术来处理这种问题,然而,这种方法有一些明显的缺点。虚拟机映像很大(通常有几 GB),它们需要操作系统 (OS) 文件的完整复制。即使仅添加或更改单个文件,也需要组装和部署整个虚拟机。而且虚拟机内软件或数据的重用也几乎是不可能的,因为其内容不是系统描述的,也不能通过标准的工具/协议访问。





IBM Research的一项研究表明,Docker容器对CPU和内存带来的开销可以忽略不计,在所有测试中,在容器中运行的应用程序的性能与传统虚拟机技术相同甚至更好。



为了评估 Docker 使用对生物信息学工具执行性能的影响,我们对三个不同的基因组管线进行了基准测试。分别在Docker和物理机的环境下,处理同一组数据。测试是使用集群节点 HP BL460c Gen8 执行的,该节点具有 12 处理器 Intel Xeon X5670 (2.93 GHz)、96 GB RAM 并在 Scientific Linux 6.5(内核 2.6.32-431.29.2.el6.x86_64)上运行。

Docker的版本是1.0,device mapper作为存储驱动。用于基准测试的 Docker 镜像是从 Scientific Linux 6.5 基础镜像开始构建的。计算节点是为基准执行保留的(这意味着没有其他工作负载被分派给它);此外,为了防止可能以不可预测的方式影响执行时间的任何可能的网络延迟,所有测试都使用节点本地磁盘作为主存储来执行。




通过比较10个运行Docker和不运行Docker的实例的平均执行时间,估计了容器技术对管线性能带来的开销。当管道运行并行任务时,执行时间被规范化,将每个实例中所有任务的执行时间相加。任务执行时间计算为启动和完成系统时间戳之间的差值(使用system.currentTimeMillis Java API以毫秒分辨率)。因此,它包括使用Docker时的容器实例化时间开销(而不是提取之前下载的所需映像所需的时间)。




同一组数据将分别在Docker和物理机环境中分别被处理10次。转录组测序(RNA-Seq)数据取自ENCODE项目(ENOCDE,Encyclopedia of DNA Elements。ENCODE是一个大规模基因注释工程,旨在描述基因组中所编码的全部功能性序列元件),分别从两只幼鼠(一只14天,一只18天)脑部样本数据中随机抽取。

每个完整分析流程包含9个任务:Bowtie运行一个index任务(为基因组创建索引),Tophat2运行4个mapping的任务(序列回帖到基因组),Cufflinks来运行4个transcript的任务(用回帖到基因组的短序列来拼接转录本)。Mapping和transcript的任务是并行执行的。软件版本分别是Samtools 0.1.18,Bowtie2 2.2.3,Tophat-2.0.12,Cufflinks 2.2.1。

整个分析流程在物理机环境下的平均执行时间是1156.0分钟(19h 16m 14s),在Docker环境下的平均执行时间是1158.2分钟(19h 18m 14s),所以容器带来的开销大概在0.1%。


基准测试 2是基于『Minimum Information for Reporting NextGeneration Sequencing Genotyping” (MIRING)』的基于拼接的突变鉴定流程,用于组织相容性,免疫遗传和免疫基因的应用。

来自靶向人类白细胞抗原 (HLA) 和杀伤细胞免疫球蛋白样受体 (KIR) 基因的双端基因组读数组装成共有序列。 然后将读取和共有序列与人类基因组参考比对,并用于调用变体。

该管道使用针对主要组织相容性复合体 (MHC) I 类 HLA-A、HLA-B 和 HLA-C 基因以及 MHC II 类基因 HLA-DRB1 的 Illumina 配对末端基因组读数启动 10 次,来自 8 个个体。具体的工具和版本为:ngs-tools 1.7,SSAKE 3.8.2,BWA0.7.12-r1039和Samtools1.2。

每次运行执行 48 个任务,可以并行执行的最大任务数设置为 10。大多数任务在几秒钟内完成,不包括需要 2 到 3.5 小时才能完成的 SSAKE 阶段。

这个分析流程在物理机的平均执行时间是1254.0分钟(20h 53m 58s),Docker环境下的时间是1283.8分钟(21h 23m 50s),这意味着当使用 Docker 运行时,执行速度降低了 2.4%。


最后一个基准测试是使用 Piper-NF 进行的,Piper-NF 是一种用于检测和映射长非编码 RNA 的基因组管线。

该管线将 FASTA 格式的 cDNA 转录序列作为输入,这些序列使用 BLAST 与一组同样以 FASTA 格式提供的基因组进行比对。 目标基因组上的同源区域用作锚点,然后提取周围区域并与原始查询重新对齐。 如果比对器可以比对这些序列,并且比对覆盖原始查询所需的最小区域,则使用这些序列构建多序列比对,然后使用该比对获得每个同源序列与原始查询之间的相似性。

和前两次一样,整个分析流程会在Docker环境和物理机环境中分别被执行10次。我们使用来自 Gallus gallus 物种的 FASTA 格式的一组 100 个 RNA-Seq 转录序列作为输入查询。 输入序列被映射和比对一组基因组,包括 Anas platyrhynchos、Anolis carolinensis、Chrysemys picta bellii、Ficedula albicollis、Gallus gallus、Meleagris gallopavo、 Melobsittacus undulatus、Pelodiscus sinensis、Taeniopygia guttlata。所用工具为T-Coffee 10.00.r1613, NCBI BLAST 2.2.29 , Exonerate 2.2.0。每个工作流被分为98个任务,可以并行执行的任务数为10。




在本文中,我们评估了 Docker 容器技术对基因组管线性能的影响,表明容器“虚拟化”在由中/长时间运行的任务组成时对管线性能的开销可以忽略不计,这在计算基因组管线中是最常见的场景。

有趣的是,对于这些任务,当使用 Docker 运行时,观察到的标准偏差更小。 这表明容器的执行更加“同质”,大概是由于容器环境提供的隔离。

对于大多数任务具有细粒度或非常细粒度(几秒或几毫秒)的管线,性能下降更为显着。 在这种情况下,容器实例化时间虽然很小,但不能忽略,并且会产生明显的性能损失。

在处理容器技术时,应考虑其他对执行性能没有直接影响的因素。 例如,Docker 映像虽然比等效的虚拟机映像小,但需要一些时间才能从远程存储库下载。 此时间取决于可用的 Internet 连接和图像大小(通常为数百兆字节)。安装允许图像缓存在本地组织网络中的本地存储库镜像是加快下载速度的好策略。

Docker 镜像也可以使用 Dockerfile 从头开始创建,即一个简单的文本文件,其中列出了组装目标镜像所需的依赖项和命令(例如,下载和安装软件包、设置环境变量等)。 镜像构建过程由 Docker 引擎自动管理,通常需要几分钟。 由于 Dockerfile 是一种小资源,因此可以很容易地与其他研究人员共享。 因此,它可以用作交换预先构建的 Docker 映像二进制文件的“廉价”替代方案(尽管这种方法不如将映像存储在 Docker 存储库中可靠,因为由于软件组件和 Web 资源的易变性, 尝试构建映像时,所需的依赖项可能会更改或不再可用)。<!--


