英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

基于大数据分析框架和随机森林方法的点对点僵尸网络检测

作者：Kamaldeep Singh，Sharath Chandra Guntuku，Abhishek Thakur，Chittaranjan Hota

关键字：Hadoop，Mahout，Peer-to-Peer，Botnet detection，Machine learning，Network security。

摘要

网络交通检测和相关的分析研究在实时分析大量数据方面进展缓慢。一些垂直尺度上的解决方案在基于签名的检测方向上提供了很好的实现。不幸的是，这些方法在不同的子网中对待网络流量并且在攻击以一个较低的速度来源于多台机器时不能应用基于异常的分类，比如僵尸网络。

在这篇论文里，作者使用像Hadoop，Apache Hive，Mahout这样的开源工具提供了一个可以扩展的准实时入侵检测系统。这个实现使用机器学习方法来检测点对点的僵尸网络攻击。这篇论文的贡献如下：

使用hive构建了一个分布式系统，这个系统可以用来嗅探和处理根据动态网络特征的网络痕迹。
使用mahout的并行处理能力构建基于随机森林的决策树模型，这个模型在系统中被用于准实时的点对点僵尸网络检测。系统的安装和性能矩阵是可以观测的，并且将来的扩展提了出来。

简介

僵尸网络攻击在全球范围内都是安全研究和分析的最大挑战之一。由于电脑违反网络安全造成的经济损失多达几十亿美元。就在这篇文章完成之前的几个月里，一个极大的DDos对很多的WordPress用户的管理员郑虎造成了攻击。线上的安全社区和博客怀疑这次攻击就是一个点对点的僵尸网络攻击。在这次攻击里，至少有90000个IP被控制来实施攻击。人们怀疑这次攻击是一个更大的计划的一部分，因为很可能攻击者想要利用巨大的WordPress服务器然后使用军队的自动化来启动一个更大的DDos攻击。因此，尽管点对点的僵尸网络攻击从十年前开始就在上升，检测和减轻他们的攻击仍然是一个巨大的挑战。

为了检测和减轻这类攻击，网络痕迹和包捕获是网络分析和安全研究中最有用的资源。随着每天这类攻击的增加，网络痕迹的长度处理也在扩充。然而，计算机系统缺少硬件，并且基本上被这些设备所限制而不能容纳巨大的数据集。这个已经导致了在分布式计算上研究兴趣的增加，因为这可以充分的利用多核和集群计算带来的巨大计算能力。

过去以来，研究员们已经使用了各种各样的技术，比如签名和异常检测系统，来处理安全威胁检测的问题。但是这些解决方案在处理在上面讨论的大数据集时存在扩展问题。尽管有核尺度方法被提了出来，但是在面对大数据集的时候仍然有问题。人们发现模型的参数很多的情况下，数据集越大，训练出来的模型会更好。在模型参数很多的情况下，如果发生了数据过拟合，训练错误将会更少同时交叉验证的错误会更高。这种情况下的原因是训练过拟合了，模型将会记住数据。但是模型将会产生对新的训练集泛化能力弱的问题，这导致了一个更大的交叉验证错误。这种缺点可以通过增加训练集的大小来更正，因为增加训练集的大小可以在训练参数很多的情况下降低交叉验证的错误。因此，数据集需要使用大数据相关的技术。几个大的数据集包含有各种各样已经被捕获的僵尸病毒的活动并且已经被CAIDA和其他组织公开使用。这些记录中被UCSD捕获的一个数据集，大小大概为40GB，被这篇文章用来做研究，需要注意的是，这个需要一个可以扩展的框架来训练分类模型。

因此，在这篇研究中，提出了一个可以扩展的分布式的入侵检测系统，这个系统可以处理极大的网络带宽。系统构建在hadoop的基础上，我们都知道hadoop是一个开源的软件框架，它支持大量数据处理的分布式应用程序并且能够利用有能力使用集群机器强大性能的库，同时这个库也对Apache Mahout进行了封装定制。Mahout提供了很多的机器学习算法，这些算法可以用来构建预测模型。

这篇论文的余下部分是这样组织的：第二部分描述在基于机器学习方法和hadoop来进行僵尸网络检测方面的相关研究；第三部分描述实验的安装和对于系统为了实现实时检测安全威胁使用的方法；第四部分描述使用这个系统进行点对点的僵尸网络检测的应用程序；第五部分主要包括实验结果和将来的研究范围。

可扩展的点对点僵尸网络检测框架

这个框架依赖于Libpcap，Hadoop，Mahout和MapReduce。Tshark被用来从包中提取需要的字段。在这个框架中，也需要有模块能够生成特征集，这些特征集可以被后来的机器学习模块使用。同时，TShark也是一个网络协议分析工具，它能够使用Libpcap库并且能够从一个正在使用的网络中捕获包数据。在Sniffer模块提取了需要的信息之后，MapReduce Paradigm被用来做特征提取。这个被Apache Hive完成，因为Hive提供了一个算法，使用类SQL语言HiveQL从数据中提取数据。

在这一节，将会详细描述这个可扩展的网络威胁检测的系统的组件。这个框架包含下列的组件：

为了预处理包数据的Traffic Sniffer模块；
能够提取特征的Feature Extraction Module；
能够学习并且检测恶意流量的机器学习模块；

这些组件将会在下面的三个章节中描述，并且将会讨论在他们实现过程中面临的挑战。

Traffic Sniffer

在参考文献[12]中，Dumpcap被用来从网络接口中嗅探数据包，与此同时，Tshark被用来提取与特征集相关的字段，并且将这些字段提交给Hadoop Distributed File System（HDFS）。尽管Tshark能够被用来从网络接口中嗅探数据包，但是Dumpcap在长期的捕获时提供了更好的性能，因为它是Libpcap的最低级的抽象。然而，Tshark的缓冲的有限显示了更多的瓶颈并且消耗更多的事件。因此，Dumpcap捕获Ring缓冲选项被用来捕获流量到成功的Pcaps里，然后这些包能够被多个Tshark接口处理。在这种情况下，系统能够实现更好的并行化。

Traffic Sniffer模块将这些来自于网络的流量存储到Pcap文件里，这些文件具有一个固定的大小，且由捕获的Ring缓冲选项决定。当嗅探到的一些包被丢弃了并且不能够写到文件系统里的时候，为了能够实现较低的包丢弃，实验过程中，缓冲大小基本上不变。

在集群中的Ubuntu 12.04（x64）系统有一个TCP/IP缓冲大小的限制，因此，系统会在缓冲大小严重不匹配时取消将数据包保存到Pcap文件里。为了验证这个，可以修改Ubuntu系统的TCP/IP缓冲值，比如从4MB修改到12MB，然后将会看到不同的带宽，这表明当增加缓冲大小时，包的丢弃率下降了。

在实验过程中，我们发现在包丢弃率和Pcap的大小之间有一个趋势。这是由于包向磁盘写入的速率和磁盘的性能。它取决于磁盘的配置，比如磁盘扇区大小，文件缓冲大小等。

在[41]中提出当包保存之前，包通过一系列缓冲队列传递。第一个缓冲是在NIC它自己的内存中，并且不能被改变。第一个在内存中的队列是在NIC驱动上的RX Ring缓冲。在大多数驱动中，一个NIC队列可以被交付给一个CPU[4]。在non-NAPI驱动的情况下，下一个队列将会被压进网络栈中。这是一个单独的CPU缓冲，这个缓冲可以在他们被内核处理之前存储包。它的大小可以被内核指定，通过使用参数：net.netdev_max_backlog。后来的缓冲可以出现在处理路径上，这个取决于上层的协议。如果一个缓冲满了，包将会丢失。因此，包丢弃的比例是一个取决于带宽的函数。结果可以参看表格Table 1。包丢弃率随着贷款的改变可以参考Fig 1。

Feature Extraction Module

一旦这些分开的文件被提交给HDFS，Apache Hive可以使用这些数据从中提取特征。在整个系统中，一个重要的特征是在运行时改变特征的能力，这个能力是Apache Hive和TShark赋予的。特征提取Perl脚本，正如上面提及的，通过使用TShark能够让用户去选择需要从保重提取的字段，然后系统会创建相应的创建一个Hive Table。这个特性向用户展示了系统在相对复杂的问题实例中提取不同特征的灵活性，并且也避免了改变整个代码的繁重的工作。在这种情况下，特征被使用一个MapReduce Program提取，这个展示在前面的研究中[23]。一个不同的特征集使用这个脚本完成选择，并且一个不同的Hive表格将会被自动创建。

Apache Hive数据仓库软件能够很容易的完成提取/转换/加载（ETL）工作，并且能够管理极大的数据集，Apache Hive构建与Apache Hadoop[2]系统之上。它提供了一个HQL（Hive Query Language）语言，这个语言和SQL[49]，很类似并且因此能够很容易的被任何熟悉SQL的用户轻易理解。这些查询被Apache Hive解释成Map Reduce程序并且在运行时执行。

对于这个问题来说，由于大多数提取出的特征是基于流的统计数据，比如在一个流中最大的数据包的大小，所以他们在表外被提取，使用一个在HQL中的”group by“语法。分组是基于MapReduce算法的。Map阶段产生key-value对，并且传递给Reduce阶段。在这里，Reducer将基于传递给它的key将所有的value组合到一起。也就是说，MapReduce框架递归的在lt;key，valuegt;对上操作，并且系统的输入是一个lt;key，valuegt;集合并且被Job产生的输出也是另外一个lt;key，valuegt;对的集合：

（input）lt;k1，v1gt; -gt;

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[147104]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于大数据分析框架和随机森林方法的点对点僵尸网络检测外文翻译资料

基于大数据分析框架和随机森林方法的点对点僵尸网络检测

摘要

简介

相关的研究工作

可扩展的点对点僵尸网络检测框架

Traffic Sniffer

Feature Extraction Module

您可能感兴趣的文章

登录

基于大数据分析框架和随机森林方法的点对点僵尸网络检测

摘要

简介

相关的研究工作

可扩展的点对点僵尸网络检测框架

Traffic Sniffer

Feature Extraction Module

您可能感兴趣的文章