区块链与大数据结合外文翻译资料

 2022-08-10 19:53:26

ABSTRACT

With the continuous development of information technology, enterprises, universities and governments are constantly stepping up the construction of electronic personnel information management system. The information of hundreds of thousands or even millions of peoplersquo;s information are collected and stored into the system. So much information provides the cornerstone for the development of big data, if such data is tampered with or leaked, it will cause irreparable serious damage. However, in recent years, electronic archives have exposed a series of problems such as information leakage, information tampering, and information loss, which has made the reform of personnel information management more and more urgent. The unique characteristics of the blockchain, such as non-tampering and traceability make it have great application potential in personnel information management, and can effectively solve many problems of traditional file management. However, the blockchain is limited by its own shortcomings such as small storage space and slow synchronization time, and cannot be directly applied to the big data field. This paper proposes a personnel management system based on blockchain, we analyzed the defects of the blockchain and proposed an improved method, constructs a novel data storage model of on-chain and out-of-chain that can effectively solve the problem of data redundancy and insufficient storage space. Based on this, we developed a prototype system with query, add, modify, and track personnel information, verified the feasibility of applying blockchain to personnel information management, explore the possibility of combining blockchain with big data.

1 Introduction

Personnel information management has always been an indispensable part of human societyrsquo;s life and work. It includes file management of company and government employees, school students and teachers, as well as registered members of hotels and airlines, even included the national credit information system. How to store such huge and private information securely has become a problem for many companies and governments. Now the mainstream personnel management system is using the B/S architecture to centrally manage all personnel information. In this architecture, the user client can change the information stored in the central database at any time after obtaining the license. The central administrator can control the database, has high privileges, and can authorize other users to access or even modify the database. The biggest drawback of this architecture is that it centralizes the storage of data, and someone has the highest authority to operate on that data. The risk of data leakage and tampering is very high. For example, in 2017, the US Pentagon exposed the US Department of Defense database, which contains personal information collected by the United States on the global social media platform of 1.8 billion users. and Yahoo announced in 2016 that more than 3 billion account information was stolen. In 2014, Chinarsquo;s largest online ticketing website 12306 was attacked by hackers, causing hundreds of thousands of citizen information to be leaked.

Because the personnel information management system inevitably stores a large amount of private information, therefore, the disclosure of such information directly leads to the safety of the person being stored in the database, if a leak accident occurs, it cannot be saved at all. If information such as ID card or telephone number is leaked, it is impossible to ask so many people to modify their ID cards or telephone numbers to avoid the risk of information leakage. Secondly, such information management systems as credit reporting systems and academic systems involve the interests of many people, so the risk of being tampered with is very high. The disadvantage of a centralized database is that if someone has the right to modify the information, any changes can be made to the information, although the modification log is saved, but it is still saved in the centralized database and can still be deleted and modified. Therefore, the difficulty in personnel information management in the field of big data is how to ensure the security of information is not leaky, and cannot be tampered and traceable.

The current mainstream method of central database to deal with these problems is to improve the difficulty of obtaining data management authority, to improve the security of access control, but it still depends on whether the decision is correct and trustworthy, and whether the decision center is safe. Blockchain is a distributed database system based on peer-to-peer network, it is the result of integrating many technologies, these technologies include P2P protocol, zero-knowledge proof, consensus mechanism, smart contract, this creates a new way of storing and processing data differently than before .

The blockchain is composed of several data blocks linked together according to the order of generation time, and the data block can be generated through the consensus mechanism of each node, and the security is ensured by the encryption technology, so if a node tampers with a block, it is impossible to write the block to the entire system through the consensus mechanism. According to the hash value, Merkel tree and time stamp can trace the operational history of each block.

Blockchain has the characteristics of decentralization, non-tamper ability and programmability, which can effectively solve the security problem of big data storage, especially for the protection of personnel information, which involves a large amount of private information, and need to be regulated and endorsed by government and large companies.

But the blockchain itself has some serious drawbacks, the most important of which is its limited storage space, which makes it impossible to store large amounts of data. So if we want to use the blockchain to solve

剩余内容已隐藏,支付完成后下载完整资料


摘要

随着信息技术的不断发展,企业,大学和政府都在不断加紧建设电子人员信息管理系统。 数十万甚至数百万个人的信息被收集并存储到系统中。 如此多的信息为大数据的发展提供了基石,如果这些数据被篡改或泄漏,将会造成无法弥补的严重破坏。 但是,近年来,电子档案馆暴露出信息泄漏,信息篡改,信息丢失等一系列问题,这使得人事信息管理的改革越来越迫切。 区块链的独特性,如不可篡改和可追溯性,使其在人员信息管理中具有巨大的应用潜力,可以有效解决传统文件管理中的许多问题。 但是,区块链受其自身的缺点(如存储空间小,同步时间慢)的限制,无法直接应用于大数据领域。 本文提出了一种基于区块链的人员管理系统,分析了区块链的缺陷,提出了一种改进的方法,构建了一种新的链上和链外数据存储模型,可以有效解决数据冗余和存储空间不足的问题。 在此基础上,我们开发了一个可查询,添加,修改和跟踪人员信息的原型系统,验证了将区块链应用于人员信息管理的可行性,探索了将区块链与大数据结合的可能性。

1 介绍

人事信息管理一直是人类社会生活和工作中不可或缺的一部分。 它包括公司和政府雇员,在校学生和教师以及旅馆和航空公司的注册成员的文件管理,甚至包括国家信用信息系统。 如何安全地存储如此庞大的私人信息已成为许多公司和政府的难题。 现在,主流的人员管理系统正在使用B / S架构来集中管理所有人员信息。 在这种体系结构中,用户客户端可以在获取许可证后随时更改存储在中央数据库中的信息。 中央管理员可以控制数据库,具有高特权,并且可以授权其他用户访问甚至修改数据库。 这种体系结构的最大缺点是,它集中了数据的存储,并且有人拥有最高的权限来操作该数据。 数据泄漏和篡改的风险非常高。 例如,在2017年,美国五角大楼暴露了美国国防部数据库,其中包含美国在18亿用户的全球社交媒体平台上收集的个人信息。 雅虎于2016年宣布超过30亿个帐户信息被盗。 2014年,中国最大的在线票务网站12306被黑客攻击,导致数十万公民信息被泄露。

由于人员信息管理系统不可避免地会存储大量私人信息,因此,此类信息的公开直接导致存储在数据库中的人员的安全,如果发生泄漏事故,则根本无法保存。 如果身份证或电话号码等信息泄漏,不可能要求那么多人修改其身份证或电话号码以避免信息泄漏的风险。 其次,诸如信用报告系统和学术系统之类的信息管理系统涉及很多人的利益,因此被篡改的风险非常高。 集中式数据库的缺点是,如果有人有权修改信息,则可以对信息进行任何更改,尽管已保存了修改日志,但仍将其保存在集中式数据库中,并且仍可以删除和修改。 因此,大数据领域人事信息管理的难点在于如何确保信息的安全性不泄漏,不被篡改和可追溯。

当前中央数据库处理这些问题的主流方法是提高获得数据管理权限的难度,提高访问控制的安全性,但仍然取决于决策是否正确,可信赖以及决策中心是否是正确和安全的。 区块链是一个基于对等网络的分布式数据库系统,它是集成了许多技术的结果,这些技术包括P2P协议,零知识证明,共识机制,智能合约,这创造了一种与以前不同的新的数据存储和处理方式。

区块链由几个数据块组成,这些数据块按照生成时间的顺序链接在一起,并且可以通过每个节点的共识机制生成该数据块,并通过加密技术确保安全性,因此如果节点篡改了区块,不可能通过共识机制将区块写入整个系统。 根据哈希值,默克尔树和时间戳可以跟踪每个块的操作历史记录。

区块链具有去中心化,不可篡改和可编程性的特点,可以有效解决大数据存储的安全性问题,特别是对于人员信息的保护,涉及大量的私有信息,需要由政府和大公司规范和认可。

但是区块链本身有一些严重的缺点,其中最重要的是其有限的存储空间,这使得无法存储大量数据。 因此,如果要使用区块链解决大数据存储的安全性问题,还必须解决区块链中存储空间有限的问题。

2 基于区块链的人员信息管理系统架构

根据准入机制,区块链分为三类:公共区块链,私有区块链和联盟区块链。 公共区块链是最早,使用最广泛的区块链。 比特币是代表性的公共区块链。 其特点是完全去中心化,不受任何机构的监管或控制,任何人都可以参与公共区块链; 私有区块链是一个不对外开放的系统,仅在组织内部使用。联盟区块链位于公共区块链和私有区块链之间,通常用于同时存在多个用户角色(例如公司,政府和银行)的领域。

人事信息管理系统涉及大量的隐私和敏感信息。公共区块链允许节点自由连接,因此不能使用公共区块链进行开发。但是,例如公民信息在一定程度上可以被政府、银行、大学共享,因此其特点符合联盟区块链的要求,所以我们使用联盟区块链作为人事信息管理系统的基本区块链架构。Hyperledger Fabric是一个区块链框架实现,也是由Linux基金会主持的一个Hyperledger项目,旨在作为一个使用模块化架构开发应用程序或解决方案的基础,Hyperledger Fabric允许组件(如consensus和会员服务)即插即用。Hyperledger Fabric是一个领先的开源和通用的区块链结构的公司。它的吞吐量可以达到每秒2000个事务(TPS)。目前,有250多家公司和组织在使用它,包括IBM、英特尔、百度、华为等it巨头,以及荷兰银行、埃森哲和澳新银行等其他金融机构。

2.1 系统结构

由于区块链是分布式账本,这意味着区块链网络上的每笔交易都记录在账本上,因此区块链数据将继续增加,同时为了确保数据不被篡改,每个节点的区块链同步整个网络数据,导致单个节点的数据越来越多,等待确认交易的队列越来越长,整个区块链网络变得臃肿。 为了减少数据量,比特币创始人Nakamoto将每个区块的大小设置为1mb,但这直接导致了比特币系统没有得到更广泛的使用,因为1mb对于任何组织都是不够的,尤其是在大数据领域。现有的主流区块链架构存在自身的缺陷,使得区块链无法发挥自身的价值。目前有两种解决方案,即块数据过小和节点同步数据过多。一种方法是扩展块并增加每个块的容量,但是随着单个块中的数据量的增加,节点之间同步数据的过程会变得更慢、更复杂。另一种方法是减小块的大小,虽然可以提高节点同步数据的速度,但这样会使容量不够小。这两种解决方案就像用左手和右手在打架。

Li提出了etherQL系统,该系统在区块链之外设计了一个单独的查询层。本系统的主要思想是将区块链数据复制到外部数据库中,利用外部数据库提供的功能接口设计查询层。其思想是仅将区块链的原始数据复制到外部数据库,以提高查询效率。

我们对这一思想进行了扩展和优化,提出了一种新的适用于区块链联盟的链上和链外数据模型。在这个思想中,如图1所示,一些核心信息存储在区块链中,其余的大量不重要信息存储在区块链之外的中央数据库中。该方法可以有效地减少区块链网络中的数据量,并将外链数据生成的散列存储在块中,然后使用Merkle树对数据进行检查和跟踪,还可以防止外链数据被篡改。

扩大区块链的产能是该行业面临的一个非常大的问题。许多人试图从各个方面解决它,如侧链,赛格维特,闪电网络,硬叉等。解决方案基本上围绕着几个思路:保持现有的上限不变,通过其他方式绕过限制直接膨胀到一定的上限,如2M;还有一些其他的渐进扩展计划,但是这些扩展方法都局限在区块链框架中,因为很多人认为区块链是传统数据存储方法的一场革命,它不应该与传统的数据存储方法相关,必须彻底改变。然而,我们认为有必要做出妥协,跳出区块链框架,尝试为扩展容量找到解决方案。因此,我们提出了区块链与传统数据存储方法相结合的思想。

系统架构如图2所示。使用标准的MVC软件结构。从上到下依次是用户查看层、服务层和超账本组网。服务层分为四个功能模块:用户管理模块、信息查询模块、信息修改模块和添加信息模块,链码实现对区块链数据的智能契约操作。CouchDB作为一个状态数据库来记录事务执行的结果。大多数非核心数据存储在中央数据库中,只有核心数据存储在区块链网络中。MSP是一组用于在区块链中发布和验证证书和身份的加密机制和协议,它是一个可插拔的接口。CA用于生成证书和密钥,初始化MSP, order节点充当网络中的代理,用于分发数据。

2.2 链上和链外存储数据

图3为数据划分和存储的过程,分为区块链和中央数据库。大部分信息可以分为两部分:“核心”和“非核心”。例如,在人事信息管理系统中,数据结构中的核心字段是“姓名”、“身份证号”、“信息编辑器”等。非核心领域包括“出生日期”、“大学毕业”等等,所以当管理员输入个人信息,可以选择一些字段为核心字段,这些字段将被打包成一个块,存储在区块链网络,其他无节制的非核心字段执行SHA256操作,并获得散列结果也存储在块核心领域,和所有的信息存储在中央数据库中。区块链中的数据使得核心数据防篡改和跟踪,非核心数据存储在中央数据库,有效降低数据的冗余区块链,和非核心数据的哈希结果存储在块中,当数据从中央数据库,数据执行SHA256操作,结果与哈希结果相比以前存储在区块链,如果它们是相同的,这意味着数据没有被改变。

SHA256算法可以为任意长度的数据生成256位长的哈希值。哈希值是一段数据的唯一且极其紧凑的数字表示。如果一个明文只改变了一个字母,那么产生的哈希值将是完全不同的,因此,如果数据被修改了,无论多么小的变化,最终的哈希值都将是完全不同的,所以数据的哈希值可以验证数据的完整性。

图4为数据查询过程。首先,关键字索引是用来搜索区块链网络的模块和中央数据库,从中央数据库是散列和数据查询获取散列结果B.以前来自块区块链网络保存的散列值A并与B进行比较。如果他们是平等的,它证明了数据没有被修改。

2.3 成员和组织访问机制

Fabric的成员资格基于标准的X.509证书,密钥使用ECDSA(椭圆曲线数字签名算法),它是ECC(椭圆曲线密码术)和DSA(数字签名算法)的组合。椭圆曲线密码体制的安全性基于椭圆曲线离散对数问题的难解性。椭圆曲线离散对数问题比离散对数问题复杂得多,椭圆曲线密码体制的单位比特强度比传统的离散对数体制高得多。因此,在使用较短密钥的情况下,ECC可以达到与DL系统相同的安全级别。这具有计算参数更小、密钥更短、计算速度更快和签名更短的优点。因此,椭圆曲线密码技术特别适用于处理能力、内存空间、带宽和功耗有限的应用场合。公开密码匙基础建设系统是用来向每个成员发出数码证书。只有在通道中具有相同MSP的节点才能使用闲话协议进行数据分发。

数据需要被共享来释放和发掘其价值。然而,由于许多数据涉及企业和政府的秘密,这导致组织之间不共享自己的数据。

因为协会区块链是可插拔的组织,允许多个认证组织加入网络共享数据。区块链固有的防篡改安全特性也有助于减少组织共享数据的担忧,我们提出的链上/链外模型仍然将大量数据存储在本地数据库中。这对于那些传统的公司来说是可以接受的。

3 数据结构和链代码

根据我们的用户角色和功能,我们原型系统的数据结构如图5所示。当输入的信息,管理员可以检查的一些字段为核心领域,当信息存储时这段时间就被当作是一个时间戳,这两个字段可以用作数据的变更记录的证明。历史记录了数据中的每一个变化,并作为数据的回溯。

只有根据背书策略进行背书,每笔交易才有效。背书策略用于指导同行如何确定交易是否已被批准。当对等方接收到事务时,它调用与事务的Chaincode相关联的VSCC(验证系统链码),作为事务验证过程的一部分,以确定事务的有效性。事务在一个或多个对等签注节点中包含签注支持。除了验证背书策略之外,VSCC还检查事务信息中每个键值对的数据版本是否发生了更改。图6为RBFT结构示意图。在网络中,客户机向节点发送请求,不需要向所有节点发送消息,因为发送f 1就足够了。节点接收到客户机的请求后,将传播消息,以便其他节点知道请求消息。在每个主节点接收到请求后,它创建一个建议(预准备)并将其发送给所有其他节点。如果其他节点接收到主节点的预准备,则返回一条准备消息。一旦节点接收到预准备消息和2f准备消息,一旦节点接收到预准备消息和2f准备消息,节点就有足够的信息来接收建议并发送提交消息。一旦一个节点收到2f 1提交消息,这些请求就可以被分类并添加到分类账中。

4 实验结果与分析

我们开发了一个基于超账本结构的原型系统,以验证我们提出的数据分离和存储的思想确实有效地适用于人事信息管理等大数据管理系统。系统运行在Ubuntu 18.04(64位)虚拟机上,Intel(R) Core(TM) 470hq CPU @ 2.50 GHz处理器和8gb RAM,使用MySQL Ver 14.14仿真中心数据库。图7是一个演示操作的原型系统,显示查询结果的一个人的基于ID号的信息,上面的表显示人员信息的变化,和每列标志着运营商的变化和操作时间,实现数据的可追溯性。

接下来,观察在分别存储数据和不分离数据之后,读取和存储响应时间的变化。一个人占用的空间的大小是50 kB,在单独的存储方案,40 kB的数据存储在中央数据库中,10 kB存储在区块链网络,不分开的存储方案,所有50 kB的数据存储在区块链网络。从2000人的数据量开始,每增加2000人,直到增加20000人。图中的蓝色曲线是存储在区块链网络中的所有数据。红色曲线表示仅将10 kB的数据存储到区块链中,以便观察仅通过减少存储数据的大小对性能的影响。黄色曲线将10 kB的数据存储到区块链中,其余40 kB的数据存储在中央数据库中。

随着区块链上数据量的增加,添加数据的响应时间如图8所示。可以看出,减少数据量可以有效降低存储响应时间。因为单独的数据存储需求存储区块链和本地数据库中的数据分别有一个步骤比区块链网络存储所有的数据,因此,当数据量小,响应时间的单独的存储将高于不分离存储,但在本地数据库存储数据不需要共识验证和节点数据同步。随着数据量的增加,独立存储的优势逐渐显现。

图9显示了随着数据量的增加,查

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237921],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。