英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
摘要
基于人工神经网络的深度学习是一种非常流行的方法,用于对复杂数据(如图像,语音和文本)进行建模,分类和识别。深度学习方法的前所未有的准确性使它们成为互联网上基于AI的新服务的基础。由于深度学习技术的成功与可用于培训的数据量成正比,因此大规模收集用户数据的商业公司一直是这一趋势的主要受益者。
深度学习所需的大量数据收集存在明显的隐私问题。用户的个人高度敏感数据(如照片和录音)由收集它的公司无限期保留。用户既不能删除它,也不能限制它的使用目的。此外,集中保存的数据受到法律传票和司法外监督。许多数据所有者——例如,可能希望将深度学习方法应用于临床记录的医疗机构——通过共享数据而受到隐私和保密问题的阻止,从而受益于大规模深度学习。
在本文中,我们设计,实现和评估一个实际系统,使多方能够共同学习给定目标的精确神经网络模型,而无需共享其输入数据集。我们利用现代深度学习中使用的优化算法,即基于随机梯度下降的优化算法,可以并行化并异步执行。我们的系统允许参与者在他们自己的数据集上独立训练,并在训练期间有选择地共享他们模型的关键参数的小子集。这在公用事业/隐私权衡空间中提供了一个有吸引力的点:参与者保留其各自数据的隐私,同时仍然受益于其他参与者的模型,从而提高他们的学习准确度,超出了他们自己的输入所能达到的水平。我们展示了我们在基准数据集上隐私深度学习的准确性。
关键词
隐私; 神经网络; 深度学习; 梯度下降
1.介绍
基于人工神经网络的深度学习方法的最新进展已经导致了长期人工智能任务的突破,如语音,图像和文本识别,语言翻译等。谷歌,Facebook和苹果等公司利用了巨大的优势从用户收集的大量训练数据以及GPU场的大量计算能力,可以大规模部署深度学习。所得模型的前所未有的准确性使它们成为许多新服务和应用的基础,包括准确的语音识别[24]和优于人类的图像识别[26]。
虽然深度学习的实用性是不可否认的,但使其如此成功的相同培训数据也会带来严重的隐私问题。数百万人的照片,演讲和视频的集中收集已经成熟,存在隐私风险。首先,收集这些数据的公司会永远保持这种状收集数据的用户既不能删除它,也不能控制它的使用方式,也不会影响从中学到的东西。其次,图像和录音通常包含意外捕获的敏感物品——面孔,车牌,电脑屏幕,其他人说话的声音和环境噪音[44]等。第三,公司保存的用户数据受传票和保证的约束,以及国家安全和情报机构的无证间谍活动。
此外,互联网巨头对数百万用户收集的“大数据”的垄断导致他们垄断从这些数据中学到的AI模型。用户可以从新服务中受益,例如强大的图像搜索,语音激活的个人助理以及外语网页的机器翻译,但是根据其集体数据构建的基础模型仍然是创建它们的公司的专有模型。
最后,在许多领域,尤其是与医学相关的领域,法律或法规不允许共享有关个人的数据。因此,生物医学和临床研究人员只能对属于他们自己的机构的数据集进行深入学习。众所周知,随着训练数据集变得更大,更多样化,神经网络模型变得更好。由于在训练模型时无法使用其他机构的数据,研究人员最终可能会使用更糟糕的模型。例如,由单个组织(例如,特定医疗诊所)拥有的数据可能是非常同质的,产生过度拟合的模型,当在其他输入上使用时该模型将是不准确的。在这种情况下,隐私和机密性限制会显着降低效用。
我们的贡献。我们设计,实施和评估实用的协作深度学习系统,在效用和隐私之间提供有吸引力的权衡。我们的系统使多个参与者能够在他们自己的输入上学习神经网络模型,而不需要共享这些输入,而是从同时学习类似模型的其他参与者那里获益。
我们的关键技术创新是在培训期间选择性地共享模型参数。该参数共享与随机梯度下降期间的局部参数更新交织,允许参与者从其他参与者的模型中受益,而无需明确共享训练输入。我们的方法独立于用于为特定任务构建模型的特定算法。因此,它可以在不改变核心协议的情况下轻松适应神经网络训练的未来进展。
选择性参数共享是有效的,因为现代神经网络训练的随机梯度下降算法可以并行化并且异步运行。它们对于不可靠的参数更新,竞争条件,参与者退出等都是健壮的。用从其他参与者获得的值更新一小部分参数允许每个参与者在寻找最佳参数的过程中避免局部最小值。可以调整参数共享以控制交换的信息量与所得模型的准确性之间的权衡。
我们在两个数据集MNIST和SVHN上实验性地评估我们的系统,用作图像分类算法的基准。我们系统中分布式参与者生成的模型的准确性接近于集中的,隐私违规的情况,其中单方持有整个数据集并使用它来训练模型。对于MNIST数据集,当参与者共享其参数的10%(分别为1%)时,我们获得99.14%的准确度(分别为98.71%)。相比之下,集中式隐私违规模型的最高准确率为99.17%,参与者个人学习的非协作模型最高准确率为93.16%。对于SVHN数据集,当参与者共享其参数的10%(1%)时,我们达到93.12%(89.86%)的准确度。相比之下,集中式隐私模型的最高准确率为92.99%,非协作模型的最高准确率为81.82%。
即使没有额外的保护措施,我们的系统已经实现了比现有方法更强大的隐私,实用性损失可以忽略不计。我们系统中的唯一泄漏不是直接泄露所有训练数据,而是通过一小部分神经网络参数进行间接泄漏。为了最小化甚至这种泄漏,我们展示了如何使用稀疏矢量技术将差异隐私应用于参数更新,从而减轻由于参数选择(即,选择要共享哪些参数)和共享参数值而导致的隐私损失。然后我们定量测量准确性和隐私之间的权衡。
2 相关工作
2.1 深度学习
深度学习是从复杂数据中学习非线性特征和函数的过程。深度学习架构,算法和应用程序的调查可以在[5,16]中找到。深度学习已被证明优于传统的语音识别技术[23,24,27],图像识别[30,45]和人脸检测[48]。据称,基于新型整流器激活功能的深度学习架构在识别ImageNet数据集中的图像时表现优于人类[26]。深度学习已经显示出有望分析与癌症相关的复杂生物医学数据[13,22,32]和遗传学[15,56]。从隐私角度来看,用于构建这些模型的培训数据特别敏感,强调了保护隐私的深度学习方法的必要性。我们的工作受到最近在深度学习并行化方面取得的进展的启发,特别是在GPU / CPU集群上并行化随机梯度下降[14],以及在神经网络训练期间分配计算的其他技术[1,39,59]。然而,这些技术不涉及训练数据的隐私,并且都假设单个实体控制训练。
2.2 机器学习中的隐私
关于机器学习中的隐私保护的现有文献主要针对传统的机器学习算法,而不是深度学习,并且解决了三个目标:用于学习模型或作为现有模型的输入的数据的隐私,模型的隐私,以及模型输出的隐私。当多方在其专有输入上执行协作机器学习时,基于安全多方计算(SMC)的技术可以帮助保护计算的中间步骤。SMC已被用于学习决策树[33],线性回归函数[17],关联规则[50],朴素贝叶斯分类器[51]和k均值聚类[28]。一般而言,SMC技术会产生非平凡的性能开销,并且它们在保护隐私的深度学习中的应用仍然是一个悬而未决的问题。保护模型隐私的技术包括隐私概率推理[38],隐私保护说话人识别[36]和加密数据计算[3,6,55]。相比之下,我们的目标是协同训练可由每个参与者私下和独立使用的神经网络。
差异隐私[19]是一种保护隐私机器学习的流行方法。它已被应用于增强[21],主成分分析[10],线性和逻辑回归[8,57],支持向量机[41],风险最小化[9,53]和连续数据处理[43]。最近的研究结果表明,随机梯度下降的嘈杂变量实现了最小化Lipschitz凸函数的最优误差,超过了2-bounded集[4],并且随机化的“辍学”用于防止过度拟合,cal也加强了隐私保证的简单性1层神经网络[29]。据我们所知,以前的工作都没有涉及使用分布式随机梯度下降的多个参与者的协作深度学习问题。在[37]中提出了使用差分隐私和安全多方计算的独立训练神经网络的聚合。不幸的是,平均神经网络参数不一定会产生更好的模型。与先前提出的技术不同,我们的系统在协作神经网络训练的背景下实现了所有三个隐私目标:它保护训练数据的隐私,使参与者能够控制学习目标以及揭示他们各自模型的多少,并让他们将共同学习的模型应用于他们自己的输入,而不会泄露输入或输出。我们的系统以比加密技术(如安全的多方计算或同态加密)低得多的性能成本实现了这一目标,适合在现代大规模深度学习中部署。
3深度学习
深度学习旨在从高维数据中提取复杂特征,并使用它们来构建将输入与输出(例如,类)相关联的模型。深度学习体系结构通常构建为多层网络,因此更抽象的特征被计算为低级特征的非线性函数。我们主要关注监督学习,其中训练输入被标记为正确的类,但原则上我们的方法也可以用于无监督的,保护隐私的学习。多层神经网络是深度学习架构的最常见形式。图1显示了具有两个隐藏层的典型神经网络。网络中的每个节点都模拟一个神经元。在典型的多层网络中,每个神经元接收前一层神经元的输出加上来自发射1的特殊神经元的偏置信号。然后计算其输入的加权平均值,称为总输入。通过将非线性激活函数应用于总输入值来计算神经元的输出。层k中神经元的输出矢量是,其中f是激活函数,Wk是确定每个输入信号的贡献的权重矩阵。激活函数的例子是双曲正切,sigmoid,整流器和softplus 。如果神经网络用于将输入数据分类为有限数量的类(每个类由不同的输出神经元表示),则最后一层中的激活函数通常是softmax函数,forall;j。在这种情况下,最后一层中每个神经元j的输出是输入属于类j的相对分数或概率。
通常,在较高层中计算的值表示数据的更抽象的特征。第一层由从数据中提取的原始特征组成,例如,图像中每个像素的颜色强度或文档中每个单词的频率。最后一层的输出对应于模型产生的抽象答案。如果神经网络用于分类,这些抽象特征也代表输入和输出之间的关系。非线性函数f和权重矩阵确定在每一层提取的特征。深度学习的主要挑战是自动从训练数据中学习最大化神经网络目标的参数(权重矩阵)的值(例如,分类准确度)。使用梯度下降学习网络参数。学习神经网络的参数是非线性优化问题。在监督学习中,目标函数是神经网络的输出。用于解决此问题的算法通常是梯度下降的变体[2]。简单地说,梯度下降从随机点(神经网络的参数集)开始,然后,在每个步骤,计算被优化的非线性函数的梯度,并更新参数以减小梯度。该过程一直持续到算法收敛到局部最优。
在神经网络中,通过前馈和反向传播过程计算每个权重参数的梯度。前馈顺序地计算给定输入数据的网络输出,然后计算误差,即该输出与函数的真值之间的差值。反向传播将此错误传播回网络,并计算每个神经元对总误差的贡献。根据神经元的激活值及其对误差的贡献计算各个参数的梯度。随机梯度下降(SGD)。可以在所有可用数据上平均参数的梯度。这种算法称为批量梯度下降,效率不高,尤其是在大型数据集上学习时。随机梯度下降(SGD)是一种极大的简化,它可以计算整个数据集的极小子集(小批量)的梯度[58]。在最简单的情况下,对应于最大随机性,在每个优化步骤中随机选择一个数据样本。设W是由Wk,forall;k组成的神经网络中所有参数的展平向量。令E为误差函数,即目标函数的真值与计算的网络输出之间的差值。 E可以基于L 2范数或交叉熵[34]。反向传播算法计算E相对于w中每个参数的偏导数,并更新参数以减小其梯度。参数wj的随机梯度下降的更新规则是
其中alpha;是学习速率,并且在小批量i上计算Ei。我们将所有可用输入数据的一次完整迭代称为时期。请注意,向量w中的每个参数都独立于其他参数进行更新。在本文的其余部分设计我们的隐私保护,协作随机梯度下降系统时,我们将依赖此属性。一些技术自适应地设定学习率[18],但仍保持这种独立性。
图1:具有两个隐藏层的神经网络。黑色圆圈表示偏置节点。矩阵Wk包含用于计算每层k的激活函数的权重。
4 分布式选择性SGD
我们的方法的核心是分布式协作深度学习协议,它依赖于以下观察:(i)梯度下降期间对不同参数的更新本质上是独立的,(ii)不同的训练数据集对不同的参数有贡献,以及(iii)不同功能对目标功能没有同等作用。我们的选择性随机梯度下降(选择性SGD或SSGD)协议实现了与传统SGD相当的精度,但涉及在每次学习迭代中更新1或甚至2个数量级的参数。选择性参数更新。选择性参数更新背后的主要直觉是在SGD期间,一些参数对神经网络的目标函数贡献更多,因此在给定的训练迭代期间经历更大的更新。梯度值取决于训练样本(小批量),并且因样本而异。此外,输入数据的某些功能比其他功能更重要,有助于计算这些功能的参数在学习过程中发挥更大的作用并经历更大的变化。在选择性SGD中,学习者选择在每次迭代时要更新的一小部分参数。该选择可以是完全随机的,但是智能策略是选择当前值远离其局部最佳值的参数,即具有较大梯度的参数。对于每个训练样本i,计算所有参数wj的偏导数,如SGD。设S是具有最大值的theta;参数的指数。最后,以与(1)中相同的方式更新参数向量,因此不在S中的参数保持不变。我们将theta;与参数总数的比率称为参数选择率。
分布式协作学习。分布式选择性SGD假设两个或更多参与者独立和同时进行培训。在每轮本地训练之后,参与者异步地彼此分享他们为某些参数计算的梯度。每个参与者完全控制要分享的梯度和频率。针对给定参数计算的所有梯度的总和确定朝向参数的局部最优值的全局下降的大小(这里“本地”是指参数值的空间,并不意味着限于单个参与者)。因此,参与者可以从彼此的训练数据中受益 - 而无需实际看到这些数据! - 并且可以生成更准确的模型,这些模型可以单独学习,仅限于他们自己的训练数据。参与者可以直接或通过可信的中央服务器交换渐变,甚至可以使用安全的多方计算来“无视地”交换它们,模仿隐藏每个更新来源的可信服务器的功能。出于本讨论的目的,我们假设中心服务器的抽象,参与者异步上载渐变。服务器将所有渐变添加到相应参数的值。每个参与者从服务器下载参数的子集并使用它们来更新其本地模型。给定参数的下载
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[20134],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。