前馈和递归卷积忆阻器网络的原位训练外文翻译资料

 2022-08-22 15:22:39

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


前馈和递归卷积忆阻器网络的原位训练

摘要:机器学习的爆炸式增长很大程度上归功于硬件和体系结构的最新进展。利用空间或时间平移等距图模式的网络结构的工程设计,自然会产生受生物启发的权重共享结构,例如卷积神经网络,从而明显地减少了自由参数的数量。最先进的微体系结构通常依赖于权重共享技术,但仍然受限于晶体管技术平台的冯·诺依曼瓶颈。在这里,我们通过实验演示了一个原位训练的五层卷积神经网络,其自适应于单晶体管单忆阻器阵列的非理想特性,用其对MNIST数据集进行分类,实现了与基于忆阻器的多层感知器相似的精度,并且由于共享权重,使得可训练参数减少了75%。此外,在一个具有本征三维输入处理能力的忆阻神经网络——卷积长短期记忆网络中,忆阻器对空间和时间平移不变形都进行了编码。该网络通过原位训练,仅需850个权重就可以对合成的MNIST序列数据集进行分类。以上原理性验证工作结合权重共享的架构优势和忆阻器的面积/能效推动,为未来的边缘人工智能铺平了道路。

权重共享是最先进的神经网络的共同特征,与密集连接的网络相比,它可以大大减少执行特征提取所需的自由参数的数量。受到猴子的视觉皮层神经元分别对视野的小区域作出反应并且相邻细胞具有相似的部分重叠的感受野这一事实的启发,局部连接的神经元之间的权重共享使得卷积神经网络(CNN) 不仅可以使用最少的预处理来处理输入的平移和局部失真,还可以提取和分类局部空间相关性。CNN现在是用于分析视觉图像的主要架构,这在VGG,GoogLeNet和ResNet的成功中得到了体现。权重共享还可以利用模式的时空平移不变性,从而导致循环结构。卷积长短期记忆(ConvLSTM)由于其循环体系结构而能够学习长期依赖关系,它使用卷积内核来确定输入到状态和状态到状态的转换,从而展现出内在的能力——时空特征提取。ConvLSTM为3D输入(例如视频)提供自然的端到端可训练基础模块,其应用范围从降水预报到视频编码。

权重结构的大多数实现都依赖于图形处理单元。然而,当以这样的常规数字硬件实现时,这些权重共享网络承受较长推理延迟时间和高功率损耗。如果在物联网时代的边缘进行计算,这些问题可能会变得难以负担。具有优化的乘积(MAC)单元的专用集成电路,例如张量处理单元,Eyriss和DaDianNao可以潜在地提高面积/能量效率。然而,此类架构的冯·诺依曼瓶颈和晶体管的成本效益越来越低,限制了这些方法的最终效率。因此,在计算平台及其构建基块上进行根本性更改,对于满足不断增长的计算能力需求至关重要。

忆阻器是新兴的两端电子器件,它们展示出了模拟电导,快速开关,优秀的可扩展性,长期数据保持力和擦写持久性等特点。在交叉开关中,忆阻器阵列自然会将存储数据的MAC操作并行化。此类模拟存内计算直接使用本征物理定律来避免因冯·诺依曼系统中频繁的数据穿梭而产生的大量能源和时间开销。这允许忆阻器交叉开关阵列在物理上体现网络的全连接层,而面积/能量效率大大提高。然而,实际的计算系统总是在计算能力和存储器方面受到限制。另外,诸如图像,视频和音频的典型数据集具有空间或时间相关性。给定相同数量的硬件(内存)或系统的可训练参数数量(自由度),多层感知器与权重共享网络相比通常显示出较差的功能(例如分类精度),这限制了它们的实际应用。

由于忆阻器集成在交叉开关矩阵中最有效,不同于权重共享人工神经网络的微观结构,有必要将权重共享网络的高维可训练参数有效地重映射到二维忆阻器阵列。此外,这种映射应满足对权重表示准确性的更严格要求,因为与全连接的网络相比,权重共享的体系结构更容易受到硬件非理想性的影响。由于忆阻器的随机行为,它们可能与电导率不准确地代表突触权重,这与离子迁移有关,可以通过迭代校正来改善,而以时间和能量为代价。这使得权重共享架构的训练成为一项艰巨的任务。因此,忆阻器仅被用于具有暂时权重共享的全连接网络,而最近一次以循环结构证明了这一点。已经对卷积层如何映射到二进制权重的忆阻器交叉开关和忆阻器CNN进行了理论研究,前者在HfOx忆阻器上进行了实验验证。最近,已经在具有65nm和55nm CMOS逻辑工艺的兆位二进制状态电阻开关宏上演示了用于2位输入和3位权重卷积的MAC操作。 但是,缺乏对忆阻器基于空间的共享权重架构(例如CNN)的现场训练,就像忆阻器阵列上并发的时空权重共享(例如ConvLSTM)一样。

在现场训练中直接在忆阻器中存储和更新权重,并在存储神经网络参数的原始位置执行计算(例如,前向传递);这样就避免了在数字计算机中实现重复系统的需要,例如非原位训练,通过消除了数字计算机的处理器内存瓶颈,从而大大提高了系统的面积利用率/能源效率。更重要的是,反向传播的原位训练能够自适应地调整网络参数,以将不可避免的硬件非理想特性(例如导线电阻,模拟特征的不对称性,失效的忆阻器,电导编程中电导漂移和一致性)的影响降至最低,而无需任何硬件方面的先验知识,这对共享权重网络至关重要。

在这里我们展示了使用权重神经网络的简单密集映射到忆阻器交叉开关的共享权重神经网络的原位训练可以容忍一个晶体管的忆阻器(1T1R)阵列的硬件非理想性。我们仅仅使用了约1000的权重就对MNIST手写数字进行分类的准确率达到92.13%,也就是说,仅具有类似性能的忆阻器多层感知器数量的四分之一。此外,我们证明了通过在具有固有3D输入的递归ConvLSTM网络中级联卷积核可进一步扩展权重共享的优势,该网络识别了输入状态与状态状态之间的时空相关性状态转换。实验证明,通过时空忆阻器权重共享将可训练参数降低到850,这是使用基于忆阻器的硬件有效地实现边缘应用的高级网络拓扑的一种有潜力的方法。

图1 | 5级卷积神经网络(CNN)的1T1R实现。

  1. 带有探针卡的128times;64 1T1R阵列的光学和扫描电子显微照片(四个边缘上的黑色尖端)着陆。彩色块显示了1T1R阵列的分区,以实现两个卷积层(第一卷积层的15个3times;3内核和第二卷积层的4个2times;2内核)和完全连接层(权重)的可训练参数矩阵尺寸64times;10)。差分电导对在相邻的位线之间形成(例如和,其中i和j是整数)。每个权重在这里由两个差分对表示。扫描电子显微照片显示一个放大的1T1R细胞(右)。比例尺,20mu;m。
  2. 所有128times;64 1T1R单元的模拟SET和RESET具有线性变化的所有一致性晶体管公共栅极电压。所有1T1R单元均接收15个连续的SET操作,栅极电压从1.0 toV线性增加到2.4,V,然后进行15 RESET操作,栅极电压从2.4 V线性减小到1.0 V(对于每个RESET操作,在施加全复位之前, 1T1R单元将再次设置为符合当前标准)。
  3. 五级CNN的网络结构,用于对MNIST手写数字进行分类。通过滑动紫色框中的卷积区域,对大小为8times;8的8位灰度输入进行卷积。展开选定的卷积区域(例如,列向量元素,,,,...,)并作为电压信号馈入差分对的交叉开关网络(两个重复在实验中,使用差分对表示单个权重)。收集了所有内核的总输出电流I(内核1),I(内核2),hellip;,I(内核15)。输入图像首先由大小为3times;3的15个忆阻器内核进行物理卷积,填充为零,步幅为零。第一卷积层的模拟卷积输出在被发送到下一层之前被ReLU激活,生成15个大小为8times;8的特征图。这些特征图再次由第二个卷积层大小为2times;2的四个内核进行卷积,然后是子采样层,该子采样层在大小为2times;2的不重叠池窗口上实现了最大池化功能。然后将这些特征图作为10路softmax输出层的输入进行展平。输出层的获胜者神经元预测了输入图像的类别(请参见方法)。特征图和输出的值如彩条所示。

结果

具有空间权重共享的1T1R CNN。图1a显示了1T1R忆阻器阵列的光学显微照片,该阵列包括具有模拟编程功能,由于化学稳定的Ta-O相而具有长期数据保留和持久性的Pt / TaOx / Ta忆阻器,以及其分区可物理实现所有神经网络的可训练参数。可训练参数或不同层的权重与上游和下游神经元接口,这些上游和下游神经元由常规的片外晶体管电路实现(如补充图1所示)。与将专用1T1R阵列用于不同的神经网络层相比,单个大型阵列的划分实质上在同一网络的不同层之间共享突触前神经元,从而最大限度地利用了外围电路,并有利于边缘应用。

图1中的放大扫描电子显微照片显示同一列的1T1R单元共享晶体管的常见来源由相同的位线连接。同一行的单元共享晶体管的公共栅极(连接在同一字线上)和忆阻器的公共顶部电极(TE)。在推论阶段,所有晶体管都在深三极管区域工作,因此1T1R阵列变成了伪1R交叉开关,能够直接使用欧姆定律和基尔霍夫电流定律直接执行矢量矩阵乘法,从而无需将数据传回 在内存和处理器之间来回切换。在权重更新阶段,晶体管施加电流顺应性,通过单次盲更新以可接受的精度对忆阻器进行编程,其速度比施加相同脉冲序列要快。 (见图1b和补充图2)。

图1c说明了前向传递期间CNN的计算流程。该网络是从LeNet-5衍生而来的经过修改的五层CNN,其权重减少了,可以适应128times;64 1T1R阵列。因为我们的主要目标是展示权重共享的优势,所以这种简单的CNN在准确性和权重数量之间具有相对较大的比率(有关与另一个类似LeNet-5的网络进行实验比较,请参见补充说明1)。输入到网络的示例是具有8times;8像素和8位分辨率的大小调整后的MNIST手写数字图像(请参阅生成大小调整后的MNIST数据集的方法,以及对网络性能的下采样影响的补充说明2)。在这里,我们折叠了用于卷积的输入补丁(在紫色框中突出显示)和单个内核到列向量的参数。由水平放置同一层的不同展开内核形成的一个参数矩阵存储单个卷积层的所有可训练权重。与常对角矩阵或稀疏映射方案相比,这种密集映射方案通过在整个输入量上扫描接收场来执行卷积,从而导致产生多个MAC操作,从而产生输出图的完整量,具有较大的MAC- 操作/权重更新比率(权重更新无法在忆阻器阵列上完全并行化,因此应尽可能少地执行)。替代地,使用具有步进移位的重复内核的稀疏映射可以进一步使卷积在不同输入面片上并行化。但是,随着数据/内核比率的提高,每单位面积的有效吞吐量会迅速下降,除了复制相同内核的挑战并且在稀疏矩阵中具有理想的0s(由于忆阻器的固有可变性)和忆阻器编程能量的增加。因此,我们选择了密集映射方案而不是稀疏映射。

首先将输入与15个3times;3内核进行物理卷积,其特征是忆阻器阵列上的零填充和单一步幅。带符号的权重被编码为同一行上的忆阻器一对或多对之间的电导差(此处我们使用两对电阻来进一步提高编程精度)。由16位模数转换器(ADC)数字化的模拟卷积输出在软件元素方面由整流线性单元(ReLU)激活,然后发送到下一层,生成15个尺寸为8times;的特征图 8(请参阅方法)。这些特征图再次由四个2times;2内核进行卷积,然后是一个下采样层,该层在大小为2times;2的非重叠池窗口上实现了最大池功能。 最后,将要素图展平为10路softmax输出层的输入。

卷积步幅的计算复杂度通常为, 其中,,和分别是内核的高度,宽度,深度和种群。另一方面,一旦权重物理映射到1T1R阵列,复杂度就变为O(1),因为同一内核内以及整个层的所有内核中的所有MAC操作都在单个时间步中执行。或者,第一(第二)卷积层每个循环执行270(480)次操作(乘法和加法)(即,一个矩阵矢量与1T1R子阵列相乘),每个样本64(64)个循环和17,280(30,720) )正向传递中每个样本的操作。同样,全连接层每个周期执行1,280个操作,每个样本执行1个周期(请参阅补充表1)。结果,与基于晶体管的实现相比,基于1T1R阵列的混合模拟-数字计算平台在面积和能效方面显示出明显的优势。 这些优势还可以扩展到最新的神经网络(有关基于运行AlexNet的128times;64 1T1R阵列和多个大型阵列的混合模拟-数字系统的投影面积/能量效率,请参见补充说明3和4。)。

图2 | 基于1T1R的五级CNN的现场培训。

a,CNN的混合模拟-数字训练示意图。模拟1T1R忆阻器阵列物理上执行了计算量大的矢量矩阵乘法,而数字逻辑使用RMSprop优化器计算了交叉熵损失和权重更新(新的电导矩阵G)。

b-c,平滑的批内实验精度提高(b)损失减少(c)在现场训练过程中,实验曲线与包括程序设计噪声在内的仿真是无法区分的,紧跟在无缺陷仿真之后,在训练的第二个时期内,精度差距约为4%。

d–f,在15个3times;3内核的原位训练前后的权重分布(d)四个2times;2内核(e)与全连接层(f)训练扩大了高斯样分布。

1T1R CNN的原位训练

在混合模拟数字系统上实施了网络的原位训练,包括前向穿传播,误差反向传播和权重更新。训练包括MNIST训练数据集中所有60,000张图像的2个时期中的1,200个小批量,使用小批量大小为100。如图2a所示,混合模拟-数字系统结合了忆阻器面积/能量效率的优势,可以执行计算量大的矢量-矩阵乘法和数字逻辑,以实现其余的训练算法(例如,使用RMSprop优化器计算交叉熵损失并计算重量变化;请参见补充图1)。反向传播是使用物理获取的权重在MATLAB环境(R2018b,版本9.5)中实现的。然后使用权重梯度来计算RMSprop如何更新阵列,RMSprop是具有权重和梯度历史相关性的随机梯度下降的变体。代替迭代写-读方案,我们使用单触发盲更新,该更新由晶体管电流顺应性实现。用有限的并行度逐列更新电导,其中表示1T1R阵列的位线的数量,

而不是向量矩阵乘法的复杂度(请参见方法)。

在图2b,c中显示了经过历时的平滑训练准确性和损失,在经过两个历时后,测试集的准确度为92.13%(有关推断的统计信息,请参见补充图3;对于代表性分类,请参见补充图4; 推断中所有类的分类错误)。补充视频1和2中显示了说明性的训练和推论。忆阻器编程的不准确性(性能的限制因素)可以通过进一步设计忆阻器材料堆栈来改善。但是,忆阻器的随机编程可自然

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239417],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。