英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
附录 译文
用于神经形态计算的点积引擎:编程 1T1M 横杆以加速矩阵-矢量乘法
苗虎、约翰·保罗·斯特拉昌、李志勇、埃马努埃尔·默塞德·格拉法茨、诺拉伊卡·达维拉、凯瑟琳·格雷夫斯、西蒂·林、宁格、李柱·威廉姆斯、杨建华
关键字:忆阻器点积;横梁
摘要:
矢量矩阵乘法主导了许多工作负载的计算时间和精力,尤其是神经网络算法和线性变换(例如离散傅立叶变换)。利用美姆托横杆的自然电流积累特性,我们开发了Dot-Product发动机(DPE),作为近似矩阵-矢量乘法的高密度、高功率效率加速器。我们首先发明了一种转换算法,将任意矩阵值与逼真的横杆阵列中的美记传导度适当映射,考虑器件物理和电路问题,以减少计算误差。通过闭环脉冲调谐和接入晶体管,实现了大型阵列中精确的器件电阻编程。为了验证我们的方法,我们模拟并基准了一个最先进的神经网络,用于 DE 上的模式识别。结果表明,与仅满足 4 位 DAC/ADC 要求的软件方法(MNIST 数据集的 99% 模式识别精度)相比,该解决方案的精度没有降低,而 DPE 可实现 1,000 倍到 10,000 倍的速度效率产品,而与自定义数字 ASIC 相比。
用于神经形态计算的点积引擎:编程 1T1M 横杆以加速矢量矩阵乘法
摘要
矢量矩阵乘法主导了许多工作负载的计算时间和精力,尤其是神经网络算法和线性变换(例如离散傅立叶变换)。利用美姆托横杆的自然电流积累特性,我们开发了Dot-Product发动机(DPE),作为近似矩阵-矢量乘法的高密度、高功率效率加速器。我们首先发明了一种转换算法,将任意矩阵值与逼真的横杆阵列中的美记传导度适当映射,考虑器件物理和电路问题,以减少计算误差。通过闭环脉冲调谐和接入晶体管,实现了大型阵列中精确的器件电阻编程。为了验证我们的方法,我们模拟并基准了最先进的神经网络之一,用于 DE 上的模式识别。结果表明,与软件方法(MNIST数据集99%模式识别精度)相比,DNIST数据集的精度没有降低,只有4位DAC/ADC要求,而DPE可以实现1,000至10,000Omega;times; 的速度效率产品,而定制数字ASIC[1]。
- 介绍
一个理想的纳米级忆阻器横杆阵列结构可以在一个恒定的时间步长[2]中自然地执行向量矩阵乘法——对于许多重要的应用来说,这是一项计算开销非常大的任务。通过将电压信号矢量施加到忆阻器横木的行上,通过KCL规则对每个忆阻器元件的电导进行乘法运算,并对每列[3]的电流进行求和。这种向量矩阵乘法的“模拟”方法比任何数字专用集成电路[4]都要高效几个数量级,特别是当横杆阵列的大小被缩放到尽可能大的时候。
然而,模拟域中的许多电路问题并非微不足道,因为需要考虑有限线电阻、输入/输出级电阻、电流-电压关系中的逐元器件非线性以及所有噪声源。从矩阵值到横杆传导和输入/输出值到电压信号的天真线性映射,随着阵列尺寸的增长,精度会迅速非常低[5]。一些研究人员使用硬件训练方案来对计算错误[6、7、8、8、9]进行最小免疫。然而,到目前为止,硬件培训方法很慢,迭代过程对所有设备进行了广泛的读取和写入,与软件[10]相比,其性能和能效有限,而且潜在的设备磨损[11]。
为了克服这些问题,我们开发了点积引擎(DPE),以及一个快速转换算法,作为一个现实的解决方案,加速矩阵向量乘法在稳健的应用,可以容忍较低的计算精度,如神经网络算法。我们的贡献总结如下:
- 提出了一种考虑器件和电路问题的通用转换算法,将任意矩阵值映射到忆阻电导。这种转换算法可以扩展到任何其他交叉杆结构或交叉接点设备,只需替换电路或设备模型。
- DPE的仿真广泛地基于从实际设备中校准的电路和设备模型。与传统的数字集成电路[1]相比,定量分析了DPE的精度、速度和能量效率。在保守的DPE参数假设下,可以得到比原来快1000到10000倍的产品。
- 为了评估DPE在神经网络中的应用,我们在DPEs[10]上实现了一种最先进的神经网络。仿真结果表明,在4比特精度的DAC/ADC接口下,硬件的识别精度达到了与软件方法相同的99%,但速度和能量效率大大提高。
- 初步
2.1忆阻器交叉阵列
忆阻器交叉阵列在下一代非易失性存储器中显示出巨大的应用潜力。对于内存应用,需要较大的开/关比,同时快速切换、高耐久性,且特别高非线性,以抑制读取时的泄漏电流以及较大横杆阵列中写入操作期间的潜电流。[12].
记忆电阻器交叉阵列也引起了计算应用的极大兴趣,因为它们可以在一个恒定的时间步长内自然地进行阵列大小的向量矩阵乘法。在图1 (a),在一个理想的横梁,记忆电阻器是线性和所有电路pararistics可能被忽略,应用一个输入矢量电压Vinto横梁和遥感的行输出电压Voutwith Trans-Impedance放大器(TIA)在所有列,得到输出电压= VinGRS RSis反馈电阻,和G是每个交叉点的电导矩阵设备。对于模拟计算应用,忆阻器需要具有稳定的、连续的线性电导状态来表示矩阵值[13]。高开/关比和高持久性仍然是需要的,但不像内存应用程序那样严格要求,切换速度[2]也是如此。
然而,在实际的交叉杆中,单纯的映射会导致较差的计算精度。图1 (b)给出了256times;256横杆阵列中各器件间电压的实例,正矩阵值线性映射到忆阻电导,但由于非理想器件和电路问题,实际输出值与理想输出值相差较大。
2.2映射算法和硬件培训方案
利用忆阻交棒进行有效的计算,如矩阵乘法或神经网络中的突触操作,已有许多研究工作。一般来说,他们可以分为两种方法,仍然在婴儿阶段。一种方法是找到映射方案和交叉设计来容忍器件和电路的缺陷,以便精确的矢量矩阵乘法,电流工作要么对矩阵映射有很高的限制[3,14]和/或对交叉参数[5]有很高的要求。将任意矩阵映射到实际横杆上的通用解决方案仍然缺乏,而且没有任何工作使用基本的矩阵乘法精度来评估其性能或与数字专用集成电路相比。
另一种方法是在外围电路中嵌入学习算法,将忆阻电导作为突触权重自动调整,实现逻辑运算[12]或模式识别/分类功能[6,7,8,9,13]。他们不再追求记忆电阻器交叉棒的计算精度,而是试图提高基于交叉棒的神经网络的模式识别/分类精度。一些令人印象深刻的工作已经完成,以实现基本监督[8,6]或无监督学习方案[15]在横杆上处理小尺度模式识别/分类任务。然而,这些硬件学习芯片在精度、速度和功率效率方面仍然远远落后于现有的软件算法,这是由于记忆电阻调校操作的高成本和不确定性[6]。
- 方法
采用点积引擎(DPE)实现了记忆电阻器横截面上的向量矩阵乘法。它包括记忆电阻器装置和横棒设计,最重要的是,转换算法克服非理想性,确保优化的计算精度和鲁棒性。
3.1设备及电路设计
图2 (a)为制作好的TaOx忆阻器数据。这些设备可以反复编程从2 k不同目标抵抗状态3 mΩ并显示所需的线性在足够低的电压lt; = 0.3 V。因此,它是实现乘法操作的一个很好的候选者。我们建立了一个紧凑的记忆电阻器模型来捕捉这些设备的测量电子传输。该模型较好地匹配了忆阻器在不同环境温度下的电流-电压(I-V)特性。图2 (b)为忆阻器下接入晶体管的数据。晶体管模型也被校准用于模拟。
我们还制作了大小不同的1T1M横杆阵列晶圆片进行测试,如图3 (a)和(b)所示。DPE操作的控制电子元件是使用建立在独立印制电路板上的外围电路实现的。通过高带宽多引脚连接器访问横杆阵列,以提供顺序的设备编程和并行的计算读取。图3 (c)给出了包含上述所有电路寄生和噪声的crossbar仿真模型。该模型还包括对大多数忆阻器件都很重要的温度依赖性。还包括了外围电路的电流驱动能力和电流传感灵敏度。此外,我们模拟随机电报噪声(RTN),或两层波动,经常出现在记忆电阻器设备,这被视为二元噪声[17]。这里并没有考虑crossbar的RC延迟,因为即使在大型crossbar阵列中,这里考虑的几何图形也应该是sub-ns[5],在10兆赫兹的DPE操作中可以忽略。预计这些设备和允许许多操作的时间表也不会考虑保留问题。
3.2转换算法
我们利用我们的记忆电阻器设备物理知识,开发了一种转换算法,将目标矩阵值转换为整个阵列的现实记忆电阻器电导,从而最小化由于已知电路问题和非理想性导致的矩阵乘法中的任何误差。
为了具有实用价值,我们的转换算法也必须有效地计算。我们在 MATLAB 中开发了一个解算器,其中包括基于实验数据的横杆仿真到设备级别。与使用近似值进行通用电路仿真的 SPICE 不同,我们的横杆模拟器在分析性方面求解,比跨栏阵列仿真的 SPICE 模拟器快 2~3 个数量级,没有精度损失。图4(a)显示了DPE的整体序列,包括转换算法的基本流程。矩阵首先线性映射到理想的美因器横杆,以获得理想的横杆行为,它假定理想的横杆具有零线电阻、零输入/输出级电阻、交叉点器件中完全线性 I-V 关系、零噪声等。然后,我们的转换算法可有效模拟真实横杆阵列上的实际(非理想)电流和电压,并调整器件电导,以匹配在理想横杆中穿过每个交叉点器件的电流。使用预先计算的雅各矩阵加快了器件物理的计算。生成的过程非常有效,将任意矩阵转换为 128 times; 128 1T1M 横杆需要不到 3 秒。
转换完成后,我们使用闭环调谐方案[16]来编程记忆电阻器到期望的电导值。在接入晶体管的帮助下,闭环调谐方案可以实现交叉兼容。图4(b)和(c)给出了一个将32times;32离散余弦变换(DCT)转换到32times;32横木上的例子。为了简单起见,DCT矩阵被移到了正的位置。图4(d)显示,我们的设备可以从一个电阻状态持续(超过3000次)调整到任何其他期望的状态。结果表明,电阻分辨率高达32级,误差容忍度为1%。
- 优化
可以通过优化器件/横杆来追求高线性度/低互连电阻,但是优化阵列映射本身来提高性能是很重要的。在本节中,我们完成了转换算法的优化过程,并展示了使用当前的材料系统可以在1T1M横杆上实现精确计算,而不需要在设备/电路层面进行进一步的改进。对于这个工作,横梁上设置固定到10Ω线阻力,和100年Ω输入/输出电阻。DPE转换算法函数具有固定的交叉杆参数,有三个输入变量集:交叉杆阵列的初始电导、标定信号和温度。这些变量应进行优化,以达到最佳的计算精度,并将输入/输出信号振幅保持在外围电路能力范围内。
4.1优化初始电导
电导是理想横杆阵列的交叉点器件电导矩阵。将任意矩阵A映射到gideal首先需要执行一致的移位来处理任何负值,因为不可能存在负电导。如果A包含负值,则通过向所有项相加的ASHIF常数将其变为正值,并在最后一步通过减去ASHIF T·sum(X)来消除对向量矩阵乘法的贡献,其中sum(X是输入向量的总和。生成两个线性映射系数:
a = (Gon minus; Goff)/(Amax minus; Amin));b = Gon minus; a · (Amax)). (1)
Gon/Gof fare最大/最小忆阻电导值和Amax/Aminare最大/最小矩阵值。最后,GIDEALcan的计算公式为:
GIDEAL = a · A b (2)
为了优化初始电导,总的趋势是随着交叉杆尺寸的增大,需要将矩阵映射到更大的初始电阻范围。这是由于更大的交叉线阵列具有更长的线路路径,并导致更多的信号退化。设备,特别是那些在横梁远端的设备,需要调到更低的电阻来进行补偿。增加初始电阻范围可以降低理想信号在每一个交叉点的期望,使转换过程更容易。此外,如果初始电阻范围过低,一些器件可能无法调高导电性以补偿信号的衰减和转换过程的中断。尽管我们的映射算法需要进行这样的调整,但我们表明,通过校准输入信号可以实现最终计算的高精度。当输入信号与校准信号不同时,误差增大。此外,为了转换算法的收敛性,该设备必须能够适应大阵列尺寸所需的低电阻。
4.2优化校准信号
除了初始传导外,还使用校准输入信号来产生理想的横杆行为。对于输入数据具有模式的神经形态和数据分析,可以从输入数据模式中选择校准信号,以尽量减少计算错误。对于通用矢量-矩阵乘法,我们使用统一的校准信号矢量。为简单起见,输入向量规范化为范围 [0,1]。将输入向量 X 转换为输入电压信号 Vin 如下:
Vin = X · Vmax (3)
DAC的最大电压。对于当前的DPE设计,电压输入
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[425600],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。