#每天一篇论文 329/365 EyrISV2:一种用于移动设备上深度神经网络的柔性加速器(一)

news/2025/1/20 7:15:19/
Eyeriss v2: A Flexible Accelerator for Emerging Deep Neural Networks on Mobile Devices

每天一篇论文汇总list

摘要

深度神经网络(deep neural network,DNN)发展的一个最新趋势是将深度学习应用扩展到资源和能量更为受限的平台,例如移动设备。
这些努力旨在减小DNN模型的尺寸,提高硬件处理效率,并使DNN具有更紧凑的结构和/或更高的数据稀疏性。这些紧凑或稀疏模型不同于传统的大型模型,因为它们的层形状和大小有更多的变化,并且常常需要专门的硬件来利用稀疏性来提高性能。因此,许多为大型DNN设计的DNN加速器在这些模型上性能不佳。在这项工作中,我们提出了eyerisv2,一个DNN加速器架构,设计用于运行紧凑和稀疏DNN。为了处理广泛变化的层形状和尺寸,它引入了一种高度灵活的片上网络,称为层次网格,它能够适应不同数据类型的数据重用和带宽需求的不同数量,从而提高计算资源的利用率。此外,Eyeriss v2可以直接在压缩域中处理稀疏数据,从而提高稀疏模型的处理速度和能量效率。总的来说,在稀疏MobileNet的情况下,65nm CMOS工艺中的eyerisv2在批量大小为1的情况下实现1470.6个推论/秒和2560.3个推论/J的吞吐量,比运行MobileNet的原始eyeris快12.6倍,能效高2.5倍。

贡献

本文通过设计高度灵活的片上网络(NOC)来实现的,这是目前处理更多样的DNNS的瓶颈。此外,Eyeriss v2还通过利用各种DNN层中权重和激活的稀疏性来支持稀疏DNN,并将其转化为在能效和处理速度方面的改进。最后,与原来的Eyeris类似,Eyeris v2没有对DNN层所需的总存储容量是否适合芯片进行任何假设,而是优化了不同类型数据的分片方式,实现了芯片的高重用和高能效。总之,本文的贡献包括:
1.一种新型的NoC,称为分层mesh,旨在适应广泛的带宽需求。当数据重用率较低时,它可以从存储器层次提供高带宽(通过单播),以保持PEs的忙碌;当数据复用率较高时,仍然可以利用空间数据复用(通过多播或广播)来实现高能效。对于像MobileNet这样的紧凑型DNN,分层网格增加了5.6倍的吞吐量和1.8倍的能量效率。
2.利用权重和激活的稀疏性,在各种DNN层上提高吞吐量和能效的PE。数据以压缩稀疏列(compressed sparse column,CSC)格式保存,用于片内处理和片外访问,以降低存储和数据移动成本。将权重映射到PE通过考虑稀疏性来提高PE内部的重用性,从而可以减少工作负载不平衡的影响。总体而言,利用稀疏性可使MobileNet的吞吐量和能效分别提高1.2倍和1.3倍。
3.运行稀疏MobileNet的eyeris v2比原来的eyeris快12.6倍,能效高2.5倍(扩展到与eyeris v2相同的PEs数量和存储容量),即运行MobileNet(49.2M MACs)的eyeris v1。与运行AlexNet(724.4M Mac)的Eyeriss v1相比,使用稀疏AlexNet的Eyeriss v2速度快42.5倍,能效高11.3倍。最后,运行稀疏MobileNet的eyerisv1比运行AlexNet的eyerisv1快225.1倍,节能42.0倍。很明显,支持稀疏和紧凑dnn对速度和能耗有显著影响。

方法

http://www.ppmy.cn/news/600096.html

相关文章

用于光学神经网络的高速光学卷积加速器

用于光学神经网络的高速光学卷积加速器 导读一、工作原理二、矩阵卷积加速器三、光学卷积神经网络3.1 卷积层实现3.2 全连接层的实现3.3 测试结果 导读 受生物视觉皮层系统启发的卷积神经网络能够提取原始数据的分层特征,以大大降低参数复杂性并提高预测的准确性。它…

优化基于FPGA的深度卷积神经网络的加速器设计

英文论文链接:http://cadlab.cs.ucla.edu/~cong/slides/fpga2015_chen.pdf 翻译:卜居 转载请注明出处:http://blog.csdn.net/kkk584520/article/details/47450159 【0. 摘要】 CNN已经广泛用于图像识别,因为它能模仿生物视觉神…

【AUTOSAR】CCP协议的代码分析与解读(九)----CCP协议源码分析和实例分析

CCP协议在ECU中的应用 CCP协议是基于CAN总线的ECU标定协议,在对ECU进行标定和测试前,必须先在ECU内部实现支持CCP协议的程序,使ECU能够接收并发送符合CCP规范的CRO和DTO,并能够对接收到的CRO命令进行解释并执行,这就是…

基于FPGA的深度卷积神经网络的加速器设计

英文论文链接:http://cadlab.cs.ucla.edu/~cong/slides/fpga2015_chen.pdf 翻译:卜居 转载请注明出处:http://blog.csdn.net/kkk584520/article/details/47450159 【0. 摘要】 CNN已经广泛用于图像识别,因为它能模仿生物视觉神…

解决 Xbox Series S/X 连接无线校园网的问题

通常地,在校的寝室或办公室没有安装路由器,且手机热点不足以支撑Xbox的流量需求,在校学生党只能无奈选择连接校园无线WIFI来实现自己的游戏梦。但是,问题就在于——需要网页认证的校园网连接无法在Xbox上实现,那该怎么…

【AUTOSAR】CCP协议的代码分析与解读(八)----CCP协议应用流程

CCP协议应用流程 主从设备建立逻辑连接 按照CCP协议,当主设备需要用某个ECU通信时,必须首先与ECU建立连接。CCP建立连接的步骤如下: 按地址Tester与ECU建立逻辑连接:CONNECT统一从、主设备CCP协议版本:GET_CCP_VERSI…

【无标题】TI AM64x工业核心板规格书(双核ARM Cortex-A53 + 单/四核Cortex-R5F + 单核Cortex-M4F,主频1GHz)

1 核心板简介 创龙科技SOM-TL64x是一款基于TI Sitara系列AM64x双核ARM Cortex-A53 单/四核Cortex-R5F 单核Cortex-M4F设计的多核工业级核心板,通过工业级B2B连接器引出5x TSN Ethernet、9x UART、2x CAN-FD、GPMC、PCIe/USB 3.1等接口。核心板经过专业的PCB Layo…

维优尚品——全国首家C2M电子商务平台

一、维优尚品是什么 维优尚品的概念:全国首家C2M电子商务平台 维优尚品,一个致力于向个人提供移动电子商务零售服务的轻创业平台。自2016年5月正式成立,维优尚品一直秉持着“让买卖更简单”的使命,坚持“精选优品、高效运营、优质…