基于图像识别技术的硬件加速器实现与应用 2022 广东工业

基
于
图
像
识
别
技
术
的
硬
件
加
速
器
实
现
与基于图像识别技术的硬件加速器
应
用
实现与应用
作者姓名 : 毕顺翔
毕
顺
翔导师姓名 : 熊晓明
学科（专业）或领域名称 : 控制工程
论文答辩年月 : 2022 年 5 月
二
零
二
二
年
五
月
万方数据
分类号：学校代码：11845
UDC：密级：学号：2111904230
广东工业大学硕士学位论文
（工程硕士）
基于图像识别技术的硬件加速器
实现与应用
毕顺翔
导师姓名（职称） : 熊晓明教授
黄沫高级工程师
学科(专业)或领域名称 : 控制工程
学生所属学院 : 自动化学院
答辩委员会主席 : 蔡述庭教授
论文答辩日期 : 2022 年 5 月 23 日
万方数据
A Dissertation Submitted to Guangdong University of Technology for
the Degree of Master
（Master of Engineering）
Implementation and Application of Hardware Accelerator

Based on Image Recognition Technology
Candidate: Shunxiang Bi
Supervisor: Prof. Xiaoming Xiong
May 2022
School of Automation
Guangdong University of Technology
Guangzhou, Guangdong, P. R. China, 510006
万方数据
摘要
摘要
近年来，卷积神经网络的发展达到了前所未有的高度。卷积神经网络
可应用于多个领域中，如计算机视觉、自然语言处理、医疗设备等领域。
当前，随着应用范围的扩大，对卷积神经网络的要求越来越高，不仅需要
在大型服务器中应用，也需要在边缘端的嵌入式系统中应用，对实时性、
低功耗、高精度等条件的要求越来越苛刻。论文从神经网络部分结构、硬
件架构、性能、功耗等方面出发，对基于 FPGA 的硬件加速器系统进行设
计与实现，并将其应用到实际场景中，取得了较好的研究成果。
主要工作内容如下：
（ 1）合理利用板上的资源搭建了高吞吐量的片内外数据传输方案，设
计了数据分块与数据复用方案减少片内外数据传输的延迟，保证片内数据
的最大化利用。
（ 2）设计了硬件加速器的运算核心，利用流水线的设计思路，设计五
个不同的功能层提高了计算效率，同时提升了 DSP 资源的利用率，获得了
较高的计算性能。
（ 3）将神经网络中的激活函数与批标准化结构面向硬件设计进行了优
化，探索了软硬件协同设计的方案，充分发挥本文所使用异构 SoC 平台的
性能。软硬件协同设计可以缩减设计周期、减小设计难度，充分利用现有
资源实现更高的性能。
（ 4）对硬件加速器进行仿真与实现。基于定制的硬件加速器设计并搭
建了加速器系统，该系统可实现实时的视频目标检测功能。将硬件加速器
与摄像头、缩放等模块集成为加速器系统，以在实际场景中应用。
加速器系统在 Zynq-ZC706 开发平台上完成设计与实现，主频为
200MHz，运行 YOLO-v2-tiny 神经网络的平均实际性能为 108.78GOPS，单
位 DSP 性能比达到 0.2754GOPS/DSP，单位功耗性能比达到 21.613GOPS/W
SoC 片上功耗为 5.034W。与 Intel I7 8700 和 GTX1080 平台实现的可视化
功能相比，本加速器系统功耗优势明显，识别帧率最高可达 20.7FPS。
关键词： FPGA；卷积神经网络；硬件架构；硬件加速器
万方数据
广东工业大学硕士专业学位论文
ABSTRACT
In recent years, the development of convolutional neural networks has
reached unprecedented heights. Convolutional Neural Networks can be
applied in many fields, such as computer vision, natural language processing,
medical equipment and other fields. At present, with the expansion of the
application range, the requirements for convolutional neural networks are
getting higher and higher, not onl y in large-scale servers, but also in
embedded s ystems at the edge. The requirements for other conditions are
becoming more and more stringent. This thesis designs and implements a
hardware accelerator system based on FPGA from the aspects of neural
network structure, hardware architecture, performance, power consumption,
etc., and applies it to practical scenarios, and has achieved good research
results.
The main work contents are as follows:
(1) A high-throughput on- and off-chip data transmission scheme is built
by rational use of the resources on the board, and a data block and data
multiplexing scheme is designed to reduce the delay of on-chip data
transmission and ensure the maximum utilization of on-chip data.
(2) The computing core of the hardware accelerator is designed, and five
different functional layers are designed by using the pipeline design idea,
which improves the computing efficiency, improves the utilization rate of DSP
resources, and obtains higher computing performance.
(3) The activation function and batch standardized structure in the neural
network are optimized for hardware design, and the scheme of software and
hardware co-design is explored to give full play to the performance of the
heterogeneous SoC platform used in this thesis. Software and hardware
co-design can shorten the design cycle, reduce the design difficulty, and make
full use of existing resources to achieve higher performance.
(4) Simulation and implementation of the hardware accelerator. Based on
II
万方数据
ABSTRACT
the customized hardware accelerator, an accelerator s ystem is designed and

built, which can realize the real-time video object detection function.
Integrate hardware accelerators with camera, zoom and other modules into an
accelerator s ystem for application in practical scenarios.
The accelerator s ystem is designed and implemented on the Zynq-ZC706
development platform, the main frequency is 200MHz, the average actual
performance of the YOLO-v2-tiny neural network is 108.78GOPS, the unit
DSP performance ratio reaches 0.2754GOPS/DSP, and the unit power
consumption performance ratio The on-chip power consumption of
21.613GOPS/W SoC is 5.034W. Compared with the visualization function
implemented by the Intel I7 8700 and GTX1080 platforms, the accelerator
system has obvious advantages in power consumption, and the recognition
frame rate can reach up to 20.7FPS.
Key words: FPGA; Convolutional Neural Network; Hardware Architecture;

Hardware Accelerator
III
万方数据
目录
摘要 ...................................................................................................... I
ABSTRACT .......................................................................................... II
目录 ..................................................................................................... IV
CONTENTS ........................................................................................ VII
第一章绪论 .......................................................................................... 1
1.1 研究背景及意义 ......................................................................... 1
1.2 国内外研究现状 ......................................................................... 2
1.2.1 卷积神经网络研究现状 ..................................................... 2
1.2.2 卷积神经网络加速器研究现状 ........................................... 4
1.3 本文研究内容 ............................................................................ 5
1.4 论文组织结构 ............................................................................ 5
第二章基础概念介绍 ............................................................................ 7
2.1 神经网络的演变与发展 .............................................................. 7
2.1.1 神经网络的起源 ................................................................ 7
2.1.2 卷积神经网络 .................................................................. 10
2.2 YOLO 神经网络 ......................................................................... 14
2.2.1 YOLO 神经网络算法 ......................................................... 14
2.2.2 YOLO-v2-tiny 网络结构 .................................................... 15
2.3 流水线 ...................................................................................... 16
2.4 开发平台介绍 ........................................................................... 18
2.5 本章小结 .................................................................................. 19
第三章硬件加速器设计 ........................................................................ 20
3.1 硬件加速器架构 ........................................................................ 21
3.2 片内外传输设计 ........................................................................ 22
3.2.1 读写特性 ......................................................................... 22
3.2.2 方案设计 ......................................................................... 24
3.2.3 MIG 控制器 ...................................................................... 28
3.3 数据分块与复用 ........................................................................ 28
IV
万方数据
目录
3.3.1 数据分块 ......................................................................... 29
3.3.2 数据复用 ......................................................................... 30
3.3.3 数据传输 ......................................................................... 31
3.4 核心计算组件 ........................................................................... 32
3.4.1 核心计算组件的架构 ........................................................ 32
3.4.2 卷积计算 ......................................................................... 35
3.4.3 PE 单元 ............................................................................ 37
3.5 卷积数据后处理 ........................................................................ 41
3.5.1 方案设计 ......................................................................... 41
3.5.2 模块设计 ......................................................................... 42
3.6 本章小结 .................................................................................. 43
第四章加速器系统仿真与实现 ............................................................. 44
4.1 加速器系统应用设计 ................................................................. 44
4.1.1 加速器系统架构 ............................................................... 45
4.1.2 加速器系统集成 ............................................................... 46
4.1.3 软硬件协同设计 ............................................................... 49
4.2 硬件加速器模块仿真 ................................................................. 51
4.2.1 DDR 传输仿真 .................................................................. 51
4.2.2 核心计算组件仿真 ........................................................... 52
4.2.3 DP 模块仿真 ..................................................................... 53
4.2.4 硬件加速器仿真 ............................................................... 55
4.3 加速器系统展示 ........................................................................ 56
4.4 实验结果 .................................................................................. 57
4.4.1 资源消耗 ......................................................................... 57
4.4.2 性能和功耗分析 ............................................................... 57
4.5 本章小结 .................................................................................. 60
总结与展望 ........................................................................................... 61
参考文献 ............................................................................................... 62
攻读学位期间的科研成果 ...................................................................... 67
万方数据
学位论文独创性声明 ............................................................................. 68
学位论文版权使用授权声明 ................................................................... 68
致谢 ...................................................................................................... 69
VI
万方数据
CONTENTS
CONTENTS
ABSTRACT(CHINESE) ........................................................................... I
ABSTRACT(ENGLISH) ........................................................................ II
CONTENTS(CHINESE) ...................................................................... IIV
CONTENTS(ENGLISH) ...................................................................... VII
Chapter 1 Introduction .......................................................................... 1
1.1 Research background and significance ........................................... 1
1.2 Research status at home and abroad .............................................. 2
1.2.1 Research Status of Convolutional Neural Networks ............... 2
1.2.2 Research Status of Convolutional Neural Network Accelerators
................................................................................................. 4
1.3 The research content of this paper ................................................. 5
1.4 Organizational structure of the paper ............................................ 5
Chapter 2 Introduction to Basic Concepts .............................................. 7
2.1 Evolution and Development of Neural Networks ............................ 7
2.1.1 Origin of neural network ..................................................... 7
2.1.2 Convolutional Neural Networks .......................................... 10
2.2 YOLO neural network ................................................................. 14
2.2.1 YOLO neural network algorithm ......................................... 14
2.2.2 YOLO-v2-tiny network structure ......................................... 15
2.3 Pipeline ..................................................................................... 16
2.4 Introduction to the development platform ..................................... 18
2.5 Chapter Summary ....................................................................... 19
Chapter 3 Hardware Accelerator Design ................................................ 20
3.1 Hardware Accelerator Architecture ............................................... 21
3.2 On-chip and off-chip transmission design ..................................... 22
3.2.1 Read and write characteristics ............................................ 22
3.2.2 Scheme design ................................................................... 24
3.2.3 MIG Controller.................................................................. 28
VII
万方数据
3.3 Data Blocking and Multiplexing .................................................. 28

3.3.1 Data Blocking ................................................................... 29
3.3.2 Data Multiplexing .............................................................. 30
3.3.3 Data transmission .............................................................. 31
3.4 Core Computing Components ....................................................... 32
3.4.1 Architecture of Core Computing Components ....................... 32
3.4.2 Convolution calculation ..................................................... 35
3.4.3 PE unit ............................................................................. 37
3.5 Post-processing of convolutional data .......................................... 41
3.5.1 Scheme Design .................................................................. 41
3.5.2 Module Design .................................................................. 42
3.6 Chapter Summary ....................................................................... 43
Chapter 4 Accelerator System Simulation and Implementation .............. 44
4.1 Application Design of Accelerator S ystem .................................... 44
4.1.1 Accelerator S ystem Architecture ......................................... 45
4.1.2 Accelerator S ystem Integration ........................................... 46
4.1.3 Software and hardware co-design ........................................ 49
4.2 Hardware Accelerator Module Simulation ..................................... 51
4.2.1 DDR transfer simulation .................................................... 51
4.2.2 Simulation of core computing components ........................... 52
4.2.3 DP module simulation ........................................................ 53
4.2.4 Hardware Accelerator Emulation ......................................... 55
4.3 Accelerator S ystem Demonstration ............................................... 56
4.4 Experimental results ................................................................... 57
4.4.1 Resource consumption ....................................................... 57
4.4.2 Performance and Power Anal ysis ........................................ 57
4.5 Chapter Summary ....................................................................... 60
Summary and Prospect .......................................................................... 61
References ............................................................................................ 62
VIII
万方数据
CONTENTS
Scientific research achievements during degree study ............................ 67

Statement of originality of dissertation ................................................. 68
Dissertation copyright use authorization statement ............................... 68
Acknowlegements .................................................................................. 69
IX
万方数据
第一章绪论
第一章绪论
研究背景及意义
近年来，随着人工智能[1]（Artificial Intelligence, AI）的快速发展和不断应用，促进
了许多行业领域的技术革新，比如计算机视觉[2]（Computer Vision, CV）、自然语言处理
[3]
（Natural Language Processing, NLP）、医疗[4]等领域。
人工智能的出现并不是偶然，此概念早在 1956 年就已经被提出，提出这个概念的
科学家们希望用计算机来模拟并实现一个能够和人类大脑相媲美的机器。但是由于计
算机技术发展还未成熟等因素，这个概念始终是“空中楼阁”
，并没有真正的实现。进
入 21 世纪之后，随着计算机技术、互联网大数据技术的发展，以及超大算力的 GPU
（Graphics Processing Unit）等硬件单元的出现，满足了人工智能技术快速发展的各项
条件，往日的“空中楼阁”逐渐变为现实。
传统的图像识别技术例如 BP（Back Propagation）神经网络[5]，通过大量的全连接
层将所有的神经元相连，每条连接都有一个权重参数，因此对于比较复杂的系统来说
BP 神经网络的计算量是十分庞大的，其典型结构如图 1-1。
图 1-1 BP 神经网络结构图
Fig.1-1 BP neural network structure
人工智能的实现离不开计算机和大数据。简单来说，人工智能使用某种算法对数
万方数据
据进行解析从中获取新的知识，反过来利用新获取的知识改善自身的过程叫机器学习[6]
（Machine Learning），是一种模拟人类学习行为的方式。目前众多机器学习技术中，
最为成功的技术之一叫深度学习[7]（Deep Learning）。
众多深度学习技术中最为常用的网络是卷积神经网络 [8~9] （Convolution Neural
Network, CNN），它的出现推动了计算机视觉领域的发展。卷积神经网络可以轻易地从
大量的图像数据中提取出相对较少的特征进行学习。
卷积神经网络通过卷积计算的方式将图片一步一步地提取出抽象化的特征，可以
极大地减少数据运算量。卷积神经网络提升网络精度的方式主要有两种类型：一种是
从纵向加深网络的层数，另一种是横向扩展每一层网络的参数量。这样的方式保证了
卷积神经网络能够处理越来越复杂的场景，保证了其性能的卓越。但无论哪种类型，
提升性能的同时都带来了巨大的运算成本。专用的硬件加速器应运而生。
卷积神经网络的卷积过程是由乘法和加法运算组成的。对于卷积神经网络来说，
如何加速运算的速度是决定加速器性能好坏的主要因素。目前市面上主流的加速器有
GPU （Graphics Processing Unit）、FPGA 等几种平台，各有优点。GPU 的架构相对固
定，资源的利用率受到其本身架构的限制，大部分情况下其内部资源利用率并不能达
到最优；GPU 的峰值性能高于 FPGA，但是在相同效率下 GPU 比 FPGA 的功耗更高。
FPGA 的架构自由、可定制性较强，与此同时带来的是设计难度的挑战。FPGA 设计硬
件加速器的难点在于：如何合理运用片内有限的资源、合理调度片内各模块的算力以
及合理地进行数据传输。
本文基于 XILINX 的 Zynq 系列芯片进行开发，利用其内部 ARM 核与 FPGA 的异
构平台，探索一种软硬件协同的加速器系统实现。
国内外研究现状
卷积神经网络研究现状
卷积神经网络是一种常见的深度学习网络架构，也是目前最重要的神经网络类型
之一。过去几年，卷积神经网络的发展十分迅速，在图像识别、语音识别等领域的发
展尤为突出。其最大的优点在于对特征的提取和泛化能力。但是对于我们研究者来说，
内部的实现逻辑是不可见的，相当于一个黑盒；以图像识别应用举例：对一张输入图
片进行卷积，卷积神经网络卷积层深度不断增加，每一层卷积后得到的图像都是难以
理解的，这是因为卷积神经网络对输入图像的特征不断地抽象化，最终得到一个可以
2
万方数据
第一章绪论
被卷积神经网络自身学习到的特征元素。
1959 年 Hubel 和 Wiesel 受到生物的自然视觉认识机制启发，发现了生物视觉识别
的过程：眼睛首先接收到视觉信号，将其映射到视网膜上形成光刺激，视网膜上的细
胞受到刺激后，经过一系列变化形成神经信号，最终由视神经传递到大脑皮层的视觉
中枢，经过大脑的分析与处理最终识别出我们看到的物体[10~11]。这一系列的处理与分析
过程就是抽象化的过程。
20 世纪 90 年代，Lecun 等人发表了论文，建立了初代 CNN 的基本结构模型：卷
积、池化（Pooling）、激活函数、全连接；根据此框架开发了一种人工神经网络 LeNet-5，
并将其应用于手写数字的分类功能上[12]。LeNet-5 在小数据集上有很好的性能，但是由
于早期缺乏训练集数据和计算机算力的不足，想要训练出高性能的神经网络是极其困
难的，LeNet-5 也不例外；随着待解决问题的复杂化 LeNet-5 的效果并不理想。
2005 年美籍华裔李飞飞在其大学任职期间，被机器学习中的过拟合和泛化问题困
扰已久；数据集中如果有与其他图片内容相差较大的数据时，神经网络几乎无法识别，
出现了过拟合的现象；如果神经网络没有将现有数据集正确处理，就出现了过度泛化
的问题。李飞飞发现数据集并不是最理想的数据集，有许多特殊的情况无法从数据集
中直接反应。从此李飞飞致力于建造一个能够反应真正世界多样性的数据集。
2009 年李飞飞和团队正式发布了 ImageNet 数据集[13]，连续七年举办了 ILSVRC
（ImageNet Large Scale Visual Recognition Challenge）大赛，成为了近年来计算机视觉
领域最受关注的学术竞赛，代表了领域最高水平。2012 年 ILSVRC 竞赛冠军 AlexNet[14]
以超越第二名 10.9%的正确率夺冠。AlexNet 首次使用双 GPU 对网络进行加速训练，
从而可以从深度和广度对神经网络进行调整；通过使用 ReLU 激活函数代替 Tanh 解决
了梯度消失的问题，有效缩减了网络的收敛时间[15]；使用了 Dropout 避免网络的过拟合
[16~17]
。以上的改进思路对之后神经网络的发展起到了积极的作用，掀起了深度学习的热
潮。
2016 年 Joseph Redmon 等人提出了 YOLO（You Only Look Once）神经网络，只需
要“看”一次就可以识别出图片中的物体位置和类别。YOLO 神经网络直接利用回归
的方法实现分类和识别的功能，极大地加快了识别速度。YOLO 神经网络广泛应用于
自动驾驶，安防等领域。直至今天 YOLO 神经网络已经从第一代（YOLOv1）发展到
了第五代（YOLOv5）[18~21]。
万方数据
此外还有 GoogLeNet[22~23]、VGG[24]、ResNet[25]等一系列优秀神经网络。
卷积神经网络加速器研究现状
完成并应用一个优秀的神经网络需要两个方向的研究，第一个是模型的训练，第
二个是模型的推理。模型的训练通常在大型的 GPU 组群中进行。首先通过神经网络训
练框架 Tensorflow，Pytorch[26~27]等将网络结构构建出来，之后通过 CUDA（Compute
Unified Device Architecture）映射到 GPU 上进行并行运算，提高网络训练的速度和效
率。模型的推理通常用于完成模型训练后对模型进行部署或应用，此过程会直接使用
模型训练完成后的权重参数，也就是说模型的推理并不会更改模型的参数。其难点在
于如何更加快速地执行模型的推理。
过去神经网络更多依赖于云端中心服务器的算力保证，随着当下应用场景的变化
和神经网络的普及，导致了中心服务器的压力过大，传输延迟较高，数据传输安全问
题无法保证[28]。为了缓解中心服务器的压力并减少数据传输的问题，越来越多的神经
网络推理直接部署在边缘端[29]，也就是边缘计算，此方式对神经网络的实时性和低功
耗方面要求更为严格，一般有两种实现方式，分别是 ASIC（Application Spicecific
Integrated Circuit）和 FPGA 。
ASIC 芯片是针对专用计算任务而设计的，对于一个专用任务其能效比与通用处理
器相比更具有优势，例如中国科学院的陈云霁团队在 2014 年提出了名为 DianNao 的深
度学习芯片，性能超越当时主流 CPU 的数十倍，功耗面积也仅为 CPU 的 1/9.7，此芯
片利用了数据的局部重用性，减少了对内存的访问，从而大大提升了处理性能[30]。
Google 在 2017 年发布的 TPU（Tensor Processing Unit），其中 Matrix Multiply Unit
为计算核心，采用了256 × 256的脉动矩阵单元阵列[31]。核心是利用大规模脉动阵列结
合大容量片上存储，高效加速深度神经网络中最为常见的卷积运算，峰值算力达到
92TOPS，芯片面积约 331 平方毫米。其性能比当时高性能显卡高出近 30 倍以上，充
分体现了 ASIC 的优势。脉动阵列主要用来加速卷积神经网络的推理计算，还可以用来
完成除了卷积神经网络以外的其他一系列工作，比如线性回归、逻辑回归、分类与视
频编码和图像处理等。
1999 年汪光森等人成功在 FPGA 上实现了具有 64 个神经元节点的 BP 神经网络，
学习速度达到了三千万次每秒[32]。为之后研究 FPGA 实现卷积神经网络提供了思路。
ASIC 与 FPGA 相比更加具有专用性，功耗比更加有优势。但是 ASIC 从提出设计
万方数据
第一章绪论
方案到大规模流片的开发周期大约需要 1 年左右，一个神经网络的更新换代周期仅为 7
个月左右，因此 ASIC 的定制化方案对于更新换代较快的神经网络来说并不是最优的选
择。FPGA 同样拥有并行化执行的特点，且可定制化以及可重构能力极大地缩短了神经
网络的研发周期。随着半导体技术的发展 FPGA 片上资源越来越丰富，对于一些大规
模的神经网络也可以轻松实现，同时丰富的资源带来了更多设计方案的探索，如何合
理利用片上资源成为 FPGA 设计的关键问题。
XILINX 的 Zynq 系列 FPGA 内部集成了双核 ARM-A9 处理器实现了异构平台，对
于设计人员来说可以更加灵活的对神经网络进行实现，软硬件协同设计的方式进一步
加快了 FPGA 设计的周期。
本文研究内容
本文通过分析卷积神经网络的部分特性，对其进行硬件实现的优化，探索一种软
硬件协同设计的方法。使用 XILINX 的 ZC706 开发平台，平台内具有 FPGA+ARM 核
的异构 SoC。文主要研究内容如下：
（1）首先充分学习 YOLO-v2-tiny 神经网络的结构，对神经网络中的卷积、池化、
激活函数、Softmax 等结构有针对性的进行学习。
（2）评估硬件加速器的带宽，设计高吞吐量的片内外数据传输方案；同时设计数
据分块与复用方案，减少片内外数据传输的延迟，保证片内数据的最大化利用。
（3）利用流水线的方法设计了硬件加速器的运算核心，设计了五个功能层以提高
核心计算组件的计算效率与硬件使用率。
（4）根据神经网络并行性、激活函数、批标准化计算的特点，面向硬件设计进行
优化，探索了软硬件协同设计方案。
（5）完成整个加速器系统的设计，将硬件加速器与摄像头、缩放等模块集成，并
通过前仿测试和 FPGA 板级测试，完成硬件加速器的应用。最后与前人研究的硬件加
速器的各项指标进行对比。
论文组织结构
本文共分为四个章节，内容安排如下：
第一章是绪论，主要介绍本课题所研究方向的意义、背景及近年来发展情况，之
后介绍本文主要研究内容，最后说明本文各章节安排。
第二章介绍了常见图像识别神经网络以及卷积神经网络，对本文涉及到的网络结
5
万方数据
构进行了介绍。阐述了流水线概念。最后介绍了本文所使用的异构开发平台 ZC706。
第三章介绍硬件加速器的片内外数据传输方案。设计了具有五层结构的核心计算
组件。最后通过面向硬件设计的思路将神经网络架构中的部分结构进行优化，探索了
最优方案。
第四章介绍了硬件加速器的仿真及实现。通过软硬件协同设计的方法，将硬件加
速器与摄像头、缩放等模块集成为加速器系统，实现硬件加速器的可视化应用，并对
实验结果进行分析与对比。
最后总结本文内容，提出当前设计的不足并对未来进行合理的展望。
万方数据
第二章基础概念介绍
神经网络的演变与发展
神经网络的起源
神经网络的起源要从回归问题说起。回归是数学领域中的一种研究方
法，意指寻找一组随机变量 (𝐴 , 𝐴 , 𝐴 … 𝐴 )与另一组随机变量 (𝐵 , 𝐵 , 𝐵 … 𝐵 )
之间的关系，并建立出一个关系模型，简单来说就是寻找输入和输出之间
的某种关系。
19 世纪初，线性回归 [ 3 4 ] 在回归的各种实现方式中是最流行最简便的一
种方法，假设自变量 𝓍 ， 𝓍 和因变量 𝓎之间有某种线性关系，则 𝓍 ， 𝓍 与 𝓎之
间的关系可以表示为：
𝓎 =𝜔 𝓍 +𝜔 𝓍 +𝑏 （ 2.1）
其中 𝜔 ， 𝜔 分别为自变量 𝓍 ， 𝓍 的权重（ Weight），𝑏称为偏置（ Bias）；
权重 𝜔 ， 𝜔 决定了自变量 𝓍 ， 𝓍 对因变量 𝓎的影响大小； 𝑏表示当两个权重
为 0 时 𝓎的取值大小，目的是提高模型的表达能力，因为现实中的事物往
往都不是理想状态。如下图 2-1 所示是一种简单的分类问题，使用线性回
归的方式可以对其进行分类，直线上方的均为圆圈，直线下方的均为方块。
图 2 -1 线性回归实例
Fig. 2 -1 Li near regr e ssi o n e xa mp le
万方数据
图 2 -2 非线性回归实例
Fig. 2 -2 Non - li near regr e ssi o n e xa mp le
但线性回归无法解决所有的问题。如图 2-2 所示，无法简单使用一条
直线去分割圆圈和方块，现实中的多数情况也都是非线性问题。
图 2 -3 生物神经元结构
Fig. 2 -3 B i ologi c al neur o n st r uct ure
控制学、神经生物学研究者 Warren McCulloch 和 Walter Pitts 以生物神

经元结构为基础，共同研发了世界上第一个神经元模型 [35]。一个生物神经
元的结构如图 2-3 所示，神经元的冲动传递来自于细胞核，由轴突传至突
触向外释放，树突则用来接收其他神经元突触传来的冲动，这样所有的神
经元就连接到了一起。两位学者将神经元传到轴突的信息称为𝓍 ，该信息
通过突触上的权重因子 𝜔 进行加权得到加权信号 𝓍 𝜔 ，来自多个神经元的加
万方数据
权信号传入同一个神经元的树突得到加权信号：
𝓎 = ∑𝜔 𝓍 +𝑏 （ 2.2）
这个加权信号最终会在细胞核内进行一种非线性处理，再从突触传入
到下一个神经元。
需要在传统的线性回归模型中添加非线性因子。在方程中引入了激活
函数 σ(𝑧)，方程变为：
𝓎 = 𝜎(∑ 𝜔 𝓍 + 𝑏) （ 2.3）
常见激活函数如下表 2-1 所示。
表 2 -1 常见的激活函数
Tab le. 2 -1 Co mmon ac ti vat ion f unc t ions
函数表法式图形描述
1 𝑓(𝑥)的取值范围是 (0 ,1)；𝑥在 (−∞, −6)

Sig mo id 𝑓(𝑥) =
1+𝑒 和 (−6, −∞)区间的导数无限趋近 0 。
𝑓(𝑥)的取值范围是 ( -1,1) ；输出以原
𝑒 −𝑒
T a nh 𝑓(𝑥) = 点中心对称；使用效果优于
𝑒 +𝑒
Sig mo id 。
随着待解决问题的复杂化，人们发现简单的非线性回归方法渐渐失去
了作用。在生物学研究中，人类的大脑大概有接近一千亿个神经元的存在，
科学家受此启发。想要解决更复杂的问题，必须增加更多的神经元模型。
如下图 2-4 所示，称为多层感知机（ Multilayer Perceptron） [ 3 6 ] ，主要特点
就是在输入层与输出层之间增加了多层隐藏层，以此提高模型的非线性度。
图 2 -4 多层感知机
Fig. 2 -4 M ul ti l a yer per cept ron

9
万方数据
1986 年 Rumelhart 和 McClelland 等人提出了 BP 神经网络结构，在多

层感知机的基础上增加了 BP 算法也叫做误差反向传播算法。 BP 解决了多
层感知机网络中隐藏层连接权重优化的问题，具有严格的数学理论推导。
BP 神经网络从输入层接收元素，传递到下一层，也就是隐藏层，隐藏层可
以有很多层也可以只有单层；之后再从隐藏层传递到输出层最后得出结果，
这个过程叫信息正向传播过程，其中每一层的权值均是随机设置的。假如
所得结果与预设结果相同则进行下一组元素的输入；假如不相同，则会把
误差值反向传递回上一层也就是隐藏层，再返回输入层，达到优化权值的
效果。
BP 神经网络，曾经广泛应用在各大领域，比如手写数字识别 [ 3 7 ] 、车牌
识别 [ 3 8 ] 等。BP 神经网络最大的弊端在于所有神经元模型之间是一种全连接
（ Full Connect layer, FC） [ 3 9 ] 的形式，导致了计算量的成倍增长。
卷积神经网络
随着现实问题的复杂化，多层感知机因为全连接结构带来的巨大计算
开销与实际性能提升的不匹配而渐渐淡出了人们的视野，随之而来的是卷
积神经网络的蓬勃发展。
在 1.2.1 小节已经介绍了卷积神经网络的一般结构，但是针对计算机视
觉领域的卷积神经网络还有填充（ Padding）、步幅（ Stride）等概念。
（ 1）卷积：卷积神经网络依赖于卷积运算，特点是卷积核在输入数据
上进行划窗的运动，这种方式利用了卷积核的权值共享和局部感知的策略，
有效地减少了参数量过大的影响。假设图像是二维的，如下图 2-5 所示，
输入图像（ Input）的尺寸为 3 × 3的二维张量，卷积核（ Kernel）的尺寸为 2 × 2，
由于感知范围与卷积核尺寸相同，因此本次卷积的局部感知范围就是 2 × 2。
根据卷积运算方法可知输入图像（ 0,1,3,4 ）的卷积结果为 0 × 0 + 1 × 1 +
3 × 2 + 4 × 3 = 19；以此类推卷积核向右移动一步（ 1,2,4,5）的卷积结果为
25；卷积核向下移动一步（ 4,5,7,8）的卷积结果为 43；卷积核向左移动一
步（ 3,4,6,7）的卷积结果为 37。
10
万方数据
图 2-5 卷积运算
Fig. 2 -5 Co nvolu tio n ope r ati on
假设输入图像的尺寸为 H × L，卷积核大小为 K × K，卷积后的图像尺寸
为 R × C，且卷积核每次只移动一步，则：
R=H −K+1 （ 2.4）
C=L −K +1 （ 2.5）
卷积后的图像尺寸小于输入的图像尺寸，这是因为卷积核需要在一定
大小的输入图像上进行滑动。由以上描述可知，卷积运算后输出图像的尺
寸大小与输入图像和卷积核的尺寸有关，此外与输出图像大小有关的因数
还有填充和步幅。
（ 2）填充
随着卷积层数的增加，输出图像的尺寸越来越小，分辨率的降低意味
着边缘像素的丢失，为了解决这个问题引入了填充的概念。如下图 2-6 所
示，将尺寸为 3 × 3的输入图像填充一圈 0 元素，变为 5 × 5的图像，经过同
样的卷积核卷积得到输出图像为 4 × 4，实现了输出图像的扩大同时保留了
边缘信息。一般情况下 𝒫的大小设置为 K − 1，假设像素增加了 𝒫行 0 元素，
则输出图像的尺寸为：
R=H −K+𝒫+1 （ 2.6）
C=L −K +𝒫+1 （ 2.7）
图 2-6 填充后卷积
Fig. 2 -6 Co nvolu tio n a ft e r fill ing
11
万方数据
通常卷积神经网络经过卷积层后不需要变为比输入图像更大的图像，
且卷积核的尺寸选择通常为奇数，这样可以保证输出图像的大小与原图像
大小尺寸相同。
（ 3）步幅
在介绍卷积层和填充时，默认卷积核的移动步幅为 1 步，如下图 2-7 (a)
图所示，左边虚线方框为卷积核第一次所在的位置，右边虚线方框为卷积
核第二次所在的位置，两次卷积有大量的重叠部分，卷积的效率较低；为
了更高效的卷积，可以调整卷积核的步幅，每次滑动多个元素，如下图 2-7
(b)图所示。假设步幅为 S，且 P = K − 1则输出图像的尺寸为：
R = (H − K + 𝒫 + S) ÷ S → R = (H − 1 + S) ÷ S （ 2.8）
C = (L − K + 𝒫 + S) ÷ S → C = (L − 1 + S) ÷ S （ 2.9）
(a ) (b )
图 2-7 卷积核移动
Fig. 2 -7 Co nvolu tio n ker nel mov e
（ 4）池化
池化又称作下采样，池化的计算方式类似于卷积运算，同样通过一个
N × N的区域在数据上进行滑动。科学家们发现在多层卷积运算的神经网络
中，减少卷积层之间的数据维度后，不但可以减少模型规模提升计算速度，
还可以减少神经网络过拟合的情况。
池化的方式有两种，第一种是最大值池化如图 2-8 所示，只取阴影部
分中的最大值；第二种是平均池化如图 2-9 所示，取阴影部分所有值的平
均数。两种方式都是将 3 × 3大小的图像抽象成 2 × 2的图像，同时池化也有
步长的概念。
12
万方数据
图 2 -8 最大值池化
Fig. 2 -8 M a xi mu m pool i ng
图 2 -9 平均值池化
Fig. 2 -9 Aver a ge p ooli ng
（ 5）激活函数
在 2.1.1 小节中介绍了两种激活函数，本小节继续补充三种在卷积神经
网络中更加常用的激活函数，如下表 2-2 所示。
表 2 -2 其他常见的激活函数
Tab le. 2 -2 Othe r co mmo n act iva t ion f unct io ns
函数表法式图形描述
正数保持不变，负数置 0；
𝑥, 𝑥 ≥ 0
Re LU 𝑓(𝑥) =
0, 𝑥 < 0
只更新正输入的权重。
Re LU 激活函数的变体之
Lea ky
𝑥, 𝑥 ≥ 0
𝑓= 一；保留了负输入的部分特
0.1𝑥, 𝑥 < 0
Re LU
征。
𝑓(𝑥)的均值近似为 0 ；与
𝑥, 𝑥≥0
ELU 𝑓= Lea ky Re LU 相比， E LU 对
𝛼(𝑒 − 1), 𝑥 < 0
噪声的容忍度更高。
激活函数通常放在卷积神经网络的卷积层之后，非线性的激活函数增
强了神经网络模型的非线性度，提升模型的表达能力。
13
万方数据
ReLU 函数的负激励始终保持为 0，在某些情况下会导致神经网络中的
部分神经元失效，丢失重要的神经元数据。 Leaky ReLU 与 ELU 函数作为
ReLU 函数的变体，解决了 ReLU 函数对负数神经元的屏蔽，从上表的图中
可以看出，在出现负激励时会有输出存在，保留负激励的部分特征。
（ 6） Softmax
Softmax 常用作卷积神经网络中的分类器，通常放在所有网络结构的
最后一层，其计算公式见（ 2.10）， 𝑥为输入， 𝑦为输出概率， Softmax 将所
有输入映射到（ 0， 1）之间，对所有输入数据进行归一化，保证和为 1。
传统的分类器功能类似于 If-else 语句，非 1 即 0；而 Softmax 并不是
一个绝对的分类器，所有的输入都有一定的概率被输出，输入较大被输出
的概率也会较大，输入较小被输出的概率也会较小。
𝑦 =∑ （ 2.10）
YOLO 神经网络
YOLO 神经网络算法
YOLO（ You Onl y Look Once）神经网络是 Joseph Redmon 等人在 2016
年提出的一种利用回归原理的图像识别神经网络，根据其名字“只需要看
一次 ” 可知 YOLO 是一种单阶段的图像识别神经网络，相比较于
Fast-RCNN [ 4 0 ] 神经网络，虽然在精度上还有差距，但是在同一硬件平台上
YOLO 的目标检测速度极快，达到了 45FPS，轻量化 YOLO 神经网络更是
可以达到 155FPS。
YOLO 神经网络需要大量带有标签的图像进行训练学习，因此它属于
有监督神经网络。本文研究的硬件加速器只关注神经网络的推理过程，其
实现过程如下图 2-10 所示。首先将输入图片划分为 S × S个固定大小的方格，
假如某个方格内包含了预测物体的中心点，那么这个方格就将负责该物体
的预测；每个格子都会生成 B 个物体框（ Bounding Box），每个 Bounding Box
包含五个参数：物体的中心点坐标（ x，y）、Bounding Box 的尺寸（ w，h）、
物体置信度。与此同时每个格子还需要预测 C 个类别，因此一个网格输出
的参数量为 5 × B + C；例如 PASCAL VOC [ 4 1 ] 数据集一共有 20 个类，一个网
14
万方数据
格输出的参数量为 5 × B + 20。
图 2 -10 YO LO 原论文示意图
Fig.2 -10 Sc he mat ic di a gr a m of Y O LO o ri gi nal p ap er
每个 Bounding Box 的置信度参数表示了该 Bounding Box 中是否含有

待识别的物体以及对物体识别的准确程度两个关键信息，其表达式如下：
置信度 = P 物体 × 𝐼𝑂𝑈 （ 2.11）
当 Bounding Box 中存在待识别的物体时 P 物体 = 1，否则为 0。 IOU
则表示该 Bounding Box 坐标所围成的区域与带标签训练集中标准坐标围成
区域的重合度，重合度越高置信度越高， Bounding Box 识别越准确；当重
合度小于某一预设大小时本次识别无效，会通过非极大值抑制算法将
Bounding Box 去除，只留下置信度最高的 Bounding Box。
YOLO-v2-tiny 网络结构
YOLO-v2-tiny 是 YOLO-v2 的轻量化版本，精度上有较少的损失，但
是在同平台上运行速度提升了三倍多，适合在移动端或边缘端进行部署。
网络结构的参数如下表 2-3 所示，整个网络由 9 个卷积层和 6 个池化层组
成，其中输入图像维度为 H × L × N，输出图像维度为 R × C × M，卷积核大小
为 K × K，卷积步幅为 S。
15
万方数据
表 2 -3 YO LO - v2 -ti ny 网络结构
Tab le. 2 -3 YOLO - v2 - ti ny net wor k s tr uct ur e
层类别 K,S H ,L,N R,C,M
1 卷积 3,1 4 18,418 ,3 41 6,416,1 6
2 最大池化 2, 2 416 ,416,16 208,2 08,16
3 卷积 3,1 2 10,210 ,1 6 20 8,208,3 2
4 最大池化 2, 2 208 ,208,32 104,1 04,32
5 卷积 3,1 1 06,106 ,3 2 10 4,104,6 4
6 最大池化 2, 2 104 ,104,64 52,5 2,64
7 卷积 3,1 54,54,64 5 2,52,128
8 最大池化 2, 2 52,5 2,128 26,26 ,128
9 卷积 3,1 2 8,28,12 8 2 6,26,256
10 最大池化 2, 2 26,2 6,256 13,13 ,256
11 卷积 3,1 1 5,15,25 6 1 3,13,512
12 最大池化 2, 1 13,1 3,512 13,13 ,512
13 卷积 3,1 1 5,15,51 2 13 ,13,102 4
14 卷积 3,1 1 5,15,102 4 13 ,13,102 4
15 卷积 1,1 1 3,13,102 4 1 3,13,125
流水线
流水线设计是指将一个复杂的逻辑运算，分解为若干个简单运算并插
入寄存器的过程。在数字电路设计中，流水线一般用于解决设计中的时序
问题。当时序电路之间的组合逻辑过长时，可以将组合逻辑划分为长度相
近的几个阶段，在每个阶段中间插入寄存器保证每一级时序电路的时序情
况。流水线设计的优点是可以缩短一个时钟周期内组合逻辑信号的长度，
增加了吞吐率（ Throughput Rate），从而达到优化时序的效果。但并不是流
水线级数越多电路设计就越合理，流水线越长电路面积也越大，对于复杂
流水线来说还会出现数据冲突等问题。因此如何合理设计流水线需要权衡
考虑。
如下图 2-11 是一个流水线设计的示例，该运算的第一个数据需要 6 个
16
万方数据
时钟周期后才能够输出，当开始流水后每 1 个时钟周期就可以输出 1 个数
据。因此对于有 N 个数据， X 级流水（ N 远大于 X）的设计来说，流水线
填充时间为 X 个时钟周期，输出 N 个数据需要总时钟周期为： N + X − 1，
而不使用流水线设计输出 N 个数据需要 X × N个时钟周期。
图 2 -11 流水线设计实例
Fig. 2 -11 P ip eli ne des ign e xa mple
流水线设计的合理性可以通过计算实际吞吐率与理想吞吐率的比值来
衡量。假设流水线如下图 2-12 所示。
clk
第1级流水
第2级流水
第3级流水
第4级流水
第5级流水
第6级流水
图 2 -12 流水线各部分时钟周期数
Fig.2 -12 T h e number o f cl ock c yc le s of eac h par t of t he pi pel i ne
流水线稳定流水，流水线中最慢的一段耗时为 ∆𝑡 ，最大吞吐率为：
𝑇𝑅 =∆ （ 2.12）
每一级流水的时间均为一个时钟周期 ∆𝑡，假设有 m条流水，每条流水的
任务数为 n，则实际吞吐率为：
𝑇𝑅同 = = ∆ ( )∆
= （ 2.13）
总时间 ( )∆
17
万方数据
最大吞吐率与实际吞吐率的比值为：
= = （ 2.14）
上述公式的推理是基于每级流水的时间均相同且为一个时钟周期的条
件下，当流水线每级的时间不全为一个时钟周期时，实际吞吐率为：
𝑇𝑅不同 = ∑ ∆ ( )∆ （ 2.15）
流水线每级最小的消耗时间为一个时钟周期，根据公式（ 2.15）可知
当流水线每级消耗的时间不同时，会造成吞吐率的下降。
开发平台介绍
本文使用的 FPGA 开发平台是 XILINX 的 Zynq-ZC706 开发板，其板上
搭载一块集成了双核 ARM Cortex-A9 与 XC7Z045 FPGA 逻辑的 SoC 芯片，
是一款异构开发平台，有利于充分发挥软硬件协同设计的优势，更进一步
发挥了 FPGA 的灵活性与系统性，对于部署神经网络有着重要的意义。
Zynq 由 PS（ Processing S ystem）和 PL（ Programmable Logic）两个部
分组成。其中 PS 部分如下图 2-13 所示，包括双核 ARM 应用处理器
（ Application Processer Unit）、片内存储控制器接口、外设 I/O 接口以及
Interconnect 互联接口。其中外设 I/O 接口包括 SD 卡、 USB、 I2C、 SPI、
UART 等常用接口，满足绝大多数需求； SoC 采用的是 AXI4 总线协议。
Memory
Processing Programmable
Interfaces
System Logic
(PS) (PL)
Application Common
Input Output Processor Unit (APU) Peripherals
Peripherals
(IOP) Custom
Interconnect
Peripherals
High-Bandwidth
AMBA AXI Interfaces
Common Accelerators
Custom Accelerators
图 2 -13 Zynq P S 端架构
Fig. 2 -13 Zynq P S si de a rchi tec ture
18
万方数据
PL 端与传统 FPGA 结构类似，基本电路结构由 CLB
（ Configurable Logic
Block）、嵌入块 RAM（ Block RAM，BRAM）、PLL、MMCM 以及众多 XILINX
自带的 IP 组成。
本章小结
本章节介绍了神经网络的发展历程，简述了 YOLO 神经网络原理以及
网络结构，介绍了流水线技术及其评估方法，最后介绍了本文所使用的开
发平台。通过对神经网络发展的探究有利于理解 YOLO 卷积神经网络算法，
为之后的研究设计打下基础。
19
万方数据
第三章硬件加速器设计
近年来卷积神经网络的发展对计算机视觉领域的推进起到了巨大作用。
通过回顾 2012~2017 年历届 ILSVRC 比赛冠军神经网络可以发现，识别精
度逐年上升，分类准确率甚至已经超过人类。当下卷积神经网络的应用不
仅需要在服务器上部署，更需要在可移动的终端进行部署。但是卷积神经
网络高性能背后需要巨大算力与超大存储支撑，因此研究开发专用的卷积
神经网络加速器是必然趋势。目前有三大类硬件加速器：基于 GPU，基于
ASIC，基于 FPGA。 GPU 具有非常强大的算力，但是其功耗非常大，用于
卷积神经网络的训练以及神经网络推理过程，GPU 通常存在于大型的服务
器环境中；对于移动终端来说，功耗是主要限制因素，因此基于 ASIC 与
基于 FPGA 的硬件加速器更加合适部署在移动端或边缘端。总而言之，设
计周期更短、具有高灵活性的 FPGA 卷积硬件加速器是更加顺应时代发展
的产物。
卷积神经网络的设计一般通过深度学习框架实现如 Pytorch 、
Tensorflow、 MXnet 等，设计者通常利用其中的函数设计更加合理的神经
网络架构，不会关注底层运算实现的方式。打个比方：神经网络设计者只
需要清楚卷积运算是众多乘法和加法的组合，而不会去关注如何在当前硬
件中实现众多的乘法和加法。设计一款优秀的硬件加速器，需要深入了解
卷积神经网络实现过程，并对其中的部分算法进行优化，在保证功能和性
能的同时使其更加符合硬件电路的运行方式；对于不需要进行硬件优化的
算法利用软件实现。需要对卷积神经网络的实现过程进行软硬件划分的探
究，将更加耗时、复杂、可并行的运算利用硬件实现，简单串行的运算利
用软件实现，软硬件协同设计的方式可以同时发挥两者优势。本文选择的
Zynq-ZC706 异构开发平台同时具有 ARM 核与 FPGA 逻辑，可以很好的满
足软硬件协同设计的需求。
本章将在 3.1 设计硬件加速器的架构，在 3.2 到 3.5 节完成硬件加速器
各个模块的设计。
20
万方数据
硬件加速器架构
图 3-1 所示为硬件加速器架构示意图。
Zynq-ZC706 平台的异构 SoC 芯片中有两种 CPU 可供选择，第一个是
XILINX 开发的软核 MicroBlaze CPU，其优点是具有较大的灵活性，可自
主修改微处理器的功能和参数，但该 CPU 会消耗 FPGA 片上大量的 LUT、
RAM 等资源，且主频相较与同类别 CPU 较低；第二个是 Zynq 系列集成的
ARM Cortex-A9，该 CPU 是以硬核的形式集成于 SoC 芯片中，其稳定性较
好、开发难度较低，同时也具有丰富的接口和功能，但微处理器功能固定
不可自定义修改核内功能。本文的重点是加速器系统的研究，而不是 CPU
设计的研究，因此从设计目标以及稳定性、开发难度方面考虑，最终选择
Zynq-ZC706 平台 SoC 内的 ARM Cortex-A9 硬核作为主控 CPU 。与
MicroBlaze 软核 CPU 相比，硬核具有更加丰富稳定的接口、更好的性能，
也不占用板上的 LUT 等硬件资源，并且该异构 SoC 中具有两个 ARM
Cortex-A9 核心，可以实现双核 ARM 核同时运行。
ARM Cortex-
FIFO Instruction Parser
A9
H
P
DMA DMA
PS DDR CTR
Masters
64
DMA
PL DDR
512 32 320 PE0_0 PE0_1 PE0_13

DMA IBUF
PE1_0
DDR Controller
32 512
Arbiter
64 512
(MIG)
512
AXI4
DMA WBUF
AXI4 MAC0 PE13_1
PE13_0
3
512 32 32 448 MAC1

DMA DP OBUF
核心计算组件
图 3 -1 硬件加速器架构
Fig. 3 -1 Har d ware Accel era tor Ar c hi tect ure
系统中使用了两个 DDR3 （ Double Data Rate S ynchronous Dynamic
21
万方数据
Random Access Memory, DDR3 SDRAM），一个是 PS 端的 DDR3，一个是

PL 端的 DDR3。 PS 端 DDR3 主要受控于 ARM 核的控制，按照需求将 SD
卡中的权重数据、特征图数据、验证数据等文件写入，之后通过 DMA 将
其从 ARM 核的 HP 接口传输到 PL 端 DDR3 进行保存，为硬件加速器提供
数据。 PL 端 DDR3 的最大带宽大于 PS 端的 DDR3，因此可以提高整个硬
件加速器系统的最大带宽，系统设计时将会有更大的设计空间。
此系统中设计了控制器 CTR ，输入数据模块 IBUF ，权重缓存模块
WBUF，数据卷积后处理模块 DP，以及数据输出模块 OBUF。ARM 核传输
的指令首先通过 FIFO 进行缓存，等待控制器 CTR 的下级所有模块均为空
闲时，再由控制器申请从 FIFO 读取下一条指令；控制器 CTR 接收来自 FIFO
缓存的指令，负责解析并传递 ARM 核对整个硬件加速器所有模块的配置
信息，同时监控所有模块的空闲状态，当处于空闲状态时可从 FIFO 中接
收下一条指令； IBUF 负责缓存输入数据传送给 MAC，当硬件加速器内存
在多个 MAC 时，所有的 MAC 共享 IBUF 的输入数据； WBUF 负责将指定
权重数据传输给卷积核；数据处理模块 DP 负责处理 MAC 运算后的数据，
包括激活、四舍五入、数据截断等功能；OBUF 负责接收从 DP 模块中处理
好的数据，并将其进行组合向外输出。
硬件加速器的设计是围绕核心计算组件 MAC （ Multiplying and
Accumulate ）进行搭建的。本文每一个 MAC 模块内有 14 × 14 个 PE
（ Processing Elements）单元。 MAC 模块接收来自上一级 IBUF 和 WBUF
输入的数据和权重，在 PE 内部进行运算，输出结果到 OBUF 中，之后经
过 DP 模块对数据进行后处理，完成一次完整的运算。 MAC 模块执行硬件
加速器九成以上的计算量，因此其计算效率直接影响硬件加速器的最终效
率。
片内外传输设计
读写特性
双倍速率同步动态随机存储器（ Double Data Rate SDRAM），一般称之
为 DDR，其中 SDRAM 是 Synchronous Dynamic Random Access Memory
的缩写，即同步动态随机存取存储器。 DDR SDRAM 优点是可以在同一个
22
万方数据
时钟的上升沿和下降沿都进行数据的收发，因此 DDR 在同一个时钟周期内
的效率是普通存储器的两倍。
普通 RAM 存储器一般都是使用直接寻址的方式读取内部不同地址上
的数据，而 DDR 寻址的内部结构比较复杂，DDR 存储器内部有许多个 Bank
块，所有 Bank 块是平行的关系， Bank 块之间可以并行读取数据。
DDR 存储器的寻址需要分两次查找，以一个具有 8 个 Bank 块的 DDR
作为样例，如下图 3-2 所示，其读写流程如下：
 首先控制器发送 Bank（块） +Row（行）指令，激活某一个 Bank
某一行，这个指令叫做 Activate 指令。如激活到 Bank1 的第 1 行。
 之后再发送 Column（列）指令，最终寻找到某 Bank1 中的某一列。
如寻找到第 1 列。
Bank8
Bank7
Row Decoder
Bank6
Row Decoder
Bank5
Row Decoder
Bank4
Row Decoder
Bank3
Row Decoder
Bank2
Row Decoder
R=1
C=1
Row Decoder
Column Decoder
Row Decoder
Column Decoder
Memory cell array
Column Decoder
Bank1
Column Decoder
Column Decoder
Column Decoder
Column Decoder
Column Decoder
图 3-2 DD R 内部存储结构
Fig. 3 -2 DD R i nter nal st o rage st r uc t ur e
当前我们选中了 Bank1 的第 1 行第 1 列的数据，但是 DDR 存储器每次
只能激活一个 Bank 中的某一行存储空间，不能同时激活 Bank 的多行存储
空间。因此若想要激活 Bank1 的第 2 行数据需要进行预充电（ Precharge）
操作，如下图 3-3 所示：
 第一个指令“ act”是上述提到的寻址 Activate 指令，之后两个“ nop”
23
万方数据
是 DDR 存储器内部的空闲周期，“ read” 指令表示我们需要读取
DDR 内部的数据，因为 DDR 为双边沿触发，所以之后的四个“ nop”
的时钟周期表示我们要读取到的八个数据；
 中间方框里的“ pre”代表上述提到的 Precharge 操作，关闭现在开
启的 Bank1 的第 1 行第 1 列，并等待两个 “ nop” 周期；
 最后再次给出 “ act” 指令，并等待两个 “ nop”。
clk
cmd
dq
图 3 -3 切换 B a nk
Fig.3 -3 S wi tc h B ank
经过以上三步， DDR 内部成功激活 Bank1 的第 2 行。分析可知 DDR

读取数据中需要许多的 “ nop” 空周期，这些空闲周期 DDR 并没有执行任
何功能，只是在等待。DDR 为了利用空闲周期的时间提高其读写效率提出
了交织（ InterLeave）功能。虽然在同一时刻只能激活同一个 Bank 中的某
一行数据，但是可以同时开启不同 Bank 的某一行数据。因此 DDR 内部需
要将存储空间划分为不同的 Bank 块。交织技术将读写的数据分别放入不同
Bank 块中，这样就形成了类似于流水线读写的形式，提高了 DDR 的传输
效率。
方案设计
Zynq-ZC706 开发板中搭载了四块板载 BGA 封装的 DDR3 芯片，是开
发板中 PS 部分的 DDR 存储器；同时还有一块直插型 DDR3 内存条，是开
发板中 PL 部分的 DDR 存储器。
两块 DDR 大小均为 1GB。PS 部分 DDR 由 SoC 内部集成的 DDR 控制
器控制，主频最高为 533MHz， Memory Map 最大位宽为 32bit。
PL 部分 DDR 最大主频可达 800MHz， Memory Map 位宽最大 512bit，
Stream 数据流的位宽最大为 64bit。 PS、 P L 端的 DDR 最大带宽计算如下：
533 × 2 × (32 ÷ 8) ÷ 1024 ≈ 4.2 𝐺𝐵/𝑠 （ 3.1）
800 × 2 × (64 ÷ 8) ÷ 1024 = 12.5 𝐺𝐵/𝑠 （ 3.2）
24
万方数据
加速器系统的传输带宽需求可以由 DMA 的传输带宽估算而来。本文
设计的硬件加速器至少需要使用 4 个 DMA：权重缓存使用 1 个 DMA，输
出缓存使用 2 个 DMA，输入缓存使用 1 个 DMA。DMA 的 Stream Data Width
为 32bit，因此一个 DMA 的传输带宽为：
(32 ÷ 8) × 200 ÷ 1024 = 0.78125 𝐺𝐵/𝑠 （ 3.3）
共使用了 4 个 DMA，一个 DMA 同时具有读、写两个通道带宽翻两倍，
因此加速器系统估算带宽上限为：
0.78125 × 4 × 2 = 6.25 𝐺𝐵/𝑠 （ 3.4）
通过上面两部分计算可知， PS 端 DDR 的带宽不足以满足加速器内部
的最大理论带宽需求，而 PL 端的 DDR 可以满足。因此我们选择先利用 ARM
核将数据从外部 SD 卡搬运到 PS 端 DDR 存储，之后再使用 CDMA 或 DMA
将数据搬运到 PL 端 DDR 中，如下图 3-4 所示。
ARM Cortex-A9
PS DDR
(CPU)
DDR Controller
DMA/CDMA
(MIG)
PL DDR
图 3-4 DD R 的数据流
Fig.3 -4 DD R da ta fl o w
本设计中 PL 端 DDR 的位宽选择了 512bit，ARM 核 HP 接口的位宽是
64bit。从 PS 端 DDR 搬运数据至 PL 端 DDR 中有两种方案可以选择：
（ 1）利用 CDMA： CDMA 是 XILINX 官方的 IP，通过 S_AXI_LITE
接口配置 CDMA，可以将片上存储的数据从一个存储地址搬运到另一个存
储地址，当 CDMA 完成一次数据传输后 cdma_introut 将会触发一次中断信
号，以此告知 ARM 核完成传输。完整测试工程如下图 3-5 所示：
25
万方数据
图 3 -5 使用 CD M A 的测试工程
Fig. 3 -5 Test pro j ec t usin g C DM A
综合与实现后，查看报告可知时序较差，如下图 3-6 所示，经过研究
CDMA 中只有一个 Datamover 结构，需要 ps2pl-interconnect 负责大量 512bit
与 64bit 数据的位宽转换，同时还需要兼顾 PL 与 PS 端 DDR 互联接口的实
现，造成此模块的时序较差，出现时序违例情况。
图 3 -6 时序情况
Fig. 3 -6 Timing s it uati o n
26
万方数据
（ 2）利用 DMA：DMA 同样也是 XILINX 官方的 IP，通过 S_AXI_LITE

接口进行配置； M_AXI 接口负责与 DDR 和加速器等具有 AXI 协议的接口
进行数据传输；M_AXIS_MM2S 和 S_AXIS_S2MM 是将 AXI 协议的数据转
换为 AXI-Stream 协议的数据，在不同的存储地址上进行传输。此方案利用
两个 DMA 进行分别负责 PL 到 PS 与 PS 到 PL 的数据传输，每个 DMA 传
输完成后都会通过触发 mm2s_introut 和 s2mm_introut 中断信号告知 ARM
核。完整测试工程如下图 3-7 所示：
图 3 -7 使用 DM A 的测试工程
Fig. 3 -7 Test p ro j ec t usin g DM A
利用两个 DMA 替换 CDMA，两个 DMA 在内部进行位宽转换能够满足

时序要求，板级测试后时序改善明显，虽然使用了两个 DMA，但是综合后
实际资源消耗量与第一种方案差距较小，如下图 3-8 (a)所示为 DMA 方案，
(b)为 CDMA 方案。综合考虑最终选择使用 DMA 传输数据的方案。
(a ) DM A 方案 (b) CDM A 方案
图 3 -8 两种方案资源消耗量对比
Fig.3 -8 Co mp aris o n o f reso urce c o ns u mp tio n of t he t wo sc he me s
27
万方数据
MIG 控制器
DDR 的控制时序十分复杂，开发者一般会使用成熟的控制器进行开发，
MIG（ Memory Interface Generator）是控制 PL 端 DDR 的控制器 IP，是
XILINX 官方的 IP 之一，管脚示意如下图 3-9 所示， S_AXI 为 AXI4 总线
协议的数据传输路径，可以与 DMA 等 IP 进行数据交互； clk_ref_i 与
sys_clk_i 是 MIG 控制器需要输入的外部参考时钟，一般通过 SoC 直接生
成； MIG 控制器启动时需要先内部进行自校准，完成自校准后
init_calib_complete 信号将会置高，通过 VCS 仿真可知校准时间大约为 50us
（不建议使用 VIVADO 对 MIG 进行仿真）；ui_clk 信号是用来读取 MIG 控
制器地址生成的时钟，大小由 M IG 控制器内部的最大工作频率分频得到，
MIG 控制器最大频率为 800MHz，分频比例为 4:1 因此 ui_clk 最大为 200MHz。
本设计将以 ui_clk 作为全局时钟。
图 3 -9 M IG 控制器
Fig.3 -9 M IG co ntr oll er
MIG 控制器的配置参数还有 DDR 类型、差分时钟输出、管脚电压阻
抗等参数，此处不再赘述。
数据分块与复用
对于一个输入特征图大小为 X（ H，L，N），输出特征图大小为 Y（ R，
C， M）， M 个 F（ K， K， N）大小的卷积核、卷积步长为 s 的卷积运算来
说其伪代码表达为：
𝑂𝑢𝑡𝑝𝑢𝑡 = 𝑊𝑒𝑖𝑔ℎ𝑡(𝑚, 𝑛, 𝑖, 𝑗)
（ 3.5）
× (𝑟 × 𝑠 + 𝑝, 𝑐 × 𝑠 + 𝑞, 𝑛)
28
万方数据
数据分块
基于 FPGA 的卷积神经网络硬件加速器需要处理的一个难点是片内与
片外数据的交互与存储。FPGA 内部的存储资源有 BRAM 与 Distribute RAM，
BRAM 是单独的存储器件，而 Distribute RAM 需要消耗 LUT 资源，无论是
哪种 RAM 都有其存储上限。相比卷积神经网络较大的参数量，存储资源
远远不够，如下表 3-1 表中可以看出 YOLO-v2-tiny 的网络卷积结构和参数
数量，表格中分别列出了输入特征图像素个数（ Total Input）、输出特征图
像素个数（ Total Output）和权重的数量（ Total Weight）。卷积神经网络单
层最大的参数量达到了 4718.5 千个，巨大的数据量无法一次性加载到片内
存储，因此需要按块传输到硬件加速器内部，再进行卷积运算产生部分和
（ Partial Sum）数据，当所有分块均被计算完成后，得出一层卷积的结果。
表 3 -1 YO LO - v2 -ti ny 各层参数量
Tab le.3 -1 T he pa ramet er s of eac h la ye r of YO LO - v2 -t iny
YO LO v2
1 2 3 4 5 6 7 8 9
ti ny
Type 卷积卷积卷积卷积卷积卷积卷积卷积卷积
I map
416 208 104 52 26 13 13 13 13
Siz e(H, L)
I map
3 16 32 64 128 256 512 102 4 512
Number (N)
O map
416 208 104 52 26 13 13 13 13
Siz e(R, C)
O map
16 32 64 128 256 512 102 4 512 425
Ne mber (M )
Ker nel
3 3 3 3 3 3 3 3 1
Siz e(K)
Str ide (S) 1 1 1 1 1 1 1 1 1
Tot al
519 .1 6 92 . 2 346 . 1 173 . 0 86.5 43.2 86.5 173 86.8
Inp ut( k)
Tot al
276 8.8 13 8 4. 4 692 . 2 346 . 1 173 86.5 173 .0 86.5 71.8
Outp ut( k)
Tot al
0.4 4. 6 18. 4 73.7 294 .9 1179.6 471 8.5 471 8.5 217 .6
We igt h( k)
29
万方数据
输入输出特征图分块的三维示意图如 3-10 所示，每次传入的数据大小
仅为 × × 个 𝑇𝑛 × 𝑇ℎ × 𝑇𝑙大小的数据组，传出的数据仅为 × × 个
𝑇𝑚 × 𝑇𝑟 × 𝑇𝑐大小的数据组，卷积核为 𝑇𝑚个 𝑇𝑛 × 𝑘 × 𝑘大小的数据组。分块处
理之后根据上述伪代码描述，分块输入的卷积过程需要分别在 M， N， R，
C 四个维度上额外增加、、、次循环。
图 3 -10 数据分块大小
Fig. 3 -10 Da ta bl oc k si ze
数据复用
影响硬件加速器效率的原因有两个：（ 1）数据输入量充足，但硬件加
速器处理效率较低；（ 2）数据输入量较少，硬件加速器处于空闲状态。第
一种情况将会在核心计算组件部分进行设计讨论；而出现第二种情况的原
因之一可能是没有对现有数据进行充分的利用，导致重复读取相同或部分
相同数据。本小节主要研究如何更好地利用现有数据。
为了提高片内数据的复用次数，根据论文 [42]的讨论关于如何充分利用
片内已有数据的方式，本文拟采用输入复用（ Input Reuse， IR）的方法。
输入复用实现过程：从输入缓存读入输入特征图的一个 Th × Tl × Tn大小的
分块，同时读入 Tn × Tm个卷积核参数，得到 Tm个卷积结果，将本次卷积结
果存放至输出特征图的片内缓存中，完成一次片内卷积运算，如图 3-11；
第二次由于输入特征图可以复用，只需要加载 Tn × Tm个卷积核参数即可，
计算出第二次卷积结果后需要与第一次运算存储在片内输出缓存中的卷积
数据进行相加；如此往复进行，直至 Tn = N时，得到最终的输出特征图。
输入复用的伪代码下图 3-12 所示。
30
万方数据
图 3 -11 输入复用片内操作
Fig. 3 -11 Inpu t mul tipl e xe d on-c hi p ope rat ion
图 3 -12 输入复用伪代码
Fig. 3 -12 I np ut multi ple xin g pse udo cod e
数据传输
在 3.2 节中，详细设计了外部数据从 SD 卡到 PS 端 DDR，再到 PL 端
DDR 的传输方案。最终片内外数据交换的双方是硬件加速器与 PL 端 DDR。
本设计在实现前期对整个设计的硬件资源消耗量进行评估，同时对硬
件加速器的带宽上限与 DDR 的带宽上限进行评估，决定将硬件加速器内部
的核心计算组件设计为两个。在数据交互时利用多个 DMA 并行传输。保
证 MAC 算力足够的情况下，以此方式提高硬件加速器的数据传输效率，
同时也充分利用了 DDR 的传输带宽。
31
万方数据
核心计算组件
硬件加速器中的核心计算组件是执行整个卷积神经网络的核心部分。
卷积神经网络的基本结构由五个功能层组成，分别是输入数据层、卷积层、
池化层、全连接层、输出数据层，下一层会承接上一层的数据继续进行运
算，宏观角度属于顺序执行。但将每一个功能层独立分析不难发现，同层
之间的运算并不会相互依赖，也就是说同层运算可以实现并行化。此外具
有相同功能的不同层之间具有相似性，例如 YOLO- v2-tiny 有 9 个卷积层，
6 个池化层，针对重复出现的功能层可以将其设计为可复用的硬件结构，
减少资源的消耗。最终的硬件加速器会在性能（并行性）和资源（复用结
构）方面做出折中，以求在有限资源下达到更高的性能。
本设计利用了 FPGA 中的 DSP 资源实现卷积运算，设计了核心计算组
件（ MAC），每个 MAC 中有 14 × 14个 PE，每个 PE 中带有一个 DSP 模块，
通过对 PE 的合理布局实现了 MAC 部分可配置。
核心计算组件的架构
在前两节中设计了数据传输到片内的具体实现方式：首先数据存放在
PS 端 DDR 中，之后通过 ARM 核控制 DMA 将 PS 端 DDR 的数据搬运到
PL 端 DDR 中，之后硬件加速器与 PL 端 DDR 的数据进行交互，硬件加速
器片内数据存放在 BRAM 块中，输入数据、权重数据会从 BRAM 送到核
心计算组件中进行卷积运算，运算完成后再送回 BRAM 中进行存储。
本文设计的核心计算组件由五个部分组成，分别是：输入数据层、数
据移位层、缓存共享层、卷积计算层、输出数据层，每个层都有其相应的
功能阵列，且每一层均为一级流水，如图 3-13 所示。
本文设计的核心计算组件针对卷积运算中卷积核的运动进行了优化处
理，将卷积核在输入数据阵列的滑动变为相邻寄存器阵列的赋值操作。核
心计算组件的五层流水结构减小了时序违例出现的概率，同时最大化流水
线的吞吐率。
32
万方数据
输入数据层
(20*20)
数据移位层
(20*26)
输入数据共享层权重数据共享层
缓存共享层
(14*14)
PE PE PE
卷积计算层 PE PE PE
(14*14)
PE PE PE
输出数据层
(14*14)
图 3-1 3 五级流水线示意图
Fig. 3 -13 Sc he mat ic di a gr a m of fi ve - sta ge pip eli ne
（ 1）第一层为输入数据层，由维度为 20 × 20的寄存器阵列组成，用于
从 BRAM 中读取输入数据并寄存。本设计支持卷积核 K=7 的情况，当卷积
核的步长（ S）为 1 时，输入数据的维度为 (14 + K − 1) × (14 + K − 1)= 20 × 20，
因此本层的寄存器阵列大小设计为 20 × 20。从图中可知本层的数据从左侧
输入，每个时钟周期输入一列，填充时间为 20 个时钟周期。
（ 2）第二层为数据移位层，由维度为 20 × 26的寄存器阵列组成，将从
输入层获取数据并寄存。由于本设计支持卷积核大小最大为 7 的情况， PE
阵列的大小为 14 × 14，整个卷积计算层需要面对 (14 × 14) × (7 × 7) = 9604个
数据的选择问题，如果使用多路选择器显然不是合理的设计方案。为了解
33
万方数据
决大量数据选择的问题，增加了数据移位层，将 PE 与寄存器一一对应，
PE 获取的数据将通过本层的数据移位进行指定。同时为了保证本层数据移
位时不丢失，本层维度至少要比输入数据层多 𝐾 − 1 = 7 − 1 = 6 列，所以本
层寄存器阵列维度为 20 × 26。数据移位层的思路如图 3-14 所示：图中阴影
覆盖区域为 2 × 2卷积核大小，输入数据维度为 3 × 3，卷积步长为 1，执行
一次卷积需要四个时钟周期。第一个时钟周期，移位层从输入层获取 9 个
输入数据 1~9，同时向下一层输出（ 1,2,4,5）四个数据；第二个时钟周期
数据移位层九个数据均向左边的寄存器进行赋值，同时向下一层输出
（ 2,3,5,6）四个数据；第三个时钟周期数据移位层的数据整体向上赋值，
溢出的数据（ 1,2,3）直接丢弃，同时向下一层输出（ 5,6,8,9）四个数据；
第四个时钟周期数据整体向右边的寄存器赋值，同时向下一层输出（ 4,5,7,8）
四个数据。卷积核维度为 2 × 2时，用 4 个时钟周期将所有的数据输出到下
一层。数据移位层的所有寄存器有“上，左，右”三个赋值方向。同时本
层能够提高片内数据的复用性。
图 3-1 4 移位层数据移动
Fig. 3 -14 S hi ft la yer dat a move me nt
（ 3）第三层为缓存共享层，由两个维度为 14 × 14 的寄存器阵列组成，
一个是直接从数据移位层接收数据的输入数据共享层，另一个是直接从权
重缓存获取数据的权重数据共享层，输入和权重数据将会直接提供给第四
层卷积计算层。本层提供数据给卷积运算层采用寄存器与 PE 一一对应的
形式。当卷积步长（ S）为 1 时 PE 的利用率为 100%，但是当 S > 1时，无
法将寄存器与 PE 一一对应。图 3-13 缓存共享层所示的是 S=2 时，数据共
享层将数据复制到了相邻的三个寄存器中，同时权重数据共享层将会从权
重缓存中得到四个不同的权重（图 3-13 彩色部分），以此方式将 PE 的利用
率提升到 100%。
（ 4）第四层为卷积计算层，由维度为 14 × 14 的 PE 阵列组成，是硬件
34
万方数据
加速器的核心，负责卷积运算的乘累加工作。每个 PE 模块内部都例化了
一个 DSP48E1 模块，接收缓存共享层传输的输入数据和权重数据。
（ 5）第五层为输出数据层，由维度为 14 × 14 的寄存器阵列组成，为
保证硬件加速器输出数据时序情况，在第五层对第四层计算结果进行缓存。
卷积计算
卷积神经网络由多层卷积层组成，上下层之间有依赖关系，因此并行
化并不能跨越不同层进行设计，需要针对同一层内的计算做并行化处理。
硬件加速器设计理念是围绕着卷积运算单元进行设计，卷积运算占整个卷
积神经网络计算量的九成以上，卷积运算效率的提升对硬件加速器来说是
重中之重。
如图 3-15 是同一层中的一次卷积过程，左边输入三维数据与中间三维
卷积核对应位置相乘再分别相加，得到三个乘累加结果，最后将三个乘累
加结果相加，就得到了一次卷积结果。在此过程中一共进行了 27 次乘法，
26 次加法。可以发现乘法和加法在一定程度上可以并行处理。因此在同一
层卷积运算中对乘法与加法的并行优化将是提高硬件加速器性能的关键。
图 3 -15 二维卷积
Fig. 3 -15 Two -di me nsi o nal convo lut io n
35
万方数据
单独拿出一层数据的卷积过程进行研究，假设执行卷积的硬件架构如
下图 3-16 所示，从空间上展开的树形结构 [ 4 3 ] ，第一个时钟周期进行 9 次乘
法运算，之后利用加法树的方式将 9 个乘法结果进行累加完成卷积运算。
但是如果将加法树压缩在一个时钟周期内进行，对时序的要求将太过严苛，
有可能会导致时序违例，拉低整个硬件加速器的主频，不是最优选择。按
照流水线的方式对本次卷积运算一共需要 5 个时钟周期，乘法 1 个时钟周
期，加法树 4 个时钟周期，其中流水线的填充时间为 5 个时钟周期。
图 3 -16 树形卷积结构
Fig. 3 -16 Tree convol ut i on st r uct ure
基于 FPGA 设计的硬件加速器，乘法和加法的运算单元使用内置的
DSP 模块是更优的选择，但内部 DSP 模块的数量是有限的，需要尽量满足
两个条件：使用最少的 DSP 发挥最大的性能，满足一些常见情况。假设基
于 DSP 模块的卷积硬件架构是树形结构，有以下几种实现方式：
（ 1）DSP 内部无流水：无法保证每次乘法与每次加法之间的流水关系，
如下图 3-17。在一个时钟周期内，第一个 DSP 只做乘法，第二个 DSP 做
乘法和加法。会造成第二个 DSP 模块内部组合逻辑过长，影响时序。
图 3 -17 DSP 分工示意图
Fig.3 -17 Sc he mat ic di a gr a m of DSP divi sio n of l abo r
（ 2）DSP 内部无流水且只使用加法或乘法功能：部分 DSP 只做加法，
36
万方数据
另一部分 DSP 只做乘法，虽然保证了 DSP 内部时序的稳定，但是会浪费过
多的 DSP 模块， DSP 模块本身的功能利用率不高。图 3-16 的架构是基于
卷积核大小为 3 × 3的情况，假如卷积核大小为 5 × 5，就无法保证当前架构
DSP 模块都被合理使用，也会造成 DSP 资源的浪费。此架构缺乏灵活性。
（ 3）摆脱树形结构从时间上展开 [ 4 2 ] ：兼顾 DSP 使用率、时序以及设
计的灵活性，需要将卷积计算从时间上进行展开， DSP 内部同时使用到加
法和乘法，如下图 3-18 所示。
图 3 -18 单 DSP 功能结构
Fig. 3 -18 F unc t iona l str uct ure o f a si ngle D SP
DSP 模块输入数据经过第一个时钟周期的乘法运算后，与上一次的乘
法运算寄存在 P 端的数据，在第二个时钟周期相加，最后再次从 P 端输出
或继续与下一条流水线中的乘法继续相加，因此使用一个 DSP 模块计算一
次 3 × 3的卷积需要 9 个时钟周期。
P =P +A×B （ 3.6）
DSP 模块实现卷积运算的方式是将多个 DSP 模块绑定为一个计算层也
就是上节提到的卷积计算层，对应卷积核运算，将不同卷积核运算之间并
行化。从底层运算逻辑的角度来考虑对于执行一个 3 × 3的卷积计算并没有
时间上的优势，通过多个 DSP 模块并行计算的方式提升卷积运算的效率，
当流水线填充完毕后每个时钟周期都可输出有效数据。从整体的运算结构
考虑，多 DSP 并行化的结构能够最大限度的提升流水线吞吐率。
PE 单元
卷积计算层是由 PE 单元组成的，每个 PE 单元内部都有一个 DSP 模块。
本文所使用的 SoC 中共有 DSP48E1 模块 900 个，其内部完整架构如下图
3-19 所示，该模块具有众多的可控寄存器，可以按设计需求在 DSP 内部根
据不同功能设置不同的流水线。本设计 DSP 内部实现了三级流水线。 DSP
内部每级流水线时间均相同，根据公式（ 2.15）可知 DSP 内部流水线吞吐
率将达到最高。
37
万方数据
DSP 内部具有较为重要的计算器件分别是：
（ 1）预加器（ Dual A,D, and Pre-adder）可以实现 30bit 与 25bit 的加
法计算并输出结果的低 25bit。该模块可被旁路。
（ 2）预加器后是 18bit 与 25bit 的乘法器（ MULT 25 × 18）。该模块可
被旁路。
（ 3 ）可选多输入的计算模块，通过配置 OPMODE 、 ALUMODE 、
CARRYINSEL 三个信号可被设置为加法器、累加器、逻辑运算器。
（ 4）多路选择器（图中 X， Y， Z），通过 OPMODE 信号配置多路选
择器的选通。
（ 5） DSP 内部的 OPMODE、 ALUMODE 等信号均可动态配置，具有
极强的灵活性。
CARRYCASCOUT*
ACOUT* MULTSIGNOUT* PCOUT*
BCOUT* 48 A:B
18 30 ALUMODE
18 4 P 48
B 18 18
Dual B Register
X
18 MULT 0 4
M P
A 30 25x18 CARRYOUT
30
ALU
25 0
Dual A, D, and Y 48
1 P
30 Pre-adder P
D 25
0
C 48
C P PATTERNDETECT
4 17-Bit Shift PATTERNBDETECT
1
Z
INMODE 5 17-Bit Shift CREG/C Bypass/Mask
3 MULTSIGNIN*
CARRYIN
OPMODE 7 CARRYCASCIN*
CARRYINSEL
48
BCIN* ACIN* PCIN*
图 3-1 9 DSP 内部结构
Fig. 3 -19 DSP in terna l st ruc t ur e
DSP 内部功能众多，本设计中使用到的 DSP 功能为乘累加、偏置加。
（ 1）当实现乘累加功能时其内部路线如下图 3-20 虚线所示： DSP 公
式为 P = A × B + P。第一次计算时， A， B 两个端口分别接受输入数据与权
重数据，并旁路预加器直接输出 A 数据的低 25bit 在下一级做乘法运算结
果记为 𝑃 ，因为是第一次运算，P 端口上一次的数据为 0，无需进行累加操
作；第二次计算，左侧的加法器与乘法器功能与第一次相同，右侧的加法
38
万方数据
器将会累加第一次计算出的𝑃 值。之后的计算方法均与上述表述相同。
CARRYCASCOUT*
BCOUT* 48 A:B
18 30 ALUMODE
18 4 P 48
B 18 18
Dual B Register
X
18 MULT 0 4
M P
A 30 25x18 CARRYOUT
30
ALU
25 0
Dual A, D, and Y 48
1 P
30 Pre-adder P
D 25
0
C 48
C P PATTERNDETECT
1
Z
CARRYIN 3 MULTSIGNIN*
CARRYINSEL
48
BCIN* ACIN* PCIN*
图 3-2 0 乘累加功能 DS P 内数据路径
Fig.3 -20 M ul tip l y a nd acc umu lat e fu ncti o n DSP dat a pat h
深度学习神经网络的训练和收敛十分困难，批标准化（ Batch
Normalization） [ 4 5 ] 的出现改善了这一现状。卷积神经网络输入数据的分布
是不均匀的，模型权重参数的更新会向输入变量分布的区域偏移，对预测
结果产生较大影响。同时对于更深的神经网络来说，对单次输入数据（或
所有输入数据）进行批标准化处理可以减少过拟合现象。但是无需为批标
准化单独设置计算单元，可以将卷积运算与批标准化运算进行融合，其推
理过程如下所示。
批标准化实现公式如下（ 3.7）：
BN(𝑥) = 𝛾 ⊙ +β （ 3.7）
∑ ∈
𝜇̂ = | |
（ 3.8）
∑ ∈ ( )
𝜎 = | |
+𝜖 （ 3.9）
其中 Β表示一次输入数据且 𝑥 ∈ 𝛣； 𝜇̂ 是样本均值； 𝜎 是输入数据 𝛣的标
准差， 𝜖 > 0为一个的极小值，保证批标准化的分母不为 0 ； 𝛾为缩放参数
（ Scale）， β为偏移参数（ Shift ），两个参数的值会随着模型的训练不断更
新。为了保证输入数据分布的区域不能相差太大，对每次的输入数据都通
39
万方数据
过标准差和样本均值进行调整。当模型训练完成后，类似于卷积的权重参
数，批标准化中的各项参数也会保持不变。
批标准化一般作用在卷积计算后与激活函数之前，可通过与卷积层进
行融合的方法简化批标准化操作。卷积输入数据 x，权重为 w，偏置为 b，
卷积后输出为 𝑎，之后 𝑎输入到批标准化层，得到 BN(𝑎) ，如图 3- 21 所示。
图 3-2 1 卷积与批标准化
Fig. 3 -21 Co nvol ut i on a nd batc h sta ndard izat io n
卷积计算公式为：
𝑎 =∑ 𝑤 ×𝑥 +𝑏 （ 3.10）
将批标准化公式（ 3.7）改写为如下结构：
×
BN(𝑎) = 𝑎 × + 𝛽− （ 3.11）
其中 𝛾，𝛽，𝜎 ，𝜇̂ 均为常数，可以观察到批标准化计算方法与卷积层
的计算方法类似，因此将卷积计算公式带入批标准化计算公式：
×
BN(𝑥) = (∑ 𝑤 × 𝑥 + 𝑏) × + 𝛽− （ 3.12）
化简得到批标准化与卷积融合后的计算过程：
× ×( )
BN(𝑎) = ∑ ×𝑎 + 𝛽+ （ 3.13）
新的融合层卷积计算的权重和偏置分别为：
×
𝑤 = （ 3.14）
×( )
b =𝛽+ （ 3.15）
（ 2）当实现偏置加功能时其内部路线如下图 3-22 虚线所示： DSP 公
式为 P = A: B + C。偏置通过 C 端口输入，输入数据 P 通过 A， B 端口输入，
A 端口的数据与 B 端口的数据拼接成 {A: B}， A 作为符号位，最终送入最右
侧加法器与偏置 C 进行累加即可。
40
万方数据
CARRYCASCOUT*
BCOUT* 48 A:B
18 30 ALUMODE
18 4 P 48
B 18 18
Dual B Register
X
18 MULT 0 4
M P
A 30 25x18 CARRYOUT
30 ALU
25 0
Dual A, D, and Y 48
1 P
30 Pre-adder P
D 25
0
C 48
C P PATTERNDETECT
1
Z
3 MULTSIGNIN*
CARRYIN
CARRYINSEL
48
BCIN* ACIN* PCIN*
图 3 -22 偏置加功能 DS P 内数据路径
Fig. 3 -22 Da ta pa t h i n D SP wit h bi a s pl us f unc ti on
卷积数据后处理
神经网络运行在 FPGA 上首先需要对大量的浮点数进行量化，本文所
设计的硬件加速器可适配量化精度为 16bit 与 8bit 的部分神经网络。经过
核心计算组件计算后的数据，还需要进行激活函数、截断、四舍五入等操
作，本文将其设计为 “ 卷积后处理 ” 模块（ DP）。
方案设计
MAC 单元计算完成后，数据传输到 OBUF 模块中，最终由 OBUF 模块
经过 FIFO 缓存传输到 DMA 模块中。其中 MAC 单元计算的数据均需要进
行 DP 模块处理，从硬件设计的角度考虑，有如下两种方案：
MAC OBUF
DATA
PE+DP PE+DP 1
14x32 AXI- DMA

stream
DATA
PE+DP PE+DP 14
图 3 -23 DP 模块在 P E 内部
Fig. 3 -23 T he DP modul e i s i nsi de t he P E
41
万方数据
（ 1）如图 3-23，将 DP 模块设计在 PE 内部，卷积运算后同时处理所
有数据，后续模块无需做额外处理。假设加速器内部有 N 个 MAC 单元，
每个 M AC 单元内有 14 × 14个 P E，最终将会使用到 N × 14 × 14个 DP 模块。
（ 2）如图 3-24 所示，卷积后的数据以列的形式进行输出，每次输出
到 OBUF 的数据位宽为 14 × 32bit ，数据从 OBUF 传输到 DMA 是以
AXI-stream 流的形式，将 DP 模块放在 OBUF 与 DMA 中间，只需要一个
DP 模块即可完成所有数据的卷积后处理。
MAC OBUF
DATA
PE PE 1
AXI- DP AXI- DMA

14x32
stream stream
DATA
PE PE 14
图 3 -24 DP 模块在 OB U F 后
Fig. 3 -24 DP modul e a ft e r OB UF
第二种方案相比较于第一种方案将会节省大量硬件面积， DP 模块从
N × 14 × 14 个减少到只需要 1 个。除流水线填充时间外，没有降低整个硬
件加速器的运行效率，充分释放了 MAC 模块的内部功能，使其专注于卷
积运算，减少模块设计难度与时序压力。因此选择第二种方案。
模块设计
DP 模块需要具备三个功能：激活函数、四舍五入、数据截断。模块的
功能如下图 3-25 所示：
AXI- AXI-
判断数据正负四舍五入截断激活函数
stream stream
图 3 -25 DP 模块内部功能
Fig. 3 -25 DP modul e int e r nal func t ion s
（ 1）四舍五入：有符号二进制的四舍五入首先要区分是正数还是负数。
42
万方数据
对于正数来说，丢弃数据的最高位为 1 时，原数据将会进位 +1；如果丢弃
的最高位为 0 则无需进位，如 1.10110 截断低 2bit 变为 1.110。对于负数来
说，丢弃数据的最高位为 1，且最高位以外同时也有 1 存在时，原数据需
要 +1，其他情况则无需 +1，如 1.101101 截断低 3bit 变为 1.110。但是负数
情况下对于 “ 除最高位以外其他位也有 1” 的实现较为困难。改变思路，
负数在硬件系统中是以补码的形式存在，可以先将补码取反加一，转化成
原码，之后就可以按照正数的规则进行四舍五入，完成后再次取反加一变
为补码。
（ 2）截断：截断利用数据移位即可实现。
（ 3）激活函数：本文所研究的 YOLO-v2-tiny 神经网络使用的激活函
数为 Leaky ReLU 其表达式如下：当输入大于等于 0 时保持原数值不变，
当输入小于 0 时将会乘以一个系数 0.1。 Leaky ReLU 与 ReLU 相比最大的
特点就是可以保留负数的部分特征。
𝑥, 𝑥 ≥ 0
𝑓= （ 3.16）
0.1𝑥, 𝑥 < 0
乘法操作对硬件设计来说是比较慢的运算，同时硬件的二进制特性导
致某个数乘以 0.1 是一个浮点运算，将会增大计算量减慢计算速度，系统
设计复杂也度变高。Leaky ReLU 激活函数需要作出相应优化。本设计优化
方式为量化处理：对 0.1 进行量化处理，由于本文硬件加速器是基于 16bit
数据进行设计的，分配给整数部分 1bit，剩下 15bit 分配给浮点表达，根据
如下公式可得量化精度 q 的取值范围：
0.1 × 2 ≤ 2 ， q ≤ 18 （ 3.17）
本设计使用量化的方式将 Leaky ReLU 函数实现， q 值选择 15。当输
入数据大于 0 时，保持原数据；当数据小于 0 时，利用 DSP 模块计算输入
数据 a × (2 × 0.1) ≈ a × 3277 = 𝑎 × (CCD) 得到输出数据。
本章小结
本章利用总分的方式，首先设计了硬件加速器的架构，之后分别设计
了硬件加速器的数据流走向、DDR 传输、数据分块及复用、核心计算组件、
卷积后数据处理模块的设计。
43
万方数据
第四章加速器系统仿真与实现
本章节将第三章设计的硬件加速器与可视化组件、中间组件进行集成，
实现加速器系统和应用。4.1 节利用软硬件协同的方式设计实现了加速器系
统架构， 4.2 节对硬件加速器内部各个模块进行仿真验证， 4.3 节展示加速
器系统的实际应用，4.4 节从资源、功耗、性能等方面与当前主流平台以及
其他论文的系统进行对比分析。
加速器系统应用设计
本设计应用的开发平台为 Zynq-ZC706。平台 SoC 内部的 FPGA 关键资
源量如表 4-1 所示。
表 4 -1 ZC70 6 硬件资源
Tab le. 4 -1 Har d ware Re s our ces o f ZC706
Reso urce LU T FF B RAM DS P
21 8600 437 200 54 5 900
图 4 -1 Zynq - ZC706 开发平台
Fig. 4 -1 Z ynq - ZC706 d evel op me nt plat for m
44
万方数据
图 4-1 方框内是本次实现所用到的板上资源： ① 为外接电源； ② 为串
口与 JTAG 下载接口； ③ 为 XILINX Zynq XC7Z045 SoC 芯片； ④ 为 SD 卡
模块，所有的数据存放在 SD 卡的 txt 文档中； ⑤ 为 PS 端 DDR； ⑥ 为 PL
端 DDR； ⑦ 为本设计使用到的 Sony 摄像头模组，使用 FMC 接口； ⑧ 为
HDMI 输出接口，另一端连接显示器。
加速器系统是由可视化组件与硬件加速器的集成，整个系统采用 AXI4
协议进行互联，分别使用到了 AXI-full，AXI-stream，AXI-LITE 三种总线。
其中各个模块将通过 Block Design 的 FIFO 接口进行数据交互。系统集成
的难点在于对数据流走向的清晰理解以及系统互联的合理性，合理利用
XILINX 的 AXI-interconnect、 DMA、 FIFO 等模块。
基于 FPGA 的设计并不是完成仿真阶段就代表系统再无问题，板级测
试是将 “ 理想变为现实 ” 的过程，无论是 FPGA 设计还是在 ASIC 设计流
程中都是极为重要的一环，在板级测试时会遇到更多问题。
本设计硬件加速器全模块同步时钟 200MHz； VIVADO 与 SYNPLIFY
软件负责 S ynthesis；VIVADO 进行 Implementation。最终在 XILINX-ZC706
开发平台实现了整个系统。
加速器系统架构
CSI- CCM颜 Scaler-缩放模块 PL

Sony-IMX214
Lane 色校正 (1280x720) DDR
AXI_LITE AXI
Stream
BUF0
HDMI Stream
OSD VDMA BUF1
(1280x720) to Video 硬
BUF2
件
可视化组件加
DMA R 速
数据前处器
DMA G
理
DMA B
AXI_LITE
FIFO Result
中间组件
图 4 -2 加速器系统架构
Fig. 4 -2 Acc eler ato r s ys t e m ar c hi tec ture
45
万方数据
加速器系统架构如图 4-2 所示，一共分为三个部分：硬件加速器、可
视化组件与中间组件。主要流程如下：
（ 1）Sony 摄像头采集一帧图像的 RGB 数据，通过可视化组件的各个
模块将其从 HDMI 接口输出摄像头采集的图像数据到显示器。
（ 2）中间组件从可视化组件的 VDMA 模块中提取出一帧图像的 RGB
数据，经过数据前处理，送入 DDR 的 R、 G、 B 三块内存区域，之后由硬
件加速器访问三块内存区域读取数据。
（ 3）从硬件加速器中推理得出图像识别的数据放在 DDR 的 Result 内
存区域，由 AXI-LITE 总线配置到可视化组件的 OSD 模块中（ On-Screen
Display），最终在显示器上显示。
第一帧图像与图像识别的可视化成功之后，就需要将其连续执行。可
视化组件不断地从摄像头采集帧数据输出到显示器；硬件加速器完成一帧
图像数据的运算后会再次采集下一帧数据，并且不断地送出推理后的识别
结果反回 OSD 模块，最终将 OSD 的数据与摄像头采集的数据叠加输出到
显示器。完成从图像采集、图像识别到图像显示的完整应用流程。
加速器系统集成
（ 1）可视化组件
可视化组件设计如下图 4-3 所示。
IIC-Config
CSI- CCM颜 PL
Scaler-缩放模块
Sony-IMX214 DDR
Lane 色校正 (1280x720)
AXI_LITE AXI
Stream BUF0
BUF1
HDMI Stream
OSD VDMA BUF2
(1280x720) to Video
可视化组件
图 4 -3 可视化组件
Fig. 4 -3 Vis ual co mpone nt
摄像头使用 SONY 的 IMX-214 传感器模组，通过 IIC 接口进行配置。
46
万方数据
摄像头数据会通过 CSI（ Camera Serial Interface）接口转换到物理层 MIPI

接口，通过 MC20901 芯片将数据信号转化为 FPGA 可采样的 LVDS 信号。
FPGA 采样到摄像头模组的数据后，通过模块 CCM 对图像数据进行校
正；之后将输入的 1920 × 1080的数据经过图像缩放模块（ Scaler ）裁剪为
1280 × 720大小送入 VDMA 中，与 DDR 进行数据的三帧缓存输出。硬件加
速器运算结果通过 AXI-LITE 总线传输至 OSD 模块，此模块是为了在图像
数据上叠加硬件加速器的推理结果。最终图像输出到 HDMI 接口，连接显
示器进行显示。
VDMA 是 XILINX 官方提供的 IP 模块，用于实现 Stream 流数据与
Memory Map 格式数据的相互转换。借此可以实现将数据直接读写在 DDR
存储器中，利用 DDR 与 VDMA 实现了三级缓存机制，大大减小了图像撕
裂的情况，使得输出图像更加稳定。
CCM 模块为提高图像质量的 IP 核，此处不再赘述。
OSD 模块用于视频叠加处理。OSD 模块的输出由 AXI-LITE 总线配置，
当硬件加速器计算完某一帧图像的数据后，输出图像识别的坐标及类别，
通过 AXI-LITE 总线传输到 OSD 模块，模块即可把输出叠加显示在显示器
上；当 OSD 无配置指令时，不影响原图像输出。
（ 2）中间组件与硬件加速器
中间组件与硬件加速器的连接如下图 4-4 所示：
DMA-master PL
DDR
R
DMA R
数据 G 硬
VDMA输入 DMA G 件
前处理
加
DMA B 速
B
器
AXI_LITE
FIFO Result
中间组件
图 4-4 中间组件与硬件加速器
Fig.4 -4 I n ter me di a te Co mp one nt s a nd Ha rd war e Acc e ler ator s
47
万方数据
中间组件从可视化组件的 VDMA 中截取一帧图像，输入到数据前处理
模块，前处理模块将 RGB 数据分成三路单独的数据，并将数据缩放为
416 × 360大小，分别存储在 DDR 的 R、 G、 B 三个内存段。
硬件加速器能处理的图像大小为 416 × 416，因此在放入 DDR 时不能简
单的按顺序摆放，需要将 416 × 360大小的图像先填充为 416 × 416，这样才
能保证加速器读取的图像是正确的大小。由于图像填充的数据均为 0，为
了减小传输的数据量，在写入 DDR 前，先将 DDR 存放图像的区域全部清
0，然后将 416 × 360的数据填充进 DDR 中。
如下图 4-5 所示，计算 DDR 存放三个部分填充数据的首地址。假设存
放 R 通道（第一条虚线处）数据的地址为为 0𝑥12000000，则第一处写入数
据的地址为： 0𝑥12000000 + (28 × 416 × 2) = 0𝑥12005𝐵00。
本次填充的数据长度为： 416 ∗ 360 = 149760。
另外两个通道的首地址计算同上。
416x28
416x360
416x28
416x360
416x360
图 4-5 图像填充示意图
Fig. 4 -5 Sc he mati c di agr a m o f i mag e fi lli ng
硬件加速器正确读取图像数据并且计算出图像推理的结果后，将结果
放入到 DDR 的 Result 内存地址中，此时通过 FIFO 将推理后的数据通过
AXI-LITE 接口配置到视频采集组件的 OSD 模块中，完成这一帧图像的整
个展示过程。
48
万方数据
软硬件协同设计
本设计基于的是异构 SoC 平台，硬件和软件需要各自分配符合软硬件
特性的计算任务。硬件需要实现高度的并行化计算，软件则需要执行串行
化操作，同时软件具有可以快速设计并修改的优点。
异构平台的 ARM 核将作为加速器系统的主控核心，需要实现的功能
如下：
（ 1）负责卷积神经网络中部分功能的实现：对于卷积神经网络来说卷
积计算已经在第三章中设计了核心计算组件进行计算，YOLO-v2-tiny 卷积
神经网络进行完卷积与池化计算后，在最终输出之前进行 Softmax 分类器
运算，本设计将利用 C 语言编程代码的形式实现 Softmax 功能。
（ 2）负责加速器系统数据的读入： Zynq-ZC706 平台集成了 SD 卡模
块，加速器系统的所有数据都预先存放在 SD 卡中。系统首先要通过 ARM
核控制从外部 SD 卡中读取，再通过 ARM 核的 HP 接口传输进 DDR 内保
存，最后才可以进行片上数据的交互。
（ 3）负责控制硬件加速器各硬件单元的执行与调度：本文研究的硬件
加速器中具有多个运算、存储模块，在进行硬件设计时对每个硬件模块单
独配置控制寄存器，通过 start、 finish、 reset 位信号控制模块启动、停止
和复位。面对众多模块的调度问题，利用 C 语言编写代码相比较于硬件控
制具有更大的灵活性，代码设计及修改时间大大缩减，同时省略了硬件综
合布局布线的时间。硬件系统内部模块互联依靠 AXI4 协议， ARM 核将 C
代码所描述的功能通过 GP 接口连接的 AXI-Interconnect 互联模块传输到各
个模块的 AXI-LITE 接口中，实现软件对硬件模块的控制。
（ 4）负责控制加速器系统中可视化组件的实现：可视化组件中一般通
过 IIC 接口对摄像头模块进行配置。除此之外，可视化组件中同样具有众
多的硬件模块需要配置与调度，包括图像色彩增强模块（ CCM），屏幕显示
模块（ OSD）等，同样需要 C 代码进行控制。
（ 5）双核特点：Zynq-ZC706 异构平台内部具有双核 ARM-CortexA9，
两个 ARM 核可以独立工作，并且有一段共同的内存区域（ OCM）用于两
个 ARM 核数据的交互，因此软件代码也可以实现并行运行。将控制硬件
49
万方数据
加速器的代码与 Softmax 的代码按照乒乓操作的形式执行，进一步提升软
件代码运行的效率。
由于加速器的设计采用的是分层计算，每一层的开始与停止都需要
ARM 核的配合。加速器系统中可视化组件、中间组件和硬件加速器的执行
为弱耦合，可视化组件不依赖中间组件和硬件加速器的执行；硬件加速器
也不受可视化组件和中间组件的约束。中间组件只需要从可视化组件的
VDMA 中获取某一帧传输到 DDR 中，再由硬件加速器从 DDR 中读取数据
进行处理。为了保证视觉动态识别效果的实时性，需要将两个核心模块与
两个 ARM 核的运行调度进行优化，过程如下：
① ARM 核 1 运行， ARM 核 2 等待：当硬件加速器空闲时，数据前处
理模块从视频流主数据路径获取第一帧图像的 RGB 数据，通过三个 DMA
传输到 DDR 的指定存储位置，交由硬件加速器处理。
② ARM 核 1 通知 ARM 核 2 运行：三个 DMA 传输完成触发中断，同
时硬件加速器完成处理后也触发中断，均由 ARM 核 1 接收中断。当两个
中断均触发后在软件代码中利用 OCM 区域通知 ARM 核 2 开始运行 Softmax。
③ ARM 核 1 与 ARM 核 2 同时运行：ARM 核 2 执行 Softmax 后将结果
通过 AXI-LITE 传输到 OSD 模块，覆盖到视频流主数据路径进行显示。此
时 ARM 核 1 无需等待 ARM 核 2 完成，可同时从视频流主数据路径获取第
二帧图像的 RGB 数据，重复 ① 、 ② 过程。
上述三个过程的描述，如下图 4-6 所示。
T0 T1 T2 T3 ……
CPU0 第一帧图像第二帧图像第三帧图像第四帧图像 ……
CPU1 第一帧后处理第二帧后处理第三帧后处理 ……
图 4-6 双 ARM 核调度示意图
Fig.4 -6 Sc he mati c di agr a m o f dual ARM cor e sc he duli ng
（ 6）系统调试：硬件加速器的实现并不是通过仿真就真的解决了所有
问题，实际板级测试时会有更多的问题出现。ARM 核可以通过串口调试的
方法打印出必要的调试信息，再与 FPGA 的逻辑分析仪配合使用，加快系
50
万方数据
统板级调试的进度。
硬件加速器模块仿真
本节将对第三章设计的模块进行仿真。仿真环境为 Redhat-4.4.7 系统，
硬件配置为 64 核 Intel（ R）Xeon（ R）E7-4809 CPU，256G 内存，4T 硬盘。
使用 VIVADO2018.3 与 VCS2018 软件联合仿真。
DDR 传输仿真
首先进行 PS 端 DDR 与 PL 端 DDR 数据通路的仿真测试。由于 DDR
是 FPGA 板上的实体器件，在仿真时无法直接访问 DDR 内部地址上的信息。
根据 VIVADO 中 VIP 的官方指导手册可知，在编写 Testbench 时指令
ZYNQ.write_mem 、 ZYNQ.read_mem 可以模拟 DDR 内存地址的读写；
ZYNQ.write_data、 ZYNQ.read_data 可以对 IP 核的控制寄存器进行读写。
需要在 Testbench 中配置两个 DMA 的控制寄存器。具体仿真流程如下：
（ 1）对 PS 端 DDR 的地址 0𝑥10000000 写入 64 个 32bit 数据（写入数
据为偏移地址的大小），再按照写入偏移地址的顺序读出数据到寄存器 i，
验证是否成功写入 64 个数据。结果如图 4-7：上图 offset 为偏移地址，同
时也是写入数据；下图可以看到读出值 i 与 offset 地址的值相同，说明 64
个数据成功写入。
图 4 -7 读写数据仿真
Fig. 4 -7 Rea d a nd wr ite data si mul ati o n
（ 2）等待 MIG 控制器初始化完成。M IG 控制器的初始化时间为 50us，

若使用 VIVADO 仿真则会等待较长时间。
（ 3）配置两个 DMA 的控制寄存器、传输长度及传输地址，并等待
51
万方数据
DMA 完成传输后触发中断信号。 DMA0 负责将数据从 PS 端 DDR 的

0𝑥10000000地址数据传输到 PL 端 DDR 的 0𝑥80000000地址上； DMA1 负责
再将数据从 PL 端 DDR 的 0𝑥80000000地址上的数据传输到 PS 端 DDR 的
0𝑥10000000地址。
图 4 -8 DM A 配置代码
Fig. 4 -8 DM A con fi g urat ion c ode
（ 4）从 PS 端 DDR 的 0𝑥10000000地址读出写入的 64 个数据，观察是
否与（ 1）中写入数据一致。如图 4-9 所示即为仿真成功。
图 4 -9 读写数据仿真结果对比
Fig.4 -9 Co mp aris o n o f s i mul at i on re sul ts o f read ing a nd wr i ti ng dat a
核心计算组件仿真
核心计算组件依赖于控制寄存器的控制， conv_start 为高脉冲时触发，
MAC 按照数据分块复用的模式对片内数据进行卷积计算，完成一个分块的
卷积后将拉高 conv_finish 信号告知总控卷积计算完成，如图 4-10。
52
万方数据
图 4 -10 核心计算组件控制信号波形
Fig.4 -10 Co ntr ol si gnal wa ve for m o f c ore c o mp ut ing co mp o ne nt
核心计算组件的关键是内部 14 × 14个 PE 单元的计算。 PE 模块分为三
种模式，分别是乘累加模式、偏置加模式与保持模式，由 SEL 信号控制，
当 SEL 信号为 1 时进行乘累加， SEL 信号为 2 时进行偏置加， SEL 信号为
其它情况时保持数据。
如下图 4-11 方框所示为乘累加模式，输入数据 0𝑥1FFF81F送入 DSP 的
A 端，权重数据 0𝑥80送入 DSP 的 B 端，得到乘法结果为 0𝑥FFFFFFFC0F80。
该数据在核心计算组件内部由移位寄存器直接裁剪为 32bit 输出到模块外，
由于本设计运行的卷积神经网络量化为 16bit，因此核心计算组件输出的数
据将一并交由卷积数据后处理模块（ DP）进行处理。
图 4 -11 DSP 内部计算波形
Fig. 4 -11 DSP i nte rna l ca l cula tio n wavefor m
DP 模块仿真
DP 模块在系统中需要符合 AXI-stream 协议且需要在内部做 8 级流水
以完成所有的数据处理功能。
53
万方数据
传输协议具有 master 与 slave 两端，在设计基于该协议的模块时，需
要特别注意 *_tread y，*_tvalid，*_tlast 与 *_tdata 信号（共 8 条），S 开头的
信号为外部输入到模块内的信号，M 开头的为模块内部输出的信号，如 4-12
所示。
AXI-stream协议
模块A 模块B
模块C
图 4 -12 AXI - st rea m 总线信号
Fig. 4 -12 AXI - st rea m bu s si gna l
模块 C 是我们设计的 DP 模块，数据从模块 A 传输到模块 C，再从模
块 C 传输到模块 B。*_tlast 信号拉高代表一次 stream 传输中的最后一个数
据； S_axis_tready 信号表示模块 C 准备好接收模块 A 的数据，同时
M_axis_tready 表示模块 B 准备好接收模块 C 的数据。前后模块均为 stream
流数据，因此模块 C 内部的所有流水线的运行，均需要模块 B 的
M_axis_tready 信号控制，当 ready 信号为低时暂停向模块 B 传输数据，并
且寄存所有流水线的数据。如图 4-13 方框所示，为了保证模块功能完善，
在仿真时将 ready 信号随机拉低，出现了每级流水时间不相同的情况。
图 4 -13 DP 模块仿真波形
Fig. 4 -13 DP modul e si m ulat ion wa ve fo r m
图 4-13 中的前八个方框代表了内部的八级流水，每级流水分别执行不
54
万方数据
同的功能：例如输入数据 s_data 为 0𝑥00006B8A；s_data_judge 判断该数据是
否为负数，若为负数将其取反加一变为原码，若为正数则保持，该处对数
据的正负判断将会随着流水线向下一级传递； s_data_rnd 按照正数规则将
数据四舍五入处理，完成后若为负数再次取反加一，若为正数保持即可；
s_data_cut 将数据直接按位截断为 16bit，因为加速器量化精度为 16bit；
s_data_cut_reg 将数据寄存一拍，为了等待 Leaky ReLU 在 DSP 中的计算；
s_data_relu 为经过 Leaky ReLU 计算的数据； s_data_output 即为最终输出
数据；m_axis_tdata 输出到 stream 协议。至此完成 8 级流水线的数据处理。
图 4-13 最后两个方框为 Testbench 中的数据对比情况，当 fix 与 m_data
数据相同时 equ 为 1，否则为 0，可以看到所有的数据对比均通过。
硬件加速器仿真
硬件加速器的仿真过程需要实际的图像数据作为输入。将提前准备好
的图像通过神经网络进行推理，同时将神经网络内部每一层卷积结果以及
权重数据提取到文本文件中，作为硬件加速器仿真对比数据。
通过图 4-14 Testbench 将图像输入数据读取到硬件加速器的 DDR 中保
存；每层卷积运算完成后都将本层数据保存到 DDR 中，与提取的文本文件
数据进行对比，验证硬件加速器运算过程是否有误。
图 4 -14 Tes tbench 部分代码
Fig. 4 -14 Tes tbench par ti a l cod e
如图 4-15 所示， ddr_res 是 DDR 中保存计算后的数据， veri_res 是文

本文件中的对比数据，diff 为两者的差值，可以观察所有数据均通过对比，
前仿真通过。
55
万方数据
图 4 -15 硬件加速器仿真结果
Fig. 4 -15 Ha rd war e acce l er ato r si mul at io n r es ul t s
加速器系统展示
完成硬件加速器的设计，加速器系统设计、应用设计和板级测试后，
可以对系统进行展示。本文中 YOLO-v2-tiny 神经网络使用了 COCO 数据
集 [ 4 6 ] ，可以识别 80 个不同类别，实际展示效果如下图 4-16 所示，可视化
组件通过摄像头采集的图像数据显示在显示器上，并通过硬件加速器识别
出的物体，将识别出的物体信息通过 AXI-LITE 传输到 OSD， OSD 将物体
用白色方框圈出，并在左上角显示物体类别，同时叠加到原图像上进行输
出，就实现了可视化的实时加速器系统应用。
图 4 -16 硬件加速器系统应用
Fig. 4 -16 Ha rd war e acce l er ato r s ys te m app lic ati o n
56
万方数据
实验结果
资源消耗
本设计的资源使用量及比例如表 4-2 所示：
表 4 -2 资源使用量
Tab le.4 -2 Reso urce s
Reso urce LU T FF B RAM DSP
Avai lab le 218 600 4372 00 545 900
Uti liz a ti on 1 219 80 1204 49 268 .5 395
Uti liz a ti on( %) 55. 8 2 7.55 4 9.27 43 .89
整个加速器系统 LUT 使用量为 121980 个，占片上总资源的 55.8%；

内部寄存器使用量为 120449 个，占片上资源 27.55%；BRAM 使用量 268.5，
占片上资源 49.27%； DSP 使用量为 395，占片上资源 43.89%。其中 DSP
主要消耗在核心计算组件（ MAC）与卷积后处理（ DP）中，硬件加速器共
有两个 MAC，每个 MAC 有 14 × 14个 PE，每个 PE 内部有一个 DSP 模块，
DP 模块使用到 3 个 DSP，因此一共消耗 14 × 14 × 2 + 3 = 395 个 DSP。
性能和功耗分析
本文加速器系统的核心功能为硬件加速器，硬件加速器中使用了两个
核心计算组件（ MAC），每个 MAC 中包含 14 × 14个 PE，每个 PE 内部都具
有一个 DSP 模块， MAC 通过单时钟周期的操作数与时钟频率进行性能评
估：一个时钟周期可执行加法与乘法两个操作，主频为 200MHz，因此本
硬件加速器的理论性能为： 14 × 14 × 2 × 2 × 200 = 156.8 GOPS。
由于 DDR 数据传输带宽、 ARM 核的影响以及数据传输延迟等其他不
可控因素的影响，实际性能一定低于理论性能。
DDR 数据传输带宽的影响已经进行过分析，当前设计的 DDR 带宽大
于系统需求。本加速器实测性能如下表 4-3 所示。
57
万方数据
表 4 -3 YO LO - v2 -ti ny 性能
Tab le. 4 -3 P e rfor ma nce o f YO LO - v2 -ti ny
计算量 (1 0^6 ) 系统实际性能
卷积层实际时间 ( ms)
( 𝟐 × 𝑵 × 𝐊 × 𝐊 × 𝐌 × 𝐑 × 𝐂) (GO PS)
1 14 9. 5 20384 1.7 6 4.54
2 39 8. 7 21024 3.3 1 23.49
3 39 8. 7 21024 3.2 1 26.92
4 39 8. 7 21024 3.5 1 17.78
5 39 8. 7 21024 3.2 1 26.92
6 39 8. 7 21024 3.7 9 6.36
7 15 94 . 88409 6 14 .7 9 7.75
8 15 94 . 88409 6 13 .9 1 15.55
9 7 3. 5 48800 1.1 1 09.69
本设计的性能主要依赖于核心计算组件的性能，实际系统平均性能为
108.78GOPS，实际系统平均性能占核心计算组件理论性能的 69.38%。
根据 VIVADO 的 Report Power 报告可知，不统计开发板外设的情况下，
片内 SoC 动态功耗为 4.767W，总功耗 5.034W，如图 4-17。
图 4 -17 So C 功耗报告
Fig. 4 -17 So C po wer c onsu mp tio n rep ort
58
万方数据
加速器系统内部的所有功能受 ARM 核的控制，因此 ARM 核的指令影
响加速器系统内部运行调度。ARM 核控制开启摄像头系统，触发数据前处
理模块从视频流主数据路径中采集数据送入硬件加速器运算；硬件加速器
计算完成后需要经过 ARM 核的软件 Softmax，之后将物体坐标与类别通过
ARM 核的 AXI-LITE 配置到 OSD 模块。如下表 4-4 所示，其中单核 ARM
核 12.8FPS，双核 ARM 核可达到 20.7FPS。
表 4-4 不同平台参数对比
Tab le.4-4 Co mp ari so n of par a meter s o f d iffe re nt pla tfor ms
I ntel I7- 8700 G TX1080 Zy nq- ZC70 6 Zy nq- ZC7 06
网络 YO LO -v2 -t in y YO LO -v2 -t i ny YO LO -v2 -t iny YO LO -v2 -t i ny
ARM 核数－－ ARM 单核 ARM 双核
FP S － 26.1 12 .8 20.7
功耗 65W 180W 5.03 4W 5 .034W
基于 FPGA 平台实现的加速器系统与 GTX1080 相比 FPS 略有降低；但

功耗比 Intel I7-8700 和 GTX1080 相比优势巨大。
为了进一步与其他文献所研究的硬件加速器作比较，拟从两个维度进
行对比：
（ 1）单位 DSP 性能比：硬件加速器的性能在带宽足够大的情况下，
DSP 与实际性能应成正相关。利用实际性能（ Perf.）与 DSP 个数比值作为
第一个对比参数。
.
D1 = （ 4.1）
（ 2）单位功耗性能比：实际性能（ Perf.）与实现硬件加速器的 FPGA
芯片或带有可编程逻辑阵列的 SoC 芯片功耗（ Power）的比值，作为第二
个对比参数。
.
D2 = （ 4.2）
表 4-5 所示为本文硬件加速器与其他文献的对比情况，本文设计的硬
件加速器虽然性能不是最优，约为 108.8GOPS，但是在单位 DSP 性能上达
到较高的水平，单位 DSP 性能比约为 0.2754；从单位功耗性能方面比较同
样具有较大优势，单位功耗性能比约为 21.613。
59
万方数据
表 4 -5 各文献实现对比
Tab le. 4 -5 Co mpa riso n of va rio us doc ume nt s
文献 [4 7] 文献 [4 8] 文献 [4 9] 文献 [5 0] 本文
Zynq Zynq Vir tex Zynq

平台 I ntel Arri a10
XC7 Z04 5 XC7 Z04 5 690 t XC7 Z04 5
网络 M ob ileNe t -V2 VGG16 AlexNe t VGG16 YO LO -v2 -t i ny
精度 16 b it 16 bit 16bi t 1 6bi t 16 bit
频率 1 33 M Hz 1 5 0 M Hz 10 0 M Hz 150 M Hz 2 00 M Hz
LUT - 18 2.6 K 14 9 K 350 K 1 21 K
DSP 消耗量 12 78 780 784 283 3 395
性能（ GOP S ） 17 0 . 6 1 37 100.7 354 1 08.8
功耗 27. 2 W 9.6 3 W 5.90 5 W 26 W 5 .0 34 W
Perf.
0.13 35 0 .1756 0.128 4 0.125 0 0 .2 754
DSP
Perf.
6. 27 2 1 4.226 17.05 3 13.615 21 .613
Power
本章小结
本章完成了整个加速器系统的仿真与实现。4.1 节将硬件加速器、可视
化组件和中间组件集成为加速器系统。4.2 节将第三章设计的模块和整个硬
件加速器进行仿真验证。 4.3 节对设计完成的加速器系统进行展示。 4.4 节
详细列出整个加速器系统的资源功耗情况，测试了硬件加速器的实际性能，
最终从单位 DSP 性能比与单位功耗性能比的角度和其他文献成果进行比较，
本文加速器系统具有较大的优势。
60
万方数据
总结与展望
总结与展望
本文在第一章调研了卷积神经网络与硬件加速器的国内外研究现状。
第二章介绍了神经网络如何从线性模型到非线性模型，最终一步一步
到卷积神经网络的历程，探索此过程有助于深度理解神经网络的实现原理。
介绍了本文所采用的 YOLO 神经网络的算法原理与 YOLO-v2-tiny 神经网
络的基本结构。最后介绍了流水线设计及评估方法。
第三章设计了硬件加速器的数据传输方案、数据使用策略、核心计算
（ 1）通过实验探索了 Zynq-ZC706 平台上两块 DDR
组件与卷积后处理模块。
的带宽并且将其与本设计的带宽进行对比，设计了合理的数据传输方案。
（ 2）通过数据分块与数据复用的策略减少了片内外数据交换的次数，有效
（ 3）设计了具有 5 层结构的核心计算组件，利用 DSP
减少了数据传输时间。
模块提升了运算效率，进一步解决了卷积步长不同时核心计算组件利用率
低的问题，并将批标准化操作与卷积操作合并。（ 4）设计了独立的卷积数
据后处理模块，负责卷积后数据的四舍五入、截断、激活函数等处理，并
对卷积神经网络中的激活函数进行量化处理，使其达到较高的精度。
第四章对整个加速器系统进行集成与仿真实现。本文设计的硬件加速
器使用了 395 个 DSP 模块，实测平均性能达到 108.8GOPS，单位 DSP 性能
比达到 0.2754GOPS/DSP，单位功耗性能比达到 21.613GOPS/W。最终实现
的应用展示帧率达到 20.7FPS。
本文所实现的硬件加速器已经取得了较好的性能，在不更换开发平台
的情况下还有三点提升空间：
（ 1）Zynq-ZC706 平台具有 900 个 DSP，本文加速器系统使用 DSP 模
块 395 个，可以通过增加核心计算组件的方式提升本系统的性能。
（ 2）本文加速器系统运行的神经网络为 16bit 定点数，可以对神经网
络进一步量化实现 8bit 定点数或更低位数。
（ 3）进一步量化完成后，可以使 DSP48E1 实现 SIMD 功能， DSP 性
能将翻倍。
61
万方数据
参考文献
[1] 郑南宁 . 人工智能新时代 [J]. 智能科学与技术学报 , 2019, 1(1): 1-3.
[2] Fors yth D, Ponce J. Computer vision: A modern approach[M]. Prentice

hall, 2011.
[3] Issa D, Demirci M F, Yazici A. Speech emotion recognition with deep
convolutional neural networks[J]. Biomedical Signal Processing and
Control, 2020, 59: 101894.
[4] Esteva A, Kuprel B, Novoa R A, et al. Dermatologist-level
classification of skin cancer with deep neural networks[J]. nature, 2017,
542(7639): 115-118.
[5] Hecht-Nielsen R. Theory of the backpropagation neural network[M].
Neural networks for perception. Academic Press, 1992: 65-93.
[6] 周志华 , 王珏 . 机器学习及其应用 2009[M]. 清华大学出版社 , 2009.
[7] Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press,

2016.
[8] Gu J, Wang Z, Kuen J, et al. Recent advances in convolutional neural
networks[J]. Pattern Recognition, 2018, 77: 354-377.
[9] Yu W, Sun X, Yang K, et al. Hierarchical semantic image matching
using CNN feature pyramid[J]. Computer Vision and Image
Understanding, 2018, 169: 40-51.
[10] Hubel D H, Wiesel T N. Earl y exploration of the visual cortex[J].
Neuron, 1998, 20(3): 401-412.
[11] Venturelli A N. Conceptual Change in Visual Neuroscience: The
Receptive Field Concept[J]. International Studies in the Philosophy of
Science, 2021, 34(1): 41-57.
[12] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to
document recognition[J]. Proceedings of the IEEE, 1998, 86(11):
2278-2324.
[13] Deng J , Dong W , Socher R , et al. ImageNet: a Large-Scale
62
万方数据
参考文献
Hierarchical Image Database[C]. 2009 IEEE Computer Society

Conference on Computer Vision and Pattern Recognition (CVPR 2009),
20-25 June 2009, Miami, Florida, USA. IEEE, 2009.
[14] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with
deep convolutional neural networks[J]. Advances in neural information
processing s ystems, 2012, 25: 1097-1105.
[15] Glorot X , Bordes A , Bengio Y . Deep Sparse Rectifier Neural
Networks[C]. Proceedings of the 14th International Conference on
Artificial Intelligence and Statistics (AISTATS). 2011:315-323.
[16] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving neural
networks b y preventing co-adaptation of feature detectors[J]. arXiv
preprint arXiv:1207.0580, 2012.
[17] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to
prevent neural networks from overfitting[J]. The journal of machine
learning research, 2014, 15(1): 1929-1958.
[18] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified,
real-time object detection[C]. Proceedings of the IEEE conference on
computer vision and pattern recognition. 2016: 779-788.
[19] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C].
Proceedings of the IEEE conference on computer vision and pattern
recognition. 2017: 7263-7271.
[20] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv
[21] Bochkovski y A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and
accuracy of object detection[J]. arXiv preprint arXiv:2004.10934, 2020.
[22] Szeged y C, Liu W, Jia Y, et al. Going deeper with convolutions[C].
Proceedings of the IEEE conference on computer vision and pattern
recognition. 2015: 1-9.
[23] Szeged y C, Vanhoucke V, Ioffe S, et al. Rethinking the inception
architecture for computer vision[C]. Proceedings of the IEEE
63
万方数据
conference on computer vision and pattern recognition. 2016:

2818-2826.
[24] Simonyan K, Zisserman A. Very deep convolutional networks for
large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[25] He K, Zhang X, Ren S, et al. Deep residual learning for image
recognition[C]. Proceedings of the IEEE conference on computer vision
and pattern recognition. 2016: 770-778.
[26] Bahrampour S, Ramakrishnan N, Schott L, et al. Comparative study of
deep learning software frameworks[J]. arXiv preprint arXiv:1511.06435,
2015.
[27] Chen T, Li M, Li Y, et al. Mxnet: A flexible and efficient machine
learning library for heterogeneous distributed s ystems[J]. arXiv
[28] Chen F. Data Transmission Securit y in Computer Network
Communication[C]. Journal of Physics: Conference Series. IOP
Publishing, 2021, 1881(4): 042014.
[29] 施巍松 , 张星洲 , 王一帆 , 等 . 边缘计算 : 现状与展望 [J]. 计算机研
究与发展 , 2019, 56(1): 69.
[30] Chen T, Du Z, Sun N, et al. Diannao: A small-footprint high-throughput

accelerator for ubiquitous machine-learning[J]. ACM SIGARCH
Computer Architecture News, 2014, 42(1): 269-284.
[31] Jouppi N P, Young C, Patil N, et al. In-datacenter performance anal ysis
of a tensor processing unit[C]. Proceedings of the 44th annual
international s ymposium on computer architecture. 2017: 1-12.
[32] 汪光森 , 伍行键 , 李誉 . 基于 FPGA 的神经网络的硬件实现 [J]. 电
子技术应用 , 1999, 25(12): 23-25.
[33] Shen Y, Ferdman M, Milder P. Maximizing CNN accelerator efficiency

through resource partitioning[C]. 2017 ACM/IEEE 44th Annual
International S ymposium on Computer Architecture (ISCA). IEEE, 2017:
535-547.
64
万方数据
参考文献
[34] Bibas K, Fogel Y, Feder M. A new look at an old problem: A universal

learning approach to linear regression[C]. 2019 IEEE International
Symposium on Information Theory (IS IT). IEEE, 2019: 2304-2308.
[35] McCulloch W S, Pitts W. A logical calculus of the ideas immanent in
nervous activit y[J]. The bulletin of mathematical bioph ysics, 1943, 5(4):
115-133.
[36] Minsky M, Papert S A. Perceptrons: An introduction to computational
geometry[M]. MIT press, 2017.
[37] 李望晨 . BP 神经网络改进及其在手写数字识别中的应用 [D]. 黑龙江 :
哈尔滨工业大学计算数学 , 2006.
[38] 郭荣艳 , 胡雪惠 . BP 神经网络在车牌字符识别中的应用研究 [J]. 计
算机仿真 , 2010 (9): 299-301.
[39] Basha S H S, Dubey S R, Pulabaigari V, et al. Impact of full y connected

layers on performance of convolutional neural networks for image
classification[J]. Neurocomputing, 2020, 378: 112-119.
[40] Girshick R. Fast r-cnn[C]. Proceedings of the IEEE international
conference on computer vision. 2015: 1440-1448.
[41] Shetty S. Application of convolutional neural network for image
classification on Pascal VOC challenge 2012 dataset[J]. arXiv preprint
arXiv:1607.03785, 2016.
[42] Tu F, Yin S, Ouyang P, et al. Deep convolutional neural network
architecture with reconfigurable computation patterns[J]. IEEE
Transactions on Very Large Scale Integration (VLSI) Systems, 2017,
25(8): 2220-2233.
[43] Zhang C, Li P, Sun G, et al. Optimizing fpga-based accelerator design
for deep convolutional neural networks[C]. Proceedings of the 2015
ACM/SIGDA international symposium on field-programmable gate
arrays. 2015: 161-170.
[44] Yin S, Ouyang P, Tang S, et al. A high energy efficient reconfigurable
hybrid neural network processor for deep learning applications[J]. IEEE
65
万方数据
Journal of Solid-State Circuits, 2017, 53(4): 968-982.

[45] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network
training b y reducing internal covariate shift[C]. International
conference on machine learning. PMLR, 2015: 448-456.
[46] Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in
context[C]. European conference on computer vision. Springer, Cham,
2014: 740-755.
[47] Bai L, Zhao Y, Huang X. A CNN accelerator on FPGA using depthwise
separable convolution[J]. IEEE Transactions on Circuits and Systems II:
Express Briefs, 2018, 65(10): 1415-1419.
[48] Guo K, Sui L, Qiu J, et al. Angel-eye: A complete design flow for
mapping cnn onto embedded fpga[J]. IEEE transactions on
computer-aided design of integrated circuits and s ystems, 2017, 37(1):
35-47.
[49] Hu X, Zeng Y, Li Z, et al. A resources-efficient configurable accelerator
for deep convolutional neural networks[J]. IEEE Access, 2019, 7:
72113-72124.
[50] Zhang C, Sun G, Fang Z, et al. Caffeine: Toward uniformed
representation and acceleration for deep convolutional neural
networks[J]. IEEE Transactions on Computer-Aided Design of
Integrated Circuits and Systems, 2018, 38(11): 2072-2085.
[51] Qiu J, Wang J, Yao S, et al. Going deeper with embedded fpga platform
for convolutional neural network[C]. Proceedings of the 2016
ACM/SIGDA International Symposium on Field-Programmable Gate
Arrays. 2016: 26-35.
[52] Moini S, Alizadeh B, Emad M, et al. A resource-limited hardware
accelerator for convolutional neural networks in embedded vision
applications[J]. IEEE Transactions on Circuits and Systems II: Express
Briefs, 2017, 64(10): 1217-1221.
66
万方数据
攻读学位期间的科研成果
攻读学位期间的科研成果
专利和软著：
[1] 熊晓明、毕顺翔、黄泽武 . 一种指纹电子锁的加密、解密认证方法
和指纹电子锁：中国，CN202010565102.3，2021-11-16.（发明专利
第二作者，已授权）
[2] 毕顺翔、高倾健、詹瑞典、郭靖、熊晓明 .一种数据加密卡的加密
方法及装置：中国，CN202110174434.3，2021-06-03.（发明专利第
一作者，实质审查）
[3] 毕顺翔，基于 BP 和 Kmeans 方法的识别系统 V1.0 。登记号：
2021SR0978356，广东工业大学（软件著作权 -已授权，第一作者）
[4] 毕顺翔，基于视觉神经网络的图像识别应用系统 V1.0。登记号：
2021SR0978594，广东工业大学（软件著作权 -已授权，第一作者）
67
万方数据
学位论文独创性声明
本人郑重声明：所呈交的学位论文是我个人在导师的指导下进行的研究工作及取
得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其
他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均
已在论文中作了明确的说明，并表示了谢意。本人依法享有和承担此论文所产生的权
利和责任。
。
论文作者签名：务次丸］日期：立刀 y｀沙
学位论文版权使用授权声明
本学位论文作者完全了解学校有关保存、使用学位论文的规定：“研究生在广东工
业大学学习和工作期间参与广东工业大学研究项目或承担广东工业大学安排的任务所
完成的发明创造及其他技术成果，除另有协议外，归广东工业大学享有或特有”。同意
授权广东工业大学保留并向国家有关部门或机构送交该论文的印刷本和电子版本，允
许该论文被查阅和借阅。同意授权广东工业大学可以将本学位论文的全部或部分内容
编入有关数据库进行检索，可以采用影印、缩印、扫描或数字化等其他复制手段保存
和汇编本学位论文。保密论文在解密后遵守此规定。
冗力。上～．乃
论文作者签名：分的爪期：
° 乃
指导教师签名:杠立目期：访九 }，
68
万方数据
致谢
致谢
研究生阶段一晃而过，回顾自己走过的路，收获良多，遇到了良师益
友助我成长。在这里由衷的感谢各位指导过我的老师、一起交流成长的同
门师兄弟、我的舍友以及帮助过我的各位好友。
感谢熊晓明老师，来到您的团队非常幸运，当初您的肯定使我得到莫
大的鼓励与信心。进入团队后给予了我充分的发挥空间，研究生期间接触
到许多不同的项目，学习到多方面的知识，扩展了我的知识面，丰富了知
识体系。在学习、生活和职业发展规划上，您总是能引导我进入正确的方
向；同时培养我考虑问题更加全面的思维，这将是我一生的财富。
感谢詹瑞典师兄、胡湘宏师兄和郑欣师姐对我的帮助和指导，为我提
出新的想法和建议，使我在研究生期间快速的融入团队，同时教会我做人
做事的智慧。
感谢刘祥、胡恩、董海涛、邱亚飞、蒲佳铭师兄和庄敏师姐，在佛山
学习时是你们带我进入到了温馨与美好的团队中。
感谢硬件加速组的师兄弟们，与你们的坚实合作才成就了今天的我。
感谢黄宏敏、陈淘生、刘梓豪师兄，是你们的人格魅力与实力促使我向你
们靠近。感谢李学铭、秦亚东、张鸿儒师弟在项目上合作，三人行必有我
师，感谢你们对我的帮助。
感谢一直支持我的家人，让我有机会替你们看看不一样的世界。
感谢薛静文同学对我的陪伴与鼓励，很幸运可以与你一同成长。
感谢与我同届的各位同门，三年时间转瞬即逝，友谊永远长存。
感谢舍友在生活中的包容与帮助。
最后，感谢各位评审老师、答辩组老师、合作过的企业人员以及所有
在读研期间帮助过我的人。
69
万方数据

基于图像识别技术的硬件加速器实现与应用 2022 广东工业

Uploaded by

Copyright:

Available Formats

You might also like

基于图像识别技术的硬件加速器实现与应用 2022 广东工业

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于图像识别技术的硬件加速器实现与应用 2022 广东工业

Uploaded by

Copyright:

Available Formats

基

the Degree of Master

Implementation and Application of Hardware Accelerator

the customized hardware accelerator, an accelerator s ystem is designed and

Key words: FPGA; Convolutional Neural Network; Hardware Architecture;

3.3 Data Blocking and Multiplexing .................................................. 28

Scientific research achievements during degree study ............................ 67

Fig.1-1 BP neural network structure

Fig. 2 -1 Li near regr e ssi o n e xa mp le

Fig. 2 -2 Non - li near regr e ssi o n e xa mp le

Fig. 2 -3 B i ologi c al neur o n st r uct ure

控 制 学 、神 经 生 物 学 研 究 者 Warren McCulloch 和 Walter Pitts 以 生 物 神

Tab le. 2 -1 Co mmon ac ti vat ion f unc t ions

1 𝑓(𝑥)的 取 值 范 围 是 (0 ,1)；𝑥在 (−∞, −6)

Fig. 2 -4 M ul ti l a yer per cept ron

1986 年 Rumelhart 和 McClelland 等 人 提 出 了 BP 神 经 网 络 结 构 ， 在 多

Fig. 2 -5 Co nvolu tio n ope r ati on

Fig. 2 -6 Co nvolu tio n a ft e r fill ing

Fig. 2 -7 Co nvolu tio n ker nel mov e

Fig. 2 -9 Aver a ge p ooli ng

Tab le. 2 -2 Othe r co mmo n act iva t ion f unct io ns

Fig.2 -10 Sc he mat ic di a gr a m of Y O LO o ri gi nal p ap er

每 个 Bounding Box 的 置 信 度 参 数 表 示 了 该 Bounding Box 中 是 否 含 有

当 Bounding Box 中 存 在 待 识 别 的 物 体 时 P 物 体 = 1， 否 则 为 0。 IOU

Tab le. 2 -3 YOLO - v2 - ti ny net wor k s tr uct ur e

层 类别 K,S H ,L,N R,C,M

1 卷积 3,1 4 18,418 ,3 41 6,416,1 6

2 最大池化 2, 2 416 ,416,16 208,2 08,16

3 卷积 3,1 2 10,210 ,1 6 20 8,208,3 2

4 最大池化 2, 2 208 ,208,32 104,1 04,32

5 卷积 3,1 1 06,106 ,3 2 10 4,104,6 4

6 最大池化 2, 2 104 ,104,64 52,5 2,64

7 卷积 3,1 54,54,64 5 2,52,128

8 最大池化 2, 2 52,5 2,128 26,26 ,128

9 卷积 3,1 2 8,28,12 8 2 6,26,256

10 最大池化 2, 2 26,2 6,256 13,13 ,256

11 卷积 3,1 1 5,15,25 6 1 3,13,512

12 最大池化 2, 1 13,1 3,512 13,13 ,512

13 卷积 3,1 1 5,15,51 2 13 ,13,102 4

14 卷积 3,1 1 5,15,102 4 13 ,13,102 4

15 卷积 1,1 1 3,13,102 4 1 3,13,125

Fig. 2 -11 P ip eli ne des ign e xa mple

Fig.2 -12 T h e number o f cl ock c yc le s of eac h par t of t he pi pel i ne

Fig. 2 -13 Zynq P S si de a rchi tec ture

512 32 320 PE0_0 PE0_1 PE0_13

512 32 32 448 MAC1

Fig. 3 -1 Har d ware Accel era tor Ar c hi tect ure

系 统 中 使 用 了 两 个 DDR3 （ Double Data Rate S ynchronous Dynamic

Random Access Memory, DDR3 SDRAM）， 一 个 是 PS 端 的 DDR3， 一 个 是

Fig. 3 -2 DD R i nter nal st o rage st r uc t ur e

经 过 以 上 三 步 ， DDR 内 部 成 功 激 活 Bank1 的 第 2 行 。 分 析 可 知 DDR

Fig. 3 -5 Test pro j ec t usin g C DM A

Fig. 3 -6 Timing s it uati o n

（ 2）利 用 DMA：DMA 同 样 也 是 XILINX 官 方 的 IP，通 过 S_AXI_LITE

Fig. 3 -7 Test p ro j ec t usin g DM A

利 用 两 个 DMA 替 换 CDMA，两 个 DMA 在 内 部 进 行 位 宽 转 换 能 够 满 足

Fig.3 -8 Co mp aris o n o f reso urce c o ns u mp tio n of t he t wo sc he me s

Fig.3 -9 M IG co ntr oll er

Tab le.3 -1 T he pa ramet er s of eac h la ye r of YO LO - v2 -t iny

控制学、神经生物学研究者 Warren McCulloch 和 Walter Pitts 以生物神

1 𝑓(𝑥)的取值范围是 (0 ,1)；𝑥在 (−∞, −6)

1986 年 Rumelhart 和 McClelland 等人提出了 BP 神经网络结构，在多

每个 Bounding Box 的置信度参数表示了该 Bounding Box 中是否含有

当 Bounding Box 中存在待识别的物体时 P 物体 = 1，否则为 0。 IOU

层类别 K,S H ,L,N R,C,M

系统中使用了两个 DDR3 （ Double Data Rate S ynchronous Dynamic

Random Access Memory, DDR3 SDRAM），一个是 PS 端的 DDR3，一个是

经过以上三步， DDR 内部成功激活 Bank1 的第 2 行。分析可知 DDR

（ 2）利用 DMA：DMA 同样也是 XILINX 官方的 IP，通过 S_AXI_LITE

利用两个 DMA 替换 CDMA，两个 DMA 在内部进行位宽转换能够满足

摄像头使用 SONY 的 IMX-214 传感器模组，通过 IIC 接口进行配置。

摄像头数据会通过 CSI（ Camera Serial Interface）接口转换到物理层 MIPI

CPU0 第一帧图像第二帧图像第三帧图像第四帧图像 ……

CPU1 第一帧后处理第二帧后处理第三帧后处理 ……

（ 2）等待 MIG 控制器初始化完成。M IG 控制器的初始化时间为 50us，

DMA 完成传输后触发中断信号。 DMA0 负责将数据从 PS 端 DDR 的

图 4 -12 AXI - st rea m 总线信号

图 4 -14 Tes tbench 部分代码

如图 4-15 所示， ddr_res 是 DDR 中保存计算后的数据， veri_res 是文

整个加速器系统 LUT 使用量为 121980 个，占片上总资源的 55.8%；

ARM 核数－－ ARM 单核 ARM 双核

基于 FPGA 平台实现的加速器系统与 GTX1080 相比 FPS 略有降低；但