当前位置:诺佳网 > 电子/半导体 > 可编程逻辑 >

后摩尔时代的创新:在米尔FPGA上实现Tiny YOLO V4,

时间:2024-11-22 | 栏目:可编程逻辑 | 点击:

学习如何在 MYIR 的 ZU3EG FPGA 开发板上部署 Tiny YOLO v4,对比 FPGA、GPUCPU 的性能,助力 AIoT 边缘计算应用。

一、为什么选择 FPGA:应对 7nm 制程与 AI 限制

在全球半导体制程限制和高端 GPU 受限的大环境下,FPGA 成为了中国企业发展的重要路径之一。它可支持灵活的 AIoT 应用,其灵活性与可编程性使其可以在国内成熟的 28nm 工艺甚至更低节点的制程下实现高效的硬件加速。

米尔的 ZU3EG 开发板凭借其可重构架构为 AI 和计算密集型任务提供了支持,同时避免了 7nm 工艺对国产芯片设计的制约。通过在 ZU3EG 上部署 Tiny YOLO V4,我们可以为智能家居、智慧城市等 AIoT 应用提供高效的解决方案。

1fd53440-a82a-11ef-8084-92fbcf53809c.png1ff59190-a82a-11ef-8084-92fbcf53809c.png

CPU GPU FPGA 架构对比

二、了解 Tiny YOLO 模型及其适用性

YOLO(You Only Look Once)是一种实时物体检测模型,它通过一次性扫描整个图像,实现高效的对象识别。

而其简化版 Tiny YOLO V4 更适合嵌入式设备,具有较少的层数和参数。其轻量化特性更适合在资源受限的设备上运行,尤其在低功耗、实时检测的边缘计算设备中表现出色。

相比传统 GPU,FPGA 能在小面积和低功耗下实现类似的推理性能,非常契合 AIoT 应用。像米尔 ZU3EG 这样的 FPGA 开发板,通过底板和丰富接口的载板设计,非常适合高效的嵌入式低功耗数据处理。

20207e64-a82a-11ef-8084-92fbcf53809c.png

Yolo V4 网络结构图

204930fc-a82a-11ef-8084-92fbcf53809c.png

Tiny Yolo V4 网络结构图

(通过优化网络结构和参数,保持较高检测精度的同时,降低模型的计算量和内存占用)

三、获取数据集和模型

可下载开源训练集或预训练模型。为了确保兼容性,建议将模型转换为 ONNX 格式,以便后续能在 FPGA 上完成优化。

1.下载 Tiny YOLO V4 模型:从Darknet 的 GitHub 仓库获取 Tiny YOLO 的预训练权重,或者在 COCO 等数据集上自行训练模型。自定义的模型适用于特定应用场景(如车辆检测、人脸检测等)。

2.数据准备:若要自定义模型,可使用 LabelImg 等工具对数据集进行标注,将数据转为 YOLO 格式。之后,可将 YOLO 格式转换为 ONNX 格式,以便兼容 FPGA 优化工具链。

206cb2fc-a82a-11ef-8084-92fbcf53809c.png

Tiny YOLO 在 Darknet 上训练的截图

四、通过 Vivado HLS 为 FPGA 准备模型

要将模型部署到 FPGA,需要将神经网络操作转换为硬件级描述。使用 Xilinx 的 Vitis HLS(高级综合)可以将 Tiny YOLO v4 的 C++ 模型代码的转化为 Verilog RTL(寄存器传输级)代码,从而将模型从软件世界带入硬件实现。

详细步骤

1.模型层映射和优化

2.算子加速与指令优化

3.量化与位宽调整

209fc19c-a82a-11ef-8084-92fbcf53809c.png

Tiny YOLO 模型在 Vivado HLS 中的层层转化流程图

五、使用 Vivado 综合与部署 Verilog 到 米尔的ZU3EG FPGA开发板

当 HLS 生成的 RTL 代码准备就绪后,可以使用 Vivado 将模型部署到 FPGA。

1.Vivado 中的设置

将 HLS 输出的 RTL 文件导入 Vivado。

在 Vivado 中创建模块设计,包括连接AXI 接口与 ZU3EG 的 ARM 核连接。

2.I/O 约束与时序

定义 FPGA 的 I/O 引脚约束,以匹配 ZU3EG 板的特定管脚配置。配置时钟约束以满足合适的数据速率(如视频数据 100-200 MHz)。

进行时序分析,确保延迟和响应速度达到实时要求。

3.生成比特流并下载到 ZU3EG

生成的比特流可以直接通过 JTAG 或以太网接口下载到 ZU3EG。

20e78144-a82a-11ef-8084-92fbcf53809c.png

将 Tiny YOLO 处理模块连接到 米尔ZU3EG开发板 的外设和接口

六、在 FPGA 上测试并运行推理

现在 Tiny YOLO 已部署,可以验证其实时对象检测性能。

1.数据采集

2.后处理与显示

3.性能测试

2109e676-a82a-11ef-8084-92fbcf53809c.png

Tiny YOLO 模型在 ZU3EG 上显示检测结果的实时输出,视频帧中标注了检测到的对象

七、性能优化与调试技巧

为提高性能,可以进行以下调整:

2148355c-a82a-11ef-8084-92fbcf53809c.png

不同优化配置对资源使用的影响

215bf43e-a82a-11ef-8084-92fbcf53809c.png

米尔MYC-CZU3EG/4EV/5EV-V2核心板及开发板

在MYIR 的 ZU3EG 开发平台上提供了一种高效的解决方案。利用 FPGA 独特的灵活性和低功耗优势,助力未来 AIoT 设备的普及和智能升级。

您可能感兴趣的文章:

相关文章