后摩尔时代的创新:在米尔FPGA上实现Tiny YOLO V4,助力AIoT应用
2024-11-21
1983
来源:米尔电子
学习如何在 MYIR 的 ZU3EG FPGA 开发板上部署 Tiny YOLO v4,对比 FPGA、GPU、CPU 的性能,助力 AIoT 边缘计算应用。(文末有彩蛋)
一、 为什么选择 FPGA:应对 7nm 制程与 AI 限制
在全球半导体制程限制和高端 GPU 受限的大环境下,FPGA 成为了中国企业发展的重要路径之一。它可支持灵活的 AIoT 应用,其灵活性与可编程性使其可以在国内成熟的 28nm 工艺甚至更低节点的制程下实现高效的硬件加速。
米尔的 ZU3EG 开发板凭借其可重构架构为 AI 和计算密集型任务提供了支持,同时避免了 7nm 工艺对国产芯片设计的制约。通过在 ZU3EG 上部署 Tiny YOLO V4,我们可以为智能家居、智慧城市等 AIoT 应用提供高效的解决方案。


CPU GPU FPGA 架构对比
二、 了解 Tiny YOLO 模型及其适用性
YOLO(You Only Look Once)是一种实时物体检测模型,它通过一次性扫描整个图像,实现高效的对象识别。
而其简化版 Tiny YOLO V4 更适合嵌入式设备,具有较少的层数和参数。其轻量化特性更适合在资源受限的设备上运行,尤其在低功耗、实时检测的边缘计算设备中表现出色。
相比传统 GPU,FPGA 能在小面积和低功耗下实现类似的推理性能,非常契合 AIoT 应用。像米尔 ZU3EG 这样的 FPGA 开发板,通过底板和丰富接口的载板设计,非常适合高效的嵌入式低功耗数据处理。

Yolo V4 网络结构图

Tiny Yolo V4 网络结构图
(通过优化网络结构和参数,保持较高检测精度的同时,降低模型的计算量和内存占用)
三、 获取数据集和模型
可下载开源训练集或预训练模型。为了确保兼容性,建议将模型转换为 ONNX 格式,以便后续能在 FPGA 上完成优化。

Tiny YOLO 在 Darknet 上训练的截图
四、 通过 Vivado HLS 为 FPGA 准备模型
要将模型部署到 FPGA,需要将神经网络操作转换为硬件级描述。使用 Xilinx 的 Vitis HLS(高级综合)可以将 Tiny YOLO v4 的 C++ 模型代码的转化为 Verilog RTL(寄存器传输级)代码,从而将模型从软件世界带入硬件实现。
详细步骤:
将 YOLO 的每一层(如卷积层、池化层)映射为硬件友好的 C/C++ 结构。例如,将卷积映射为乘累加(MAC)数组,通过流水线实现并行化。
流水线(Pipelining):利用流水线来处理多项操作并行,减少延迟。 循环展开(Loop Unrolling):展开循环,以每周期处理更多数据,尤其在卷积操作中有效。 设置 DATAFLOW 指令,使层间独立处理。
将激活值和权重量化为定点精度(例如 INT8),而非浮点数。这在维持准确度的同时显著降低计算量,尤其适合 FPGA 的固定点运算支持。

Tiny YOLO 模型在 Vivado HLS 中的层层转化流程图
五、 使用 Vivado 综合与部署 Verilog 到 米尔的ZU3EG FPGA开发板
1.Vivado 中的设置:
将 HLS 输出的 RTL 文件导入 Vivado。
在 Vivado 中创建模块设计,包括连接AXI 接口与 ZU3EG 的 ARM 核连接。
2.I/O 约束与时序:
定义 FPGA 的 I/O 引脚约束,以匹配 ZU3EG 板的特定管脚配置。配置时钟约束以满足合适的数据速率(如视频数据 100-200 MHz)。
进行时序分析,确保延迟和响应速度达到实时要求。
3.生成比特流并下载到 ZU3EG:
生成的比特流可以直接通过 JTAG 或以太网接口下载到 ZU3EG。

将 Tiny YOLO 处理模块连接到 米尔ZU3EG开发板 的外设和接口
六、 在 FPGA 上测试并运行推理
通过连接的相机模块捕捉图像或视频帧,或者使用存储的测试视频。 使用 ZU3EG 的 ARM 核上的 OpenCV 对帧进行预处理,再将它们传入 FPGA 预处理后进行推理。
模型检测对象后,输出边框和类别标签。使用 OpenCV 将边框映射回原始帧,并在每个检测到的对象周围显示类别和置信度。
测量帧速率(FPS)和检测准确度。微调量化位宽或数据流参数,以优化实时需求。

Tiny YOLO 模型在 ZU3EG 上显示检测结果的实时输出,视频帧中标注了检测到的对象
七、 性能优化与调试技巧
内存访问:设计数据存储方式,最大限度利用缓存并减少数据传输,降低内存瓶颈。 降低延迟:重新评估关键路径延迟。若延迟过高,调整 Vitis HLS 中的流水线深度,并验证层间的数据依赖性。 量化改进:尝试 INT8 量化。Xilinx 的 Vitis AI 可帮助微调量化参数,以平衡准确性与速度。

不同优化配置对资源使用的影响

米尔MYC-CZU3EG/4EV/5EV-V2核心板及开发板
在MYIR 的 ZU3EG 开发平台上提供了一种高效的解决方案。利用 FPGA 独特的灵活性和低功耗优势,助力未来 AIoT 设备的普及和智能升级。
关注米尔电子公众号,后台回复FPGA,获取完整Tiny Yolo V4教程。
2025-10-30
米尔RK3576边缘计算盒精准驱动菜品识别模型性能强悍
❝在人工智能与边缘计算深度融合的今天,将AI模型高效部署于终端设备已成为产业智能化的关键。本文将分享基于米尔MYD-LR3576边缘计算盒子部署菜品识别安卓Demo的实战经验。该设备凭借其内置的强劲瑞芯微RK3576芯片,为视觉识别模型提供了充沛的本地AI算力,成功将“智慧识菜”的能力浓缩于方寸之间,充分证明了其作为边缘AI应用坚实载体的卓越性能与可靠性。❝本文以米尔电子的MYD-LR3576边缘
2025-10-30
米尔与安路联合亮相VisionChina 2025,共推FPGA视觉方案
2025年10月28日,由机器视觉产业联盟主办的“2025深圳机器视觉展暨机器视觉技术及工业应用研讨会(Vision China)”在深圳国际会展中心(宝安)9号馆隆重启幕。展会以“VISION+AI赋能电子制造升级”为主题,聚焦人工智能与机器视觉技术在电子制造全产业链中的融合与创新,集中展示AI技术在提升视觉系统能力、突破行业应用瓶颈方面的前沿成果与解决方案。米尔电子应安路科技的邀请出席此次盛会
2025-10-23
经典再进化:米尔ZYNQ 7010/7020全面适配2024.2工具链
在工业物联网、机器视觉和智能网关等严苛领域,米尔电子的MYC-C7Z010/20-V2与MYC-Y7Z010/20-V2核心板及开发平台,凭借其硬核特性,已成为众多企业信赖的首选方案。我们深知,卓越的硬件平台需要匹配敏捷、高效且安全的软件工具链。为应对开发者对先进工具与日俱增的需求,并前瞻性地响应全球日益严格的网络安全法规,我们对经典的ZYNQ 7010/7020产品进行一次里程碑式的软件生态升级
2025-10-16
从微秒级响应到确定性延迟:深入解析米尔全志T536核心板的实时性技术突破
各位工程师同仁,今天咱们聊点硬核的——实时性。这不是那种"差不多就行"的性能指标,在工业控制、机器人运动、电力保护这些领域,实时性就是生命线。想象一下:工业机器人抓取精密元件时,哪怕几毫秒的延迟都可能导致良品率暴跌;电力系统故障检测,响应慢了几个毫秒可能就是一场灾难。为什么通用Linux在实时场景中"力不从心"?标准Linux内核设计初衷是"公平调
2025-10-16
米尔电子获全志科技生态认证,共推工业智能化升级
在近日举办的2025中国国际工业博览会上,米尔电子被全志科技正式授予“生态认证合作伙伴”证书,标志着双方在嵌入式处理器模组领域的合作迈入新阶段。此次认证基于米尔电子在T536、T527、T113等全志工业级核心板及开发板被市场的高度认可,米尔电子的全志系列产品已广泛应用于工业自动化、机器人及边缘计算场景。米尔代表领取“生态认证合作伙伴”证书(右三)生态共建:全产业链协同创新全志科技通过“芯片+
2025-10-16
名单揭晓,追加30套开发板!米尔-安路飞龙派「硬核创造力」第二季
经过米尔电子和安路科技的严格筛选,30位「硬核玩家」从千帆竞逐中脱颖而出,正式成为米尔-安路飞龙派第二季创意秀的玩家。开发者们将以MYD-YM90X开发板为起点,开启一场FPGA的盛宴,在安路飞龙派的赛道上探索无限可能!现将入选的30位开发者/团队名单公布如下(排名不分先后):
2025-09-26
颂歌迎国庆丨米尔电子国庆节及中秋放假通知及温馨提示
金风送爽,秋桂飘香,阖家欢聚,共庆国昌。我们即将迎来中秋佳节及祖国76周年华诞。在这美好的金秋时节,在这家国同庆之际,米尔全体员工衷心感谢您长期以来的信任和支持,预祝您节日快乐!·国庆放假时间·一二三四五六日29初八30初九1国庆2十一3十二4十三5十四6中秋7十六8十七9十八10十九11二十12廿一10月1日 至 10月8日,共放假8天根据《国务院办公厅关于2025年部分节假日安排的通知》相关内
2025-09-26
如何移植EtherCAT Igh--基于米尔RK3576开发板
本文将介绍基于米尔电子MYD-LR3576开发板(米尔基于瑞芯微 RK3576开发板)的板端移植EtherCAT Igh方案的开发测试。摘自优秀创作者-EPTmachine米尔基于瑞芯微RK3576开发板EtherCAT IgH需要保证高实时性,Preempt-RT是一种针对实时性能进行了优化的Linux内核。与普通的Linux内核相比,Preempt-RT具有以下优势:实时性能: Preempt
2025-09-18
追加!30套FPGA开发板免费送!米尔-安路飞龙派创意秀活动再开启
大赛简介日前,米尔电子2025年举办的米尔-安路飞龙派FPGA/FPSoC创意开发大赛圆满落幕,吸引了众多工程师踊跃参与。为持续推动技术创新,米尔电子现重磅推出第二期福利活动——基于安路DR1M90开发板的创意秀,再次免费赠送30套FPGA开发板,旨在鼓励工程师突破思维边界,通过实践探索安路飞龙派产品的无限可能,为创新应用提供强力支持。报名条件:用户需关注米尔电子公众号;第一期已领开发板的用户不可
2025-09-11
“一芯四用”,米尔RK3576如何同时驾驭4路YOLOv8视频流?
在科技飞速发展的当下,人工智能与边缘计算的融合正以前所未有的速度重塑着我们的生活。RK3576芯片拥有4核Cortex-A72以及4核Cortex-A53提供基础算力,6TOPS算力NPU来模型推导运算。使用YOLOv8模型时也是手到擒来,接下来随着步伐看看它表现如何。YOLO简介YOLO(You Only Look Once)是当前业界领先的实时目标检测算法系列,以其速度和精度的完美平衡而闻名。