本文共 1792 字,大约阅读时间需要 5 分钟。
轻量级高效的人脸检测算法——LFFD框架
随着计算能力和内存的限制,在嵌入式设备、移动设备和边缘设备上部署人脸检测任务越来越普遍。传统的人脸检测算法虽然在精度上有较高的要求,但速度和资源消耗却未能满足实际应用场景的需求。本文提出了一种全新的人脸检测网络框架——LFFD(Light and Fast Face Detec-LFFD),它结合了感受域(Receptive Field,RF)和有效感受域(Effective Receptive Field,ERF)的特性,设计出一种高效且适合边缘设备部署的人脸检测方法。
论文摘要
本文提出了一种基于感受域的单阶段人脸检测网络,通过将感受域视为自然的锚点(anchor),解决了锚点匹配方法在人脸检测中存在的三个主要问题:锚点数量的繁多、锚点匹配依赖于具体应用场景的固有阈值、以及锚点的引入带来了额外的计算负担。LFFD网络的核心结构包括公共卷积层和八个分支,采用3x3和1x1卷积核以及残差网络模块设计,网络具有轻量化的特点,模型规模仅为9MB。实验表明,该网络在WIDER FACE数据集上实现了不同难度人脸检测任务的高效率与准确率结合,运行速度在Raspberry Pi 3 Model B+等边缘设备上也能达到8.44 FPS的水平。相比于传统方法,该网络在保持或提升检测精度的同时显著提升了检测速度,成为边缘设备人脸检测的理想选择。
技术挑战与创新点
批次1: 问题描述三点
- 锚点匹配方法无法覆盖不同尺寸的人脸,且需要设置过多锚点
- 锚点匹配依赖于固定的IOU阈值,不适合不同应用场景
- 锚点引入增加了计算复杂度
批次2: 本文的创新点
- 将感受域视为自然的锚点,显著简化锚点匹配流程
- 提出了基于感受域的锚点匹配策略,实现对不同尺寸人脸的统一处理
- 网络结构采用8个分支的轻量化设计,既保证检测精度又能显著提升速度
LFFD网络架构设计
LFFD网络的设计重点体现在以下几个方面:
核心特性:无需额外锚点,直接使用感受域
- 网络中不同深度的神经元对应原图中的感受域,感受域中心落点即可作为检测点
- 通过固定步长下采样和卷积核大小的合理设计,确保感受域能够覆盖不同尺寸的人脸区域
网络结构划分
网络主要包含四部分:
Fine Part(细致部分) - 14层网络结构,主要用于检测大范围和中小范围的人脸
- 采用3x3卷积核,stride=2的下采样策略,确保感受域的均匀覆盖
- Medium Part(中等级别部分)
- 该部分主要处理中等范围和大型人脸检测
- 使用较大的卷积核和适当的stride策略,有效扩大感受域覆盖范围
- Large Part(大范围部分)
- 7层网络结构,专注于大范围和超大范围人脸检测
- 通过策略性的设计,最大化感受域的灵活性
实验结果与应用场景
实验数据:WIDER FACE数据集的检测精度对比
- Degree 1(易检测大范围人脸):准确率90.1%,召回率89.6%
- Degree 2(中等难度):准确率88.1%,召回率86.5%
- Degree 3(难度较大):准确率78.0%,召回率77.0%
应用特点
- 该网络在边缘设备上的运行效率突出:
- 桨顶配置(NVIDIA TITAN Xp):131.45 FPS(640×480分辨率)
- 边缘设备(Raspberry Pi 3 Model B+):8.44 FPS(160×120分辨率)
- 模型轻量化:仅9MB,适合无线传输和存储
创新评估标准
- 提出了一种全新的检测难度划分方式,包括三个不同难度等级的测试集
- 在WIDER FACE数据集上进行了横向对比,验证了高效性与准确率的同步提升
网络设计的技术亮点
感受域匹配机制
- RF中心是否落在groundtruth bbox上即可判断是否关注该区域
- 输入图像固定大小后,感受域数量固定,避免了无效计算
有效感受域分析
- ER组成与高斯分布类似,网络深度越高,ER增大
- LFFD网络设计多次迭代,充分利用了深网络的特性
轻量化设计
- 最少的参数调整,主要保留关键卷积层和分支,避免冗余计算-残差模块的引入,确保网络深度提升的同时不增加过多计算负担
总之,本文提出的LFFD网络框架通过突破锚点匹配的瓶颈,实现了人脸检测任务的轻量化、高效率。它不仅在理论上解决了基于锚点方法存在的诸多问题,还通过大量实验验证了其在实际应用中的优秀性能。
转载地址:http://uiigz.baihongyu.com/