好文档 - 专业文书写作范文服务资料分享网站

人脸算法RetinaFace论文精读

天下 分享 时间: 加入收藏 我要投稿 点赞

RetinaFace的主要贡献

摘要

尽管在不受控制的人脸检测方面已取得了长足的进步,但是在wilder数据集进行准确有效的面部定位仍然是一个公开的挑战。本文提出了一种鲁棒的single stage人脸检测器,名为RetinaFace,它利用 额外监督(extra-supervised)和自监督(self-supervised)结合的多任务学习(multi-task learning),对不同尺寸的人脸进行像素级定位。具体来说,我们在以下五个方面做出了贡献:

(1)我们在WILDER FACE数据集中手工标注了5个人脸关键点

(Landmark),并在这个额外的监督信号的帮助下,观察到在hard face检测的显著改善。(2)进一步添加自监督网络解码器(mesh decoder)分支,与已有的监督分支并行预测像素级的3D形状的人脸信息。(3)在WIDER FACE的hard级别的测试集中,RetinaFace超出the state of the art 平均精度(AP) 1.1%(达到AP=91.4%)。(4)在IJB-C测试集中,RetinaFace使state of the art 方法(Arcface)在人脸识别中的结果得到提升(FAR=1e6,TAR=85.59%)。(5)采用轻量级的backbone 网络,RetinaFace能在单个CPU上实时运行VGA分辨率的图像。 FAR(False Accept Rate)表示错误接受的比例 TAR(True Accept Rate)表示正确接受的比例

VGA分辨率 320*240,目前主要应用于手机及便携播放器上 1、Introduction

人脸自动定位对许多应用而言都是人脸图像分析的前提步骤,例如人脸属性分析(比如表情,年龄)和人脸识别。人脸定位的狭义定义可以参考传统的人脸检测,其目的在没有任何尺度和位置先验的条件估计人脸边界框。然而,本文提出的人脸定位的广义定义包括人脸检测、人脸对齐、像素化人脸解析(pixel-wise face parsing)和三维密集对应回归(3D dense correspondence regression)。这种密集的人脸定位为所有不同的尺度提供了精确的人脸位置信息。

受到一般目标检测方法的启发,即融合了深度学习的最新进展,人脸检测最近取得了显著进展。与一般的目标检测不同,人脸检测具有较小的比例变化(从1:1到1:1.5),但更大的尺度变化(从几个像素到数千像素)。目前most state-of-the-art 的方法集中于single-stage设计,该设计

密集采样人脸在特征金字塔上的位置和尺度,与two-stage方法相比,表现出良好的性能和更快的速度。在此基础上,我们改进了single-stage人脸检测框架,并利用强监督和自监督信号的多任务损失,提出了一种most state-of-the-art的密集人脸定位方法。我们的想法如图1所示。

通常,人脸检测训练过程包含分类和框回归损失。chen等人观察到对齐人脸能为人脸分类提供更好的特征,建议在联合级联框架中结合人脸检测和对齐。由此启发,MTCNN和STN同时检测人脸和五个人脸landmark。由于训练数据的限制,JDA、MTCNN和STN还没有验证微小的人脸检测是否可以从额外的五个人脸Landmark的监督中获益。我们在本文中所要回答的问题之一是,能否利用由5个人脸关键点构成的额外监督信号,在WIDER FACE的hard测试集上推进目前最好的性能(90.3%)。

在Mask R-CNN中,通过添加一个用于预测目标Mask的分支,与现有的用于边界框识别和回归的分支并行,显著提高了检测性能。这证实了密集的像素级标注也有助于改进检测。遗憾的是,对于具有挑战性的人脸数据集WIDER FACE,无法进行密集的人脸标注(以更多的Landmark或语义分割)。由于有监督的信号不易获得,问题是我们能否应用无监督的方法进一步提高人脸检测。

在FAN中,提出了一种anchor-level注意力图(attention map)来改进遮挡人脸检测。然而,所提出的注意力图相当粗糙,不包含语义信息。近年来,自监督三维形态模型在wilder实现了很有前景的三维人脸建模。特别是Mesh decoder利用节点形状和纹理上的图卷积实现了超实时速度。然而, 应用mesh decoder到single-stage检测的主要挑战是:(1) 相机参数难以准确去地估计 , (2) 联合潜在形状和纹理表示是从

单个特征向量(特征金字塔上的1*1 Conv)而不是RoI池化的特征预测,这意味着特征转换的风险。本文采与现有监督分支并行的用网格解码器(mesh decoder)通过自监督学习预测像素级的三维人脸形状。 综上所述,我们的主要贡献如下:

?

? ? ? ?

在single-stage设计的基础上,提出了一种新的基于像素级的人脸定位方法RetinaFace,该方法采用多任务学习策略,同时预测人脸评分、人脸框、五个人脸关键点以及每个人脸像素的三维位置和对应关系。

在WILDER FACE hard子集上,RetinaFace的性能比目前the state of the art的two-stage方法(ISRN)的AP高出1.1% (AP等于91.4%)。 在IJB-C数据集上,RetinaFace有助于提高ArcFace的验证精度(FAR=1e-6时TAR等于89:59%)。这表明更好的人脸定位可以显著提高人脸识别。 通过使用轻量级backbone网络,RetinaFace可以在VGA分辨率的图片上实时运行

已经发布了额外的注释和代码,以方便将来的研究

2、Related Work

图像金字塔 vs .特征金字塔:滑动窗口范例,其中分类器应用于密集的图像网格,可以追溯到过去的几十年。Viola-Jones是里程碑式工作,它探索了级联结构,实时有效地从图像金字塔中剔除假人脸区域,使得这种尺度不变的人脸检测框架被广泛采用。尽管图像金字塔上的滑动窗口是主要的检测范式,随着特征金字塔的出现,多尺度特征图上的滑动anchor迅速主导了人脸检测。 Two-stage vs single-stage:目前的人脸检测方法继承了一般目标检测方法的一些成果,可分为两类:Two-stage方法(如Faster R-CNN)和single-stageTwo-stage(如SSD和RetinaNet)。Two-stage方法采用了一种具有高定位精度的“proposal与细化”机制。相比之下,single-stage方法密集采样人脸位置和尺度,导致训练过程中positive和negative样本极不平衡。为了解决这种不平衡,广泛采用了采样(Training region-based object detectors with online hard example mining)和重加权(re-weighting)方法。与two-stage方法相比,single-stage方法效率更高,召回率更高,但存在假阳性率更高和定位准确性降低的风险。

Context Modelling:提升模型的上下文模块推理能力以捕获微小人脸,SSH和PyramidBox在特征金字塔上用context modules扩大欧几里德网格的感受野。为了提高CNNs的非刚性变换建模能力,可变形卷积网络(deformable convolution network, DCN)采用了一种新的可变形层对几何变换进行建模。WILDER FACE 2018[冠军方案]表明,对于提高人脸检测的性能而言,刚性(expansion)和非刚性(deformation)上下文建模是互补和正交的(orthogonal)。

人脸算法RetinaFace论文精读

RetinaFace的主要贡献摘要尽管在不受控制的人脸检测方面已取得了长足的进步,但是在wilder数据集进行准确有效的面部定位仍然是一个公开的挑战。本文提出了一种鲁棒的singlestage人脸检测器,名为RetinaFace,它利用额外监督(extra-supervised)和自监督(self-supervised)结合的多任务学习(m
推荐度:
点击下载文档文档为doc格式
9osi996c55036aw5tvxo0daes3y30z00x21
领取福利

微信扫码领取福利

微信扫码分享