发布时间:2020-10-26 13:55 原文链接: 人脸检测发展:从VJ到深度学习(四)

  造成人脸检测速度慢的根本原因还在于输入规模过大,动辄需要处理几十上百万的窗口,如果这样的输入规模是不可避免的,那么有没有可能在处理的过程中尽快降低输入规模呢?如果能够通过粗略地观察快速排除掉大部分窗口,只剩下少部分窗口需要进行仔细的判别,则总体的时间开销也会极大地降低。从这样的想法出发,VJ人脸检测器采用了一种级联结构来达到逐步降低输入规模的目的。

 人脸检测发展:从VJ到深度学习

  具体说来,VJ人脸检测器将多个分类器级联在一起,从前往后,分类器的复杂程度和计算代价逐渐增大,对于给定的一个窗口,先由排在最前面也最简单的分类器对其进行分类,如果这个窗口被分为非人脸窗口,那么就不再送到后面的分类器进行分类,直接排除,否则就送到下一级分类器继续进行判别,直到其被排除,或者被所有的分类器都分为人脸窗口。这样设计的好处是显而易见的,每经过一级分类器,下一级分类器所需要判别的窗口就会减少,使得只需要付出非常少的计算代价就能够排除大部分非人脸窗口。从另一个角度来看,这实际上也是根据一个窗口分类的难度动态地调整了分类器的复杂程度,这显然比所有的窗口都用一样的分类器要更加高效。

  VJ人脸检测器通过积分图、AdaBoost方法和级联结构取得的巨大成功对后续的人脸检测技术研究产生了深远的影响,大量的科研工作者开始基于VJ人脸检测器进行改进,这些改进也分别覆盖了VJ人脸检测器的三个关键要素。

  特征的改进和变迁

  虽然Haar特征已经能够刻画人脸的一些特点,但是相比于人脸复杂的变化模式,VJ人脸检测器所采用的5种Haar特征还是过于简单。光考虑姿态上的变化,人脸可能是斜着的(平面内旋转),也可能是仰着的或者侧着的(平面外旋转),同一个Haar特征在不同姿态的人脸上差异可能非常大,而同时又可能和非人脸区域上的特征更相近,这就很容易在分类的时候引起误判。于是人们开始对Haar特征进行扩展,使得其能够刻画更加丰富的变化模式:

  1. 环形的黑白区域划分模式,而不仅仅是上下或者左右型;

  2. 旋转的Haar的特征,即将原来提取Haar特征的局部小块顺时针或逆时针旋转45度;

  3. 分离的Haar特征,即允许一个Haar特征由多个互相分离的黑白区域来计算,而不要求黑白区域必须处于一个矩形小块中;

  4. 对角型Haar特征;

  5. 组合Haar特征,即对多个不同的Haar特征进行组合和二值编码;

  6. 局部组合二值特征,即在局部对特定的Haar特征按照一定的结构进行组合和二值编码;

  7. 带权多通道Haar特征,即一个Haar特征不再只包含黑白两种块,而允许有多种不同形状和不同颜色的块,其中不同的颜色对应着不同的权值,表示像素点上求和之后所占的比重——原来只有1和-1两种,多通道指的是在像素点上求和不仅仅是在灰度这一个通道上计算,而是同时在其它通道上计算(如RGB三个颜色通道;事实上,基于原图计算而来和原图同样大小的任何一张图都可以是图像的一个通道)。

  这些扩展极大地增强了Haar特征的表达能力,使得人脸窗口和非人脸窗口之间具有更好的区分性,从而提高了分类的准确度。

人脸检测发展:从VJ到深度学习

  除了直接对Haar特征进行改进,人们也同时在设计和尝试其它特征。Haar特征本质上是局部区域像素值的一种线性组合,其相对应的更一般的形式则是不指定线性组合的系数,允许系数为任意实数,这被称之为线性特征——这里的组合系数可以基于训练样例来进行学习,类似于学习分类器参数的过程。稀疏粒度特征也是一种基于线性组合来构造的特征,与线性特征所不同的是,稀疏粒度特征是将不同尺度(将100*100的图像放大到200*200,它和原本大小就为200*200的图像是处于不同的尺度上)、位置和大小的局部区域进行组合,而线性特征只是组合同一个局部区域内的像素值。

  LBP特征是一种二值编码特征,其直接基于像素灰度值进行计算,特点是在编码时考虑的是两个值的相对大小,并且按照一定的空间结构来进行编码,局部组合二值特征就是在LBP特征的启发下设计的;从计算上来看,提取LBP特征比提取Haar特征要快,但是Haar特征对于人脸和非人脸窗口的区分能力更胜一筹。简化的SURF特征是一种和Haar特征相类似的特征,但是其计算的是局部区域中像素点的梯度和,并在求和的过程中考虑了梯度方向(所谓梯度,最简单的一种情形就是指同一行上两个不同位置像素值的差比上它们水平坐标的差);SURF特征比Haar特征更为复杂,因此计算代价更高,但是由于其表达能力更强,因此能够以更少数目的特征来达到相同的区分度,在一定程度上弥补了其在速度上的不足。HOG特征也是一种基于梯度的特征,其对一个局部区域内不同方向的梯度进行统计,计算梯度直方图来表示这个区域。积分通道特征和多通道的Haar特征有些类似,但是其使用的通道更加多样化,将通道的概念推广为由原图像变换而来并且空间结构和原图像对应的任何图像。聚合通道特征则在积分通道特征的基础上进一步加入了对每个通道进行下采样的操作,实现局部区域信息的聚合。