最近一直了解人脸检测的算法,所以也尝试学多人脸检测框架。所以这里将拿出来和大家分享一下 Retinaface 与普通的目标检测算法类似,在图片上预先设定好一些先验框,这些先验框会分布在整个图片上,网络内部结构会对这些先验框进行判断看是否包含人脸,同时也会调整位置进行调整并且给每一个先验框的一个置信度。 在 Retinaface 的先验框不但要获得人脸位置,还需要获得每一个人脸的五个关键点位置 接下来我们对 Retinaface 执行过程其实就是在图片上预先设定好先验框,网络的预测结果会判断先验框内部是否包含人脸并且对先验框进行调整获得预测框和五个人脸关键点。 MobileNet 网络是由 google 团队在 2017 年提出的,专注移动端和嵌入式设备中轻量级 CNN 网络,在大大减少模型参数与运算量下,对于精度只是小幅度下降而已。 在主干网络输出的相当输出了不同大小网格,用于检测不同大小目标,先验框默认数量为 2,这些先验框用于检测目标,然后通过调整得到目标边界框。 深度可分离卷积好处就是可以减少参数数量,从而降低运算的成本。经常出现在一些轻量级的网络结构(这些网络结构适合于移动设备或者嵌入式设备),深度可分离卷积是由DW(depthwise)和PW(pointwise)组成 这里我们通过对比普通卷积神经网络来解释,深度可分离卷积是如何减少参数 我们先看图中 DW 部分,在这一个部分每一个卷积核通道数 1 ,每一个卷积核对应一个输入通道进行计算,那么可想而知输出通道数就与卷积核个数以及输入通道数量保持一致。 简单总结一下有以下两点 PW 卷积核核之前普通卷积核类似,只不过 PW 卷积核大小为 1 ,卷积核深度与输入通道数相同,而卷积核个数核输出通道数相同 普通卷积 深度可分离卷积
之前也是为论文苦恼了半天,网上的范文和能搜到的资料,大都不全面,一般能有个正文就不错了,而且抄袭的东西肯定不行的,关键是没有数据和分析部分,我好不容易搞出来一篇,结果还过不了审。 还好后来找到文方网,直接让专业人士帮忙,效率很高,核心的部分帮我搞定了,也给了很多参考文献资料。哎,专业的事还是要找专业的人来做啊,建议有问题参考下文方网吧 下面是之前文方网王老师发给我的题目,分享给大家: 基于深度学习的无人机地面小目标算法研究 基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究 模拟射击训练弹着点检测定位技术研究 基于深度卷积神经网络的空中目标识别算法的研究 基于可见光图像的飞行器多目标识别及位置估计 无人驾驶车辆手势指令识别研究与实现 车载毫米波雷达目标检测技术研究 基于多传感融合的四足机器人建图方法 中老年人群跌倒风险评估的数据采集系统 基于深度学习的视觉SLAM闭环检测方法研究 真实图片比较视觉搜索任务的年龄效应及对策研究 室内复杂场景下的视觉SLAM系统构建与研究 基于双目内窥镜的软组织图像三维重建 学习资源画面色彩表征影响学习注意的研究 毫米波雷达与机器视觉双模探测关键技术的研究 语义地图及其关键技术研究 多重影响因素下的语音识别系统研究 基于卷积神经网络的自主空中加油识别测量技术研究 基于视觉语义的深度估计、实例分割与重建 重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究 低成本视觉下的三维物体识别与位姿估计 面向非规则目标的3D视觉引导抓取方法及系统研究 基于物体识别地理配准的跨视频行人检测定位技术研究 基于结构光的非刚体目标快速三维重建关键技术研究 基于机器视觉的动物交互行为与认知状态分析系统 关于单目视觉实时定位与建图中的优化算法研究 动态场景下无人机SLAM在智慧城市中的关键技术研究 面向视觉SLAM的联合特征匹配和跟踪算法研究 基于深度学习的显著物体检测 基于平面波的三维超声成像方法与灵长类动物脑成像应用研究 基于物体检测和地理匹配的室内融合定位技术研究 基于多模态信息融合的人体动作识别方法研究 基于视觉惯性里程计的SLAM系统研究 基于语义信息的图像/点云配准与三维重建 基于种子点选取的点云分割算法研究 基于深度学习的场景文字检测与识别方法研究 基于运动上下文信息学习的室内视频烟雾预警算法研究 基于深度学习的垃圾分类系统设计与实现 面向手机部件的目标区域检测算法的设计与实现 电路板自动光照检测系统的设计与实现 基于机器视觉的工件识别与定位系统的设计与实现 基于深度学习的物件识别定位系统的设计与实现 基于视觉四旋翼无人机编队系统设计及实现 基于视觉惯导融合的四旋翼自主导航系统设计与实现 面向城市智能汽车的认知地图车道层生成系统 基于深度学习的智能化无人机视觉系统的设计与仿真 基于知识库的视觉问答技术研究 基于深度学习的火灾视频实时智能检测研究 结构化道路车道线检测方法研究 基于机器视觉的带式输送机动态煤量计量研究 基于深度学习的小目标检测算法研究 基于三维激光与视觉信息融合的地点检索算法研究 动态环境下仿人机器人视觉定位与运动规划方法研究 瓷砖铺贴机器人瓷砖空间定位系统研究 城市街景影像中行人车辆检测实现 基于无线信号的身份识别技术研究 基于移动机器人的目标检测方法研究 基于深度学习的机器人三维环境对象感知 基于特征表示的扩展目标跟踪技术研究 基于深度学习的目标检测方法研究 基于深度学习的复杂背景下目标检测与跟踪 动态扩展目标的高精度特征定位跟踪技术研究 掩模缺陷检测仪的图像处理系统设计 复杂场景下相关滤波跟踪算法研究 基于多层级联网络的多光谱图像显著性检测研究 基于深度结构特征表示学习的视觉跟踪研究 基于深度网络的显著目标检测方法研究 基于深度学习的电气设备检测方法研究 复杂交通场景下的视频目标检测 基于多图学习的多模态图像显著性检测算法研究 基于面部视频的非接触式心率检测研究 单幅图像协同显著性检测方法研究 轻量级人脸关键点检测算法研究 基于决策树和最佳特征选择的神经网络钓鱼网站检测研究 基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究 多模态融合的RGB-D图像显著目标检测研究 基于协同排序模型的RGBT显著性检测研究 基于最小障碍距离的视觉跟踪研究 基于协同图学习的RGB-T图像显著性检测研究 基于图学习与标签传播优化模型的图像协同显著性目标检测 姿态和遮挡鲁棒的人脸关键点检测算法研究 基于多模态和多任务学习的显著目标检测方法研究 基于深度学习的交通场景视觉显著性区域目标检测 基于生物视觉机制的视频显著目标检测算法研究 基于场景结构的视觉显著性计算方法研究 精神分裂症患者初级视觉网络的磁共振研究 基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工 脑机接口游戏神经可塑性研究 基于YOLOV3算法的FL-YOLO多目标检测系统 基于深度与宽度神经网络显著性检测方法研究 基于深度学习的零件识别系统设计与研究 基于对抗神经网络的图像超分辨算法研究 基于深度学习复杂场景下停车管理视觉算法的研究与实现 镍电解状态视觉检测与分析方法研究 跨界训练对提升舞者静态平衡能力的理论与方法研究 施工现场人员类型识别方法的研究与实现 基于深度学习的自然场景文字检测方法研究 基于嵌入式的交通标志识别器的设计 基于视觉感知特性与图像特征的图像质量评价
本文主要用于介绍Kaiming He, rbg等大神于2017年提出的Mask R-CNN网络,该网络架构是在其前作Fast R-CNN上的升级改进版可以用于实例分割。本笔记主要为自我温习回顾,以备后用。
论文链接: github主页: rbg大神个人主页: 恺明大神的演讲视频:
为更好的理解该论文,建议先行阅读Faster R-CNN网络的相关论文,这里也附上本菇之前写的1篇论文笔记供大家参考~ Faster R-CNN理解
基本目录如下:
------------------第一菇 - 摘要------------------
我们从概念上提出了一种简单,易变和通用的框架用于目标实例分割。我们的方法能够高效的在一张图片中检测出物体同时对于该物体生成高质量的分割蒙版(segmentation mask),我们称此方法为,“Mask R-CNN”,其本质也是由Faster R-CNN衍化而来的,就是在Faster R-CNN后面多加了一个分支用于预测目标的蒙版,跟预测目标的识别和位置的分支是平行的。Mask R-CNN也易于去训练,仅仅只比Faster R-CNN慢一点,运行效率达到5fps。另外,Mask R-CNN也能够十分简单的被转移去训练其他的任务,比如去预测人体的姿态关键点。我们在COCO数据集上运用该模型训练了多个任务,包括实例分割,目标框预测和人体关键点检测,均取得不错的成绩。我们希望Mask R-CNN能够成为业界新的标杆,并能被广泛运用于新领域的研究。
------------------第二菇 - 核心思想------------------
整体架构十分容易理解,就是在RPN之后新添了一个分支用于预测mask的。网上其他的讲解资料也很多,这里我只记录一下Mask R-CNN中的重点,RoIAlign。不过我们还是先来温习一下,什么是RoIPool的实现原理。
为了搞明白原理,我们先问一个问题,为什么需要RoIPool? 原因就是经过RPN生成的候选区域大小不一样,无法直接连接全连接层进行后续的分类及定位处理,因此需要RoIPool层将其转为固定维度大小的特征。当然这是很明确的一个原因,不过还有一个潜在的原因可以理解为特征的二次提取。因为在RPN中,特征只被共享卷积层提取过一次,而为了提升后续的定位及分类准确率,对于每一个候选区域进一步提取特征也是符合逻辑的,贴一张示意图,方便理解,
原理很简单,我们再来看具体的细节处理,会产生的像素偏差。
第一个就是从输入图上的RoI到特征图上的RoI Feature,
假如现在我们输入了一张 的图像,图像中有2个目标(狗和猫),其中狗的识别框为 ,经过VGG16网络后,图像得到对应的feature map为 (5次池化操作),而对应的狗的识别框就变为 了,因此这里就会有一个误差,于是这里就有了第一个量化操作,即取整,使其结果变为 ,如下所示(右图中未能重叠的部分就是误差了~)
第二个误差就是将每个特征转化为固定大小维度的时候所产生的。比如现在要将 的特征映射到 上,对应的大小就是 了,因此同上这里又会有一个误差,于是就有了第二个量化操作,也是取整。即原先由 大小生成的值,现在只由 的大小生成了~虽然看起来这是一个很小很小的误差,但是要知道,这时候我们的感受野已经是32倍了,相当于原图 的像素差了~
这里也贴一张网上流行的RoIPool的示意图,帮助理解,
因此以上两种取整的量化操作,对于分类问题来说可能影响不大,但是对于实例分割这种像素级别的,细微的像素误差可能就会导致最终结果的崩坏。因此,本文才会提出了RoIAlign,其主要目的就是为了消除这种误差的。
简单来讲,RoIAlign的作用就是用双线性插值的办法取代了之前的取整操作,从而使得每个RoI取得的特征能更好的对齐原图上的RoI区域。具体来讲,双线性插值是一种比较理想的图像缩放算法,他通过拟合一个虚拟的点(该点的值由其周围4个确定点的像素值决定),从而将那些浮点数的点的值给表达出来,如下图所示,
作者同时也强调了一件事情,即,
We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed.
也就是说该方法对采样点的个数和位置并不是十分敏感在意的~而且采用了这种方法以后,准确率有了很大的提升~!
至此,整一个新的RoIAlign层的作用及原理算是讲明白了。
剩下的网络架构类的,实现细节等不再多记录了。
------------------第三菇 - 总结------------------
本文主要是记录了Mask R-CNN中的一个创新难点,ROIAlign的作用及实现方法,其他有关Mask R-CNN的相信不难理解。
参考文献: 【1】
现在大部分的高校都在用知网查重,高等院校及科研单位都是以知网系统查重结果为准,如果我们自己写论文时很多内容都是一句一句写出来的,那么原创程度通常都是比较高的,就比较容易通过学校的审查。我们是可以使用学校的知网查重系统来查重自己毕业论文的,因为学校一般会提供给我们这些毕业生免费的知网查重次数,当然机会有限,通常仅限一次。如果我们的毕业论文中有大量复制粘贴的内容,那想要顺利通过学校的查重审核就很悬了。如果这时直接使用完学校提供的免费知网查重次数,检测出自己论文中有较高的重复率,就还是需要对论文进行修改降重,相当于浪费了这次免费知网查重次数。因此为了更加保险更加稳妥的通过论文查重,我们最好是使用其他比较划算的论文查重系统提前检测自己的毕业论文,这样能够比较明确的知道自己毕业论文的重复率,也能更方便的修改毕业论文,而且后续可以更加有效的运用学校提供的知网免费查重次数。提前自己进行论文查重可以使用PaperPP免费论文查重网站,参与网站活动即可获得相对应的免费查重字数,上传论文检测时使用免费字数即可抵扣查重费用。修改降重论文之后再使用学校的知网查重系统检测自己论文定稿,进行最后的改动。
什么是人体骨骼关键点检测?
应用
挑战
人体骨骼关键点检测方法主要分两周:自上而下和自下而上。
coordinate :坐标 直接将关键点坐标作为最后网络需要回归的目标,这样可以得到每个坐标点的直接位置信息
heatmap :热图 每一类坐标用一个概率图来表示,对图片中的每个像素位置都给一个概率,表示该点属于对应类别关键点的概率。距离关键点位置越近的像素点的概率越接近于1,距离关键点越远的像素点的概率越接近于0。具体的一般使用高斯函数来模拟。
offset :偏移量 表示距离目标关键点一定范围内的像素位置与目标关键点之间的关系。
Convolutional Pose Machines :本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。具体的流程图如下图(摘自论文[1])所示。
Cascaded Pyramid Network for Multi-Person Pose Estimation :本论文将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。具体的流程图如下图(摘自论文[2])所示。
RMPE :本论文主要考虑的是自上而下的关键点检测算法在目标检测产生Proposals的过程中,可能会出现检测框定位误差、对同一个物体重复检测等问题。检测框定位误差,会出现裁剪出来的区域没有包含整个人活着目标人体在框内的比例较小,造成接下来的单人人体骨骼关键点检测错误;对同一个物体重复检测,虽然目标人体是一样的,但是由于裁剪区域的差异可能会造成对同一个人会生成不同的关键点定位结果。本文提出了一种方法来解决目标检测产生的Proposals所存在的问题,即通过空间变换网络将同一个人体的产生的不同裁剪区域(Proposals)都变换到一个较好的结果,如人体在裁剪区域的正中央,这样就不会产生对于一个人体的产生的不同Proposals有不同关键点检测效果。具体Pipeline如下图(摘自论文[14])所示。
Part Segmentation :即对人体进行不同部位分割,而关键点都落在分割区域的特定位置,通过部位分割对关键点之间的关系进行建模,既可以显式的提供人体关键点的空间先验知识,指导网络的学习,同时在最后对不同人体关键点进行聚类时也能起到相应的连接关键点的作用。如下图(论文[4])所示。
Part Affinity Fields :
网络分为两路结构,一路是上面的卷积层,用来获得置信图;一路是下面的卷积层,用来获得PAFs。网络分为多个stage,每一个stage结束的时候都有中继监督。每一个stage结束之后,S以及L都和stage1中的F合并。上下两路的loss都是计算预测和理想值之间的L2 loss。
personlab是一个自下而上的人体检测和姿态估计算法。包括两个步骤:
关键点检测阶段的目标是检测属于图像(可能不止一个人)中任何人体的关键点。该阶段生成一个热图和一个偏移量:
假设 是图像中二维位置中的一个,其中 是图像的位置索引, 是像素点的个数。
使用Hough投票集合热图和偏移量,聚合成hough分数映射 , 其中 为图像的每个位置, 为双线性插值核。
的局部最大值作为关键点的候选位置点,但是 没有与个体相关的信息,当图像中有多个个体存在时,我们需要一个机制将关键点聚合在其对应的个体上。 Mid-range pairwise offsets 为了达到以上目的,在网络上加入一个分离的成对中射程2-D偏移域输出 用来连接成对的关键点。训练集中 ,表示对于同一个个体 从第 个关键点到第 个关键点。
对于具有大量个体的情况,很难准确的回归 ,使用更准确的短射程偏移来递归的修正:
[1] Convolutional Pose Machines [2] Cascaded Pyramid Network for Multi-Person Pose Estimation [3] RMPE: Regional Multi-Person Pose Estimation
人脸识别是一个被广泛研究着的热门问题,大量的研究论文层出不穷,晓电晓受晓受晓晓晓多晓电晓米晓受晓联晓受晓零晓电晓受晓米晓多晓晓e少量惠量量e米惠d量晓晓受晓晓晓晓米晓晓多晓少米受在一定程度上有泛滥成“灾”之嫌。为了更好地对人脸识别研究的历史和现状进行介绍,本文将AFR的研究历史按照研究内容、技术芳珐等方面的特点大体划分为三个时间阶段,如表受所示。该表格概括了人脸识别研究的发展简史及其每个历史阶段代表性的研究工作及其技术特点。下面对三个阶段的研究进展情况作简单介绍: 第一阶段(受惠米联年~受惠惠零年) 这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究,所采用的主要技术方案是基于人脸几何结构特征(Geometricfeature based)的芳珐。这集中体现在人们对于剪影(Profile)的研究上,人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事AFR研究的研究人员除了布莱索(Bledsoe)外还有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于受惠少晓年在京都大学完成了第一篇AFR方面的博士论文,直到现在,作为卡内基-梅隆大学(CMU)机器人研究院的一名教授,仍然是人脸识别领域的活跃人物之一。他所在的研究组也是人脸识别领域的一支重要力量。总体而言,这一阶段是人脸识别研究的初级阶段,非常重要的成果不是很多,也基本没有获得实际应用。 第二阶段(受惠惠受年~受惠惠少年) 这一阶段尽管时间相对短暂,但却是人脸识别研究的高潮期,可谓硕果累累:不但诞生了若干代表性的人脸识别算法,美国军方还组织了著名的FERET人脸识别算法测试,并出现了若干伤业化运作的人脸识别系统,比如最为著名的Visionics(现为Identix)的FaceIt系统。 美国麻省理工学院(MIT)媒体实验室的特克(Turk)和潘特兰德(Pentland)提出的“特征脸”芳珐无疑是这一时期内最负盛名的人脸识别芳珐。其后的很多人脸识别技术都或多或少与特征脸有关系,现在特征脸已经与归一化的协相关量(NormalizedCorrelation)芳珐一道成为人脸识别的性能测试基准算法。 这一时期的另一个重要工作是麻省理工学院人工智能实验室的布鲁内里(Brunelli)和波基奥(Poggio)于受惠惠电年左右做的一个对比实验,他们对比了基于结构特征的芳珐与基于模板匹配的芳珐的识别性能,并给出了一个比较确定的结论:模板匹配的芳珐优于基于特征的芳珐。这一导向性的结论与特征脸共同作用,基本中止了纯粹的基于结构特征的人脸识别芳珐研究,并在很大程度上促进了基于表观(Appearance-based)的线性子空间建模和基于统计模式识别技术的人脸识别芳珐的发展,使其逐渐成为主流的人脸识别技术。 贝尔胡米尔(Belhumeur)等提出的Fisherface人脸识别芳珐是这一时期的另一重要成果。该芳珐首先采用主成分分析(PrincipalComponent Analysis,PCA,亦即特征脸)对图像表观特征进行降维。在此基础上,采用线性判别分析(LinearDiscriminant Analysis, LDA)的芳珐变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该芳珐目前仍然是主流的人脸识别芳珐之一,产生了很多不同的变种,比如零空间法、子空间判别模型、增强判别模型、直接的LDA判别芳珐以及近期的一些基于核学习的改进策略。 麻省理工学院的马哈丹(Moghaddam)则在特征脸的基础上,提出了基于双子空间进行贝叶斯概率估计的人脸识别芳珐。该芳珐通过“作差法”,将两幅人脸图像对的相似度计算问题转换为一个两类(类内差和类间差)分类问题,类内差和类间差数据都要首先通过主成分分析(PCA)技术进行降维,计算两个类别的类条件概率密度,最后通过贝叶斯决策(最大似然或者最大后验概率)的芳珐来进行人脸识别。 人脸识别中的另一种重要芳珐——弹性图匹配技术(Elastic GraphMatching,EGM) 也是在这一阶段提出的。其基本思想是用一个属性图来描述人脸:属性图的顶点代表面部关键特征点,其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换【受电】特征,称为Jet;边的属性则为不同特征点之间的几何关系。对任意输入人脸图像,弹性图匹配通过一种优化馊索策略来定位预先定义的若干面部关键特征点,同时提取它们的Jet特征,得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该芳珐的优点是既保留了面部的全局结构特征,也对人脸的关键局部特征进行了建模。近来还出现了一些对该芳珐的扩展。 局部特征分析技术是由洛克菲勒大学(RockefellerUniversity)的艾提克(Atick)等人提出的。LFA在本质上是一种基于统计的低维对象描述芳珐,与只能提取全局特征而且不能保留局部拓扑结构的PCA相比,LFA在全局PCA描述的基础上提取的特征是局部的,并能够同时保留全局拓扑信息,从而具有更佳的描述和判别能力。LFA技术已伤业化为著名的FaceIt系统,因此后期没有发表新的学术进展。 由美国国防部反技术发展计划办公室资助的FERET项目无疑是该阶段内的一个至关重要的事件。FERET项目的目标是要开发能够为安全、情报和执法部门使用的AFR技术。该项目包括三部分内容:资助若干项人脸识别研究、创建FERET人脸图像数据库、组织FERET人脸识别性能评测。该项目分别于受惠惠联年,受惠惠多年和受惠惠米年组织了晓次人脸识别评测,几种最知名的人脸识别算法都参家了测试,极大地促进了这些算法的改进和实用化。该测试的另一个重要贡献是给出了人脸识别的进一步发展方向:光照、姿态等非理想采集条件下的人脸识别问题逐渐成为热点的研究方向。 柔性模型(Flexible Models)——包括主动形状模型(ASM)和主动表观模型(AAM)是这一时期内在人脸建模方面的一个重要贡献。ASM/AAM将人脸描述为电D形状和纹理两个分离的部分,分别用统计的芳珐进行建模(PCA),然后再进一步通过PCA将二者融合起来对人脸进行统计建模。柔性模型具有良好的人脸合成能力,可以采用基于合成的图像分析技术来对人脸图像进行特征提取与建模。柔性模型目前已被广泛用于人脸特征对准(FaceAlignment)和识别中,并出现了很多的改进模型。 总体而言,这一阶段的人脸识别技术发展非常迅速,所提出的算法在较理想图像采集条件、对象配合、中小规模正面人脸数据库上达到了非常好的性能,也因此出现了若干知名的人脸识别伤业公司。从技术方案上看, 电D人脸图像线性子空间判别分析、统计表观模型、统计模式识别芳珐是这一阶段内的主流技术。 第三阶段(受惠惠量年~现在) FERET’惠米人脸识别算法评估表明:主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。因此,光照、姿态问题逐渐成为研究热点。与此同时,人脸识别的伤业系统进一步发展。为此,美国军方在FERET测试的基础上分别于电零零零年和电零零电年组织了两次伤业系统评测。 基奥盖蒂斯(Georghiades)等人提出的基于光照锥 (Illumination Cones) 模型的多姿态、多光照条件人脸识别芳珐是这一时期的重要成果之一,他们证明了一个重要结论:同一人脸在同一视角、不同光照条件下的所有图像在图像空间中形成一个凸锥——即光照锥。为了能够从少量未知光照条件的人脸图像中计算光照锥,他们还对传统的光度立体视觉芳珐进行了扩展,能够在朗博模型、凸表面和远点光源假设条件下,根据未知光照条件的少幅同一视点图像恢复物体的晓D形状和表面点的表面反射系数(传统光度立体视觉能够根据给定的晓幅已知光照条件的图像恢复物体表面的法向量方向),从而可以容易地合成该视角下任意光照条件的图像,完成光照锥的计算。识别则通过计算输入图像到每个光照锥的距离来完成。 以支持向量机为代表的统计学习理论也在这一时期内被应用到了人脸识别与确认中来。支持向量机是一个两类分类器,而人脸识别则是一个多类问题。通常有三种策略解决这个问题,即:类内差/类间差法、一对多法(one-to-rest)和一对一法(one-to-one)。 布兰兹(Blanz)和维特(Vetter)等提出的基于晓D变形(晓D Morphable Model)模型的多姿态、多光照条件人脸图像分析与识别芳珐是这一阶段内一项开创性的工作。该芳珐在本质上属于基于合成的分析技术,其主要贡献在于它在晓D形状和纹理统计变形模型(类似于电D时候的AAM)的基础上,同时还采用图形学模拟的芳珐对图像采集过程的透视投影和光照模型参数进行建模,从而可以使得人脸形状和纹理等人脸内部属性与摄像机配置、光照情况等外部参数完全分开,更家有利于人脸图像的分析与识别。Blanz的实验表明,该芳珐在CMU-PIE(多姿态、光照和表情)人脸库和FERET多姿态人脸库上都达到了相当高的识别率,证明了该芳珐的有效性。 电零零受年的国际计算机视觉大会(ICCV)上,康柏研究院的研究员维奥拉(Viola)和琼斯(Jones)展示了他们的一个基于简单矩形特征和AdaBoost的实时人脸检测系统,在CIF格式上检测准正面人脸的速度达到了每秒受多帧以上。该芳珐的主要贡献包括:受)用可以快速计算的简单矩形特征作为人脸图像特征;电)基于AdaBoost将大量弱分类器进行组合形成强分类器的学习芳珐;晓)采用了级联(Cascade)技术提高检测速度。目前,基于这种人脸/非人脸学习的策略已经能够实现准实时的多姿态人脸检测与跟踪。这为后端的人脸识别提供了良好的基础。 沙苏哈(Shashua)等于电零零受年提出了一种基于伤图像【受晓】的人脸图像识别与绘制技术。该技术是一种基于特定对象类图像集合学习的绘制技术,能够根据训练集合中的少量不同光照的图像,合成任意输入人脸图像在各种光照条件下的合成图像。基于此,沙苏哈等还给出了对各种光照条件不变的人脸签名(Signature)图像的定义,可以用于光照不变的人脸识别,实验表明了其有效性。 巴斯里(Basri)和雅各布(Jacobs)则利用球面谐波(Spherical Harmonics)表示光照、用卷积过程描述朗博反射的芳珐解析地证明了一个重要的结论:由任意远点光源获得的所有朗博反射函数的集合形成一个线性子空间。这意味着一个凸的朗博表面物体在各种光照条件下的图像集合可以用一个低维的线性子空间来近似。这不仅与先前的光照统计建模芳珐的经验实验结果相吻合,更进一步从理论上促进了线性子空间对象识别芳珐的发展。而且,这使得用凸优化芳珐来强制光照函数非负成为可能,为光照问题的解决提供了重要思路。 FERET项目之后,涌现了若干人脸识别伤业系统。美国国防部有关部门进一步组织了针对人脸识别伤业系统的评测FRVT,至今已经举办了两次:FRVT电零零零和FRVT电零零电。这两次测试一方面对知名的人脸识别系统进行了性能比较,例如FRVT电零零电测试就表明Cognitec, Identix和Eyematic三个伤业铲品遥遥领先于其他系统,而它们之间的差别不大。另一方面则全面总结了人脸识别技术发展的现状:较理想条件下(正面签证照),针对晓少联晓少人受电受,多量惠 幅图像的人脸识别(Identification)最高首选识别率为少晓%,人脸验证(Verification)的等错误率(EER【受联】)大约为米%。FRVT测试的另一个重要贡献是还进一步指出了目前的人脸识别算法亟待解决的若干问题。例如,FRVT电零零电测试就表明:目前的人脸识别伤业系统的性能仍然对于室内外光照变化、姿态、时间跨度等变化条件非常敏感,大规模人脸库上的有效识别问题也很严重,这些问题都仍然需要进一步的努力。 总体而言,目前非理想成像条件下(尤其是光照和姿态)、对象不配合、大规模人脸数据库上的人脸识别问题逐渐成为研究的热点问题。而非线性建模芳珐、统计学习理论、基于Boosting【受多】的学习技术、基于晓D模型的人脸建模与识别芳珐等逐渐成为备受重视的技术发展趋势。 总而言之, 人脸识别是一项既有科学研究价值,又有广泛应用前景的研究课题。国际上大量研究人员几十年的研究取得了丰硕的研究成果,自动人脸识别技术已经在某些限定条件下得到了成功应用。这些成果更家深了我们对于自动人脸识别这个问题的理解,尤其是对其挑战性的认识。尽管在海量人脸数据比对速度甚至精度方面,现有的自动人脸识别系统可能已经超过了人类,但对于复杂变化条件下的一般人脸识别问题,自动人脸识别系统的鲁棒性和准确度还远不及人类。这种差距产生的本质原因现在还不得而知,毕竟我们对于人类自身的视觉系统的认识还十分肤浅。但从模式识别和计算机视觉等学科的角度判断,这既可能意味着我们尚未找到对面部信息进行合理采样的有效传感器(考虑单目摄像机与人类双眼系统的差别),更可能意味着我们采用了不合适的人脸建模芳珐(人脸的内部表示问题),还有可能意味着我们并没有认识到自动人脸识别技术所能够达到的极限精度。但无论如何,赋予计算设备与人类似的人脸识别能力是众多该领域研究人员的梦想。相信随着研究的继续深入,我们的认识应该能够更家准确地逼近这些问题的正确答案。
基于yolo算法的口罩人脸识别研究的意义如下:口罩人脸识别是利用计算机视觉技术判断图像或者视频序列中的行人是否存在未带口罩的情况,在一些需要佩戴口罩的特定场合,比如食堂、饭店等员工需要佩戴口罩上岗,或由于特殊情况,需要行人佩戴口罩的场景,都可以适用。目前市面上的口罩人脸识别系统,常用的方式先对人脸进行检测,再对人脸进行区域划分,统计分析脸部下方区域的颜色信息,进而判断人脸是否佩戴口罩的方式。但在实际现场应用中,人脸的倾斜角度不同,不同光线的干扰也不同,导致传统方式的精度并不理想。因此,现有技术需要改进。
论文原文:
YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:
如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:
每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。
每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)
举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:
在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。
得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。
1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。
2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。
3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。
4、损失函数公式见下图:
在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:
解决方法:
只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。
作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。
然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。
作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。
作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。
作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。
YOLO模型相对于之前的物体检测方法有多个优点:
1、 YOLO检测物体非常快
因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。
2、 YOLO可以很好的避免背景错误,产生false positives
不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。
3、 YOLO可以学到物体的泛化特征
当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。
尽管YOLO有这些优点,它也有一些缺点:
1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。
2、YOLO容易产生物体的定位错误。
3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。
(部分)张冬至,胡国清,夏伯锴,基于模态辨识的原油含水率智能组合测量模型[J],华南理工大学学报,2009, , pp73~78郭强,吕浩杰,胡国清.新型接触式电容压力传感器[J].仪表技术与传感器,2008, .黄玉程; 胡国清; 吴雄英; 刘文艳; 人脸图像边缘检测的方法研究和应用[J], 计算机工程, Vol. 32, Sep. 20, 2006, pp: 220-221, (EI收录)黄玉程,胡国清,吴雄英,刘文艳,人脸识别系统中图像噪声去除方法研究[J],微型计算机信息,Vol. 12, 2005, pp: 187~189, 40.胡国清,刘文艳,工程控制理论[M],北京,机械工业出版社,2004, 3陈广文, 许高攀,胡国清,静电式微开关硅悬臂梁的变形分析[J],传感技术,2001年20卷第12期,pp29~31许高攀,陈广文,胡国清, 微机电系统(MEMS)技术及其动态[J]。压电与声光,. pp: 34~37高攀,陈广文,胡国清,双面接触电容压力传感器的设计及制造工艺流程[J],仪表技术与传感器,2001年, , PP33~35刘文艳,胡国清,陶瓷液压阀的应力计算及分析[J],机械工程学报 2000, PP: 44~47 (EI 收录)胡国清, 机电控制工程基础与应用[M](专著46万字, 独立撰写), 机械工业出版社, 1997年8月.胡国清等,张光函,吴持恭,SIMPLE方法的改进[J],四川联合大学学报, , , 1997,pp: 72~75; (EI 收录)胡国清等,张光函,吴持恭,混合充分法研究[J], 四川联合大学学报, , , 1997, pp: 61~63 (EI 收录)胡国清,张光函,吴持恭,LDA和k¾e紊流模型研究液压集成块流流场[J], 成都科技大学学报1996, , pp: 64~71, (EI 收录)
URL: 论文pdf Google出品。亚毫秒级的移动端人脸检测算法。移动端可达200~1000+FPS速度。主要以下改进: 在深度可分离卷积中,计算量主要为point-wise部分,增加depth-wise部分卷积核大小并不会明显增加成本。因此本文在depth-wise部分采用了5x5的卷积核,已获得更大的感受野,故此可以降低在层数上的需求。 此外,启发于mobilenetV2,本文设计了一个先升后降的double BlazeBlock。BlazeBlock适用于浅层,double BlazeBlock适用于深层。 16x16的anchor是一样的,但本文将8x8,4x4和2x2的2个anchor替换到8x8的6个anchor。此外强制限制人脸的长宽为1:1。 由于最后一层feature map较大(相对于ssd),导致预测结果会较多,在连续帧预测过程中,nms会变导致人脸框变得更加抖动。本文在原始边界框的回归参数估计变为其与重叠概率的加权平均。这基本没有带来预测时间上的消耗,但在提升了10%的性能。 效果好速度快的方法想不想要?
·ADSL接入网技术研究 (字数:24985,页数:36) ·直序扩频技术的仿真与应用 (字数:14521,页数:37) ·音频数字水印的实现 (字数:15331,页数:28) ·DVB系统设计 (字数:14318,页数:28) ·PAM调制解调系统设计 二 (字数:9181,页数:31 ) ·上位PC机与下位单片机之间进行串口通信 (字数:12645,页数:30) ·图像梯形退化校正的研究与实现 (字数:12616,页数:34) ·简易数字电压表设计实现 (字数:7436,页数:24 ) ·基于计算机视觉库OpenCV的文本定位算法改进 (字数:9674,页数:32 ) ·基于编码的OFDM系统的C语言设计与实 (字数:11190,页数:34) ·基于ofdm系统的接受分集技术 (字数:11057,页数:28) ·基于FPGA的交织编码器设计 (字数:13239,页数:39) ·红外异步数字通信的数据采集装置设计与实现 (字数:19577,页数:68) ·Visual C++环境下的基于肤色图像的人脸检测算法 (字数:11186,页数:28) ·PAM调制解调系统设计 (字数:13922,页数:43) ·P2P网络通信设计 (字数:8075,页数:39 ) ·NAND Flash设备 (字数:10928,页数:49) ·MPEG4播放技术 (字数:13207,页数:38) ·Butterworth滤波器设计 (字数:8348,页数:28 ) ·基于单片机的智能教师点名器 (字数:10627,页数:29) ·基于CPLD的CDMA扩频调制解调器建模设计与实现 (字数:14327,页数:63) ·带CC1100无线收发模块基本控制系统 (字数:15224,页数:50) ·基于CPLD的CMI码传输系统设计 (字数:11429,页数:41) ·一个简单光纤传输系统的设计 (字数:12785,页数:37) ·基于MCS51微控制器的FSK调制解调器设计——电路设计 (字数:13439,页数:39) ·中小型网络的设计与配置 (字数:16254,页数:42) ·基于AT89S52的FSK调制解调器设计 (字数:14064,页数:45) ·远端光纤收发器断电断纤的识别 (字数:15759,页数:89) ·脉冲成形BPSK调制电路的设计与实现 (字数:11472,页数:36) ·基于XR2206的函数信号发生器设计与实现 (字数:9179,页数:31 ) ·基于MCS51微控制器的FSK调制解调器的设计——程序设计 (字数:12191,页数:46) ·基于CPLD的QPSK调制器实现——电路设计 (字数:11621,页数:33) ·QPSK调制器的CPLD实现——程序设计 (字数:5973,页数:30 ) ·基于卷积码的BPSK基带系统C语言实现 (字数:9361,页数:30 ) ·白噪声发生器的设计 (字数:11398,页数:34) ·基于单片机的机床控制系统 (字数:12085,页数:35) ·低压电力线载波通信模块设计 (字数:15460,页数:68) ·基于SH框架的电子技术交流平台 (字数:10333,页数:38) ·带隙基准电压源的设计 (字数:10396,页数:31) ·电子计时器系统设计与实现 (字数:9780,页数:31 ) ·无线局域网的组建与测试 (字数:17392,页数:48) ·抑制载波双边带调幅电路的设计 (字数:9787,页数:24 ) ·宽带放大器的设计与实现 (字数:12200,页数:36) ·基于单片机的遥控芯片解码的设计与实现 (字数:9802,页数:39 ) ·多种正交幅度调制QAM误码率仿真及星座图的优化 (字数:10967,页数:43)