求眨眼检测算法及相关论文

4个回答默认排序

默认排序

按时间排序

天龙过江

已采纳

深度换脸视频以假乱真，危害网络安全。

所幸最近有一门先进的计算机科学擅长辨别假视频：用算法识别视频的处理痕迹；并在照片或视频中添加特殊设计的噪点，通过欺人脸检测算法起到抵御作用。

有望从源头上消灭“深度换脸”。

深度换脸（deepfake）视频往往相当逼真，未经专业训练，肉眼很难辨别。不管是作为个人复仇的工具，还是为了操纵金融市场，抑或是破坏国际关系的稳定，换脸视频都从根本上颠覆了我们一直坚信的“眼见为实”。

但这种颠覆将到此为止。

大部分深度换脸视频的制作过程是这样的：向一个计算机算法展示同一个人的多张图像，然后让它利用所看到的图像，生成新的人脸图像，同时合成这个人的声音。因此，其声音和画面都能达到以假乱真的效果。

早期的深度换脸视频没有考虑到正常人眨眼的次数，笔者的研究团队能够侦测出这类假视频。但如今的换脸视频已经更新换代，所以我们的研究也在不断推进。

现在，我们可以通过仔细观察特定几帧画面的像素，识别视频的处理痕迹。此外我们还更进一步，开发了一项积极措施，保护个人免受换脸视频所害。

寻找瑕疵

在最近的两篇研究论文中，我们探讨了如何检测带有瑕疵的深度换脸视频，并且这些瑕疵是伪造者无法轻易修复的。

当深度换脸视频的合成算法生成新的面部表情时，新图像中人的头部位置、光照条件以及人到相机的距离并不总是与源图相匹配。为了使这些假面孔融入周围的环境，伪造者必须对它们进行几何变换，包括旋转、调整大小或以其他方式扭曲，最后生成的图像就会产生数码失真。

在经过“大整”的视频中，你可能会看出失真的痕迹，比如模糊边框和人工磨皮，看起来明显被修改过。而即使是“微整”的视频，也会留下证据。

我们已经训练了一套算法，能够识别人眼区分不了的失真。

如果换脸视频中的人没有直视摄像头，这些失真痕迹就会发生变化。拍摄真人的视频会显示其面部在三维空间中的移动状态，但深度换脸算法还没法在三维空间里制作人脸。相反，它们只能生成一张常规的二维人脸图像，然后尝试旋转、调整大小和扭曲图像，使其与人的视线方向保持一致。

在这方面，它们的火候也还不够，这就为侦测提供了机会。我们设计了一个算法，能够计算图像中人的鼻子指向哪个方向，还可以根据人脸轮廓测量出头部的方向。在真人视频中，这些方向都是彼此对齐的。但深度换脸视频往往会出现错位。

当计算机把尼古拉斯·凯奇（Nicolas Cage）的脸安在伊隆·马斯克（Elon Musk）的头上时，它可能无法将脸和头正确对齐。

抵御伪造

侦测深度换脸视频这门科学实际上就是一场军备竞赛。伪造者的杜撰能力会越来越强，所以，我们的研究也要努力跟上，甚至领先一步。

假如能够找到一种方法，影响生成换脸视频的算法，削弱其能力，那么我们就能更好地识别出假视频。

最近，我的研究团队就做到了。

在上图中，左图是我们处理之前的图像，算法可以轻松检测到人脸。在中间的照片里，我们添加了一些干扰因素，使算法检测到其他人脸，但检测不到真实的人脸。右图显示了我们对图像进行的更改，已增强 30 倍。

人脸图库是由算法组合而成的，这些算法处理了数千张在线照片和视频，并使用机器学习检测和提取人脸。计算机看到一张班级合影，就可能侦测出所有学生和老师的面孔，然后把这些面孔添加到图库中。当图库中有了大量高品质的人脸图像时，最终的深度换脸视频就更有可能成功过受众的眼睛。

我们找到了一种方法：可以在数码照片或视频中添加特殊设计的噪点。这些噪点人眼不可见，但却可以欺人脸检测算法。它可以隐藏人脸探测器用于定位面部的像素模式，并在没有人脸的地方（比如一小片背景或衣服上的一块正方形）创建“诱饵”，暗示这里有一张脸。

真脸少了，“假脸”多了，训练数据就会受到污染，深度换脸算法生成假脸的能力也会随之减弱。这不仅延缓了深度换脸视频的制作过程，也能够增加视频瑕疵，降低检测难度。

未来，我们希望能把这个算法应用到任何用户上传至社交媒体或其他在线站点的任何图像上。在上传过程中，算法可能会询问对方：“你想保护这个视频或图像中的人脸不被用于深度换脸吗？”如果用户选择“是”，那么该算法就会给视频或图像添加数字噪点。网上的人还是可以看到其中的人脸，但在试图模仿它的算法面前，它们又被有效地隐藏了起来。

文 | 快公司编辑部

翻译 | 李美玉

编辑 | 一块糕

图片 | 网络

挖掘创新是《快公司》一以贯之的行事方法论，然而，关于“创新是什么”，“创新在哪儿”的议论往往莫衷一是。其实，创新本就是一场没有边界和限制的头脑风暴，每一次刷新都是颠覆。我们一直在寻找创新路上的并肩者，他们与众不同，不墨守成规，他们是这场风暴的中心。如果您身边有这样不懈尝试的“风暴发起者”，欢迎报名2019中国商业最具创意人物100榜单。

扫码报名，进入创新直通车

151 评论 2小时前发布

黄豆珵珵

第一，所处环境光线等问题第二，手机像素问题第三，支付宝识别的问题（毕竟准确率不是百分百）建议在排除第一第二问题的情况下，多尝试几次。

支付宝刷脸界面主要元素有两个：脸部框、“眨眨眼”。脸部框——人脸监测与人脸识别不可兼得支付宝刷脸的一个基本要求就是需要用户赏个脸，并且要把脸赏在界面的指定框线内，这样做实际上是节省了一个非常大的算法开销：人脸检测。首先说明一个问题，就是人脸检测和人脸识别是完全不同的两个领域，这也是人脸识别检测初学者容易混淆的两个概念。人脸检测重在检测，目标是在复杂场景中把人脸区域框出来，至于能不能正确识别，那人家不管；人脸识别重在识别，目标是确定眼前这张脸是谁（人脸识别）或者不是谁（人脸认证），至于怎么分割得到这张脸，这就是人脸检测的事儿了。眨眨眼——活体检测“活体检测”这句话听起来蛮吓人的，说白了就是确认摄像头前面赏脸的是否是一个真正的活人，而非一张照片、设置一段视频什么的。在刷脸过程中，系统会提示用户进行一些指定动作，例如“眨眨眼”、“向某个方向转头”等等。这可并不是一般人眼中的无稽之谈，而是人脸识别在实际应用中防伪造非常重要的一步。

283 评论 5小时前发布

WaimanTong

人脸识别是一种软件层面的算法,用于通过处理视频帧或数字图像来验证或识别一个人的身份,其中该人的脸是可见的。其实机器本来并不擅长识别图像，比如这张图片在机器眼里只是一串0和1组成的数据，机器并不能理解这个图像有什么含义。所以想让机器学会认识图像，就需要我们给它编写程序算法。当我们描述一个人的长相的时候，大多会用到类似这样的词汇，比如瓜子脸、柳叶眼、蒜头鼻、樱桃嘴。所谓长相很大程度上取决于人脑袋和五官的形状。最早的人脸识别就是采用这样的方法。首先机器会在图像中识别出脸所在的位置，然后描绘出这张脸上的五官的轮廓，获得人脸上五官的形状和位置信息。比如两个眼睛之间的距离，鼻尖嘴角连线在水平方向上的角度等等。

263 评论 12小时前发布

心菲殿下

Deepfake，是由“deep machine learning”（深度机器学习）和“fake photo”（假照片）组合而成，本质是一种深度学习模型在图像合成、替换领域的技术框架，属于深度图像生成模型的一次成功应用。其实该技术最早版本在2018年初就被提出了，当时在构建模型的时候使用了Encoder-Decoder自编解码架构，在测试阶段通过将任意扭曲的人脸进行还原，整个过程包含了：获取正常人脸照片=>扭曲变换人脸照片=> Encoder编码向量 => Decoder解码向量 => 还原正常人脸照片五个步骤。而ZAO在Encoder-Decoder的框架之上，又引入了GAN（生成对抗网络）技术，不但降低了同等条件下的模型参数量和模型复杂度，同时使生成的人脸更为清晰，大大降低了对原图的依赖，显著提升了换脸的效果，而且基于GAN技术的Deepfake改进版已经在Github开源。尽管「Deepfake」这类应用非常吸引人，但落到实处还是会引发很多的问题，不论是伦理还是隐私。后面我们将介绍生成对抗网络和变分自编码器两种换脸的解决方案，也许大规模应用还能进一步催生效果更好、算力更少的解决方案。直观而言，GAN 这类生成模型可以生成非常逼真的人脸图像，那么现在需要将某个人的特点迁移到另一张人脸上，这就需要更多的模块来定义需要迁移的位置与特点。总体上，「Deepfakes」换脸主要分为以下过程：其中人脸定位已经非常成熟了，一般定位算法可以生成人脸的特征点，例如左右眉毛、鼻子、嘴和下巴等等。人脸转换也就是采用 GAN 或 VAE 等生成模型，它的目标是生成拥有 A 表情的 B 脸。最后的图像拼接则是将人脸融合原图的背景，从而达到只改变人脸的效果。当然，如果生成 ZAO 这种小视频，那么还需要一帧帧地处理图像，然后再将处理后的结果重新拼接成小视频。人脸定位也就是抽取原人脸的表情特征，这些特征点大致描述了人脸的器官分布。我们可以直接通过 dlib 和 OpenCV 等主流的工具包直接抽取，但它们一般采用了经典的 HOG 的脸部标记算法。这种算法根据像素亮度差确定一些「箭头」，从而找到人脸显著的特征点。如上是一些人脸特征点，如果我们想换脸的表情更加真实和准确，那么也可以使用目前主流的人脸识别算法，它利用卷及网络能生成更完美的特征点。但是这类深度模型需要更大的算力，尤其是在处理高分辨率图像时。首先对于变分自编码器（VAE），我们知道它希望通过无监督的方式将人脸图像压缩到短向量，再由短向量恢复到人脸图像。这样短向量就包含了人脸图像的主要信息，例如该向量的元素可能表示人脸肤色、眉毛位置、眼睛大小等等。所以如果我们用某个编码器学习所有人，那么它就能学习到人脸的共性；如果再用某个解码器学习特定的某个人，那么就能学习到他的特性。简单而言，当我们用通用编码器编码人脸 A，再使用特定解码器 B 解码隐藏向量，那么就能生成出拥有 A 的人脸表情，但却是 B 人脸的图像。这就是 VAE 的解决方案，对于 GAN 来说，它会利用抽取的人脸特征点，然后根据生成器生成对应的目标人脸图像。这时候，编码器同样也会将真实的目标人脸编码，并和生成的目标人脸混合在一起。因此，如果判别器不能区分根据某人特征点生成的人脸和真实人脸有什么区别，那么生成的人脸就非常真实了。如上所示为论文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解决方案，它只需要几张目标人脸图，就能根据原人脸的特征点生成极其逼真的效果。知道了如何制作换脸视频，我们还要掌握一些识别换脸视频的技术，因为这些换脸技术给大众带来欢乐的同时，也在被不少人滥用。这种滥用不仅给公众人物造成了困扰，甚至还威胁到了普通大众。由于用来训练神经网络的图像数据往往是睁着眼睛的，因此 Deepfake 视频中人物的眨眼或不眨眼的方式通常是不自然的。去年，奥尔巴尼大学（University of Albany）的研究人员发表了一篇论文，提出了一种可以检测这种不自然眨眼的技术。有趣的是，这项技术使用的也是深度学习，和制作假视频的技术是一样的。研究人员发现，利用眨眼视频训练出的神经网络可以在视频中定位眨眼片段，找出非自然眨眼运动的一系列帧。结果发现，Deepfake 视频中人物的眨眼不符合正常的生理学规律，由此可以识别出哪些是原始视频，哪些是 Deepfakes 视频。每个人都有独特的头部运动（如开始陈述事实时点头）和面部表情（如表达观点时得意得笑），但 Deepfakes 中人物的头部动作和面部表情都是原人物而非目标人物的。基于此，加州大学伯克利分校的研究者提出了一种检测换脸的 AI 算法。其基本原理是：利用一个人的头部动作和面部表情视频训练一个神经网络，然后拿这个神经网络去检测另一个视频中的人物动作和表情是否属于这个人。模型准确率达到 92%。（a）原始人物；（b，c）分别是 Deepfake 人物。论文地址：制作换脸视频和识别换脸就像一场猫鼠游戏，造假技术日新月异，打假技术也在不断迭代。但仅在技术层面打击这一技术的滥用是不够的，我们还需要法律的支持。参考链接：

358 评论 12小时前发布

求眨眼检测算法及相关论文

4个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序