MediaPipe Holisitic:实现端侧人脸手势姿态同时估计

 天顺注册招商   2020-12-30 07:53   50 人阅读  0 条评论

天顺平台招商【总代QQ223345】

原标题:MediaPipe Holisitic:实现端侧人脸手势姿态同时估计


文 / Ivan Grishchenko 和 Valentin Bazarevsky,Google Research 研究工程师

  • MediaPipe https://mediapipe.dev/

  • MediaPipe Holistic https://solutions.mediapipe.dev/holistic

  • Python https://mediapipe.page.link/holistic_py_colab

  • Java https://mediapipe.page.link/holistic_codepen

流水线和质量

MediaPipe Holistic 流水线整合了姿态、面部和手部组件的独立模型,每个组件均基于特定领域进行了优化。不过,由于它们的专业性不同,一个组件的输入并不是很适合其他组件。例如,姿态估计模型使用较低的固定分辨率视频帧 (256x256) 作为输入。但是,如果对该图片中的手部和面部区域进行剪裁,然后传递给相应的模型,由于图片分辨率过低,无法准确接合。因此,我们将 MediaPipe Holistic 设计为 多级流水线,它使用适合区域的图片分辨率来处理不同的区域。

首先,MediaPipe Holistic 使用 BlazePose 的姿态检测器和后续关键点模型来估计人体姿态。然后,天顺平台招商【总代QQ223345】使用推理的姿态关键点提取每只手 (2x) 和面部共三个感兴趣区 (ROI) 剪裁,并利用重新剪裁的模型来改进 ROI(下文详述)。随后,流水线剪裁这些 ROI 的全分辨率输入帧,并应用任务特定的 面部 手部 模型来估计其相应的关键点。最后,将所有关键点与姿态模型的相应关键点进行合并,生成全部的 540 多个关键点。

MediaPipe Holisitic:实现端侧人脸手势姿态同时估计

展开全文

MediaPipe Holistic 流水线概览

为了简化 ROI 的标识,采用的跟踪方法与独立的 面部 手部 流水线所用的方法类似。此方法假定对象在帧之间不会明显移动,使用前一帧的估计值作为指导来估计当前帧中的对象区域。不过,在快速移动时,跟踪器会失去目标,这要求检测器在图片中重新定位目标。MediaPipe Holistic 使用姿态预测(基于每一帧)作为附加 ROI 先验,从而在应对快速移动时缩短流水线的响应时间。此外,这还可以防止帧中某人的左右手或人体部位与其他人的混淆,从而让模型在人体及其各个部位之间保持语义一致性。

另外,姿态模型输入帧的分辨率非常低,以至于生成的面部和手部 ROI 的准确性过低而无法引导对这些区域重新进行剪裁,这需要精确的输入剪裁才能保持轻型。为了弥补这一准确性差距,我们采用轻型面部和手部重新剪裁模型,它们充当 空间变换器的角色,只需要相应模型推理时间的 10% 左右。

  • 空间变换器 https://arxiv.org/abs/1506.02025


MEHFLE
跟踪流水线(基准)9.8%3.1%
无重新剪裁的流水线11.8%3.5%
有重新剪裁的流水线9.7%3.1%

手部预测质量。每只手平均误差 (MEH) 使用手部大小进行标准化。面部特征点误差 (FLE) 使用瞳距进行标准化

性能

MediaPipe Holistic 要求在每帧多达 8 个模型之间进行协调,即 1 个姿态检测器,1 个姿态特征点模型,3 个重新剪裁模型,3 个手部和面部关键点模型。构建此解决方案时,我们不仅对机器学习模型进行了优化,而且还对各种算法(例如,仿射变换)进行了预处理和后处理,由于流水线较复杂,这在大部分设备上都需要花费大量时间。在这种情况下,将所有预处理计算移动到 GPU 后,根据设备不同,总体流水线速度提高了约 1.5 倍。因此,即使在终端设备和浏览器中,MediaPipe Holistic 的运行也接近实时性能。

PhoneFPS
Google Pixel 2 XL18
Samsung S9+20
15-inch MacBook Pro 201715

各种中端设备的性能使用 TFLite GPU按帧率 (FPS) 进行测量

  • TFLite GPU https://tensorflow.google.cn/lite/performance/gpu_advanced

流水线的多级特性还有两个性能优势。由于模型大部分是独立的,它们可以根据性能和准确率要求替换为更轻或更重的版本(或完全关闭)。此外,推理姿态后,可以准确知道手部和面部是否在框架边界内,从而允许流水线是否跳过对这些人体部位的推理。

应用

  • 远程控制界面 https://mediapipe.dev/demo/holistic_remote

在不方便采用其他人机互动方式时,可以使用这种手势控制技术解锁各种全新用例。 在我们的网络演示中试一试并使用它来对您自己的想法进行原型设计。

浏览器内无接触控制演示。左图:手掌拾取器、触摸界面、键盘。右图:远距离无接触键盘。试一试吧

  • 试一试吧 https://mediapipe.dev/demo/holistic_remote

MediaPipe 在研究和网络中的应用

为了加快机器学习研究及其在网络开发者社区的应用,MediaPipe 如今在 Python 和 Java 中提供了现成可用但可以自定义的机器学习解决方案。我们从我们以前发布的内容开始:、和(包括 MediaPipe Holistic在内),未来会持续增加。直接在网络浏览器中试一试:对于 Python,请在 Google Colab 上的 MediaPipe中使用笔记本;对于 Java,请在 CodePen 上的 MediaPipe中使用您自己的摄像头输入!

  • Google Colab 上的 MediaPipe https://mediapipe.page.link/colab

  • CodePen 上的 MediaPipe https://mediapipe.page.link/codepen

结论


复杂的动态手势。视频由 Bill Vicars 博士拍摄,已获得使用许可

致谢

特别感谢与我们一起研究技术的所有团队成员:Fan Zhang、Gregory Karpiak、Kanstantsin Sokal、Juhyun Lee、Hadon Nash、Chuo-Ling Chang、Jiuqiang Tang、Nikolay Chirkov、Camillo Lugaresi、George Sung、Michael Hays、Tyler Mullen、Chris McClanahan、Ekaterina Ignasheva、Marat Dukhan、Artsiom Ablavatski、Yury Kartynnik、Karthik Raveendran、Andrei Vakunov、Andrei Tkachenka、Suril Shah、Buck Bourdon、Ming Guang Yong、Esha Uboweja、Siarhei Kazakou、Andrei Kulik、Matsvei Zhdanovich 和 Matthias Grundmann。

本文地址:https://lkwed.com/post/4987.html
版权声明:本文为原创文章,版权归 天顺注册招商 所有,欢迎分享本文,转载请保留出处!

 发表评论


表情

还没有留言,还不快点抢沙发?