谷歌用MediaPipe实现手机高效实时3D对象检测:yunkai云开网页版登录入口

  新闻资讯     |      2024-09-25 11:33
本文摘要:(映维网2020年03月12日)对象检测是一个普遍研究的计算机视觉问题,但大多数研究都集中于在2D对象预测方面。

(映维网2020年03月12日)对象检测是一个普遍研究的计算机视觉问题,但大多数研究都集中于在2D对象预测方面。2D预测仅有获取2D边界板,但通过将预测扩展到3D,我们可以捕捉对象的现实世界大小,方位和方向,从而在机器人技术,自动驾驶汽车,图像检索和增强现实等领域构建一系列的用例。尽管2D对象检测比较成熟期并已在行业中广泛应用,但由于缺少数据,以及对象外观和形状的多样性,基于2D图像的3D对象检测仍然是一个十分具备挑战性的课题。

针对这个问题,谷歌日前公布了用作日常对象的动态3D对象检测管道MediaPipe Objectron。所述工具可以检测2D图像中的对象,并利用由新建3D数据集展开训练的机器学习模型来估算其姿态和大小。

MediaPipe是一个进源代码跨平台框架,主要用作建构用作处置有所不同形式的感官数据的管道,而Objectron在MediaPipe中构建,并需要在移动设备中动态计算出来面向对象的3D边界板。根据单张图像展开3D对象检测。

MediaPipe Objectron可以反对确认移动设备动态确认日常对象的方位,方向和大小。1. 提供真实世界3D训练数据由于依赖3D传感器(如LIDAR)的自动驾驶汽车研究日益普及,业界不存在用作街景的大量3D数据,但包括面向日常对象的ground truth 3D注解的数据集仍然十分受限。为了解决这个问题,谷歌团队利用移动增强现实不会话数据研发了一种全新的数据管道。随着ARCore和ARKit的来临,数亿智能手机现在早已具备AR功能,并且需要在AR不会话中捕捉更加多信息,还包括camera姿态,稠密3D点云,估算灯光和平面。

为了标记ground truth数据,团队建构了一个精致的注解工具以配上AR不会话数据,从而容许Annotator可以较慢标记对象的3D边界板。工具利用分屏视图来表明2D视频帧,在左侧变换3D边界板,并在右侧表明3D点云,camera方位和检测平面。

Annotator在3D视图中绘制3D边界板,并通过查阅2D视频帧中的投影来检验其方位。对于静态对象,我们只必须在单帧中注解对象,并用于来自AR不会话数据的ground truth camera姿态信息将方位传播到所有帧。这可以大大提高过程的效率。

用作3D对象检测的现实数据注解。右:在3D世界中检测表面和点云标示3D边界板。

左:带上注解3D边界板的投影变换于视频帧,从而之后以检验注解。2. 增强现实制备数据生沦为提升预测的精度,一种风行的方法是用制备数据补足现实世界的数据。但这种方式做到一般来说不会带给差劲的,不现实的数据,或者在图像真实感图形时必须大量的精力和计算出来量。

所以谷歌明确提出了一种取名为AR Synthetic Data Generation(增强现实制备数据分解)的精致方法。它可以将虚拟世界对象摆放到具备AR不会话数据的场景中,容许你利用camera姿态,检测平面和估算灯光来分解物理有可能的方位,以及具备与场景给定的灯光。这种方法可分解高质量的制备数据,其包括的图形对象需要认同场景的几何形状并无缝地兼容实际背景。

通过融合现实世界数据和增强现实制备数据,谷歌回应精度提升了大约10%。3. 用作3D对象检测的机器学习管道为了从单个RGB图像预测对象的姿态和物理尺寸,谷歌建构了一个单阶段模型。所述模型主干具备基于MobileNetv2建构的编码器-解码器架构。

团队使用多任务自学方法,通过检测和重返来联合预测对象的形状。形状任务根据能用的ground truth注解来预测对象形状信号。

这归属于可选选项,可用作训练数据中缺少形状注解的情况。对于检测任务,团队用于带上注解的边界板并将高斯数值到框,中心坐落于板质心,标准偏差与框大小成正比。重返任务估算八个边界板顶点的2D投影。

为了取得边界板的最后3D座标,团队利用了完备的姿态估算算法(EPnP)。它可以完全恢复对象的3D边界板,需要事前知悉对象的尺寸。等价3D边界板,团队可以精彩计算出来对象的姿态和大小。

右图是明确的网络架构和后处理。所述模型十分轻盈,可以反对移动设备动态运营(在Adreno 650移动GPU为26 FPS)。

4. MediaPipe中的检测和追踪当将模型应用于移动设备捕捉的每个帧时,由于每帧中估算的3D边界板的歧义性,模型可能会遭到晃动影响。为了减轻这种情况,谷歌使用了最近公布在2D object detection and tracking(2D对象检测和追踪)解决方案中的检测+追踪框架。

所述框架需要减低在每帧运营网络的市场需求,从而反对计算出来量更大但因而更加精确的模型,同时在移动设备维持管道动态展开。它同时可以横跨帧保有对象身份,并保证预测在时间方面保持完全一致,从而增加晃动。


本文关键词:开云(中国)Kaiyun,开云(中国)Kaiyun·官方网站,kaiyun全站app登录入口,云开kaiyun官方网站登录,kaiyun官方网站登录入口,yunkai云开网页版登录入口

本文来源:开云(中国)Kaiyun-www.hanna17.net