新经网logo.png新经网

新经网
新经网是百姓城市生活中不可缺少的信息港。
新经网

谷歌开源手势跟踪移动设备的AI

导读 实时手形和动作跟踪器是手语识别和手势控制系统的宝贵部分,更不用说一些增强现实体验。但是它们经常因遮挡和缺乏对比模式而受阻,导

实时手形和动作跟踪器是手语识别和手势控制系统的宝贵部分,更不用说一些增强现实体验。但是它们经常因遮挡和缺乏对比模式而受阻,导致它们无法可靠或稳健地执行。

这些挑战和其他挑战促使谷歌的科学家们研究一种新的计算机视觉方法来进行手感知-一种是通过机器学习来支持的。他们说,在实验中,它设法从一个帧中推断出手机(或多只手)的21个3D点。

谷歌于6月在2019年计算机视觉和模式识别大会上预览了这项新技术,最近在MediaPipe中实施了这项技术,MediaPipe是一个跨平台框架,用于构建多模式应用机器学习流程,以处理不同模态(如视频和音频)的感知数据。源代码和端到端使用场景都可以在GitHub上获得。

研究工程师ValentinBazarevsky和FanZhang在博客文章中写道:“感知手的形状和运动的能力可以成为改善各种技术领域和平台用户体验的重要组成部分。”“我们希望向更广泛的研究和开发社区提供这种手感知功能将导致创造性用例的出现,刺激新的应用和新的研究途径。”

谷歌的技术包括三个串联工作的AI模型:一个手掌探测器--BlazePalm--分析一个框架并返回一个手动边框;一个手标志模型,它查看由手掌探测器定义的裁剪图像区域并返回3D手点;以及手势识别器,其将先前计算的点配置分类为一组手势。

认识到手并非易事;BlazePalm必须应对缺乏功能,同时发现被遮挡和自我遮挡的手。为了清除这些路障,该团队训练了一个手掌探测器而不是手探测器,因为估计像拳头这样的物体的边界框往往比检测手和手指更容易。作为一个额外的好处,它可以很好地推广到握手等边缘情况,它可以使用忽略其他宽高比的方形边框来模拟手掌,将点数减少3-5倍。

在手掌检测之后,手部界标模型接管,在检测到的手部区域内执行21个3D手肘坐标的定位。训练需要用坐标手动注释30,000个真实世界的图像,以及在各种背景上渲染并映射到相应坐标的高质量合成手模型。

管道中的最后一步是手势识别系统,其从关节角度确定每个手指的状态并将手指状态集合映射到预定义的手势。Bazarevsky和张说,它能够识别来自多种文化(例如,欧洲和)的计数手势和各种手势,包括闭拳,“OK”,“摇滚”和“蜘蛛侠”。

模型可以执行单独的任务,例如裁剪和专门在图形卡上渲染以节省计算,并且手掌探测器仅在必要时运行-大部分时间,后续视频帧中的手位置是从计算出的手中的关键点推断的。当前帧。仅当推断置信度低于某个阈值时,手检测模型才重新应用于整个帧。

在未来,Bazarevsky,Zhang和他的同事计划通过更强大和稳定的跟踪扩展技术,并扩大可以可靠检测的手势量,并支持及时展开动态手势。他们补充说:“我们相信,发布这项技术可以推动研究和开发者社区成员对新的创意和应用的推动。”

相关推荐



最新文章