CN105518743A

CN105518743A - 深度图像的处理

Info

Publication number: CN105518743A
Application number: CN201480014513.6A
Authority: CN
Inventors: A.爱哈马德; J.胡夫; D.肯尼特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-03-13
Filing date: 2014-03-10
Publication date: 2016-04-20
Anticipated expiration: 2034-03-10
Also published as: WO2014164450A1; EP2973390A1; US9824260B2; EP2973390B1; US9092657B2; US20140267610A1; US20150310256A1; CN105518743B

Abstract

本文所描述的实施例可以用来检测已被指定为对应于用户的深度图像的像素子集中的孔洞，并且用来填充这种检测到的孔洞。另外，本文所描述的实施例可以用来生成已被指定为对应于用户的低分辨率版本的像素子集，使得在显示包括用户的表示的图像时，图像反映出用户的外形，但并不是用户的镜像。进一步地，本文所描述的实施例可以用来辨识被指定为对应于用户的像素子集中的可能对应于支撑用户的地面的像素。这使被辨识为可能对应于地面的像素能够从被指定为对应于用户的像素子集中去除。

Description

深度图像的处理

背景技术

诸如计算机游戏、多媒体应用等之类的许多计算应用使用控制让用户操控游戏角色或者应用的其他方面。传统上，这种控制使用例如控制器、遥控器、键盘、鼠标等进行输入。不幸的是，这种控制可能不好学，从而在用户和这种游戏和应用之间形成了障碍。此外，这种控制可能不同于实际的游戏操作或使用控制的其他应用操作。例如，使游戏角色摆动一根棒球棒的游戏控制可能无法与摆动棒球棒的实际运动相对应。近来，摄像机已被用来允许用户操控游戏角色或应用的其他方面，而无需使用传统的手持游戏控制器。此外，这种摄像机使用户的表示可以在游戏或其他应用中显示。这种计算系统常常依赖骨骼跟踪（ST）技术来检测运动或其他用户的行为，并生成用户的表示进行显示。然而，虽然在一些情况下对检测和显示用户的表示很有用，但是ST技术已被证明无法在其他情况下可靠地对用户的表示进行检测和显示。例如，ST技术通常无法在用户躺或坐在地上或者躺或坐在地面附近的情况下可靠地对用户的表示进行检测和显示。

发明内容

本文所描述的实施例是用于深度图像被用来检测和显示用户的表示和/或检测用户的行为的情况。更具体地，本文所描述的一些实施例可以用来检测已被指定为对应于用户的深度图像的像素子集中的孔洞，并用来填充这种检测到的孔洞。这种孔洞可能是在捕获设备（如摄像机）被用来获取深度图像时，由于用户的一个部分遮挡了该用户的另一部分而产生。这样的实施例可以包括（在被指定为对应于用户的像素子集内）辨识潜在地作为孔洞的一部分的横向和纵向像素跨度，然后分析邻近这些跨度的像素来确定这些邻近的像素是否也将被辨识为潜在地作为孔洞的一部分。彼此邻近的跨度可以被一起组合成潜在地对应于孔洞的像素岛，然后对每个岛进行分析并分类为孔洞和非孔洞。然后执行孔洞填充对任何已辨识的孔洞进行填充，使得在深度图像被用来显示用户的表示时，孔洞填充的结果是可用的。

另外，本文所描述的实施例可以用来生成已被指定为对应于用户的低分辨率版本的像素子集，使得在显示用户的表示时，图像反映出用户的外形而且没有对用户线条分明的（distinct）身体部位进行平滑，但并不是用户的镜像。生成这种已被指定为对应于用户的低分辨率版本的像素子集可以在上述孔洞检测和孔洞填充的实施例之前或之后进行，或者完全独立于上述孔洞检测和孔洞填充的实施例执行，这取决于实施方式。

进一步地，本文所描述的实施例可以用来辨识可能对应于支撑用户的地面的（被指定为对应于用户的像素子集内）的像素。这使被辨识为可能对应于地面的像素能够从被指定为对应于用户的像素子集中去除。这种地面检测和去除技术可以在上述孔洞检测和孔洞填充的实施例和/或上述生成已被指定为对应于用户的低分辨率版本的像素子集之前或之后执行，或者完全独立于上述孔洞检测和孔洞填充的实施例和/或上述生成已被指定为对应于用户的低分辨率版本的像素子集执行。

本文所描述一些实施例可以用来调整深度图像，以将深度图像的灵敏度降低到用来获取深度图像的捕获设备的倾斜度。这种调整可以包括获取与用来获取深度图像的捕获设备相关联的向上向量。将深度图像中的像素从深度图像空间转换到三维（3D）摄像空间，以生成包括被指定为对应于所述用户的像素子集的深度图像的3D表示。然后使用向上向量将被指定为对应于用户的像素子集转换为具有指定姿态的平面。其后，可以将所述深度图像的所述3D表示从所述3D摄像空间转回到所述深度图像空间。

提供本发明内容来以简化的形式对概念的选择进行介绍，在下文的具体实施方式中，将对其进行进一步的描述。本发明内容并非旨在对请求保护的主题的关键特征或本质特征进行辨识，也并非作为辅助内容用于确定所要求保护的主题的范围。此外，所要求保护的主题并不限于解决本公开的任何部分指出的任何或所有缺点的实施方式。

附图说明

图1A和图1B示出了玩游戏用户的跟踪系统的示例实施例。

图2A示出了可作为跟踪系统的一部分使用的捕获设备的示例实施例。

图2B示出了图2A中介绍的深度图像处理和物体报告模块的示例实施例。

图3示出了可用来跟踪用户行为并基于用户行为更新应用的计算系统的示例实施例。

图4示出了可用来跟踪用户行为并基于跟踪的用户行为更新应用的计算系统的另一个示例实施例。

图5示出了示例的深度图像。

图6描绘了示例的深度图像中的示例的数据。

图7示出了根据一些实施例用来总结用于在深度图像内辨识孔洞和填充孔洞的方法的高级流程图。

图8示出了根据一实施例用来提供图7中步骤702的更多细节的流程图。

图9示出了根据一实施例用来提供图7中步骤704的更多细节的流程图。

图10示出了根据一实施例用来提供图7中步骤706的更多细节的流程图。

图11示出了根据一实施例用来提供图7中步骤710的更多细节的流程图。

图12A使用本文所描述的实施例示出分类为孔洞的两个示例的像素岛。

图12B示出了图12A中示出的分类为孔洞的像素岛的孔洞填充结果。

图13是根据一实施例用来总结地面去除方法的高级流程图。

具体实施方式

本文所描述的实施例可以用来检测已被指定为对应于用户的深度图像的像素子集中的孔洞。另外，本文所描述的实施例可以用来生成已被指定为对应于用户的低分辨率版本的像素子集，使得在显示用户的表示时，图像反映出用户的外形，但并不是用户的镜像。进一步地，本文所描述的实施例可以用来辨识被指定为对应于用户的像素子集中的可能对应于支撑用户的地面的像素。这使被辨识为可能对应于地面的像素能够从被指定为对应于用户的像素子集中去除。本文所描述的另外的实施例可以用来调整深度图像，以将深度图像的灵敏度降低到用来获取深度图像的捕获设备的倾斜度。在对这些实施例的更多细节进行描述之前,将对可以和这些实施例一起使用的示例的系统进行描述。

图1A和1B示出了玩拳击视频游戏的用户118的跟踪系统100的示例实施例。在示例实施例中，跟踪系统100可用来识别、分析、和/或跟踪跟踪系统100范围内的人类目标（诸如用户118）或其他物体。如图1A所示，跟踪系统100包括计算系统112和捕获设备120。正如下文更加详细的描述，捕获设备120可以用来获取深度图像和彩色图像（也称为RGB图像），计算系统112可以使用该深度图像和彩色图像辨识一个或多个用户或其他物体，以及跟踪运动和/或其他用户行为。跟踪的位置、运动和/或其他用户行为可以用来更新应用。因此，用户不使用控制器、遥控器、键盘、鼠标等（或者除了使用控制器、遥控器、键盘、鼠标等之外），可以通过使用用户的身体的移动和/或用户周围物体的运动来操控游戏角色或应用的其他方面。例如，视频游戏系统可以基于物体的新位置更新视频游戏中显示的图像的位置，或者基于用户的运动更新化身。

计算系统112可以是计算机、游戏系统或控制台等。根据示例实施例，计算系统112可以包括硬件组件和/或软件组件，使计算系统112可用来执行诸如游戏应用、非游戏应用等之类的应用。在一个实施例中，计算系统112可以包括诸如标准化处理器、专用处理器、微处理器等之类的处理器，其可执行存储在处理器可读存储设备上的指令来进行本文所描述的处理。

捕获设备120可以是例如以可视的方式监测一个或多个用户（诸如用户118）的摄像机，使得由一个或多个用户执行的姿势和/或移动可以被捕获、分析和跟踪，以便在应用内执行一个或多个控制或动作，和/或使化身或屏幕上的角色动起来，如将在下文更加详细地描述的。

根据一实施例，跟踪系统100可以连接到诸如电视、显示器、高清电视（HDTV）等之类的视听设备116，其可以向用户（诸如用户118）提供游戏或应用的画面和/或音频。例如，计算系统112可以包括诸如图形卡之类的视频适配器和/或诸如声卡之类的音频适配器，其可以提供与游戏应用、非游戏应用等之类的相关联的视听信号。视听设备116可以从计算系统112接收视听信号，然后可以将与视听信号相关联的游戏或应用的画面和/或音频输出给用户118。根据一实施例，视听设备16可以经由例如超级视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等连接到计算系统112。

如图1A和IB所示，跟踪系统100可用来识别、分析、和/或跟踪人类目标（诸如用户118）。例如，可以使用捕获设备120来跟踪用户118，使得用户118的姿势和/或移动可以被捕获以便使化身或屏幕上的角色动起来，和/或使得用户118的姿势和/或运动可以被解释为可用来影响正在由计算系统112执行的应用的控制。因此，根据一实施例，用户118可以移动他或她的身体，以便对应用进行控制和/或使化身或屏幕上的角色动起来。

在图1A和1B所描绘的示例中，在计算系统112上执行的应用可以是用户118正在玩的拳击游戏。例如，计算系统112可以使用视听设备116向用户118提供拳击对手138的可视化表示。计算系统112还可以使用视听设备116提供用户118通过他或她的移动来控制的玩家化身140的可视化表示。例如，如图1B所示，用户118可以在物理空间中出拳使玩家化身140在游戏空间中出拳。因此，根据示例实施例，计算机系统112和捕获设备120识别并分析用户118在物理空间的出拳使得该出拳可被解释为对游戏空间中的玩家化身140的游戏控制，和/或使得该出拳运动可用来使游戏空间中的玩家化身140运动起来。

用户118的其他移动也可以被解释为其他控制或动作和/或用来使玩家化身（也可称为用户化身）动起来，诸如进行跳动、迂回前进、到处转移、阻截、猛击或者打出各种不同力量的拳的控制。此外，一些移动可以被解释为可能对应于控制玩家化身140以外的动作的控制。例如，在一个实施例中，玩家（也可称为用户）可以使用移动来结束、暂停、或保存游戏、选择级别、查看高分榜、与朋友交流等。根据另一个实施例，玩家可以使用运动从主用户接口接口中选择游戏或其他应用。因此，在示例实施例中，可以以任何适当的方式使用户118全方位的运动可用、被使用和分析，以便和应用进行交互。

在示例实施例中，人类目标（诸如用户118）可以拥有一个物体。在这些实施例中，电子游戏的用户可以握住物体使玩家和物体的运动可用来调整和/或控制游戏参数。例如，玩家握住球拍的运动可以被跟踪并利用来控制电子竞技游戏中屏幕上的球拍。在另一个示例实施例中，玩家握住物体的运动可以被跟踪并用于控制电子对抗游戏中屏幕上的武器。还可以对用户没有握住的物体进行跟踪，诸如用户（或者不同的用户）抛掷、推动或滚动的物体以及自推进的物体。除了拳击，还可以实施其他游戏。

根据其他示例实施例，跟踪系统100可以进一步地用来将目标移动解释为游戏范围之外的操作系统和/或应用的控制。例如，操作系统和/或应用的几乎任何可控的方面都可以通过诸如用户118之类的目标的移动进行控制。

图2A示出了可以在跟踪系统中使用的捕获设备120的示例实施例。根据示例实施例，捕获设备120可以配置来捕获具有深度信息的视频，深度信息包括可通过任何适当的技术将深度值包括在内的深度图像，其中任何适当的技术包括，例如，飞行时间、结构光、立体图像等。根据一个实施例，捕获设备120可以将深度信息组织成"Z层"，或组织成可垂直于从深度摄像机沿着其瞄准线延伸的Z轴的层。

如图2A所示，捕获设备120可以包括图像摄像机组件222。根据示例实施例，图像摄像机组件222可以是可捕获场景的深度图像的深度摄像机。深度图像可以包括捕获的场景的二维（2D）像素区域，其中2D像素区域中的每个像素可以代表一个深度值，诸如在捕获的场景中，是物体到摄像机的距离（单位例如为厘米、毫米等）。

如图2A所示，根据示例实施例，图像摄像机组件222可以包括红外（IR）光组件224，三维（3D）摄像机226，和可用来捕获场景的深度图像的RGB摄像机228。例如，在飞行时间分析中，捕获设备120的IR光组件224可以向场景发出红外光，并且然后可以使用例如3D摄像机226和/或RGB摄像机228，使用传感器（未示出）来检测来自场景中一个或多个目标和物体表面的散射光。在一些实施例中，可以使用脉冲红外光使得出射光脉冲和相应的入射光脉冲之间的时间可被测量并用来确定从捕获设备120到场景中的目标或物体上的特定位置之间的物理距离。另外，在其他示例实施例中，可以将出射光波的相位和入射光波的相位相比较以确定相移。然后可以使用相移确定从捕获设备到目标或物体上的特定位置的物理距离。

根据另一个示例实施例，可以通过分析反射光束随着时间推移的光强，经由包括例如关闭光脉冲成像在内的各种技术，使用飞行时间分析来间接确定从捕获设备120到目标或物体上的特定位置的物理距离。

在另一个示例实施例中，捕获设备120可以使用结构光来捕获深度信息。在这种分析中，可以经由例如IR光组件224将图案化的光（即，光被显示为一个已知的图案，诸如网格图案、条纹图案或不同的图案）投射到场景上。触击场景中一个或多个目标或物体的表面后，图案可能作为响应而变形。这种图案的变形可以由例如3D摄像机226和/或RGB摄像机28捕获，并且然后可以进行分析，以确定从捕获设备到目标或物体上的特定位置的物理距离。在一些实施方式中，IR光组件224从摄像机226和228移位，所以可以使用三角测量来确定到摄像机226和228的距离。在一些实施方式中，捕获设备120将包括专用的IR传感器来感测IR光。

根据另一个实施例，捕获设备120可以包括可以从不同的角度查看场景的两个或多个在物理上相分离的摄像机，以获得可被解析用来生成深度信息的视觉立体数据。其他类型的深度图像传感器也可用于创建深度图像。

捕获设备120可以进一步包括麦克风130。麦克风130可以包括可接收声音并将声音转换成电信号的换能器或传感器。根据一个实施例，可以使用麦克风130来减少在目标识别、分析和跟踪系统100中捕获设备120和计算系统112之间的反馈。此外，可以使用麦克风30接收也可由用户提供的、以对诸如可由计算系统112执行的游戏应用、非游戏类应用等之类的应用进行控制的音频信号。

在示例实施例中，捕获设备120可以进一步包括可与图像摄像机组件222进行操作通信的处理器232。处理器232可以包括标准化处理器、专用处理器、微处理器等，其可以执行包括例如接收深度图像、生成相应的数据格式（例如，帧）以及将数据传递给计算系统112在内的指令。

捕获设备120可以进一步包括内存组件234，其可以存储可由处理器232执行的指令、由3D摄像机和/或RGB摄像机捕获的图像或图像的帧、或任何其他适当的信息、图像等。根据示例实施例，内存组件234可以包括随机存取存储器（RAM）、只读存储器（ROM）、缓存、闪存、硬盘或任何其他适当的存储组件。如图2A所示，在一个实施例中，内存组件234可以是与图像捕获组件222以及处理器232通信的单独组件。根据另一个实施例，内存组件234可以集成到处理器232和/或图像捕获组件222中。

如图2A所示，捕获设备120可以经由通信链路236和计算系统212进行通信。通信链路236可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接，和/或诸如无线802.11b、g、a、或n连接之类的无线连接。根据一个实施例，计算系统112可以向捕获设备120提供可用来确定何时例如经由通信链路236捕获场景的时钟。另外，捕获设备120经由通信链路236向计算系统112提供由例如3D摄像机226和/或RGB摄像机228捕获的深度图像和彩色图像。在一个实施例中，以每秒30帧的速率发送深度图像和彩色图像。计算系统112然后可以使用模型、深度信息以及捕获到的图像来例如控制诸如游戏或文字处理器之类的应用，和/或使化身或屏幕上的角色动起来。

计算系统112包括手势库240、结构数据242、深度图像处理和物体报告模块244以及应用246。深度图像处理和物体报告模块244使用深度图像来跟踪诸如用户和其他物体之类的物体的位置和/或运动。为了协助物体的跟踪，深度图像处理和物体报告模块244使用手势库240和结构数据242。

结构数据242包括有关可被跟踪的物体的结构信息。例如，可以存储人体骨骼模型来帮助理解用户的移动并识别身体部位。也可以存储有关无生命物体的结构信息来帮助识别这些物体并帮助理解移动。

手势库240可以包括许多手势过滤器，每个手势过滤器均包括与可由骨骼模型（随着用户的移动）执行的手势有关的信息。由摄像机226和228和捕获设备120以骨骼模型的形式捕获的数据以及与其相关联的移动可以和手势库240中的手势过滤器相对比，以辨识用户（由骨骼模型代表）在何时已执行一个或多个手势。那些手势可能与应用的各种控制相关联。因此，计算系统112可以使用手势库240解释骨骼模型的移动，并基于该运动控制应用246。因此，手势库可由深度图像处理和物体报告模块244和应用246使用。

应用246可以是视频游戏、生产力应用等。在一个实施例中，深度图像处理和物体报告模块244将向应用246报告对每个检测到的物体的辨识以及针对每个帧的物体的位置。应用246将使用这些信息来更新显示屏中的化身或其他图像的位置或运动。

图2B示出了图2A中介绍的深度图像处理和物体报告模块244的示例实施例。参照图2B，深度图像处理和物体报告模块244被示出为包括深度图像分割模块252、分辨率降低模块254、孔洞检测模块256、孔洞填充模块258和地面去除模块260。在实施例中，深度图像分割模块252被配置来检测深度图像内的一个或多个用户（例如，人类目标），并将分割值与每个像素关联起来。这些分割值用来指示哪些像素对应于用户。例如，可以为对应于第一个用户的所有像素分配分割值1，为对应于第二个用户的所有像素分配分割值2，为不与用户对应的像素分配任意预定值（例如，255）。将分割值分配给在深度图像内辨识的用户以外的物体，诸如，但不限于，网球拍、跳绳、球、地面等也是可能的。在实施例中，作为深度图像分割模块252执行的分割过程的结果，深度图像中的每个像素将会有四个与像素相关联的值，包括：x位置值（即，横向值）；y位置值（即，纵向值）；z位置值（即，深度值）；和上文刚解释过的分割值。换句话说，分割后，深度图像可以指定多个像素对应于一个用户，其中，这些像素也可以被称为被指定为对应于用户的像素子集，或者被称为用户的深度图像轮廓。此外，深度图像可以为对应于用户的每一个像素子集指定像素位置和像素深度。像素位置可以由x位置值（即横向值）和y位置值（即，纵向值）指示。像素深度可以由z位置值（也称为深度值）指示，z位置值指示了用来获取深度图像的捕获设备（例如，120）和由像素表示的用户的部分之间的距离。

仍然参照图2B，在实施例中，分辨率降低模块254用于生成包含在深度图像中的用户的较低分辨率的表示，该深度图像反映了用户的外形，没有对用户的线条分明的身体部位进行平滑，但不是用户的镜像。孔洞检测模块256用于当捕获设备（例如，120）被用来获取深度图像时，对因用户的一个部分遮挡了该用户的另一个部分而产生的深度图像的像素中的孔洞进行检测。孔洞填充模块258用于对检测到的孔洞进行孔洞填充。地面去除模块260用来从被指定为对应于用户的像素子集中去除可能对应于支撑用户的地面的像素。下文参照图7和图8对与生成包括在深度图像中的用户的较低分辨率的表示有关的另外的细节进行描述。下文参照图7和图9至图12B对与在对应于用户的深度图像的像素子集中进行辨识和孔洞填充有关的另外的细节进行描述。下文参照图13对与地面去除技术有关的另外的细节进行描述。深度图像处理和物体报告模块244还可以包括本文没有具体描述的另外的模块。

图3示出了可能是图1A至图2B所示的用来跟踪运动和/或使实际用户的表示、化身或应用显示的其他屏幕上的物体动起来（或者更新）的计算系统112的计算系统的示例实施例。诸如上文有关图1A至图2所述的计算系统112之类的计算系统可以是多媒体控制台，诸如游戏控制台。如图3所示，多媒体控制台300具有包括1级缓存302、2级缓存304、和闪存ROM（只读存储器）306的中央处理单元（CPU）301。1级缓存302和二级缓存304暂时存储数据并据此减少内存访问周期数，从而提高处理速度和吞吐量。提供的CPU301可以具有一个以上的核，并因此，可以具有额外的1级和2级缓存302和304。闪存ROM306可以存储在多媒体控制台300通电时的启动过程的初始阶段中加载的可执行代码。

图形处理单元（GPU）308和视频编码器/视频编解码器314形成了用于高速和高分辨率的图形处理的视频处理的渠道。经由总线将数据从GPU308传送到视频编码器/视频编解码器314。视频处理渠道将数据输出到A/V（音频/视频）端口340，以传输到电视或其他显示器。内存控制器310连接到GPU308，以便处理器访问各种类型的内存312，诸如，但不限于，RAM（随机存取存储器）。

多媒体控制台300包括优选地在模块318上实施的I/O控制器320、系统管理控制器322、音频处理单元323、网络接口324、第一USB主机控制器326、第二USB控制器328和前面板I/O子组件330。USB控制器326和328作为主机用于外设控制器342（l）和342（2）、无线适配器348和外部内存设备346（例如，闪存、外部CD/DVDROM驱动器、可移除媒体等）。网络接口324和/或无线适配器348提供对网络（例如互联网、家庭网络等）的访问，并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等在内的广泛多样的各种有线或无线适配器组件的任何一种。

系统内存343被提供来存储在启动过程中加载的应用数据。提供媒体驱动器344，其可以包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器或其他可移除的媒体驱动器等。媒体驱动器344可以位于多媒体控制台300的内部或外部。经由媒体驱动器344可以访问应用数据以便由多媒体体控制台300执行、回放等。媒体驱动器344经由总线（诸如串行ATA总线）或其他高速连接（例如，IEEE1394）连接到I/O控制器320。

系统管理控制器322提供各种与保证多媒体控制台300的可用性相关的服务功能。音频处理单元323和音频编解码器332构成了具有高保真立体声处理的相应的音频处理渠道。音频数据经由通信链路在音频处理单元323和音频编解码器332之间传送。音频处理渠道将数据输出到A/V端口340以便由外部音频播放器或具有音频功能的设备放出。

前面板I/O子组件330支持电源按钮350和弹出按钮352，以及任何LED（发光二极管）或多媒体控制台300的外表面上露出的其他指示器的功能。系统供电模块336向多媒体控制台300的组件提供电源。风扇338为多媒体控制台300内的电路降温。

CPU301、GPU308、内存控制器310和多媒体控制台300中各种其他组件经由一个或多个总线（包括串行总线和并行总线、内存总线、外设总线、和使用各种总线架构的任何一种的处理器总线或局部总线）相互连接。举例来说，这种架构可以包括外设组件互连（PCI）总线、PCI快速总线等。

当多媒体控制台300通电时，应用数据可以从系统内存343加载到内存312和/或缓存302和304中，并在CPU301上执行。应用可以呈现图形用户接口，在导航到多媒体控制台300上可用的不同的媒体类型时，该图形用户接口提供了一致的用户体验。在操作中，可以从媒体驱动器344启动或播放应用和/或包含在媒体驱动器344中的其他媒体，以便为多媒体控制台300提供其他功能性。

多媒体控制台300可通过简单地将系统连接到电视或其他显示器来作为一个独立的系统操作。在这种独立模式下，多媒体控制台300允许一个或多个用户与系统交互、看电影、或者听音乐。然而，由于可以通过网络接口324或无线适配器348集成宽带连接，多媒体控制台300可以作为一个更大的网络社区的参与者而被进一步操作。

当多媒体控制台300通电时，由多媒体控制台操作系统保留一定数量的硬件资源量供系统使用。这些资源可以包括预留的内存（例如，16MB）、CPU和GPU周期（例如，5%）、网络带宽（例如，8kbs）等。因为这些资源在系统启动时预留，所预留的资源不存在于应用的视图中。

特别是，预留的内存优选地大到足以包含启动内核、并发系统应用和驱动程序。优选地，预留的CPU是恒定的，使得如果系统应用没有使用预留的CPU使用率，空闲线程会消耗任何未使用的周期。

对于GPU预留，通过对进度代码使用GPU中断而将弹出窗口渲染到覆盖图中以便显示系统应用（例如，弹出窗口）产生的轻量级消息。覆盖图使用的内存量取决于覆盖区域大小，覆盖图优选地与屏幕分辨率成比例。在完整的用户接口被并发系统应用使用的情况下，优选使用独立于应用分辨率的分辨率。可使用定标器设置分辨率，这消除了更改频率和致使电视再同步的需要。

在多媒体控制台300启动以及系统资源被预留之后，并发系统应用运行以提供系统功能性。系统功能性封装在一组在上文所述的预留系统资源内运行的系统应用中。操作系统内核对比游戏应用线程辨识属于系统应用线程的线程。优选地，系统应用被调度成在预定的时间以预定的间隔在CPU301上运行，以便为该应用提供一致的系统资源视图。调度用于尽量减小用于在控制台上运行的游戏应用的缓存中断。

当并发系统应用需要音频时，音频处理因为时间灵敏度而与游戏应用进行异步调度。当系统应用活动时，多媒体控制台应用管理器（如下所述）控制游戏应用的音频音量（例如，静音，减弱）。

输入设备（例如，控制器342（1）和342（2））由游戏应用和系统应用共享。输入设备不是预留的资源，但是在系统应用和游戏应用之间切换，使得每个输入设备都有一个设备焦点。优选地，应用管理器在不具与游戏应用的知识有关的知识的情况下控制输入流的切换，驱动程序维护有关焦点切换的状态信息。摄像机226和228和捕获设备120可以经由USB控制器326或其他接口，限定用于控制台300的其他输入设备。

图4示出了可以是图1A至图2B显所示的用来跟踪运动和/或使实际用户的表示、化身或由应用显示的其他屏幕上的物体动起来（或者更新）的计算系统112的计算系统420的另一个示例实施例。计算系统420只是一个适当的计算系统的示例，并不旨在就当前公开的主题的使用或功能性的范围暗示任何限制。计算系统420不应被解释成具有和任何与示例计算系统420中示出的组件的任何一个或组合有关的依赖性或要求。在一些实施例中，各种描绘的计算元件可以包括配置为对当前公开的具体方面举例说明的电路。例如，在本公开中使用的术语电路可以包括专门的硬件组件，其被配置成通过固件或交换机执行（多个）功能。在其他示例实施例中，术语电路可以包括通用处理单元、内存等，其被包含可用于执行（多个）功能的逻辑的软件指令进行配置。在电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，源代码可以被编译成可被通用处理单元处理的机器可读代码。既然所属领域的技术人员可以理解现有技术已经发展到硬件、软件、或硬件/软件组合之间相差无几的阶段，用来完成具体功能的硬件和软件之间的选择是为实施者留下的一个设计选择。更具体地，所属领域的技术人员可以理解软件过程可以转换为等效的硬件结构，并且硬件结构本身可以转换为一个等效的软件过程。因此，硬件实施方式与软件实施方式之间的选择是留给实施者的一个设计选择。

计算系统420包括计算机441，其通常包括各种不同的计算机可读介质。计算机可读介质可以是可由计算机441访问的任何可用的介质，包括易失性和非易失性介质，以及可移除和不可移除介质。系统内存422包括诸如只读存储器（ROM）423和随机存取存储器（RAM）460之类的易失性和/或非易失性内存形式的计算机存储介质。包含有助于在诸如启动期间在计算机441内在元件之间传输信息的基本例程的基本输入/输出系统424（BIOS）通常存储在ROM423中。RAM460通常包含处理单元459可立即访问的和/或当前在其上正在操作的数据和/或程序模块。举例说明，并非限制，图4示出了操作系统425、应用程序426、其他程序模块427和程序数据428。

计算机441还可包括其他可移除的/不可移除的、易失性/非易失性计算机存储介质。仅举例说明，图4示出了从不可移除的非易失性磁性介质读取或向其写入的硬盘驱动器438，从可移除的非易失性磁盘454读取或向其写入的磁盘驱动器439，和从诸如CDROM或其他光学介质之类的可移除的非易失性光盘453读取或向其写入的光盘驱动器440。其他可在示例操作环境中使用的可移除的/不可移除的、易失性/非易失性计算机存储介质包括，但不限于，盒式磁带、闪存卡、数字多功能光盘、数字视频带、固态RAM、固态ROM等。硬盘驱动器438通常通过诸如接口434之类的不可移除的内存接口连接到系统总线421，并且磁盘驱动器439和光盘驱动器440通常通过诸如接口435之类的可移除的内存接口连接到系统总线421。

以上讨论的并在图4示出的驱动器及其相关联的计算机存储介质为计算机441提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图4中，例如，硬盘驱动器438被示出为存储有操作系统458、应用程序457、其他程序模块456和程序数据455。请注意，这些组件可以和操作系统425、应用程序426、其他程序模块427和程序数据428相同或不同。此处为操作系统458、应用程序457、其他程序模块456和程序数据455给出了不同的编号，以示出其至少属于不同的版本。用户可以通过诸如键盘451和定位设备452（通常被称为鼠标，轨迹球或触摸板）之类的输入设备将命令和信息输入到计算机441中。其他输入设备（未示出）可以包括麦克风、游戏杆、游戏垫、碟型卫星天线、扫描仪等。这些和其他输入设备通常通过耦接到系统总线的用户输入接口436连接到处理单元459，但是可能通过诸如并行端口、游戏端口或通用串行总线（USB）之类的其他接口与总线结构连接。摄像机226和228和捕获设备120可以为计算系统420限定经由用户输入接口436连接的其他输入设备。监测器442或其他类型的显示设备还经由诸如视频接口432之类的接口连接到系统总线421，除了监测器，计算机还可以包括诸如扬声器444和打印机443之类的可经由输出外设接口433连接的其他外设输出设备。捕获设备120可以通过输出外设接口433、网络接口437或其他接口连接到计算系统420。

计算机441可以使用到一个或多个远程计算机（诸如远程计算机446）的逻辑连接在联网环境中操作。远程计算机446可以是计算机、服务器、路由器、上网电脑、对等设备或其他常见的网络节点，通常包括多个或全部上面相对于计算机441描述的元件（虽然图4中仅示出了内存存储设备447）。描绘的逻辑连接包括局域网（LAN）445和广域网（WAN）449，但可能还包括其他网络。这种联网环境在办公室、企业内部计算机网络、内部网和互联网中较为常见。

在LAN网络环境中使用时，计算机441通过网络接口437连接到LAN445。在WAN网络环境中使用时，计算机441通常包括调制解调器450或用于在诸如互联网之类的WAN449上建立通信的其他手段。调制解调器450（可以是内部调制解调器或外部调制解调器）可以经由用户输入接口436或其他合适的机制连接到系统总线421。在联网环境中，相对于计算机441或其一些部分描绘的程序模块可以存储在远程内存存储设备中。举例说明，并非限制，图4示出了驻留在内存设备447上的应用程序448。将预见所示的网络连接是示例性的，并且可以使用用于在计算机之间建立通信链接的其他手段。

如上所述，捕获设备120向计算系统120提供RGB图像（也称为彩色图像）和深度图像。深度图像可以是多个观察到的像素，其中每个像素都具有观察到的深度值。例如，深度图像可以包括捕获的场景的二维（2D）像素区域，其中2D像素区域中的每个像素可以具有一个深度值，诸如在捕获的场景中，是物体到捕获设备的长度或距离（单位例如为厘米、毫米等）。

如上所述，骨骼跟踪（ST）技术通常用于检测和生成用户的表示以供显示，和检测用户行为。然而，虽然在某些情况下对检测和显示用户的表示很有用，但是ST技术已被证明无法在其他情况下可靠地对用户的表示进行检查和显示。例如，ST技术通常在用户躺或坐在地上或者躺或坐在地面附近的情况下，无法可靠地对用户的表示进行检测和显示。本文所描述的某些实施例依赖图像对用户的表示进行检测和显示和/或对用户的行为进行检测。因此，在讨论这些实施例的额外的细节之前，首先提供深度图像的额外的细节会很有用。

图5示出了可以在计算系统112接收来自捕获设备120的深度图像的示例实施例。根据示例实施例，深度图像可以是例如上文关于图2A所描述的捕获设备120的3D摄像机226和/或RGB摄像机228捕获的图像和/或场景的帧。如图5所示，深度图像可以包括对应于例如诸如用户（诸如上文参照图1A和1B所述的用户118）的人类目标，以及捕获的场景中的诸如墙壁、桌子、监测器之类的一个或多个非人类目标等。如上文所述，深度图像可以包括多个观察到的像素，其中每个观察到的像素都具有与其相关联的观察到的深度值。例如，深度图像可以包括捕获的场景的二维（2D）像素区域，其中2D像素区域中特定X值和y值处的每个像素可以具有一个深度值，诸如在捕获的场景中，是目标或物体到捕获设备的长度或距离（单位例如为厘米、毫米等）。换句话说，如上文在对图2B讨论中所解释的，深度图像可以为深度图像中的每一个像素指定像素位置和像素深度。在例如由深度图像处理和物体报告模块244执行的分割过程之后，深度图像中的每个像素可以也可以具有与其相关联的分割值。像素位置可以由x位置值（即横向值）和y位置值（即，纵向值）指示。像素深度可以由z位置值（也称为深度值）指示，z位置值指示了用来获取深度图像的捕获设备（例如，120）和由像素表示的用户的部分之间的距离。分割值用来指示像素是对应于特定的用户还是不与用户对应。

在一个实施例中，深度图像可以是彩色的或灰度的，使得深度图像的像素的不同颜色和明暗对应于和/或直观地描绘目标到捕获设备120的不同距离。收到图像后，一个或多个高方差和/或扰动的（noisy）深度值可能会从深度图像中删除和/或平滑掉；丢失的和/或删除的深度信息的部分可以被填充和/或重构；和/或可以在接收的深度图像上执行任何其他适当的处理。

图6提供了深度图像的另一个视图/表示（不与图5的相同示例对应)。图6的视图显示了每个像素作为代表目标针对该像素到捕获设备120的距离的整数的深度数据（即，z位置值）。图6的示例深度图像显示了24×24个像素；然而，很可能将使用更大分辨率的深度图像。图6中由z位置值所表示的每一个像素还可以包括x位置值、y位置值和分割值。例如，在左上角的像素可以是x位置值=1，y位置值=1；在左上角的像素可以是x位置值=1，y位置值=24。如上文所述，分割值用来指示哪些像素对应于用户。这些分割值可以存储在称为分割图像或缓冲区的另一个图像或缓冲区内，或者可以存储在深度图像内。无论哪种方式，指定了深度图像内的像素子集对应于用户的信息可供分析或以其他方式处理或操作深度图像时使用。

根据某些实施例，图7的高级流程图现在将被用来总结用于在深度图像内辨识孔洞和填充孔洞的方法。在具体实施例中，这些方法用于辨识和填充只处于对应于用户的像素子集内（深度图像内）的孔洞。通过把孔洞的辨识限制到对应于用户的像素子集，不太可能出现对辨识的孔洞的填充泄露超出深度图像中代表的用户轮廓这种不可取的现象。

参照图7，在步骤702中，获取深度图像和指定深度图像内的像素子集对应于用户的信息。如上文所述，这种（指定深度图像内的像素子集对应于用户的）信息（也可称为分割信息）可以包括在深度图像中，或者可以从与深度图像分离的分割图像或缓冲区获取。在步骤702中获取的深度图像可以是使用与用户保持位置距离的捕获设备（例如，120）获取的原始深度图像。另选地，在步骤702获取的深度图像可能已经经过了某预处理。例如，在某些实施例中，（使用捕获设备获取的）原始深度图像的分辨率降低到较低分辨率的深度图像，并且该较低分辨率的深度图像（可被简称为低分辨率深度图像）就是在步骤702中获取的内容。根据某些实施例，下文参照图8对如何生成这种低分辨率深度图像的额外的细节进行描述。

在步骤702获取的深度图像和信息可以为对应于用户的每一个像素子集指定像素位置和像素深度。如上所述，在对图2B的讨论中，像素位置可以由x位置值（即横向值）和y位置值（即，纵向值）指示。像素深度可以由z位置值（也称为深度值）指示，z位置值指示了用来获取深度图像的捕获设备（例如，120）和由像素表示的用户的部分之间的距离。为了进行这种描述，假设在步骤702中接收的深度图像已经进行了分割过程，该分割过程决定了哪些像素对应于用户以及哪些像素不与用户对应。另选地，如果在步骤702接收的深度图像尚未通过分割过程，该分割过程可以在步骤702和步骤704之间进行。

下文将进一步详细讨论的步骤704至步骤710被用来辨识孔洞（在对应于用户的深度图像内的像素子集内），使得这些孔洞可以在步骤712被填充。如下文将描述的，某些步骤被用来辨识潜在的作为孔洞的一部分的像素，而另一个步骤将像素组（辨识为潜在地作为孔洞的一部分）分类为孔洞或非孔洞。被辨识为潜在地作为孔洞的一部分的像素（但实际上并非孔洞的一部分）可称为假阳性。未被辨识为潜在地作为孔洞的一部分的像素（但是实际上是孔洞的一部分）可称为假阴性。通过以下讨论将会理解的是，本文所描述的实施例可以用来降低假阳性和假阴性。

在步骤704，对被指定为对应于用户的像素子集内的一个或多个像素跨度进行辨识，该像素潜在地是孔洞的一部分。这种孔洞通常是在捕获设备（例如120）被用来获取深度图像时，由于用户的一个部分遮挡了该用户的另一部分而造成的。每个辨识的跨度可以是横向跨度或纵向跨度。根据实施例，每个横向跨度具有一个像素的纵向高度和至少预定数目的像素（例如，5个像素）的横向宽度。根据实施例，每个纵向跨度具有至少预定数目的像素（例如，5个像素）的纵向高度和一个像素的横向高度。通过以下讨论将会理解的是，对这些跨度的辨识有助于辨识被指定对应于用户的像素子集内的潜在孔洞的边界。根据实施例，下文参照图9对步骤704的额外的细节进行描述。

在步骤704和706之间，可能被错误地标记为潜在地作为孔洞的一部分的跨度可以被辨识和重新分类为非潜在地作为孔洞的一部分。例如，在实施例中，任何超出预定宽度或预定长度的跨度可以被重新分类为不再被辨识为潜在地作为孔洞的一部分。例如，可以试探性地确定深度图像中表示的用户将可能由一定数量的高度像素和一定数量的宽度像素表示。如果辨识的跨度的高度大于用户的预期高度，该跨度可被重新分类为不再被辨识为潜在地作为孔洞的一部分。类似地，如果辨识的跨度的宽度大于用户的预期宽度，该跨度可被重新分类为不再被辨识为潜在地作为孔洞的一部分。另外，或者另选地，在关于哪些像素可能对应于用户身体的哪些部分的信息可用的情况下，在已被试探性地发现被频繁地错误标记为孔洞的身体部位范围内的跨度或靠近该身体部位的跨度可以被重新分类为不再被辨识为潜在地作为孔洞的一部分。关于哪些像素可能对应于哪些身体部位的信息可从结构数据（例如242）中获取，但是并不限于此。举个更具体的例子，对应于面向捕获设备的下肢的像素已被发现经常被错误地标记为孔洞。在某些实施例中，如果确定已辨识的跨度是用户的下肢的一部分，该跨度则可以被重新分类为不再被辨识为潜在地作为孔洞的一部分。

在步骤706，分析跨度邻近像素以确定一个或多个跨度邻近像素是否也被辨识为潜在地作为被指定为对应于用户的像素子集中的孔洞的一部分。跨度邻近像素（如本文所使用的术语）是指邻近至少一个在步骤704中辨识的横向或纵向跨度的像素。该步骤用来辨识潜在地是孔洞的一部分但在步骤704中未被辨识的像素。因此，该步骤用来降低潜在的假阴性。换句话说，该步骤用来辨识应被辨识为潜在地作为孔洞的一部分但未包括在步骤704中辨识的跨度的一个的像素。根据实施例，下文参照图10对步骤706的额外的细节进行描述。

在步骤708，把彼此邻近且已被辨识为潜在地作为（被指定为对应于所述用户的像素子集中）的孔洞的一部分的像素一起分组为潜在对应于（被指定为对应于用户的像素子集中）一个或多个孔洞的像素岛。例如，可使用泛洪填充算法（也称为种子填充法）执行步骤708，但不限于此。在某些实施例中，被视为是常见岛的一部分的每个像素均分配有一个常见的岛值。例如，被视为第一岛的一部分的所有像素可以分配有岛值1，并且被视为第二个岛的一部分的所有像素可分配有岛值2，诸如此类。

在步骤710，（被指定为对应于用户的像素子集中）被辨识为像素岛的每一个被分类为孔洞或非孔洞。因此，该步骤用来去除任何可能在前期执行的步骤之后保留的任何假阳性。根据实施例，下文参照图11对步骤710的额外的细节进行描述。

在步骤712，孔洞填充（也称为图像完善或图像修复）分别在分类为孔洞的每一个像素岛上执行。可以执行各种不同类型的孔洞填充。在某些实施例中，使用散乱数据插值执行孔洞填充。这可以包括，例如，针对每个分类为孔洞的个别的岛，同时求解岛的每个像素的拉普拉斯算子，并将辨识为作为边界点的像素处理为边界问题以求解决方案。更具体地，将非边界点的拉普拉斯算子设置为零并将边界点设置为自己，可以基于被分类为孔洞的像素岛构建方程的稀疏系统。利用逐次超松驰（例如，1.75）使用高斯-塞德尔（GS）法，可以在多次迭代之后实现可靠的孔洞填充。另选地，可以使用雅可比法替代高斯-赛德尔法对方程求解进行并行化。在另一个实施例中，径向基函数（RBF）可以用来执行孔洞填充。其他类型的散乱数据插值技术可以替代地用于孔洞填充。进一步地，除了基于散乱数据插值的技术，可以使用孔洞充填技术的替代类型。

在步骤714，存储指示孔洞填充结果的信息（例如，在内存312或422中）。例如，这种信息可以存储为与在步骤712获取的深度图像分离（但是一起使用）的深度值数组。另选地，可以修改深度图像，使得用于被辨识为作为孔洞一部分的每个像素的深度值被替换成从孔洞填充所产生的相应的深度值。无论哪种方式，孔洞填充过程的结果可在显示用户的表示时使用（如步骤716所示）。在显示用户的这种表示之前，可以使用已知的转换技术把深度图像中的深度值从深度图像空间转换到摄像机空间。例如，通过理解用来获取深度图像（或其更高的分辨率版本）的捕获设备（例如，120）的几何光学，可以和用于孔洞的所有的填充的深度值一起计算用于深度图像中每个像素的摄像机空间位置。然后可以使用数值微分来估计每个像素的法线（normal）并以此估计曲面方向。根据具体实施例，为了减少用户的表示中的抖动（包括在显示的图像中），暂时存储对应于帧的摄像机空间位置，使得对应于帧的摄像机空间位置可以和对应于前一帧的位置相比较。每个像素的位置然后可以和其在前一帧的位置相比较，以确定在其之间的距离（即，位置变化）是否超出指定的阈值。如果超出阈值，在显示用户的表示时，该像素在所显示的用户表示中的位置相对于前一个帧没有变化。如果超出阈值，那么该像素在所显示的用户表示中的位置相对于前一个帧发生变化。通过在像素的位置变化超出了指定的阈值时只更改像素在所显示的用户表示中的位置，降低所显示的用户表示中的抖动（例如，由与用来获取深度图像的捕获设备相关联的噪声产生的抖动）。

现在将参照图8至图11在下文对上文参照图7所讨论的具体步骤的更多细节进行描述。

图8示出了根据某些实施例用来提供图7中步骤702的额外的细节的流程图。更具体地，图8用来描述如何生成已被指定为对应于用户的低分辨率版本的像素子集，使得在显示用户的表示时，图像反映出用户的外形而且没有对用户线条分明的身体部分进行平滑，但并不是用户的镜像。捕获设备（例如，120）用来获取具有原始分辨率（例如，320x240个像素）的原始版本的深度图像，但并不限于此。进一步地，深度图像分割模块252用来指定原始深度图像内的哪个像素子集对应于用户。这种像素子集可以用来显示包括用户相对准确的表示的图像。然而，根据应用，可能更需要显示包括不太准确的用户表示、但仍然反映出用户的整体形状而且没有对线条分明的身体部分进行平滑的图像。例如，在应用显示进行用户被指示来进行的某些锻炼的用户的表示的情况下，可能不需要显示超重或瘦长用户的准确表示。这是因为有些人在运动时不喜欢看到自己相对准确的镜像。因此，本技术的某些实施例与用于生成与用户对应的较低分辨率版本的像素子集的技术相关，现在将参照图8对这些实施例进行描述。

参照图8，步骤802包括接收（使用距离用户一定距离的捕获设备获取的）原始版本的深度图像和指定了深度图像内的像素子集对应于用户的原始信息。步骤804包括对被指定为对应于用户的原始深度图像内的像素子集进行下采样，以产生对应于用户的第一低分辨率像素子集。例如，下采样可以把深度图像的分辨率从320×240个像素降低为80×60个像素，但并不限于此。在实施例中，执行下采样时，多个较高分辨率像素块的每一个均由单个较低分辨率像素替换。例如，包括320×240个像素的原始深度图像的每个4×4像素块均可以由单个像素替换，以生成包括80×60个像素的较低分辨率深度图像。这只是示例，并非意在限制。此外，应主意的是，每个较高分辨率像素的块不需要大小相同。在某些实施例中，进行下采样时，对于每个较高分辨率像素块（例如，每个4×4块），专门或任意选定（较高分辨率像素块中的）像素中的一个，并将其与其相邻的像素相比较以生成用于替换较低分辨率深度图像中的较高分辨率像素块。在具体实施例中，这是通过将选定的像素替换成其相邻像素的加权和来完成。例如，以下方程可用于将深度图像的像素值替换为其相邻像素的加权和值（即，新值）：

。

传统的图像滤波（如模糊）通常指定权值作为输入像素和邻域像素之间的距离的函数，即，（输入位置和邻域位置缩写为i和n）如下所表示：

以上实际上是高斯滤波器。

根据具体实施例，在将（原始版本的深度图像中的）像素块替换成（像素块的）像素的相邻像素的选定的一个的加权和时，使用三边下采样法，其中三边下采样法使用三个加权因子生成加权和。这三个加权因子包括指示像素与相邻像素之间的距离的空间加权因子、指示像素的深度值与相邻像素的深度值之间的差是否小于阈值的深度加权因子、和指示相邻像素是否处于被指定为对应于用户的像素子集内的分割加权因子。三个加权因子可以表示为三个单独的函数，包括：

。

空间权值用来对图像进行滤波（例如，平滑）。“深度权值”确保在图像深度发生很大变化的情况下，平滑操作不会跨越边界。例如，考虑用户的胳膊伸在其前面。对应于手上的像素的深度会与胸部的像素出现很大的不同。若要保留手与胸部之间的边缘，滤波不应跨越手和胸部之间的边界。“分割权值”确保平滑操作不会跨越用户和背景场景之间的边界。没有“分割权值”，用户的深度值可能会混入到用户边缘处的背景环境中。

此外，对于每个较低的分辨率像素，可以确定和存储指示较低分辨率像素的覆盖范围的信息，其中指示较低分辨率像素的覆盖范围的信息指示了被指定为对应于用户的高分辨率像素（对应于低分辨率像素）的百分比。

在步骤804生成的对应于用户的第一低分辨率像素子集可以间或包括被错误地指定为对应于用户的假性像素。为去除这些假性像素，可以对对应于用户的第一低分辨率像素子集进行形态学打开，如步骤806所示。若要保留玩家的准确轮廓，在步骤808，通过把在对应于用户的原始版本的像素子集和对应于用户的第一低分辨率像素子集之中的像素包括在内（包括在对应于用户的第二低分辨率像素子集内），生成对应于用户的第二低分辨率像素子集。例如，步骤808可通过如下进行：使用二进制"与"运算，利用对应于用户的原始版本的像素子集遮蔽形态学打开的结果。

这个对应于用户的第二低分辨率像素子集可以是其中跨度在步骤704中被辨识的子集。另选地，使用和上文参照步骤804所描述的三边滤波法类似的三边滤波法（但是不执行任何进一步的分辨率降低），可以对第二低分辨率像素子集进一步滤波，而且所产生的对应于用户的低分辨率像素子集可以是其中跨度在步骤704中被辨识的子集。还有可能是，下采样的替代类型可以在步骤702或步骤702之前进行，或者根本不使用下采样。换句话说，在某些实施例中，在步骤702获取的深度图像不需要降低分辨率，因此，无需执行参照图8描述的步骤。

现在将使用图9解释如何在步骤704辨识对应于用户的像素子集之中潜在地是孔洞的一部分的一个或多个像素跨度的额外的细节。一般情况下，需要检测每个潜在孔洞的边界。根据具体实施例，这是通过（在被指定为对应于用户的像素子集内）辨识每个横向像素跨度完成的，其中，在横向跨度的两侧，深度值从一个像素变化到其超出深度不连续性阈值的横向相邻像素，如步骤902所示。另外，这是通过（在被指定为对应于用户的像素子集内）辨识像素的每个纵向跨度完成的，其中，在纵向跨度的两侧，深度值从一个像素变化到其超出深度不连续性阈值的纵向相邻像素。更一般地，在两个方向的每一个寻找足够大的深度不连续性。由于进行遮挡的身体部位一定比被遮挡的身体部位更靠近捕获设备（例如，120），所以，具有正增量值的深度不连续性（超出阈值）被辨识为潜在孔洞的起始点，而且具有负增量值的深度不连续性（超出阈值）被辨识为潜在孔洞的结束点。

在具体实施例中，要辨识潜在地是孔洞的一部分的像素的纵向跨度，可以对被指定为对应于用户的像素子集进行逐列分析，以辨识出任何两个连续的像素（据此第二个像素以大于深度不连续性阈值的值更靠近第一个像素）。这可以作为跨度的潜在的起始点存储，而且任何后续的起始点可以代替前面的点。由于无需填充多个层，所以无需存储起始点的历史。可以通过辨识两个连续的像素（据此第二个像素以大于相同的阈值而比第一个像素更远）来辨识跨度的潜在结束点，其中任何后续的结束点替换前面的点。跨度的起始点和结束点的之间的像素被辨识为潜在地作为孔洞的一部分。另外，对于每一对连续的像素（被辨识为具有超出深度不连续性阈值的深度值），两个像素中"更远"的一个被辨识为潜在孔洞的边界（并因此，也可以被称为潜在孔洞边界）。要辨识潜在地是孔洞的一部分的像素的横向跨度（以及进一步辨识潜在的孔洞边界），执行与刚刚所描述的用于辨识纵向跨度的过程类似的过程，除了对被指定为对应于用户的像素子集的逐行分析（而不是逐列分析）。

现在将使用图10解释在步骤706如何分析跨度邻近像素以确定一个或多个跨度邻近像素是否也被辨识为潜在地作为被指定为对应于用户的像素子集中的孔洞的一部分。参照图10，在步骤1002，选择跨度邻近像素进行分析。如上文所述，跨度邻近像素是指邻近至少一个在步骤704中辨识的横向或纵向跨度的像素。在步骤1004中，确定（在步骤1002选定的跨度邻近像素的）至少第一阈值数的相邻像素是否已被辨识为潜在地作为孔洞的一部分。深度图像中的每个像素都具有八个相邻像素。因此，介于像素的0个和8个相邻像素之间的任何数可被辨识为潜在地作为孔洞的一部分。在具体实施例中，第一阈值数为4，意思是在步骤1004确定（在步骤1002选定的跨度邻近像素的）至少四个相邻像素是否已被辨识为潜在地作为孔洞的一部分。如果对步骤1004的回答是肯定的，那么流程转到步骤1006，其中确定（在步骤1002选定的跨度邻近像素的）至少第二阈值数的相邻像素是否已被辨识为潜在孔洞的边界。在具体实施例中，第二阈值数为1，意思是在步骤1006确定（在步骤1002选定的跨度邻近像素的）相邻像素的至少一个是否已被辨识为潜在孔洞的边界。如果对步骤1006的回答是否定的，那么该跨度邻近像素被辨识为潜在地作为孔洞一部分。如果对步骤1004的回答是否定的，或者对步骤1006的回答是肯定的，那么该跨度邻近像素不被辨识为潜在地对应于孔洞。从步骤1010和步骤1002可以理解的是，重复这个过程直到对每一个跨度邻近像素均进行了分析。进一步地，应指出的是，步骤1004和步骤1006的顺序是可以颠倒的。更一般地，在步骤706，对（之前在步骤704辨识的）跨度进行选择性形态学膨胀，以将之前在步骤704中没有辨识的其他像素或跨度辨识为潜在地对应孔洞。

现在将使用图11解释在步骤710如何将（被指定为对应于用户的像素子集中的）每个辨识的像素岛分类为孔洞或非孔洞。参照图11，在步骤1102，选择像素岛进行分析。在步骤1104，确定岛的高宽比率或宽高比率。这些像素岛通常会不像正方形或矩形，并因此通常将不包括统一的高度或统一的宽度。另外，岛的高度可以认为是岛的最大高度，或者岛的平均高度，这取决于实施方式。类似地，根据实施方式，岛的宽度可以认为是岛的最大宽度，或者岛的平均宽度。在步骤1106，确定在步骤1104确定的比率是否超出相应的阈值比。如果对步骤1106的回答是肯定的，那么像素岛被分类为对应于用户的像素子集中的孔洞。如果对步骤1106的回答是否定的，那么像素岛被分类为非对应于用户的像素子集中的孔洞。从步骤1112和步骤1102可以理解的是，重复这个过程直到对每一个岛均进行了分析。

重新参照图7，在步骤710的结尾，对应于用户的像素子集中的每个像素将被分类为孔洞的一部分或者非孔洞的一部分。进一步地，在步骤710的结尾，将辨识需要填充的孔洞，并且这些孔洞的边界将被辨识。此后，如上参照图7所描述的，在步骤712进行孔洞填充，指示孔洞填充结果的信息在步骤714被存储，并可在步骤716在显示包括用户表示的图像时使用。

图12A使用上述参照图7和图9至图11描述的实施例示出了被分类为孔洞的两个示例的像素岛1202和1204。图12B示出了在步骤712进行的孔洞填充的结果。

如上所解释，（例如，由深度图像分割模块252执行的）分割过程可以用来指定哪个像素子集对应于用户。然而，有些时候情况是，对应于支撑用户的地面的一部分的像素也会被错误地指定为对应于用户。当试图基于深度图像检测用户运动或其他用户的行为时，或者当视图显示包括用户的表示的图像时，这会导致问题。为了避免或减少这种问题，可以使用参照图13所描述的地面去除方法。这种地面去除方法可以和上文参照图7至11描述的方法一起使用，或者完全独立使用。当和参照图7值11描述的方法一起使用时，可以在步骤702之前、作为步骤702的一部分、在步骤702和步骤704之间、或者在步骤714和步骤716之间执行地面去除方法，但并不限于此。这种地面去除方法包括辨识被指定对应于用户的像素子集的、可能对应于支撑用户的地面的一个或多个像素。这使被辨识为可能对应于地面的像素能够从被指定为对应于用户的像素子集中去除。

为了执行地面去除方法，深度图像的像素从深度图像空间转换到三维（3D）摄像机空间，以生成深度图像的3D表示，如图13中步骤1302所指示的。此外，如步骤1304所指示的，确定或以其他方式获取满足平面方程a*x+b*y+c*z+d=0的系数a、b、c和d，其中，这些系数对应于深度图像的3D表示中的地面。此后，确定被指定为对应于用户的像素是否高于地面平面或低于地面平面。低于地面平面的像素与对应于用户相比，更有可能对应于地面，并因此，这些像素被重新分类为非对应于用户。可以使用下文所描述的步骤1306至步骤1314完成这一过程。

仍然参照图13，在步骤1306中，从深度图像的3D表示选定被指定对应于用户的像素。在步骤1308中，使用方程FVR=a*x+b*y+c*z+d计算选定的像素的地面相对值（FVR），其中使用对应于地面的系数a、b、c和d，并使用选定像素的x、y和z的值。在步骤1310，确定计算的FVR值是否小于或等于0，或者另选地，计算的FVR是否小于0。如果对步骤1310的回答是肯定的，那么该像素被认为更有可能是地面的一部分，并因此，该像素不再被指定为对应于用户，如步骤1312所指示的。从步骤1314和步骤1306可以理解，重复这个过程直到对被指定为对应于用户的每一个像素均进行了分析为止。另选地，只可对那些被认为是非常靠近地面的像素进行分析。换句话说，在步骤1306年选定的像素可能只是在地面的指定距离内的像素。

用来获取深度图像的捕获设备（例如，120）可以相对于用户站于其上或以其他方式支撑自己的地面倾斜。因此，根据捕获设备的倾斜度，使用这种捕获设备获取的深度图像可能会发生变化。然而，需要的是基于深度图像对用户行为和包括用户的表示的显示图像的检测并不取决于捕获设备倾斜度。因此，对捕获设备的倾斜度进行说明将是有用的。这可以通过将所述深度图像中的像素从深度图像空间转换到三维（3D）摄像机空间完成，以生成包括被指定为对应于所述用户的像素子集的所述深度图像的3D表示。另外，可以从传感器（例如，加速度计）或以某种其他方式获取向上向量，以产生一个新的投影方向。每个像素然后可以重新投射到另一个以固定姿态对地的平面。像素然后可以从3D摄像机空间转换回深度图像空间，其中所产生的深度图像对摄像机的倾斜的灵敏度较低。

虽然已经针对结构特征和/方法动作的语言对主题进行描述，但是需要理解的是，在所附权利要求中限定的主题并不一定局限于上文所描述的具体特征或动作。相反，上文所描述的具体特征作为实施权利要求的示例形式而被公开。本技术的范围旨在由所附权利要求限定。

Claims

1.一种和深度图像一起使用的方法，包括：

（a）获取深度图像和指定了所述深度图像内的像素子集对应于用户的信息；

（b）在被指定为对应于所述用户的像素子集内，辨识当捕获设备被用来获取所述深度图像或者更高分辨率版本的所述深度图像时，潜在地作为从所述用户的一部分遮挡所述用户的另一部分而产生的所述像素子集中的孔洞的一部分的一个或多个像素跨度；

（c）分析跨度邻近像素以确定一个或多个跨度邻近像素是否也被辨识为潜在地作为被指定为对应于所述用户的像素子集中的孔洞的一部分；

（d）将彼此邻近的且已被辨识为潜在地作为被指定为对应于所述用户的所述像素子集中的孔洞的一部分的像素一起分组，从而辨识潜在地对应于被指定为对应于所述用户的所述像素子集中的一个或多个孔洞的一个或多个像素岛。

2.根据权利要求1所述的方法，进一步包括：

（e）在被指定为对应于所述用户的所述像素子集中，将每个所述像素岛分类为孔洞或者非孔洞；

（f）对被分类为孔洞的每一个所述像素岛进行孔洞填充；

（g）当显示包括所述用户表示的图像时，使用孔洞填充的结果。

3.根据权利要求1所述的方法，其中，所述（b）辨识潜在地作为对应于所述用户的所述像素子集中的孔洞的一部分的一个或多个像素跨度包括：

（bl）在被指定为对应于所述用户的像素子集内，辨识每个像素的横向跨度，其中，在所述横向跨度的两侧，深度值从一个像素变化到其超出深度不连续性阈值的横向相邻像素；并且

（b2）在被指定为对应于所述用户的像素子集内，辨识每个像素的纵向跨度，其中，在所述纵向跨度的两侧，深度值从一个像素变化到其超出深度不连续性阈值的纵向相邻像素。

4.根据权利要求1所述的方法，其中，所述（c）分析跨度邻近像素包括辨识作为潜在地作为被指定为对应于所述用户的所述像素子集中的孔洞的一部分的每一个跨度邻近像素，所述每个跨度邻近像素均包括：

（cl）至少第一阈值数的被辨识为潜在地作为孔洞的一部分的相邻像素；和

（c2）不多于第二阈值数的被辨识为潜在的孔洞边界的相邻像素。

5.根据权利要求1所述的方法，其中，所述（a）获取所述深度图像和指定了所述深度图像内的像素子集对应于用户的所述信息包括：

（al）接收使用离用户一定距离的捕获设备获取的原始版本的深度图像和指定了所述深度图像内的像素子集对应于用户的原始信息；

（a2）对被指定为对应于所述用户的原始深度图像内的像素子集进行下采样，以生成对应于所述用户的第一低分辨率像素子集；

（a3）对对应于所述用户的所述第一低分辨率像素子集进行形态学打开；并且

（a3）通过将对应于所述用户的所述原始版本的所述像素子集和对应于所述用户的所述第一低分辨率的像素子集两者之中的像素包括在对应于所述用户的第二低分辨率像素子集之中，生成所述对应于所述用户的所述第二低分辨率像素子集；

其中，对应于所述用户的所述第二低分辨率像素子集或者其进一步下采样的版本，包括在（b）辨识潜在地作为孔洞的一部分的一个或多个像素跨度时使用的被指定为对应于所述用户的所述像素子集。

6.根据权利要求1所述的方法，进一步包括：

将所述深度图像中的像素从深度图像空间转换到三维（3D）摄像机空间，以生成包括被指定为对应于所述用户的像素子集的所述深度图像的3D表示；

获取对应于所述满足指定的平面方程的地面的系数；并且对于被指定为对应于深度图像的3D表示中的所述用户的所述像素子集的一些像素中的至少一些，

计算地面相对值（FVR）；

将所述FVR和指定的值相比较；

基于所述比较的结果确定是否从被指定为对应于所述用户的所述像素子集中去除所述像素；如果确定去除所述像素，从被指定为对应于所述用户的所述像素子集中去除所述像素；并且

在去除后，将所述深度图像的3D表示从所述3D摄像机空间转换回到所述深度图像空间。

7.根据权利要求1所述的方法，进一步包括：

获取与用来获取所述深度图像的所述捕获设备相关联的向上向量；将所述深度图像中的像素从深度图像空间转换到三维（3D）摄像机空间，以生成包括被指定为对应于所述用户的像素子集的所述深度图像的3D表示；

使用所述向上向量将被指定为对应于所述用户的所述像素子集转换为具有指定姿态的平面；并且

将所述深度图像的所述3D表示从所述3D摄像机空间转回到所述深度图像空间。

8.一种系统，包括：

获取深度图像的捕获设备；

一个或多个存储深度图像的存储设备；

显示接口；和

一个或多个与所述一个或多个存储设备以及所述显示接口通信的处理器，其中，所述一个或多个处理器被配置为

获取深度图像和指定了所述深度图像内的像素子集对应于用户的信息；

在被指定为对应于所述用户的像素子集内，辨识当所述捕获设备被用来获取所述深度图像或者更高分辨率版本的深度图像时，潜在地作为从所述用户的一部分遮挡所述用户的另一部分而造成的所述像素子集中的孔洞的一部分的一个或多个像素跨度；

分析跨度邻近像素以确定一个或多个跨度邻近像素是否也被辨识为潜在地作为被指定为对应于所述用户的所述像素子集中的孔洞的一部分；

把彼此邻近的且已被辨识为潜在地作为被指定为对应于所述用户的所述像素子集中的孔洞的一部分的像素一起分组，从而辨识潜在对应于被指定对应于所述用户的所述像素子集中的一个或多个孔洞的一个或多个像素岛；

在被指定为对应于所述用户的像素子集中，把每个所辨识的像素岛分类为孔洞或者非孔洞；并且

对被分类为孔洞的所述像素岛进行孔洞填充。

9.根据权利要求8所述的系统，其中，所述一个或多个处理器也被配置为使用所述孔洞填充的结果更新在系统上运行的应用，并在所述显示接口上提供指示对所述应用进行更新的信号。

10.根据权利要求8或9所述的系统，其中，所述一个或多个处理器也被配置为：

辨识被指定为对应于所述用户的所述像素子集的一个或多个可能对应于支撑所述用户的地面的像素；并且

从被指定为对应于所述用户的所述像素子集中去除所述一个或多个被辨识为可能对应于支撑所述用户的所述地面的像素。