CN102262440A

CN102262440A - 多模态性别识别

Info

Publication number: CN102262440A
Application number: CN2011101707529A
Authority: CN
Inventors: Z·张; A·A-A·基普曼
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-06-11
Filing date: 2011-06-13
Publication date: 2011-11-30
Anticipated expiration: 2031-06-13
Also published as: US20110307260A1; CN102262440B; US8675981B2

Abstract

本发明公开了多模态性别识别的方法和系统。使用两个或多个模态来执行性别识别。例如，接收深度图像数据以及除深度图像数据以外的一个或多个类型的数据。该数据与人有关。不同类型的数据被融合在一起，以便自动地确定该人的性别。计算系统随后可基于对性别的确定来与该人进行交互。

Description

多模态性别识别

技术领域

本发明涉及计算机应用，尤其涉及计算机应用中的性别识别技术。

背景技术

从在因特网上冲浪到娱乐以及生产性工具，计算机在日常生活中正变得越来越有用。在许多计算机应用中，可基于性别来优化用户与计算机之间的交互。即，计算机可为男性提供与女性不同的体验。

在某些情况下，基于性别的不同体验用于定制娱乐体验。例如，在玩某些视频游戏时，该游戏可包括控制化身的用户。女性玩家控制女性化身以及男性玩家控制男性化身可能是合乎需要的。

在其他情况下，基于性别的不同体验是出于性能原因。例如，某些计算设备可以是语音控制的。出于许多原因，识别语音命令可能是困难的。一个原因是男性与女性具有不同的语音。知道用户是男性还是女性可帮助语音命令识别系统通过使用适当的声学模型来识别语音命令。

发明内容

提出了用于基于两个或多个模态来自动地识别性别的技术，两个或多个模态中的一个是深度图像数据的源。来自每一模态的贡献取决于具体环境中的模态的可靠性而是不同的且动态的。使用此处描述的一个或多个方法将自不同模态的不同数据融合在一起，以便达到性别的确定。

一个实施例包括接收关于人的深度数据，接收关于该人的除深度数据以外的一个或多个类型的数据，基于该深度数据以及除深度数据以外的该一个或多个类型的数据来确定该人的性别，以及基于对性别的确定来执行动作(例如与该人进行交互)。

一个实施例包括一个或多个具有在其上存储有处理器可读代码的处理器可读存储设备。处理器可读代码对一个或多个处理器进行编程。处理器可读代码包括提取深度特征的代码、提取一个或多个其他特征的代码、基于至少一个深度特征来对性别进行分类的代码、基于至少一个除深度以外的特征来对性别进行分类的代码、以及基于输出来作出关于性别结论的代码，该输出来自基于至少一个深度特征来对性别进行分类的代码和基于至少一个除深度以外的特征来对性别进行分类的代码。

一个实施例包括深度传感器、不同于深度传感器的传感器、用户接口(例如键盘、鼠标、监视器、触摸屏、话筒、扬声器等)、以及与该深度传感器、不同的传感器和用户接口通信的处理器。处理器基于来自深度传感器以及不同的传感器的数据来确定人的性别。处理器基于对性别的确定来改变用户接口。

提供本发明内容以便以简化形式介绍将在以下的具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

附图说明

图1A和1B示出了其中用户在玩游戏的跟踪系统的示例实施例。

图2示出可用作跟踪系统的一部分的捕捉设备的示例实施例。

图3描绘了骨架的示例。

图4示出计算系统的示例实施例。

图5示出计算系统的另一示例实施例。

图6是用于确定性别的软件组件的框图。

图7是描述用于获得数据、基于数据来确定性别、并且使用对性别的确定来与用户交互的过程的一个实施例的流程图。

图8是描述用于自动地确定性别的过程的一个实施例的流程图。

图9是描述用于训练的过程的一个实施例的流程图。

图10是描述用于对性别分类的过程的一个实施例的流程图。

图11是描述用于融合判定数据以确定性别的过程的一个实施例的流程图。

图12是描述用于融合特征数据以确定性别的过程的一个实施例的流程图。

图13是描述用于融合传感器数据以确定性别的过程的一个实施例的流程图。

图13A描绘用于模型化对传感器数据的融合的图。

图14A是描述用于基于对性别的确定来与用户交互的过程的一个实施例的流程图。

图14B是描述用于基于对性别的确定来与用户交互的过程的一个实施例的流程图。

具体实施方式

提供了用于基于两个或多个类型的数据来自动地确定性别的技术。性别识别对于包括诸如使用适当的化身来与用户交互或选择适当的声学模型来识别用户的语音等的人机交互的许多应用是非常有用的。可从诸如语音、面部、体形以及步态(步行方式)等多个源来观察性别信息。来自单个源的性别识别可能是易于出错的。并且即使对于相同的数据源，不同模态的传感可揭示不同的性别特征。例如，鼻子结构是用于区分男性与女性的示例特征，并且可容易地由深度相机观察，但由来自前方的摄像机观察是困难的。由此，以下描述的各系统集成来自多个模态的可用信息，以便产生对用户性别的准确识别。

以下提供了用视频游戏系统来使用性别识别技术的各示例。视频游戏系统的使用仅仅是一个可能的实现，并且被用作教导该技术的一个示例。然而，此处描述的系统还适用于其他类型的数据处理系统和/或其他类型的应用。

图1A和1B示出了其中用户18在玩拳击游戏的系统10的示例实施例。在一示例实施例中，系统10可被用于识别、分析和/或跟踪人类目标(如跟踪系统10的范围内的用户18或其他对象)，并且与用户交互。通过知道用户的性别，可为该用户定制交互。

如图1A所示，跟踪系统10可包括计算系统12。计算系统12可以是计算机、游戏系统或控制台等。根据一示例实施例，计算系统12可包括硬件组件和/或软件组件，从而计算系统12可被用于执行例如游戏应用、非游戏应用等的应用。一个实施例中，计算系统12可包括可执行存储在处理器可读存储设备上的用于执行此处描述的过程的指令的处理器，如标准化处理器、专用处理器、微处理器等。

如图1A所示，跟踪系统10还可包括捕捉设备20。捕捉设备20可以是，例如可用于在视觉上监视诸如用户18等一个或多个用户，从而可以捕捉、分析并跟踪一个或多个用户所执行的姿势和/或移动，来执行应用中的一个或多个控制命令或动作和/或动画化化身或屏上人物的相机，下面将更详细地描述。

根据一个实施例，跟踪系统10可连接至可向诸如用户18等的用户提供游戏或应用视觉和/或音频的视听设备16，如电视机、监视器、高清电视机(HDTV)等。例如，计算系统12可包括诸如图形卡等视频适配器和/或诸如声卡等音频适配器，这些适配器可提供与游戏应用、非游戏应用等相关联的视听信号。视听设备16可从计算系统12接收视听信号，然后可向用户18输出与视听信号相关联的游戏或应用视觉和/或音频。根据一个实施例，视听设备16可经由例如，S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆等连接至计算系统12。

如图1A和1B所示，跟踪系统10可用于识别、分析和/或跟踪诸如用户18等的人类目标。例如，可使用捕捉设备20来跟踪用户18，从而可以捕捉用户18的姿势和/或移动来动画化化身或屏幕上人物，和/或可将用户18的姿势和/或移动解释为可用于影响计算机环境12所执行的应用的控制命令。因此，根据一实施例，用户18可移动他的或她的身体来控制应用和/或动画化化身或屏幕上人物。

在图1A和1B中描绘的示例中，在计算系统12上执行的应用可以是用户18正在玩的拳击游戏。例如，计算系统12可使用视听设备16来向用户18提供拳击对手22的视觉表示。计算系统12还可使用视听设备16来提供用户18可用他的或她的移动来控制的用户化身24的视觉表示。例如，如图1B所示，用户18可在物理空间中挥重拳来使得用户化身24在游戏空间中挥重拳。因此，根据一示例实施例，计算系统12和捕捉设备20识别并分析物理空间中用户18的重拳从而使得该重拳可被解释为对游戏空间中的用户化身24的游戏控制和/或该重拳的运动可用于动画化游戏空间中的用户化身24。

用户18的其他移动也可被解释为其他控制命令或动作，和/或用于动画化用户化身，如上下快速摆动、闪避、滑步、封堵、用拳猛击或挥动各种不同力量的重拳的控制命令。此外，某些移动可被解释为可对应于除控制用户化身24以外的动作的控制命令。例如，在一实施例中，用户可使用移动来结束、暂停或保存游戏、选择级别、查看高分、与朋友交流等。根据另一实施例，用户可使用移动来从主用户界面选择游戏或其他应用。因此，在示例实施例中，用户18的全范围运动可以用任何合适的方式来获得、使用并分析以与应用进行交互。

在各示例实施例中，诸如用户18等的人类目标可具有一物体。在这些实施例中，电子游戏的用户可手持物体从而可以使用用户和物体的运动来调整和/或控制游戏的参数。例如，可以跟踪并利用用户手持球拍的运动来控制电子运动游戏中的屏幕上球拍。在另一示例实施例中，可以跟踪并利用用户手持物体的运动来控制电子格斗游戏中的屏幕上武器。用户没有手持的物体也可被跟踪，如该用户(或一不同用户)扔出、推出或滚出的物体或自推进的物体。除拳击之外，也可实现其他游戏。

根据其他示例实施例，跟踪系统10还可用于将目标移动解释为游戏领域之外的操作系统和/或应用控制命令。例如，事实上操作系统和/或应用的任何可控方面可由诸如用户18等目标的移动来控制。

图2示出可在跟踪系统10中使用的捕捉设备20的示例实施例。根据一示例实施例，捕捉设备20可被配置成经由任何合适的技术，包括例如飞行时间、结构化光、立体图像等来捕捉包括深度图像的带有深度信息的视频，该深度信息可包括深度值。根据一实施例，捕捉设备20可将深度信息组织为“Z层”，即可与Z轴正交的从深度相机沿着其视线延伸的层。

如图2所示，捕捉设备20可包括相机组件23。根据一示例实施例，相机组件23可以是可捕捉场景的深度图像的深度相机。深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可表示深度值，诸如例如以厘米、毫米等计的所捕捉的场景中的物体距相机的距离。

如图2所示，根据一示例实施例，图像相机组件23可包括可用于捕捉场景的深度图像的红外(IR)光组件25、三维(3-D)相机26、和RGB(视觉图像)相机28。例如，在飞行时间分析中，捕捉设备20的IR光组件25可以将红外光发射到场景上，然后，可以使用传感器(未示出)，用例如3-D相机26和/或RGB相机28，来检测从场景中的一个或多个目标和对象的表面反向散射的光。某些实施例中，可使用脉冲式红外光从而可以测量出射光脉冲和对应的入射光脉冲之间的时间差并将其用于确定从捕捉设备20到场景中目标或对象上的特定位置的物理距离。此外，在其他示例实施例中，可比较出射光波的相位与入射光波的相位以确定相移。然后可以使用相移来确定从捕捉设备到目标或对象上的特定位置的距离。

根据另一示例实施例，可使用飞行时间分析，通过经由包括例如快门式光脉冲成像的各种技术来分析反射光束随时间的强度变化以间接地确定从捕捉设备20到目标或对象上特定位置的物理距离。

在另一示例实施例中，捕捉设备20可使用结构化光来捕捉深度信息。在这样的分析中，图案化光(即，被显示为诸如网格图案、条纹图案等已知图案或不同图案的光)可经由例如IR光组件24被投影到场景上。在撞击到场景中一个或多个目标或对象的表面时，作为响应，图案可变形。图案的这种变形可由例如3-D相机26和/或RGB相机28(和/或其他传感器)来捕捉，然后可被分析以确定从捕捉设备到目标或物体上的特定位置的物理距离。在一些实现中，IR光组件25与相机25和26分开，使得可以使用三角测量来确定距相机25和26的距离。在一些实现中，捕捉设备20将包括传感IR光的专用IR传感器或具有IR过滤器的传感器。

根据另一实施例，捕捉设备20可包括两个或更多物理上分开的相机，这些相机可从不同角度查看场景来获得可被解析以生成深度信息的视觉立体数据。其他类型的深度图像传感器也可被用来创建深度图像。

捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号的换能器或传感器。根据一个实施例，话筒30可用于减少目标识别、分析和跟踪系统10中的捕捉设备20与计算系统12之间的反馈。另外，话筒30可用于接收也可被提供给计算系统12的音频信号。

在一示例实施例中，捕捉设备20还可包括可与图像相机组件22进行通信的处理器32。处理器32可包括可执行指令的标准处理器、专用处理器、微处理器等，这些指令包括用于接收深度图像、生成适当的数据格式(例如，帧)并将该数据传送到计算系统12的指令。

捕捉设备20还可包括存储器组件34，存储器组件34可存储由处理器32执行的指令、3-D相机和/或RGB相机所捕捉的图像或图像的帧、或任何其他合适的信息、图像等等。根据一示例实施例，存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2所示，在一个实施例中，存储器组件34可以是与图像捕捉组件22和处理器32进行通信的单独的组件。根据另一实施例，存储器组件34可被集成到处理器32和/或图像捕捉组件22中。

如图2所示，捕捉设备20可经由通信链路36与计算系统12进行通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或例如无线802.11b、802.11g、802.11a或802.11n连接等的无线连接。根据一个实施例，计算系统12可经由通信链路36向捕捉设备20提供可用于确定例如何时捕捉场景的时钟。另外，捕捉设备20将由例如3-D相机26和/或RGB相机28捕捉的深度信息和视觉(例如，RGB)图像经由通信链路36提供给计算系统12。在一个实施例中，深度图像和视觉图像以每秒30帧的速率传送。计算系统12然后可使用该模型、深度信息、以及所捕捉的图像来例如控制诸如游戏或文字处理程序等的应用和/或动画化化身或屏上人物。

计算系统12包括深度图像处理和骨架跟踪模块50，该模块使用深度图像来跟踪可由深度相机检测的一个或多个人。深度图像处理和骨架跟踪模块50向应用52提供跟踪信息，该应用可以是视频游戏、生产性应用、通信应用或其他软件应用等。音频数据和视觉图像数据也被提供给应用52和深度图像处理和骨架跟踪模块50。应用52将跟踪信息、音频数据和视觉图像数据提供给识别器引擎54。在另一实施例中，识别器引擎54从深度图像处理和骨架跟踪模块50直接接收跟踪信息，并从捕捉设备20直接接收音频数据和视觉图像数据。

识别器引擎54与过滤器60、62、64、……、66的集合相关联，每一过滤器包括关于可由捕捉设备20检测的任何人或对象执行的姿势、动作或状况的信息。例如，来自捕捉设备20的数据可由过滤器60、62、64、……、66来处理，以便标识一个用户或一组用户何时执行了一个或多个姿势或其他动作。那些姿势可与应用52的各种控制、对象或状况相关联。由此，计算环境12可借助过滤器使用识别器引擎54来解释移动。

计算系统12还包括性别识别器软件70，该性别识别器软件70从捕捉设备20接收视觉图像数据、深度图像数据以及音频数据。响应于并且基于所接收的数据，性别识别器70自动地确定站在捕捉设备20前方(或附近)的人的性别，并且向应用52报告对性别的确定。作为响应，应用52将按为所确定的性别定制的方式来与捕捉设备20前方(或附近)的人/用户进行交互。

图2的捕捉设备20向计算系统12提供RGB图像(或其他格式或色彩空间的视觉图像)和深度图像。深度图像可以是多个观测到的像素，其中每个观测到的像素具有观测到的深度值。例如，深度图像可包括所捕捉的场景的二维(2-D)像素区域，其中2-D像素区域中的每一像素可具有深度值，如所捕捉的场景中的对象距捕捉设备的距离。

系统将使用RGB图像和深度图像来跟踪用户的移动。例如，系统将使用深度图像来跟踪人的骨架。可以使用许多方法来通过使用深度图像跟踪人的骨架。使用深度图像来跟踪骨架的一个合适的示例在2009年10月21日提交的美国专利申请12/603,437“Pose Tracking Pipeline(姿势跟踪流水线)”(以下称为’437申请)中提供，该申请通过整体引用合并于此。‘437申请的过程包括获取深度图像，对数据进行降采样，移除和/或平滑高变度噪声数据，标识并移除背景，以及将前景像素中的每一个分配给身体的不同部位。基于这些步骤，系统将使一模型拟合到该数据并创建骨架。该骨架将包括一组关节和这些关节之间的连接。图3示出了具有15个关节(j0、j1、j2、j3、j4、j5、j6、j7、j8、j9、j10、j11、j12、j13和j14)的示例骨架。这些关节中的每一个表示骨架中该骨架可以在x、y、z方向上枢转的位置或身体上关注的位置。也可使用用于跟踪的其他方法。合适的跟踪技术也在以下四个美国专利申请中公开，所有这些申请通过整体引用结合于此：2009年5月29日提交的美国专利申请12/475,308“Device for Identifying and Tracking Multiple Humans Over Time(用于随时间标识并跟踪多个人的设备)”；2010年1月29日提交的美国专利申请12/696,282“Visual Based Identity Tracking(基于视觉的身份跟踪)”；2009年12月18日提交的美国专利申请12/641,788“Motion Detection Using DepthImages(使用深度图像的运动检测)”；以及2009年10月7日提交的美国专利申请12/575,388“Human Tracking System(人类跟踪系统)”。

(图2所示的计算系统12的)识别器引擎54包括多个过滤器60、62、64、……、66来标识姿势或动作。过滤器包括定义姿势、动作或状况以及该姿势、动作或状况的参数或元数据的信息。例如，包括一只手从身体背后到身体前方的运动的投掷可被实现为包括表示用户的一只手从身体背后到身体前方的运动的信息的姿势，该移动将由深度相机来捕捉。然后可为该姿势设定参数。在姿势是投掷的情况下，参数可以是该手必须达到的阈值速度、该手必须行进的距离(绝对的，或相对于用户的整体大小)、以及识别器引擎对发生了该姿势的置信评级。用于姿势的这些参数可以随着时间在各应用之间、在单个应用的各上下文之间、或在一个应用的一个上下文内变化。

过滤器可以是模块化的或是可互换的。在一个实施例中，过滤器具有多个输入(这些输入中的每一个具有一类型)以及多个输出(这些输出中的每一个具有一类型)。第一过滤器可用具有与第一过滤器相同数量和类型的输入和输出的第二过滤器来替换而不更改识别器引擎体系结构的任何其他方面。例如，可以有用于驾驶的第一过滤器，该第一过滤器取骨架数据作为输入并输出与该过滤器相关联的姿势正在发生的置信度以及转向角。在希望用第二驾驶过滤器来替换该第一驾驶过滤器的情况下——这可能是因为第二驾驶过滤器更高效且需要更少的处理资源——则可以通过简单地用第二过滤器替换第一过滤器来这样做，只要第二过滤器具有相同的输入和输出—骨架数据类型的一个输入，以及置信度类型和角度类型的两个输出。

过滤器不需要具有参数。例如，返回用户的高度的“用户高度”过滤器可能不允许任何可调节的参数。替换的“用户高度”过滤器可具有可调节参数，如在确定用户的高度时是否考虑用户的鞋、发型、头饰以及体态。

对过滤器的输入可包括诸如关于用户的关节位置的关节数据、在关节处相交的骨所形成的角度、来自场景的RGB色彩数据、以及用户的某一方面的变化速率等内容。来自过滤器的输出可包括诸如正作出给定姿势的置信度、作出姿势运动的速度、以及作出姿势运动的时间等内容。

识别器引擎54可具有向过滤器提供功能的基本识别器引擎。在一实施例中，识别器引擎54实现的功能包括跟踪所识别的姿势和其他输入的随时间输入(input-over-time)存档、隐马尔可夫模型实现(其中模型化系统被假定为马尔可夫过程—其中当前状态封装了确定将来状态所需的任何过去状态信息，因此不必为此目的而维护任何其他过去状态信息的过程—该过程具有未知参数，并且隐藏参数是从可观察数据来确定的)、以及求解姿势识别的特定实例所需的其他功能。

过滤器60、62、64、……、66在识别器引擎54之上加载并实现，并且可利用识别器引擎54提供给所有过滤器60、62、64、……、66的服务。在一个实施例中，识别器引擎54接收数据来确定该数据是否满足任何过滤器60、62、64、……、66的要求。由于这些所提供的诸如解析输入等服务是由识别器引擎54一次性提供而非由每一过滤器60、62、64、……、66提供的，因此这一服务在一段时间内只需被处理一次而不是在该时间段对每一过滤器处理一次，因此减少了确定姿势所需的处理。

应用52可使用识别器引擎54所提供的过滤器60、62、64、……、66，或者它可提供其自己的、插入到识别器引擎54中的过滤器。在一实施例中，所有过滤器具有启用该插入特性的通用接口。此外，所有过滤器可利用参数，因此可使用以下单个姿势工具来诊断并调节整个过滤器系统。

关于识别器引擎54的更多信息可在2009年4月13日提交的美国专利申请12/422,661“Gesture Recognizer System Architecture(姿势识别器系统架构)”中找到，该申请通过整体引用合并于此。关于识别姿势的更多信息可在2009年2月23日提交的美国专利申请12/391,150“Standard Gestures(标准姿势)”；以及2009年5月29日提交的美国专利申请12/474,655“Gesture Tool(姿势工具)”中找到，这两个申请都通过整体引用结合于此。

图4示出了计算系统的一示例实施例，该计算系统可以是图1A-2所示的用于实现跟踪应用所显示的化身或其他屏幕上对象的运动和/或动画化(或以其他方式更新)化身或其他屏幕上对象的计算系统12。诸如上面参考图1A-2所描述的计算系统12等的计算系统可以是诸如游戏控制台等的多媒体控制台100。如图4所示，多媒体控制台100具有含有一级高速缓存102、二级高速缓存104和闪存ROM(只读存储器)106的中央处理单元(CPU)101。一级高速缓存102和二级高速缓存104临时存储数据并因此减少存储器访问周期数，由此改进处理速度和吞吐量。CPU 101可被提供为具有一个以上的核，以及由此的附加的一级和二级高速缓存102和104。闪存ROM 106可存储在多媒体控制台100通电时在引导过程的初始化阶段加载的可执行代码。

图形处理单元(GPU)108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。经由总线从图形处理单元108向视频编码器/视频编解码器114运送数据。视频处理流水线向A/V(音频/视频)端口140输出数据，用于传输至电视或其他显示器。存储器控制器110被连接至GPU 108以方便处理器访问各种类型的存储器112，例如但不局限于RAM(随机存取存储器)。

多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一USB主控制器126、第二USB控制器128和前面板I/O子部件130。USB控制器126和128用作外设控制器142(1)-142(2)、无线适配器148、和外置存储器设备146(例如闪存、外置CD/DVD ROM驱动器、可移动介质等)的主机。网络接口和/或无线适配器148提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中的任何一种。

提供系统存储器143来存储在引导过程期间加载的应用数据。提供媒体驱动器144且其可包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器、或其它可移动媒体驱动器等。媒体驱动器144可以是多媒体控制台100内部或外部的。应用数据可经由媒体驱动器144访问，以由多媒体控制台100执行、回放等。介质驱动器144经由例如串行ATA总线或其他高速连接(例如IEEE 1394)等总线连接至I/O控制器120。

系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口140以供外部音频用户或具有音频能力的设备再现。

前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。

CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这些架构可以包括外围部件互连(PCI)总线、PCI-Express总线等。

当多媒体控制台100通电时，应用数据可从系统存储器143加载到存储器112和/或高速缓存102、104中并在CPU 101上执行。应用程序可呈现在导航到多媒体控制台100上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，介质驱动器144中包含的应用和/或其它媒体可从介质驱动器144启动或播放，以向多媒体控制台100提供附加功能。

多媒体控制台100可通过将该系统简单地连接至电视或其它显示器而作为独立系统来操作。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口124或无线适配器148可用的宽带连接的集成，多媒体控制台100还可作为较大网络社区中的参与者来操作。

当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可包括预留存储器(例如，16MB)、CPU和GPU周期(例如，5％)、网络带宽(例如，8kbs)等等。因为这些资源是在系统引导时保留的，所以所保留的资源从应用的角度而言是不存在的。

具体地，存储器保留较佳地足够大，以包含启动内核、并发系统应用程序和驱动程序。CPU保留较佳地为恒定，使得若所保留的CPU用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。

对于GPU保留，通过使用GPU中断来显示由系统应用生成的轻量消息(例如，弹出窗口)，以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用使用完整用户界面的情况下，优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率，也就不会引起TV重新同步。

在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用中。操作系统内核标识是系统应用的线程而非游戏应用的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行，以便为应用提供一致的系统资源视图。调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。

当并发系统应用需要音频时，则由于时间敏感性而异步调度音频处理给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平(例如，静音、衰减)。

输入设备(例如，控制器142(1)和142(2))由游戏应用和系统应用共享。输入设备不是所保留的资源，但却在系统应用和游戏应用之间切换以使其各自具有设备的焦点。应用管理器较佳地控制输入流的切换，而无需知晓游戏应用的知识，并且驱动程序维持有关焦点切换的状态信息。相机26、28和捕捉设备20可经由USB控制器126或其他接口来定义控制台100的附加输入设备。

图5示出了计算系统220的另一示例实施例，该计算系统可用于实现图1A-2所示的用于跟踪应用所显示的化身或其他屏幕上对象的运动和/或动画化(或以其他方式更新)化身或其他屏幕上对象的计算系统12。计算系统环境220只是合适的计算系统的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算系统220解释为对示例性操作系统220中示出的任一组件或其组合有任何依赖性或要求。某些实施例中，所描绘的各种计算元素可包括被配置成实例化本公开的各具体方面的电路。例如，本公开中使用的术语电路可包括被配置成通过固件或开关来执行功能的专用硬件组件。其他示例中，术语电路可包括由实施可用于执行功能的逻辑的软件指令配置的通用处理单元、存储器等。在其中电路包括硬件和软件的组合的示例实施例中，实施者可以编写体现逻辑的源代码，且源代码可以被编译为可以由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择并留给实现者。

计算系统220包括计算机241，计算机241通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)223和随机存取存储器(RAM)260。基本输入/输出系统224(BIOS)包括如在启动时帮助在计算机241内的元件之间传输信息的基本例程，它通常储存在ROM 223中。RAM 260通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非限制，图5示出了操作系统225、应用程序226，其他程序模块227和程序数据228。

计算机241还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图5示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器238，对可移动、非易失性磁盘254进行读写的磁盘驱动器239，以及对例如CD ROM或其它光学介质等可移动、非易失性光盘253进行读写的光盘驱动器240。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由例如接口234等不可移动存储器接口连接至系统总线221，磁盘驱动器239和光盘驱动器240通常由例如接口235等可移动存储器接口连接至系统总线221。GPU 299通过图形接口231连接至系统总线221。视频存储器230(它连接至GPU 229)通过视频接口232连接至系统总线221。

上文所讨论的并且在图5中所示出的驱动器以及它们的相关联的计算机存储介质，为计算机241提供了计算机可读的指令、数据结构、程序模块及其他数据的存储。例如，图5中，硬盘驱动器238被示为存储操作系统258、应用程序257、其它程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据228相同，也可以与它们不同。此处给操作系统258、应用程序257、其他程序模块256以及程序数据255提供了不同的编号，以说明至少它们是不同的副本。用户可以通过输入设备，例如键盘251和定点设备252——通常被称为鼠标、跟踪球或触摸垫——向计算机241输入命令和信息。其他输入设备(未示出)可以包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其他输入设备通常通过耦合至系统总线的用户输入接口236连接至处理单元259，但也可以由其他接口和总线结构，例如并行端口、游戏端口或通用串行总线(USB)来连接。相机26、28和捕捉设备20可经由用户输入接口236来定义控制台100的附加输入设备。监视器242或其他类型的显示设备也通过接口，例如视频接口232，连接至系统总线221。除监视器以外，计算机也可以包括其它外围输出设备，例如扬声器244和打印机243，它们可以通过输出外围接口233连接。捕捉设备20可经由输出外围接口233、网络接口237或其他接口连接至计算系统220。

计算机241可使用至一个或多个远程计算机，例如远程计算机246的逻辑连接在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，通常包括上文参考计算机241所描述的许多或全部元件，虽然图5中只示出了存储器存储设备247。图中所示逻辑连接包括局域网(LAN)245和广域网(WAN)249，但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机241通过网络接口或适配器237连接至LAN 245。当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过例如因特网等WAN 249建立通信的其他手段。调制解调器250可以是内置或外置的，它可以经由用户输入接口236或其他适当的机制连接至系统总线221。在联网环境中，相对于计算机241所描述的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非局限，图5示出应用程序248驻留在存储器设备247上。可以理解的是，所示的网络连接是示例性的，并且可以使用在计算机之间建立通信链路的其他手段。

图4或5的系统中的任一个或不同计算系统可用于实现图2的计算系统12。如上所述，计算系统12确定用户的运动，并采用这些检测到的运动来控制视频游戏或其他应用。例如，用户的运动可用于控制视频游戏中的化身和/或对象。基于对用户的性别的知晓，计算设备可调整用户体验。

图6是描绘性别识别器软件70(见图2)的细节的框图。图6描绘了音频特征提取模块302、图像特征提取模块304、深度特征提取模块306以及模态可靠性估计器308，所有这些将接收来自传感器的数据。例如，向音频特征提取模块302和模态可靠性估计器308提供音频数据。向图像特征提取模块304和模态可靠性估计器308提供来自相机传感器的视觉图像数据。向深度特征提取模块306和模态可靠性估计器308提供来自深度相机的深度数据。

如以下讨论的，模态可靠性估计器308将确定来自传感器的输入数据有多可靠，并且分配将被用作权重的可靠性值。可靠性估计可基于数据质量。例如，深度数据中可具有噪声。取决于噪声量，模态可靠性估计器308将分配要被用作权重的可靠性值。视觉图像可包括噪声。另外地，模态可靠性估计器308可基于图像中对象的光照、曝光、焦点或成帧(framing)来判断视觉图像的可靠性。模态可靠性估计器308可基于音频信号中的噪声以及音量来判断音频数据的可靠性。还可使用其他因素来确定可靠性。

音频特征提取模块302接收来自话筒的音频数据，并且标识音频信号中的各种特征。将向一个或多个分类器提供与音频特征提取302所提取的特征相关联的特定音频数据。图6示出了两个示例分类器：性别分类器—MFCC 310以及性别分类器—音调312。在声音处理中，梅尔频率倒谱(MFC)是基于非线性梅尔频率刻度的对数功率谱的线性余弦变换、对声音的短期功率谱的表示。梅尔频率倒谱系数(MFCC)是共同构成梅尔频率倒谱的系数。梅尔频率倒谱系数从音频剪辑的一种类型的倒谱表示中得到。通常通过取信号的窗口化摘录的傅立叶变换、使用三角形重叠窗口将所获得的频谱的幂映射到梅尔刻度、取各梅尔频率中的幂的对数、以及取对数幂列表(如同它是信号一样)的离散余弦变换，来导出梅尔频率倒谱系数。梅尔频率倒谱系数是结果频谱的幅度。可存在这一过程的变体。例如，用于映射该刻度的窗口的形状或间隔中的差异可以变化。MFCC通常被用作语音识别系统中用于从人们的语音中识别他们并且识别说话的人的性别的特征。MFCC的数据可由音频特征提取模块302来提取，并且提供给性别分类器—MFCC 310。响应于该数据，性别分类器MFCC 310将对说话者是男性还是女性进行分类。

音频特征提取模块302还将标识说话者的音调。或者，音频特征提取302可标识可被用于确定音调的数据。该信息被提供给性别分类器—音调312。响应于来自音频特征提取302的数据，性别分类器—音调312将对说话者是男性还是女性进行分类。可以理解，女性的音调比男性更高。

图像特征提取模块304从图像中提取各种特征，并且将这些特征的数据提供给性别分类器—Gabor 314以及性别分类器—LBP 316。也可以使用附加的和/或不同的分类器。Gabor过滤器是在用于边缘检测的图像处理中使用的线性过滤器。Gabor过滤器的频率和定向表示与人类视觉系统的那些相似，并且可发现它尤其适用于纹理表示和辨别。在空间域，二维Gabor过滤器是通过正弦波来调制的高斯核内部函数。Gabor过滤器是自相似的——所有过滤器可通过膨胀和旋转从一个母小波(mother wavelet)中生成。将Gabor过滤器的结果提供给性别分类器—Gabor 314。在此情况下，Gabor过滤器可被用于找出形状，并且性别分类器—Gabor 314将基于Gabor过滤器来对该对象是男性还是女性作出分类。

局部二元图(LBP)是用于计算机视觉中的分类的一种类型的过滤器，并且已发现其对于对图像中的纹理进行分类尤其有用。基于运行局部二元图过滤器，结果数据将被提供给性别分类器—LBP 316，以便对于该对象是男性还是女性作出分类。在一个实施例中，LBP数据可被用于基于图像中的形状或纹理来对该对象是否为特定性别作出二元判定(是/否)或概率判定(0与1之间)。

深度特征提取模块306从深度图像数据中提取各种特征，并且将其提供给一组分类器中的任一个。例如，图6示出了四个分类器：性别分类器—形状318、性别分类器—变化320、性别分类器—曲率322以及性别分类器—步行324。也可以使用附加的和/或不同的性别分类器。深度特征提取模块306提取指示一个人的一部分的形状的数据，并且将该数据提供给性别分类器—形状318。例如，男性与女性具有不同形状的鼻子。性别分类器—形状318可基于鼻子的形状将对象分类成男性或女性。深度特征提取模块306还可提供关于对象身体表面的变化的数据。例如，男性面部往往具有更陡峭的改变，而女性面部往往具有更逐渐的改变。性别分类器—变化320基于以上关于深度中的变化的数据来对该对象是男性还是女性作出分类。深度特征提取模块306标识关于该对象的表面的曲率的数据，并且将该数据提供给性别分类器—曲率322。曲率数据可指示表面改变的微分值、以及那些表面改变怎样拟合特定形状的曲线。使用该信息，性别分类器—曲率322可对于该对象是男性还是女性作出分类。深度特征提取模块306可标识指示对象正如何步行(也被称为步态)的信息。例如，使用以上描述的用于不同地跟踪男性和女性步行的技术。基于对象步行的跟踪，性别分类器—步行324可对于该对象是男性还是女性作出分类。

如以上讨论的，性别分类器310、312、314、316、318、320、322和324将对于该对象是男性还是女性作出分类。在一个实施例中，每一分类可作出其自己的分类，并且将该分类发送给概率聚集模块330。在一个实施例中，对于该对象是男性还是女性的分类包括二元判定。在另一实施例中，对于该对象是男性还是女性的分类包括计算该对象为男性的概率以及计算该对象为女性的概率。

模态可靠性估计器308将每一类型的数据的可靠性测量(例如权重)发送给概率聚集模块330。例如，可发送对于音频数据的权重，可发送对于视觉图像数据的另一权重，并且可发送对于深度图像数据的另一权重。在此示例中，分类器318、320、322和324将共享第一权重、分类器314和346将共享第二权重，以及分类器310和312将共享第三权重。在另一实施例中，模态可靠性估计器308将为每一分类器确定不同的权重。

概率聚集模块330将基于所接收的各分类和权重来作出性别的最终判定。在一个实施例中，概率聚集模块330将由分类器310-324报告的各概率中的每一个乘以分类器的相关联的权重，以便创建一组乘积(每一乘积为概率乘以权重)。随后，男性的所有乘积将被合计，并且女性的所有乘积将被合计。概率聚集模块330将确定男性的总和是否大于女性的总和。如果是，则概率聚集模块330将作出该对象是男性的最终确定。如果女性的总和大于男性的总和，则概率聚集模块330将作出该对象是女性的最终确定。

也可使用用于对性别作出最终确定的其他实施例。例如，概率聚集模块330可选择与最高权重相关联的男性或女性的分类。在另一实施例中，可使用其他数学函数将各种分类(及其概率)与权重组合。在另一实施例中，每一分类器可报告二元判定(例如男性或女性)，并且概率聚集模块330将选择具有最多投票的性别。

图7是描述使用深度图像数据、视觉图像数据以及音频数据来确定性别并使用对性别的确定来与一个或多个用户进行交互的过程的一个实施例的流程图。图7的过程可使用图6的软件模块或软件模块的其他实施例。在图7的步骤402，该系统将传感深度图像数据。例如，图2的捕捉设备20将传感深度图像，并且在步骤404该深度图像数据将被发送给计算设备。在步骤406，该系统将传感视觉图像数据。例如，捕捉设备20将传感视觉图像，并且在步骤408将该视觉图像发送给计算设备。代替或除了视觉图像以外，该系统还传感并使用红外以及热图像。在步骤410，该系统将传感音频数据。例如，捕捉设备20(图2)的话筒30将传感音频数据，并且在步骤412该数据将被发送给计算设备。在步骤414，该系统将自动地确定深度图像数据、视觉图像数据以及音频数据的权重。例如，如以上讨论的，模态可靠性估计器308将确定各种权重。在步骤416，该系统将基于深度图像数据、视觉图像数据和音频数据以及所所确定的权重的组合来自动地确定性别。在步骤418，计算系统将基于对性别的确定来与一个或多个用户进行交互。例如，站在连接至视频游戏控制台的捕捉设备前方的用户将具有所确定的用户性别，并且随后可基于适当的性别来创建化身。用户随后可基于该化身来与视频游戏进行交互。可基于性别来定制各种其他交互。

图7的步骤416包括组合深度图像数据、视觉图像数据以及音频数据以便确定性别。一般而言，存在来自不同的源的至少三个级别的融合信息：数据/传感器级别、特征级别、以及判定级别。图6的组件描绘了判定级别的信息融合。例如，将各类型的信息中的每一个发送给单独的分类器，并且基于各个类型的信息来作出判定。由分类器作出的男性/女性的判定随后被组合。在数据传感器级别的实施例中，来自不同的源的数据被馈送到一个判定作出实体，该一个判定作出实体将基于来自传感器的所有原始数据来作出一个判定。在特征级别的实施例中，从原始数据中提取各种特征，并且将那些特征发送给一个判定作出实体，该一个判定作出实体将基于所有特征来作出单个判定。例如，可通过移除分类器310-324并且使音频特征提取模块302、图像特征提取模块304以及深度特征提取模块306的输出直接提供给概率聚集模块330来修改图6，以便提供特征级别的信息融合。

在某些实施例中，可使用混合模型。例如，可将来自某种类型的数据的特征提供给单个分类器。例如，可将来自音频特征提取302的MFCC和音调数据输出两者发送给将作出单个初始分类的单个分类器。在这一混合实施例中，将存在对于音频数据的一个分类、对于视觉图像数据的一个分类、以及对于深度图像数据的一个分类。随后将三个分类提供给概率聚集模块330，以供基于概率、概率和权重、或其他因素的最终确定。

图8是描述用于通过使用图6的组件所实现的特征级别模型来自动地确定性别的过程的一个实施例的流程图。图8的过程是图7的步骤414和416的一个示例实现。在图8的步骤500，将访问深度图像数据。在步骤502，规格化深度图像数据。即，在分类之前，深度图像数据被预处理，使得该系统将访问具有相同视图的深度图像。例如，可改变该对象的定向，使得总是使用公共定向。

在图8的步骤504，模态可靠性估计器308将被用于基于深度图像数据中的噪声来将权重分配给深度图像数据。在步骤506，如以上讨论的，深度图像数据的特征将由深度特征提取模块306来提取。在步骤508，一个或多个模态被用于基于所提取的深度图像数据的特征来作出一个或多个分开的性别判定。例如，图6示出四个性别分类器318、320、322和324，它们表示基于所提取的深度数据的特征来作出分开的性别判定的一个或多个模态。

在步骤510，访问视觉图像数据。在步骤512，模态可靠性估计器308将基于对象的光照、曝光、焦点和/或成帧来将权重分配给视觉图像数据。在步骤514，如以上讨论的，图像特征提取模块304将从视觉图像数据中提取适当特征。在步骤516，一个或多个模态被用于基于视觉图像数据来作出一个或多个分开的性别判定。例如，图6示出了分类器314和316，它们是作出一个或多个分开的性别判定的模态的示例。

在步骤518，访问音频数据。在步骤520，模态可靠性估计器308基于数据中的噪声和/或音频信号的音量来将一个或多个权重分配给音频数据。在步骤522，音频数据的各种特征将由音频特征提取模块602来提取。在步骤524，一个或多个模态被用于基于音频数据来作出一个或多个分开的性别判定。例如，图6示出了分类器310和312，它们是作出关于该对象的性别的一个或多个分开的判定的模态的示例。在步骤526，基于所分配的权重来组合在步骤508、516和524中所作出的分开的性别判定，以便创建关于该对象的性别的合成且最终的判定。例如，最终判定由概率聚集模块330在步骤526作出。

存在用于基于以上讨论的各种数据来对性别作出分类的许多不同方法。此处描述的技术不限于用于作出初始分类的任何一种方法。在一个示例中，来自传感器的数据可被聚集并拟合到高斯分布。将数据的每一高斯分布与女性或男性相关联。当新数据被接收时，该系统将尝试把该数据拟合到具有最佳拟合的高斯分布。具有最佳拟合的高斯分布将与男性或女性相关联，并且该系统可基于该高斯分布来将对象分类成男性或女性。或者，该系统将找到拟合该数据的最佳女性分布以及拟合该数据的最佳男性分布，并且创建位于两个分布中的数据的概率。图9和10提供了使用这样的高斯分布的示例。

图9的过程在可确定并使用性别的计算系统的标准操作之前执行。例如，图9的过程可以是用于提供数据以供将来的性别确定的训练过程的一部分。在图9的步骤530，该系统将标识已知对象的数据点。例如，视频游戏控制台将要求用户使女性站在捕捉设备20前方，并且可以获得视觉图像、深度图像以及语音的数据。可针对男性重复相同的过程。可针对许多女性和许多男性执行步骤530。在步骤532，该系统将创建来自步骤530的数据点的多维图表。在步骤534，该系统将创建数据点的多个高斯分布。每一高斯分布将仅仅是男性数据点或仅仅是女性数据点。可存在男性数据点的多个高斯分布，以及女性数据点的多个高斯分布。

图10的过程是使用来自图9的所训练的数据来对于对象的性别进行分类的一个示例。例如，图10的过程可被用作图8的步骤508、516和524的一部分，以便作出对象是男性还是女性的初始分类。在图10的步骤550中，该系统将从以上讨论的传感器中的任一个接收各种数据点。在步骤522，数据点将在以上讨论的多维图表中被标绘。注意，不必实际地绘制多维图。相反，可使用数据结构或等效手段来用符号标绘该数据。在步骤554，该系统将标识男性数据的最接近的高斯分布以及女性数据的最接近的高斯分布。在步骤556，该系统将确定该数据位于女性数据的最接近的高斯分布中的可能性、以及该数据位于男性数据的最接近的高斯分布中的可能性。这些概率将由适当的分类器(例如分类器310-324)输出。概率聚集模块330将使用这些概率(乘以或以其他方式组合来自模态可靠性估计器308的权重)，来确定关于该对象的性别的最终判定。

图11是描述用于使用所分配的权重来组合性别判定的一个实施例的流程图。即，图11的过程是图8的步骤526的一个示例实现。在步骤570，将模态可靠性估计器308分配的深度数据权重乘以基于深度数据来作出初始分类的分类器(例如分类器318-324)的各性别判定中的每一个。例如，分类器中的每一个将输出该对象是男性的概率以及该对象是女性的概率，并且步骤530将包括将权重乘以那些概率中的每一个概率。在步骤572，概率聚集模块330将模态可靠性估计器308分配的视觉图像权重乘以基于图像特征来作出分类的分类器的各性别判定中的每一个。例如，由模态可靠性估计器308确定的图像权重将被乘以由分类器314和316输出的男性概率和女性概率。在步骤574，概率聚集模块330将音频数据权重乘以音频数据的各性别判定中的每一个判定。例如，由模态可靠性估计器308输出的音频数据的权重将被乘以如分类器310和312所计算的该对象为男性的概率以及该对象是女性的概率。在步骤576，所有乘积(权重乘以男性的可能性)将被合计，以便创建该对象为男性的可能性的总和。在步骤578，所有乘积(权重乘以男性的可能性)将被合计，以便创建该对象为女性的可能性的总和。在步骤580，确定哪个总和更大。如果女性总和更大，则在步骤582，概率聚集模块330报告该对象是女性。如果男性总和更大，则在步骤584，概率聚集模块330在步骤584报告该对象是男性。注意，步骤582和584包括向应用52(见图2)报告该性别，应用52将使用该信息来定制与用户的交互。

图12是描绘用于基于在特征级别组合数据来自动地确定性别的过程的一个实施例的流程图。即，图12的过程是图7的步骤414或416的一个示例实现。与图11的过程比较，图12的过程是一个替换实施例。在图12的步骤602中，该系统将接收或访问深度数据。在步骤604，基于数据中的噪声来将权重分配给深度数据。在步骤604，深度数据将被过滤，以便标识一个或多个预先确定的特征的数据。步骤604包括将这样的特征标识为曲率、形状、步行方式等。在步骤606，该系统将接收或访问视觉图像数据。在步骤608，将基于对象的光照、曝光、焦点和/或成帧来将一个或多个权重分配给视觉图像数据。在步骤610，视觉图像将被过滤，以便标识一个或多个预先确定的特征的数据。例如，该系统将找出嘴角、眼角、鼻子形状、亚当的苹果等数据。在步骤612，该系统将接收或访问音频数据。在步骤614，基于噪声或音量来将一个或多个权重分配给音频数据。在步骤616，音频数据将被过滤，以便标识一个或多个预先确定的特征，诸如音调、音质、缺口等。在步骤618，将基于经过滤的深度数据、经过滤的视觉数据以及经过滤的音频数据来作出性别判定。

图13是描绘用于组合不同类型的数据以确定性别的过程的一个实施例的流程图，其中，数据在该数据/传感器级别被组合。即，图13的过程是用于实现图4的步骤414和416的替换实施例。在步骤702，将通过使用已知对象的数据来训练该系统，以便确定用已知对象的数据提供可靠结果的等式的系数。例如，图13a示出一图。底层节点包括来自传感器的数据x_j。图13a仅示出各种数据值x_j的一个子集，并且更多的数据值将被包括在生产版本图中。图13a的图还示出中间判定y_i。图13a示出用于确定y_i处的值的一般公式，该公式是函数g，该函数g包括将系数w_ij乘以数据传感器值x_j的全部或子集，并且合计这些系数，加上一偏置。在一个实施例中，存在两个上层节点Z_m和Z_f。节点Z_m是指示该对象为男性的判定概率的最终节点，并且Z_f提供了该对象是女性的判定概率。图13A将用于确定该对象为男性的公式示为函数h，即系数w_mi乘以一个或多个函数y_i的总和、并加上一偏置。步骤702的目的在于使用性别已知的对象的数据，以便计算提供可靠结果的系数w_mi、w_fi以及w_ij。步骤702在系统的操作之前或在专门的训练会话期间执行。步骤704-72在生产操作期间(例如在玩视频游戏、提供服务或使用应用的时候)执行。

在图13的步骤704中，该系统将访问深度数据，并且将其插入适当的等式中。在步骤706，该系统将访问视觉数据，并且将其插入适当的等式中。在步骤708，该系统将访问音频数据，并且将其插入适当的等式中。在步骤710，各等式被求值，以便确定该对象为男性的概率以及该对象为女性的概率。如果为男性的概率大于为女性的概率，则最终判定将是该对象为男性。如果该对象为女性的概率大于该对象为男性的概率，则最终判定将是该对象为女性

回看图7，步骤416包括基于图7中对性别的确定来与一个或多个用户进行交互。图14A和14B提供如果基于该性别确定来与用户进行交互的示例。

图14A是描述通过创建适当性别的化身来与用户进行交互的流程图。在步骤802，该系统将创建并显示与为该对象用户所确定的性别匹配的适当性别的化身。在步骤804，该化身将基于运动和/或音频来与用户进行交互。例如，用户运动将被跟踪，并且化身将模仿那些运动或对那些运动作出响应。另外地，用户可以说语音命令来控制化身。在一个实施例中，当用户说话时，化身可以用相同或不同的语言来说相同的单词。

图14B是描述基于性别确定来与用户进行交互以便改进语音命令的识别的流程图。在一个实施例中，该系统将包括用于标识来自男性的语音命令的一个库以及用于标识来自女性的语音命令的另一个库。在图14B的步骤840，该系统将基于所确定的性别来加载适当的音频命令库。例如，如果该系统确定该对象的性别为女性，则在步骤840，女性语音命令库将被加载。在步骤842，该系统将使用所加载的音频命令库、基于音频命令(包括识别音频命令)来与用户进行交互，使得用户可使用音频命令来指示该系统执行各种功能。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。更确切而言，上述具体特征和动作是作为实现权利要求的示例形式公开的。本发明的范围旨在由所附权利要求书来定义。

Claims

1.一种用于数据处理系统与用户进行交互的方法，包括：

接收关于人的深度数据(402)；

接收除关于该人的深度数据以外的一个或多个类型的数据(408、412)；

基于所述深度数据以及除深度数据以外的所述一个或多个类型的数据来自动地确定该人的性别(416)；以及

基于对性别的确定来执行动作(418)。

2.如权利要求1所述的方法，其特征在于：

所述接收除深度数据以外的一个或多个类型的数据包括接收该人的语音的音频数据。

3.如权利要求1所述的方法，其特征在于：

所述接收除深度数据以外的一个或多个类型的数据包括接收该人的视觉图像、红外图像或热图像。

4.如权利要求1所述的方法，其特征在于，还包括：

基于所述数据的质量来将权重分配给所述深度数据以及所述一个或多个其他类型的数据，自动地确定性别进一步基于所分配的权重。

5.如权利要求1所述的方法，其特征在于，自动地确定性别包括：

从所述深度数据中提取第一组一个或多个特征，并且基于所述第一组一个或多个特征来作出性别的第一确定；

从所述深度数据中提取第二组一个或多个特征，并且基于所述第二组一个或多个特征来作出性别的第二确定；

从不同类型的数据中提取第三组一个或多个特征，并且基于所述第三组一个或多个特征来作出性别的第三确定，所述不同类型的数据是除深度数据以外的所述一个或多个类型的数据中的一个；

从所述不同类型的数据中提取第四组一个或多个特征，并且基于所述第四组一个或多个特征来作出性别的第四确定；以及

基于所述性别的第一确定、所述性别的第二确定、所述性别的第三确定以及所述性别的第四确定形成来对性别的结论。

6.如权利要求5所述的方法，其特征在于，还包括：

标识对于所述深度数据的第一权重、以及对于所述不同类型的数据的第二权重；

将所述第一权重分配给所述性别的第一确定；

将所述第一权重分配给所述性别的第二确定；

将所述第二权重分配给所述性别的第三确定；以及

将所述第二权重分配给所述性别的第四确定，并且使用对性别的各确定以及所分配的各权重来形成结论。

7.如权利要求6所述的方法，其特征在于，还包括：

通过变换深度图像来规格化所述深度数据，所述变换深度图像改变该人在所述深度图像中的定向。

8.如权利要求7所述的方法，其特征在于：

作出性别的第一确定包括基于属于多个高斯分布中的特定高斯分布的概率来将所述第一组一个或多个特征分配给所述特定高斯分布；

将所述第一权重分配给所述性别的第一确定包括将所述第一权重乘以属于所述特定高斯分布的可能性，以便创建所述性别的第一确定的乘积；以及

将性别的各确定以及所分配的各权重进行组合包括将所述性别的第一确定的乘积与所述性别的第二、第三以及第四确定的乘积相加，以便创建合成分数，并且基于所述合成分数来确定该人的性别。

9.如权利要求1所述的方法，其特征在于，自动地确定性别包括：

过滤所述深度数据以标识第一特征的数据；

过滤所述一个或多个类型的数据以标识其他特征的数据；以及

基于所述第一特征的数据以及所述其他特征的数据来标识该人的性别。

10.如权利要求1所述的方法，其特征在于，自动地确定性别包括：

将所述深度数据以及所述除深度数据以外的一个或多个类型的数据插入作出性别的一个判定的一组一个或多个等式。

11.如权利要求1所述的方法，其特征在于，基于对性别的确定来与该人进行交互包括：

创建并显示具有与所确定的该人的性别匹配的性别的化身。

12.如权利要求1所述的方法，其特征在于，基于对性别的确定来与该人进行交互包括：

基于对性别的确定来从多个语音命令库中选择特定语音命令库；

接收语音命令；以及

使用所述特定语音命令库来解释所接收的语音命令。

13.一种计算装置，包括：

深度传感器(26)；

不同的传感器(28)，其不同于深度传感器；

用户接口(16)；以及

处理器(12)，所述处理器与所述深度传感器、不同的传感器以及用户接口进行通信，所述处理器基于来自所述深度传感器以及所述不同的传感器的数据来确定人的性别，所述处理器基于对性别的确定来改变所述用户接口。

14.如权利要求13所述的计算机，其特征在于：

所述计算装置还包括与所述处理器通信的图像传感器；

所述不同的传感器是音频传感器；

所述处理器基于来自所述深度传感器、所述图像传感器以及所述音频传感器的数据来确定人的性别。

15.如权利要求14所述的计算机，其特征在于：

所述处理器自动地跟踪使用来自所述深度传感器的数据来确定其性别的人的运动；以及

所述处理器响应于跟踪运动来改变所述用户接口。