CN102799262A

CN102799262A - 用于确定输入语音的相关性的装置和方法

Info

Publication number: CN102799262A
Application number: CN2012100989908A
Authority: CN
Inventors: O.卡林利
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2011-04-08
Filing date: 2012-04-06
Publication date: 2012-11-28
Anticipated expiration: 2032-04-06
Also published as: EP2509070A1; EP2509070B1; CN102799262B; JP2012220959A; US20120259638A1; JP5456832B2

Abstract

本发明涉及用于确定输入语音的相关性的装置和方法。可以使用听觉或视觉取向线索确定输入语音的相关性。可以在时间间隔期间识别语音期间用户面部的存在。可以确定所述时间间隔期间与用户面部相关联的一个或多个面部取向特性。在一些情况下，可以确定输入声音的取向特特性。可以基于一个或多个取向特性表征所述时间间隔期间用户语音的相关性。

Description

用于确定输入语音的相关性的装置和方法

技术领域

本发明的实施例涉及包括语音识别特征的计算机程序中语音输入的相关性的确定。

背景技术

很多用户控制程序使用某些形式的语音识别来促进用户和程序之间的交互。实施某些形式的语音识别的程序的例子包括：GPS系统、智能电话应用、计算机程序和视频游戏。这些语音识别系统往往对程序操作期间捕获的所有话音进行处理，而不管语音的相关性如何。例如，可以将实施语音识别的GPS系统配置成在其识别出由说话者做出的特定命令时执行某些任务。然而，确定给定的话音输入（即，语音）是否构成了命令需要系统处理由说话者做出的每个话音输入。

对每个话音输入进行处理给系统资源造成了沉重的工作负担，从而导致总体效率低下和对于其他功能而言有限的硬件资源可用性的供应。而且，对于语音识别系统而言，从对不相关话音输入的处理中恢复既困难又耗时。同样地，除了相关话音输入之外，还必须对很多不相关的话音输入进行处理可能引起语音识别系统的混乱，从而导致更大的不准确。

一种用于减少给定语音识别系统的操作期间需要处理的总话音输入的现有技术方法涉及实施即按即说（push-to-talk）。即按即说给予用户对语音识别系统何时捕获要话音输入进行处理的控制。例如，语音识别系统可以采用麦克风捕获话音输入。之后，用户将控制麦克风的开启/关闭功能（例如，用户按压按钮以指示他向系统说出命令）。虽然这确实对于限制语音识别系统处理的不相关话音输入的量有作用，但是这是通过给用户造成必须控制该系统的又一方面的负担而实现的。

本发明的实施例在这一上下文中出现。

发明内容

根据本发明的实施例，提高一种用于确定输入语音的相关性的方法，包括：a) 识别时间间隔内的语音期间用户面部的存在；b) 获得所述时间间隔期间与用户的面部相关联的一个或多个面部取向特性；以及c) 基于在b)中获得的一个或多个取向特性来表征所述时间间隔期间的所述语音的相关性。

在优选的实施例中，在b)中的获得所述一个或多个面部取向特性涉及使用照相机跟踪用户的面部取向特性。

在优选的实施例中，在b)中的获得所述一个或多个面部取向特性还涉及使用红外光跟踪用户的面部取向特性。

在优选的实施例中，在b)中的获得所述一个或多个面部取向特性涉及使用麦克风跟踪用户的面部取向特性。

在优选的实施例中，在b)中的所述一个或多个面部取向特性包括头部倾角。

在优选的实施例中，在b)中的所述一个或多个面部取向特性包括眼睛注视方向。

在优选的实施例中，c)涉及在一个或多个所述面部取向特性落在允许的范围之外的情况下，将用户的语音表征为不相关。

在优选的实施例中，c)涉及基于一个或多个所述面部取向特性从允许的范围的偏离来为用户语音的相关性加权。

在优选的实施例中，还包括在获得语音期间与用户的面部相关联的一个或多个面部取向特性之前寄存用户面部的轮廓。

在优选的实施例中，还包括确定语音源的方向，并且其中，c)包括在表征语音的相关性中取得语音源的方向。

在优选的实施例中，c)包括在图像捕获设备捕获的图像内的多个语音源中进行辨别。

根据本发明的实施例，提高一种用于确定语音的相关性的装置，包括：处理器；存储器；以及包含在所述存储器内的并且可由所述处理器执行的计算机编码指令，其中，所述计算机编码指令被配置成实施一种用于确定用户的语音的相关性的方法，所述方法包括：a) 识别时间间隔内的语音期间用户面部的存在；b) 获得所述时间间隔期间的语音期间与用户的面部相关联的一个或多个面部取向特性；c) 基于在b)中获得的一个或多个取向特性来表征所述时间间隔期间的用户语音的相关性。

在优选的实施例中，还包括被配置成获得b)中的所述一个或多个取向特性的照相机。

在优选的实施例中，还包括被配置成获得b)中的所述一个或多个取向特性的一个或多个红外灯。

在优选的实施例中，还包括被配置成获得b)中的所述一个或多个取向特性的麦克风。

根据本发明的实施例，提高一种计算机程序产品，包括：非暂态计算机可读存储介质，其具有包含在所述介质内的用于确定相关性语音的计算机可读程序代码，所述计算机程序具有：a) 用于识别时间间隔内的语音期间用户面部的存在的计算机可读程序代码装置；b) 用于获得所述时间间隔期间与用户的面部相关联的一个或多个面部取向特性的计算机可读程序代码装置；c) 用于基于在b)中获得的一个或多个取向特性来表征用户的语音的相关性的计算机可读程序代码装置。

附图说明

图1A是示出了根据本发明实施例的用于确定用户的语音的相关性的方法的流程图/示意图。

图1B-1I是示出了结合本发明的实施例的使用眼睛注视和面部跟踪的例子的示意图。

图2A-D是示出了根据本发明的实施例的面部取向特性跟踪设置的示意图。

图2E是示出了根据本发明实施例的可以利用面部取向跟踪的便携式设备的示意图。

图3是示出了根据本发明实施例的用于确定用户的语音的相关性的装置的框图。

图4是示出了根据本发明实施例的用于确定用户的语音的相关性的装置的cell处理器实现的例子的框图。

图5示出了具有指令的非暂态计算机可读存储介质的例子，该指令用于根据本发明实施例实施输入语音的相关性的确定。

具体实施方式

在用户的语音充当给定程序的控制输入时，出现用于确定语音相关性的需要。例如，这可能发生在用户试图复制流行歌曲的歌词和曲调的卡拉OK型视频游戏的上下文中。程序（游戏）通常将对从用户嘴里发出的所有语音进行处理，而不管用户的意图如何。因此，意欲用作控制输入的语音和非意欲用作控制输入的语音都将以相同的方式受到处理。这导致了更高的计算复杂性和系统效率低，因为不相关语音受到了处理而不是被丢弃。这还可能导致由噪声话音输入（即，不相关语音）的引入而造成的程序性能的准确度的降低。

在本发明的实施例中，可以在不依赖用户对语音捕获的故意或有意控制的情况下确定给定话音输入的相关性。可以基于说话者在语音期间无意给出的某些可检测线索来表征用户的话音输入的相关性。例如，在语音期间说话者的语音方向和说话者的视向二者可以提供关于谁或者什么是说话者话音的目标的迹象（tell-tale sign）。

图1是示出了根据本发明实施例的用于确定用户的话音输入（即语音）的相关性的方法的示意图/流程图。用户101可以通过使用他的语音103作为控制输入而向在处理器113上运行的程序112提供输入。在下文中将可互换地使用术语语音和话音输入来描述用户在任何情况下的听觉输出。可以将处理器113连接至可视显示器109、诸如数字照相机的图像捕获设备107和麦克风105以促进与用户101的通信。可以将可视显示器109配置成显示与在处理器113上运行的程序相关联的内容。可以将照相机107配置成跟踪语音期间与用户101相关联的某些面部取向特性。类似地，可以将麦克风105配置成捕获用户的语音103。

在本发明的实施例中，只要用户101在程序的操作期间进行语音103时，处理器113就设法确定该语音/话音输入的相关性。作为例子而不是作为限制，处理器113可以首先分析来自照相机107的一个或多个图像，以识别用户的面部在与程序相关联的活跃区域111内的存在，如115所示。例如，这可以通过使用适当配置的图像分析软件跟踪用户101在照相机107的视场108内的位置并识别出在某些时间间隔期间视场内的用户的面部来实现。替代地，麦克风105可以包括具有两个或更多分离隔开（separate-spaced apart）的麦克风的麦克风阵列。在这样的情况下，可以利用能够识别声音源（例如，用户的话音）的位置的软件对处理器113编程。这样的软件可以利用到达方向（DOA）估计技术，例如，波束形成、到达时间延迟估计、到达频差估计等来确定声音源相对于麦克风阵列的方向。可以使用这样的方法建立麦克风阵列的听音区，其大致对应于照相机107的视场108。可以将处理器配置成滤除源自于听音区之外的声音。例如在共同转让的美国专利7,783,061、共同转让的美国专利7,809,145和共同转让的美国专利申请公开号2006/0239471中描述了这样的方法的一些例子，通过引用将所有三个的全部内容并入本文。

作为例子而不是作为限制，如果语音103源自于视场108以外的位置，那么用户的面部也不会出现，并且可以在处理前将语音103自动表征为不相关并丢弃。然而，如果语音103源自于活跃区域111内（例如，照相机107的视场108内）的位置，那么处理器113可以继续至确定用户语音的相关性的下一步骤。

一旦已经识别出了用户面部的存在，就可以在时间间隔期间获得语音期间与用户的面部相关联的一个或多个面部取向特性，如117所示。而且，也可以使用适当配置的图像分析软件分析用户的面部的一个或多个图像，以确定面部取向特性。作为例子而不是作为限制，这些面部取向特性之一可以是用户的头部倾角。用户的头部倾角是指语音期间用户的面部与恰好朝向指定目标（例如，可视显示器、照相机等）的面部之间的角位移。用户的头部倾角可以指垂直角位移、水平角位移或二者的组合。用户的头部倾角提供了有关他在语音期间的意图的信息。在最多的情况下，用户在讲话时将直接面对他的目标，并且这样用户讲话所处的头部倾角将有助于确定谁/什么是他讲话的目标。

除了头部倾角之外，可以与用户的语音相关联的另一面部取向特性是他的眼睛注视方向。用户眼睛的注视方向是指用户的眼睛在语音期间面对的方向。用户的眼睛注视方向也可以提供有关他在语音期间的意图的信息。在最多的情况下，用户在讲话时将使眼睛与他的目标接触，并且这样语音期间用户的眼睛注视方向将有助于确定谁/什么是他语音的目标。

可以利用连接至处理器的一个或多个照相机以及麦克风来跟踪这些面部取向特性。下文提供对面部取向特性跟踪系统的例子的更为详细的解释。为了辅助系统获得用户的面部取向特性，程序可以在一开始要求用户在访问程序的内容之前注册他的面部轮廓。这赋予了处理器基线面部轮廓以比较将来的面部取向特性，由此最终将导致更为准确的面部跟踪过程。

在已经获得了与用户的语音相关联的面部取向特性之后，可以根据那些面部取向特性表征用户语音的相关性，如119所示。作为例子而不是作为限制，在所获得的一个或多个面部取向特性落到允许的范围之外的情况下，可以将用户的语音表征为不相关。例如，程序可以设置45°的最大可允许头部倾角，并且因此在45°的头部倾角以外发出的语音将被表征为不相关，并在处理之前被丢弃。类似地，程序可以针对用户的眼睛注视方向设置10°的从指定目标的最大发散角，并且因此可以将在10°的发散眼睛注视方向以外发出的任何语音表征为不相关，并在处理之前丢弃。也可以基于面部取向特性的组合表征相关性。例如，头部倾角落在允许的范围之外但是眼睛注视方向落在最大发散角内的用户发出的语音可以被表征为是相关的，或者头部径直看向目标但是眼睛注视方向落在最大发散角之外的用户发出的语音可以被表征为不相关。

除了面部特性之外，在119，本发明的某些实施例还可以考虑语音相关性的确定中的声音源的方向。具体而言，可以将麦克风阵列与波束形成软件结合使用，以确定语音103的源相对于麦克风阵列的方向。也可以结合麦克风阵列和/或照相机使用波束形成软件来确定用户相对于麦克风阵列的方向。如果两个方向非常不同，那么在处理器上运行的软件可以向语音103分配相对较低的相关性。这样的实施例可用于滤除源自于诸如用户101的相关源以外的源的声音。要指出的是，当在照相机捕获的场景中存在多个语音源（但是只有一个产生语音）时，这里描述的实施例也可以起作用。这样一来，本发明的实施例不限于用户是照相机107捕获的图像中的仅有语音源的实现。具体而言，在119确定语音相关性可以包括图像在捕获设备107捕获的图像内的多个语音源中进行辨别。

此外，当存在多个由麦克风阵列捕获到的语音源（例如，当多个人说话时）但是只有一个源（例如，相关用户）位于照相机107的视场内时，本文描述的实施例也可以起作用。然后，可以将视场内的用户的语音检测为是相关的。可以使用麦克风阵列进行导引并仅提取来自由照相机在视场内定位的声音源的声音。处理器113可以借助相关用户的位置的先验信息实施源分离算法，从而从麦克风阵列的输入提取相关语音。从另一角度来看，也可以说，认为来自视场以外的源的语音是不相关的并且被忽略。

每个应用/平台都可以基于所提取的可视特征（例如，头部倾斜、眼睛注视方向等）和声学特征（例如，定位信息，诸如，声音的到达方向等）判决语音的相关性。例如，一些应用/平台可能更加严格（即，比如蜂窝电话的手持设备、平板PC或便携式游戏设备，例如如图2E所示），而在允许的从目标（即，如图2A中的具有TV显示器的起居室设置）的偏离的方面，其他一些应用/平台可能不太严格。此外，可以使用机器学习算法，例如，决策树、神经网络等使用从对象收集的数据来学习这些音频－可视特征和语音相关性之间的映射，从而做出更好的判决。替代地，可以在系统中使用软判决来替代相关/不相关判决的二元判决，使得可以将基于所提取的音频－可视特征估计的可能性评分（即，处于[0,1]之间的数；0为不相关，1为相关）发送给语音识别引擎用于为输入语音帧加权。例如，随着用户头部倾角的增大，用户的语音可能变得不太相关。类似地，随着用户的眼睛注视方向从指定目标变得更加发散，用户语音可能变得不太相关。因此，可以使用用户语音的加权相关性确定如何进一步处理语音或者在进一步处理之前将其丢弃。

通过在语音识别处理之前对检测到的用户语音的相关性加权，系统可以节约大量的硬件资源，并且改进语音识别的总准确度。丢弃不相关的话音输入降低了处理器的工作负担，消除了对无关语音进行处理所牵涉的混乱。

图1B-1I示出了使用面部取向和眼睛注视方向确定检测到的语音的相关性的例子。如图1B所示，用户101的面部120可以出现在图像122_B中。图像分析软件可以识别出面部120上的参考点。软件可以表征这些参考点中的某些，例如，位于嘴角124_M、鼻梁124_N、头发中的部分124_H和眉毛的顶部124_E的参考点，它们相对于面部120基本是固定的。软件还可以识别用户眼睛的瞳孔126和眼角128作为参考点，并确定瞳孔相对于眼角的位置。在一些实施中，可以根据瞳孔126和眼角128的位置估计用户眼睛的中心。然后，可以估计眼睛的中心，并且可以将瞳孔的位置与估计的中心的位置进行比较。在一些实施中，可以使用面部对称性质。

软件可以根据对参考点和瞳孔126的相对位置的分析确定用户的面部特性，例如，头部倾角和眼睛注视角度。例如，软件可以通过使用户直视照相机而对参考点124_E、124_H、124_M、124_N、128初始化，并寄存参考点和瞳孔126的位置作为初始值。然后，软件可以针对这些初始值将头部倾斜和眼睛注视角度初始化为零。接下来，每当用户向前直视照相机时，如图1B和对应的图1C示出的对应顶视图所示，参考点124_E、124_H、124_M、124_N、128和瞳孔126就应当处于它们初始值或附近。软件可以在头部倾斜和眼睛注视角度接近它们的初始值时为用户语音分配高相关性。

作为例子而非作为限制，可以使用五个参考点估计用户头部的姿势，即，每只眼睛的外侧眼角128、外侧嘴角124M和鼻尖（未示出）。可以通过在眼睛的中点（例如，眼睛外眼角128之间的中间）和嘴的中点（例如，嘴的外侧嘴角124M之间的中间）之间连线找到面部对称轴。可以根据鼻子的3D角度在弱透视几何下确定面部方向。替代地，可以使用相同的五个点根据平面的法线确定头部姿势，可以根据平面斜对称性和对鼻子位置的粗略估计找到法线。例如，可以在IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, Vol. 31, No. 4, April 2009, pp 607-626中Erik Murphy的“Head Pose Estimation in Computer Vision: A Survey”中找到头部姿势估计的其他细节，通过引用将其内容并入本文。在Athanasios Nikolaidis的“Facial feature extraction and pose determination”, Pattern Recognition, Vol. 33 (July 7, 2000) pp. 1783-1791中描述了可以与本发明的实施例结合使用的头部姿势估计的其他例子，通过引用将其全部内容并入本文。在FG’00 Proceedings of the Fourth IEEE International Conference on Automatic Face and Gesture Recognition, 2000, pp 499-505中Yoshio Matsumoto 和Alexander Zelinsky的“An Algorithm for Real-time Stereo Vision Implementation of Head Pose and Gaze Direction Measurement”中描述了可以与本发明的实施例结合使用的头部姿势估计的附加例子，通过引用将其全部内容并入本文。在Image and Vision Computing, Vol. 20, Issue 7, 20 February, 2002, pp 499-511中 Qiang Ji and Ruong Hu 的“3D Face Pose Estimation from a Monocular Camera”中描述了可以与本发明的实施例结合使用的头部姿势估计的其他例子，通过引用将其全部内容并入本文。

在用户倾斜其头部时，图像122中的参考点之间的相对距离可能根据倾角改变。例如，如果用户向右或向左围绕纵轴Z枢轴转动其头部，那么眼角128之间的水平距离x₁可能减小，如图1D中描绘的图像122_D中所示。其他参考点也可能起作用，或者更易于检测，这取决于所使用的特点头部姿势估计算法。可以使距离的改变量与图1E中的对应顶视图所示的枢轴转动角θ_H相关。应当注意，如果枢轴转动纯粹围绕Z轴，那么预计（例如）鼻梁处的参考点124_N和嘴角处的参考点124_M之间的垂直距离Y₁将不显著改变。然而，可以合理地料想到，如果用户将向上或向下倾斜其头部，那么这一距离y₁将改变。还要注意，在确定瞳孔126相对于眼角128的位置以进行注视方向估计时，软件可以取头部枢轴转动角θ_H。替代地，在确定头部枢轴转动角θ_H时，软件可以考虑瞳孔126相对于眼角128的位置。如果注视预测更容易，例如，借助手持设备上的红外光源可以相对容易地对瞳孔定位，那么这样的实现可能是有利的。在图1D和图1E所示的例子中，用户眼睛的注视角θ_E或多或少地与用户头部倾角对准。然而，由于用户头部的枢轴转动和眼球形状的三维性质，与它们在初始图像122_B中的位置相比，瞳孔126的位置在图像122_D中出现略微偏移。软件可以基于头部倾角θ_H和眼睛注视角θ_E是否处于用户面对照相机的某些适当范围内（例如，接近其初始值），或者是否处于用户101面对麦克风105的某些适当范围内而向用户语音分配相关性。

在一些情况下，用户101可能面向照相机，但是用户的眼睛注视指向别处，例如，如图1F中和图1G中对应的顶视图所示。在这一例子中，用户头部倾角θ_H为零，而眼睛注视角θ_E不为零。代之以，用户的眼球逆时针旋转，如图1G所示。因此，参考点124_E、124_H、124_M、124_N、128的排布如图1B所示，但是瞳孔126在图像122_F中则向左偏移。程序112可以在确定应当对来自用户101的任何语音做出解释还是将其忽略时考虑用户面部的这一配置。例如，如果用户面对麦克风但是看向别处，或者看向麦克风但是面朝别处，那么与用户看向麦克风且面向麦克风的情况相比，程序112可以为本应识别用户语音的可能性分配相对较低的概率。

应当注意，用户头部可以向一个方向枢轴转动，并且用户的眼球可以向另一方向枢轴转动。例如，如图1H和图1I所示，用户101可以顺时针枢轴转动其头部，并且逆时针旋转其眼球。因此，在图1E中，参考点124_E、124_H、124_M、124_N、128偏移，而在图1H所示的图像122_H中，瞳孔126则偏移。程序112可以在确定是应当对来自用户101的任何语音做出解释还是将其忽略时考虑这一配置。

从前述讨论可以看出，有可能只使用照相机跟踪某些用户面部取向特性。然而，也可以使用很多替代形式的面部取向特性跟踪设置。图2A-E示出了根据本发明的实施例可以实施的五个面部取向特性跟踪系统的例子（除其他可能系统之外）。

在图2A中，用户201面向安装在可视显示器203的顶部的照相机205和红外光传感器207。要想跟踪用户的头部倾角，可以将照相机205配置成执行对象分割（即，跟踪用户的单独的身体部分），之后根据所获得的信息估计用户的头部倾角。将照相机205和红外光传感器207耦合到可以具有如上文所述配置的运行软件213的处理器213。作为例子而不是作为限制，可以在使用运动模型实现对象分割以描述目标的图像如何根据对象的不同可能运动而改变。要注意的是，本发明的实施例可以使用不止一个照相机，例如，一些实现可以使用两个照相机。一个照相机可以提供视场的缩小图像，从而对用户定位，并且第二照相机则可以进行放大并聚焦在用户的面部，以提供用于更好的头部和注视方向估计的特写图像。

也可以使用这一设置获取用户的眼睛注视方向。作为例子而不是作为限制，一开始可以使红外光从红外光传感器207指向用户的眼睛，并通过照相机205捕获反射。从反射红外光提取的信息将允许耦合至照相机205的处理器确定用户的眼睛旋转量。基于视频的眼睛跟踪器通常使用角膜反射和瞳孔的中心作为随时间进行跟踪的特征。

因而，图2A示出了一种根据本发明的实施例的面部取向特性跟踪设置，其被配置成对用户的头部倾角和用户的眼睛注视方向两者进行跟踪。要指出的是，出于举例的目的，假设用户直接处于显示器和照相机的对面。然而，即使用户不直接处于显示器203和/或照相机205的对面也可以实施本发明的实施例。例如，用户201可以处于显示器的右侧/左侧的+45°或-45°。只要用户201处于照相机205的视场内，就可以估计头部角度θ_H和眼睛注视θ_E。之后，可以根据关于显示器203和/或照相机205的用户201的位置（例如，如图2A所示的身体角度θ_B）、头部角度θ_H和眼睛注视θ_E计算归一化角。例如，如果归一化角处于允许的范围内，那么可以将语音接受为是相关的。作为例子而非作为限制，如果用户201定位使得身体角度θ_B为+45°，并且如果头部转动-45°的角度θ_H，那么用户就通过转动其头部调整（fix）身体从显示器203的偏离，而且这几乎与使人径直看向显示器一样好。具体而言，如果（例如）用户的注视角θ_E为零（即，用户的瞳孔居中），那么归一化角（例如，θ_B+θ_H+θ_E）为零。可以将根据头部、身体和注视的归一化角与预定范围进行比较，以判决语音是否相关。

图2B提供了另一面部取向特性跟踪设置。在图2B中，用户201面向安装在可视显示器203的顶部的照相机205。用户201同时佩戴了一副眼镜209（例如，一副3D快门式眼镜），眼镜具有一对隔开的红外（IR）光源211（例如，在眼镜209的每个镜片上具有一个IR LED）。可以将照相机205配置成捕获从光源211发出的红外光，之后根据获得的信息对头部倾角进行三角测量。由于光源211的位置将不相对于其在用户面部的位置显著变化，因而这一设置将提供相对准确的对用户头部倾角的估计。

眼镜209可以附加地包括可以向处理器213提供图像的照相机210，可以与软件212结合使用处理器213来找到可视显示器203的位置，或者估计可视显示器203的大小。收集这一信息允许系统使用户的面部取向特性数据归一化，使得使那些特征的计算独立于显示器203和用户201两者的绝对位置。此外，照相机的增加将允许系统更加准确地估计可视范围。因而，图2B示出了根据本发明实施例的用于确定用户的头部倾角的替代设置。在一些实施例中，可以向眼镜209的每个镜片安装独立的照相机，其面向用户的眼睛以通过获得眼睛的示出瞳孔相对于眼睛的中心或眼角的相对位置的图像而促进注视跟踪。眼镜209相对于用户眼睛的相对固定的位置将促进独立于用户头部取向θ_H的跟踪的用户眼睛注视角θ_E的跟踪。

图2C提供了第三种面部取向特性跟踪设置。在图2C中，用户201面向安装在可视显示器203的顶部的照相机205。用户还持有具有一个或多个照相机217（例如，每侧上一个）的控制器215，其被配置成促进用户201与可视显示器203上的内容之间的交互。

可以将照相机217配置成找到可视显示器203的位置，或者估计可视显示器203的大小。收集这一信息允许系统使用户的面部取向特性数据归一化，使得那些特征的计算独立于显示器203和用户201两者的绝对位置。此外，将照相机217添加到控制器215允许系统更加准确地估计可视范围。

重要的是要注意，还可以使图2C中的设置与图2A中的设置组合（图中未示出），以便在使系统独立于显示器大小和位置时，除了跟踪用户的头部倾角以外还跟踪用户的眼睛注视方向。由于在这一设置中用户的眼睛不受阻挡，因而可以通过上文讨论的红外光反射和捕获过程获得其眼睛注视方向。

图2D提供了另一种替代的面部取向特性跟踪设置。在图2D中，用户201面向安装在可视显示器203的顶部的照相机205。用户201还佩戴着具有红外光源221（例如，每个耳塞上一个）和麦克风223的耳机219，将耳机219被配置成促进用户201与可视显示器203上的内容之间的交互。与图2B中的设置非常相似的是，照相机205可以捕获从耳机219上的光源221发出的红外光路径，并且之后根据获得的信息对用户的头部倾角进行三角测量。由于耳机219的位置不倾向于相对于其在用户面部的位置显著变化，因而这一设置可以提供相对准确的对用户头部倾角的估计。

除了使用红外光传感器221跟踪用户的头部倾角之外，还可以通过非耳机219的部分的单独的麦克风阵列227跟踪用户的头部相对于指定目标的位置。可以将麦克风阵列227配置成例如使用在处理器213上运行的适当配置的软件212来促进对用户语音的幅度和方向的确定。例如，在共同转让的美国专利7,783,061、共同转让的美国专利7,809,145和共同转让的美国专利申请号2006/0239471中描述了这样的方法的例子，通过引用将这三篇文献的全部内容并入本文。

可以在2010年9月23日Ruxin Chen和Steven Osman的美国专利申请号 12/889,347（律师卷号 SCEA10042US00-I）、名称为“BLOW TRACKING USER INTERFACE SYSTEM AND METHOD”中找到对使用温度记录（thermographic）信息的用户语音定向跟踪的详细解释，通过引用将其并入本文。作为例子而不是作为限制，可以使用热成像照相机检测用户嘴部周围的空气中的振动模式，该振动模式对应于语音期间用户话音的声音，由此确定用户语音的取向。可以对振动模式的时间演变进行分析，以确定对应于用户语音的一般化方向的矢量。

使用麦克风阵列227相对于照相机205的位置和用户语音相对于麦克风阵列227的方向这两者，可以计算出用户头部相对于指定目标（例如，显示器）的位置。为了在建立用户的头部倾角时实现更高的准确度，可以将红外反射与用于确定头部倾角的定向跟踪方法组合。

耳机219还可以附加地包括照相机225，其被配置成找到可视显示器203的位置或者估计可视显示器203的大小。收集这一信息允许系统使用户的面部取向特性数据归一化，使得使那些特征的计算独立于显示器203和用户201两者的绝对位置。此外，照相机的增加将允许系统更加准确地估计可视范围。在一些实施例中，可以向耳机219安装一个或多个照相机225，其面向用户的眼睛，从而通过获得眼睛的示出瞳孔相对于眼睛的中心或眼角的相对位置的图像而促进注视跟踪。耳机219的（因而（一个或多个）照相机225的）相对于用户眼睛的相对固定的位置促进独立于用户头部取向θ_H的跟踪来跟踪用户眼睛注视角θ_E。

重要的是要注意，可以使图2D中的设置与图2A中的设置组合（图中未示出），以便除了跟踪用户的头部倾角以外还跟踪用户的眼睛注视方向。由于在这一设置中用户的眼睛不受阻挡，因而可以通过上文讨论的红外光反射和捕获过程获得其眼睛注视方向。

除其他之外，也可以在诸如蜂窝电话的手持设备、平板计算机、个人数字助理、便携式因特网设备或者便携式游戏设备中实施本发明的实施例。图2E示出了在手持设备230的上下文中一个可能的确定语音相关性的例子。设备230总体上包括处理器239，可以使用适当的、例如如上所述的软件对其编程。设备230可以包括耦合至处理器239的显示屏231和照相机235。也可以使一个或多个麦克风233和控制开关237可选地耦合至处理器239。麦克风233可以是麦克风阵列的部分。控制开关237可以是通常与特定类型的手持设备一起使用任何类型。例如，如果设备230是蜂窝电话，那么控制开关237可以包括通常在这样的设备内使用的数字小键盘或字母数字小键盘。替代地，如果设备230是便携式游戏单元，那么控制开关237可以包括数字或模拟操纵杆、数字控制开关、触发器等。在一些实施例中，显示屏231可以是触摸屏接口，并且可以通过触摸屏结合适当的软件、硬件或固件实现控制开关237的功能。可以将照相机235配置成在用户看显示屏231时面向用户201。可以使用软件对处理器239编程，以实施头部姿势跟踪和/或眼睛注视跟踪。还可以将处理器配置成利用头部姿势跟踪和/或眼睛注视跟踪信息来确定由例如如上所述的（一个或多个）麦克风233检测到的语音的相关性。

要指出的是，可以将显示屏231、（一个或多个）麦克风233、照相机235、控制开关237和处理器239安装到用户可以单手或双手容易地握持的箱子。在一些实施例中，设备230可以与一副专用眼镜结合操纵，眼镜可以具有与图2B所示的并且在上文描述的眼镜209共同的特征。这样的眼镜可以通过无线或有线连接（例如，诸如蓝牙网络连接的个域网连接）与处理器通信。在一些实施例中，设备230可以与耳机结合使用，耳机可以具有与图2D所示并且在上文描述的耳机219共同的特征。这样的耳机可以通过无线或有线连接（例如，诸如蓝牙网络连接的个域网连接）与处理器通信。设备230可以包括适当的天线和收发器，以促进无线网络连接。

要指出的是，在本发明的实施例中，图2A-2E所示的例子只是很多种可以用来跟踪语音期间的面部取向特性的设置中的几个例子。类似地，可以对除了上述头部倾角和眼睛注视方向以外的各种身体及其他面部取向特性进行跟踪，以促进用户语音的相关性的表征。

图3示出了可用来实施根据本发明实施例的检测用户的不相关语音的方法的计算机装置的框图。装置300一般可以包括处理器模块301和存储器305。处理器模块301可以包括一个或多个处理器核，其包括例如中央处理器和一个或多个协处理器，以促进并行处理。

存储器305可以是集成电路的形式，例如，RAM、DRAM、ROM等。存储器305也可以是可由所有的处理器模块访问的主存储器。在一些实施例中，处理器模块301可以是多核处理器，其具有单独的与每个核对应相关联的本地存储器。可以将程序303以可以在处理器模块上执行的处理器可读指令的形式存储在主存储器305内。可以将程序303配置成执行对用户话音输入的相关性的估计。可以使用任何适当的处理器可读语言编写程序303，处理器可读语言例如，C、C++、JAVA、汇编、MATLAB、FORTRAN和很多其他语言。程序303可以实施例如上文相对于图1A-1I描述的面部跟踪和注视跟踪。

也可以将输入数据307存储在存储器内。这样的输入数据307可以包括头部倾角、眼睛注视方向或者任何其他的与用户相关联的面部取向特性。替代地，输入数据307可以是来自照相机的数字化视频信号和/或来自一个或多个麦克风的数字化音频信号的形式。程序303可以使用这样的数据计算头部倾角和/或眼睛注视方向。在程序303的执行期间，可以将程序代码和/或数据的部分加载到存储器内或者加载到处理器核的本地存储内用于由多个处理器核并行处理。

装置300还可以包括公知的支持功能309，诸如，输入/输出（I/O）元件311、电源（P/S）313、时钟（CLK）315和高速缓存317。装置300可以可选地包括大容量存储设备319，诸如，盘驱动器、CD-ROM驱动器、带驱动器等，以存储程序和/或数据。设备300可以可选地包括显示单元321和用户接口单元325，以促进装置和用户之间的交互。显示单元321可以是显示文本、数字、图形符号或图像的阴极射线管（CRT）或平板屏幕的形式。作为例子而不是作为限制，显示单元321可以是3D就绪电视机的形式，其显示可以使用一副3D观看眼镜327感知为立体图像的文本、数字、图形符号或其他可视对象，可以将眼镜327耦合至I/O元件311。立体观测是指通过向每只眼睛呈现稍微不同的图像而增强二维图像中的深度感。如上，可以将光源或照相机安装到眼镜327。在一些实施例中，可以向眼镜327的每个镜片安装独立的照相机，其面向用户的眼睛，从而通过获得眼睛的示出瞳孔相对于眼睛的中心或眼角的相对位置的图像而促进注视跟踪。

用户接口325可以包括键盘、鼠标、操纵杆、光笔或其他可以与图形用户接口（GUI）结合使用的设备。装置300还可以包括网络接口323，其使设备能够通过诸如因特网的网络与其他设备通信。

在一些实施例中，系统可以包括可选的照相机329。可以将照相机329经由I/O元件311耦合至处理器301。如上所述，可以将照相机329配置成跟踪语音期间与给定用户相关联的某些面部取向特性。

在一些其他实施例中，系统还可以包括可选的麦克风331，其可以是单个麦克风或具有两个或更多彼此相隔一定已知距离的麦克风331A、331B的麦克风阵列。可以将麦克风331经由I/O元件311耦合至处理器301。如上所述，可以将麦克风331配置成跟踪给定用户的语音的方向。

系统300的部件，包括处理器301、存储器305、支持功能309、大容量存储设备319、用户接口325、网络接口323和显示器321可以经由一个或多个数据总线327相互操作性连接。可以通过硬件、软件、固件或者其中的两项或更多项的组合实现这些部件。

对于装置中的多个处理器，存在多个附加的方式来流水线并行处理。例如，有可能通过在两个或更多处理器核上复制代码并使每个处理器核实施代码以处理不同条的数据而“解开”处理环。这样的实现可以避免与建立环相关联的延迟。在应用于本发明时，多处理器可以并行确定来自多个用户的话音输入的相关性。可以并行获得语音期间每个用户的面部取向特性，并且还可以并行执行对每个用户的语音的相关性的表征。并行处理数据的能力节省了宝贵的处理时间，从而得到更有效率和用于检测不相关话音输入的流水线化系统。

能够在两个或更多处理器元件上实现并行处理的处理系统一个（除其他之外）示例已知为cell处理器。存在可以被归类为cell处理器的多种不同的处理器架构。作为例子而非限制，图4示出了一种类型的cell处理器架构。在这一例子中，cell处理器400包括主存储器401、单个功率处理器元件（PPE）407和八个协处理器元件（SPE）411。替代地，cell处理器可以被配置有任意数量的SPE。参考图4，存储器401、PPE 407和SPE 411可以通过环型元件互连总线417相互通信以及与I/O设备415通信。存储器401含有输入数据403，其具有与上文所述的输入数据共同的特征，并且程序405具有与上文描述的程序共同的特征。SPE 411的至少一个可以在其本地存储（LS）中包含语音相关性估计指令413和/或例如如上所述的将要并行处理的输入数据的部分。PPE 407可以在其L1高速缓存内包含确定话音输入相关性指令409，其具有与上文描述的程序共同的特征。也可以将指令405和数据403存储在存储器401内，以供SPE 411和PPE 407在需要时访问。

例如，PPE 407可以是具有相关联高速缓存的64位PowerPC处理器单元（PPU）。PPE 407可以包括可选的矢量多媒体扩展单元。每个SPE 411包括协处理器单元（SPU）和本地存储（LS）。在一些实施中，本地存储可以具有例如大约256千字节的存储器容量，以存储程序和数据。SPU是复杂性低于PPU的计算单元，因为它们通常不执行系统管理功能。SPU可以具有单指令多数据流（SIMD）能力，并且通常处理数据并发起任何需要的数据传送（服从于PPE设置的访问属性），以执行它们分配到的任务。SPU允许系统实施需要更高的计算单元密度的应用，并且SPU可以有效地使用所提供的指令集。由PPE管理的系统中的显著数量的SPU允许在宽的应用范围内的具有成本效率的处理。例如，cell处理器可能以被称为Cell宽带引擎架构（CBEA）的架构为特征。在符合CBEA的架构中，可以将多个PPE组合为PPE组，并且可以将多个SPE组合成SPE组。出于举例的目的，将cell处理器描述为具有单个SPE组和单个PPE组，其分别具有单个SPE和单个PPE。替代地，cell处理器可以包括多个功率处理器元件组（PPE组）和多个协处理器元件组（SPE组）。例如，在可在http://www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA27763 8725706000E61BA/$file/CBEA_01_pub.pdf处在线获得的Cell Broadband Engine Architecture中，详细描述了符合CBEA的处理器，通过引用将其并入本文。

根据另一实施例，可以将用于确定话音输入的相关性的指令存储在计算机可读存储介质中。作为例子而不是作为限制，图5示出了根据本发明的实施例的非暂态计算机可读存储介质500的例子。存储介质500含有按照可以由计算机处理设备检索、解释和执行的格式存储的计算机可读指令。作为例子而不是作为限制，计算机可读存储介质500可以是诸如随机存取存储器（RAM）或只读存储器（ROM）的计算机可读存储器、用于固定盘驱动器（例如，硬盘驱动器）的计算机可读存储盘或者可拆卸盘驱动器。此外，计算机可读存储介质500可以是闪速存储器设备、计算机可读带、CD-ROM、DVD-ROM、Blu-Ray、HD-DVD、UMD或者其他光存储介质。

存储介质500含有被配置成促进话音输入的相关性的估计的确定话音输入相关性指令501。可以将确定话音输入相关性指令501配置成根据上文相对于图1描述的方法实施对话音输入的相关性的确定。具体而言，确定话音输入相关性指令501可以包括识别用户存在指令503，其用于识别语音是否来自位于活跃区域内的人。如上文讨论的，如果语音来自位于活跃区域之外的人，那么立即将其表征为不相关。

确定话音输入相关性指令501还可以包括获得用户面部取向特性指令505，其用于获得语音期间（一个或多个）用户的某些面部取向特性。这些面部取向特性充当有助于确定用户的语音是否是朝向指定目标的线索。作为例子而不是作为限制，这些面部取向特性可以包括上文讨论的用户头部倾角和眼睛注视方向。

确定话音输入相关性指令501还可以包括表征用户话音输入相关性指令507，其用于基于用户的声音（即，语音方向）和可视（即，面部取向）特性表征用户语音的相关性。在一个或多个面部取向特性落在允许范围之外的情况下，可以将用户的语音表征为不相关。替代地，可以根据每个面部取向特性从允许范围的偏离为用户语音的相关性加权。

尽管上文是对本发明的优选实施例的完整描述，但是有可能使用各种替代、修改和等价方案。因此，不应参考上述描述确定本发明的范围，而是应当代之以所附参考权利要求书连同其全部范围的等同要件确定本发明的范围。可以使文中描述的任何优选或非优选特征与文中描述的其他优选或非优选特征组合。在以下权利要求书中，除非明确地另行说明，否则不定冠词“A”或“An”是指冠词后的一个或多个项目的量。不应将所附权利要求解释为包括设备－加－功能限制，除非在给定的权利要求中使用短语“用于……的装置”明确接收这样的限制。

Claims

1.一种用于确定输入语音的相关性的方法，包括：

a) 识别时间间隔内的语音期间用户面部的存在；

b) 获得所述时间间隔期间与用户的面部相关联的一个或多个面部取向特性；以及

c) 基于在b)中获得的一个或多个取向特性来表征所述时间间隔期间的所述语音的相关性。

2.根据权利要求1所述的方法，其中，在b)中的获得所述一个或多个面部取向特性涉及使用照相机跟踪用户的面部取向特性。

3.根据权利要求2所述的方法，其中，在b)中的获得所述一个或多个面部取向特性还涉及使用红外光跟踪用户的面部取向特性。

4.根据权利要求1所述的方法，其中，在b)中的获得所述一个或多个面部取向特性涉及使用麦克风跟踪用户的面部取向特性。

5.根据权利要求1所述的方法，其中，在b)中的所述一个或多个面部取向特性包括头部倾角。

6.根据权利要求1所述的方法，其中，在b)中的所述一个或多个面部取向特性包括眼睛注视方向。

7.根据权利要求1所述的方法，其中，c)涉及在一个或多个所述面部取向特性落在允许的范围之外的情况下，将用户的语音表征为不相关。

8.根据权利要求1所述的方法，其中，c)涉及基于一个或多个所述面部取向特性从允许的范围的偏离来为用户语音的相关性加权。

9.根据权利要求1所述的方法，还包括在获得语音期间与用户的面部相关联的一个或多个面部取向特性之前寄存用户面部的轮廓。

10.根据权利要求1所述的方法，还包括确定语音源的方向，并且其中，c)包括在表征语音的相关性中取得语音源的方向。

11.根据权利要求1所述的方法，其中，c)包括在图像捕获设备捕获的图像内的多个语音源中进行辨别。

12.一种用于确定语音的相关性的装置，包括：

处理器；

存储器；以及

包含在所述存储器内的并且可由所述处理器执行的计算机编码指令，其中，所述计算机编码指令被配置成实施一种用于确定用户的语音的相关性的方法，所述方法包括：

a) 识别时间间隔内的语音期间用户面部的存在；

b) 获得所述时间间隔期间的语音期间与用户的面部相关联的一个或多个面部取向特性；

c) 基于在b)中获得的一个或多个取向特性来表征所述时间间隔期间的用户语音的相关性。

13.根据权利要求12所述的装置，还包括被配置成获得b)中的所述一个或多个取向特性的照相机。

14.根据权利要求12所述的装置，还包括被配置成获得b)中的所述一个或多个取向特性的一个或多个红外灯。

15.根据权利要求12所述的装置，还包括被配置成获得b)中的所述一个或多个取向特性的麦克风。

16.一种计算机程序产品，包括：

非暂态计算机可读存储介质，其具有包含在所述介质内的用于确定相关性语音的计算机可读程序代码，所述计算机程序具有：

a) 用于识别时间间隔内的语音期间用户面部的存在的计算机可读程序代码装置；

b) 用于获得所述时间间隔期间与用户的面部相关联的一个或多个面部取向特性的计算机可读程序代码装置；

c) 用于基于在b)中获得的一个或多个取向特性来表征用户的语音的相关性的计算机可读程序代码装置。