CN102547533A

CN102547533A - 声学控制设备和声学控制方法

Info

Publication number: CN102547533A
Application number: CN2011103387489A
Authority: CN
Inventors: 鹤见辰吾
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-11-05
Filing date: 2011-10-28
Publication date: 2012-07-04
Also published as: US9967690B2; US20120114137A1; JP2012104871A

Abstract

本公开提供了一种声学控制设备和声学控制方法。根据本公开的声学控制设备包括：扬声器位置计算部，配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置：基于扬声器布局空间中的麦克风和放置在麦克风位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为麦克风位置的位置；以及声音收集的结果，所述声音收集用来收集每个都由扬声器中的一个生成的信号声音；以及声学控制部，配置成通过以下来控制由扬声器中的每一个生成的声音：基于扬声器布局空间中的用户的拍摄图像来计算用户的位置；计算用户的位置和扬声器中的每一个的位置之间的距离；以及根据计算的距离来控制由扬声器生成的声音。

Description

声学控制设备和声学控制方法

技术领域

本公开涉及声学控制设备和声学控制方法。

背景技术

近年来，随着信息处理技术的进步，已提议了一种用于根据收听者/观看者的时间和状况来控制音频变化的技术。

例如，下面给出的日本专利公开第2008-199449号(下文中称之为专利文件1)描述了一种用于通过利用旋转机构来调整电视(TV)的显示屏的取向的技术，以便获得根据TV的电源被接通时的时间而事先预定的方向、视频亮度和音量。另外，下面给出的日本专利公开第2004-312401号(下文中称之为专利文件2)描述了这样一种技术：分析欣赏图像和声音的收听者/观看者的状况，并且当分析的结果指示收听者/观看者开始关注于除了图像和声音之外的事情时，减少声音的音量，以便不造成干扰。

发明内容

然而，专利文件1和2中描述的技术根据事先建立的设置状况来实施对声学输出的控制。换言之，所述技术并不实施对收听者/观看者的动态变化的位置的控制。

另外，近年来，已提议并启用了一种用于控制环绕声系统的技术，所述环绕声系统包括：多个扬声器；针对扬声器的TV输出声音；以及摄影机，其安装在TV上，以充当用于检测在下文中也被简称为用户的观看者/收听者的位置的摄影机。根据用户的位置来控制这种环绕声系统。同样在这种技术的情况下，作为前提，扬声器的位置以及TV或摄影机的位置是已知的。没有这样的前提，则难以应用该技术。

这样一来就希望应对上述问题的本公开提供一种声学控制设备，其能够监视用户的动态变化的位置，并且根据用户的位置来控制声学输出。另外还希望本公开提供一种用于该设备的声学控制方法。

为了解决上面描述的问题，根据本公开的实施例，提供了一种声学控制设备，该声学控制设备包括：扬声器位置计算部，配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置：基于所述扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为所述麦克风的位置的位置；以及声音收集的结果，所述声音收集由所述麦克风执行，以收集每个都由所述扬声器中的每一个生成的信号声音；以及声学控制部，配置成通过以下来执行对由所述扬声器中的每一个生成的声音的控制：基于所述扬声器布局空间中的用户的拍摄图像来计算所述用户的位置；计算所述用户的位置和所述扬声器中的每一个的位置之间的距离；以及根据计算的距离来控制由所述扬声器生成的声音。

根据本公开的另一个实施例，提供了一种声学控制方法，该声学控制方法包括：基于多个扬声器布置于其中的扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像，计算所述麦克风的位置；基于计算的所述麦克风的位置以及由所述麦克风执行用来收集每个都由所述扬声器中的每一个生成的信号声音的声音收集的结果，找到布置于所述扬声器布局空间中的所述扬声器中的每一个的位置；以及根据计算的用户的位置和从所述用户的位置到所述扬声器中的每一个的位置的距离，控制由所述扬声器中的每一个生成的声音。

如上所述，根据本公开，通过监视用户的动态变化的位置，可以根据用户的位置来控制声学输出。

附图说明

图1是参考用来描述确定声源位置的说明图；

图2是参考用来描述确定声源位置的说明图；

图3是参考用来描述确定声源位置的说明图；

图4是参考用来描述根据本公开实施例的环绕声调整系统的说明图；

图5是参考用来描述根据实施例的典型环绕声调整系统的说明框图；

图6是示出根据实施例的声学控制设备的典型配置的框图；

图7是示出根据实施例的声学控制设备中使用的图像处理部的典型配置的框图；

图8是示出根据实施例的声学控制设备中使用的扬声器位置计算部的典型配置的框图；

图9是示出根据实施例的声学控制设备中使用的声学控制部的典型配置的框图；

图10是参考用来描述根据实施例的用于计算每个扬声器位置的方法的说明图；

图11A是参考用来描述根据实施例的用于计算每个扬声器位置的方法的说明图；

图11B是参考用来描述根据实施例的用于计算每个扬声器位置的方法的说明图；

图12是参考用来描述根据实施例的用于计算扬声器位置的方法的说明图；

图13是参考用来描述根据实施例的用于计算扬声器位置的方法的说明图；

图14是参考用来描述根据实施例的用于计算麦克风位置的方法的说明图；

图15是参考用来描述根据实施例的用于计算麦克风位置的方法的说明图；

图16是参考用来描述根据实施例的用于计算麦克风位置的方法的说明图；

图17是参考用来描述根据实施例的声学控制方法的说明图；

图18示出了表示根据实施例的声学控制方法的典型流程的流程图；

图19示出了表示根据实施例的声学控制方法的典型流程的流程图；以及

图20是示出根据本公开实施例的声学控制设备的硬件配置的框图。

具体实施方式

下面通过参考附图来详细地描述本公开的优选实施例。要注意的是，在本公开的说明书的附图中，具有彼此等同功能的功能元件用相同的标号来指示，并且这样的功能元件仅说明一次，以便避免重复描述。

同样值得注意的是，以如下安排的章节来对本公开进行说明。

(1)声学控制设备和声学控制方法概要

(2)第一实施例

(2-1)环绕声调整系统

(2-2)声学控制设备的配置

(2-3)用于计算扬声器位置的典型具体方法

(2-4)用于计算麦克风位置的典型修改方法

(2-5)麦克风类型

(2-6)声学控制方法的流程

(3)根据当前实施例的声学控制设备的硬件配置

(1)声学控制设备和声学控制方法概要

在说明根据本公开实施例的声学控制设备和针对该声学控制设备提供的声学控制方法之前，通过将声学控制设备和声学控制方法与用于确定每个声源的位置的现有技术的方法相比较，来简短地描述根据本公开实施例的声学控制设备和针对该声学控制设备提供的声学控制方法的概要。图1至3是每个在以下描述确定声源位置时加以参考的说明图。图4是在以下描述根据本公开实施例的环绕声调整系统时加以参考的说明图。

所谓的家庭影院已变得流行。在家庭影院中，TV和放置在围绕TV的地方的多个扬声器用来观看和收听TV广播或者记录在诸如数字通用盘(DVD)或蓝光盘之类的盘上的由图像和声音构成的内容。

例如如图1所示，在下文中也被简称为扬声器的四个环绕扬声器每个放置在围绕TV的地方。在这种情况下，这四个扬声器的恰当位置是具有与用户的位置相一致的中心的圆的圆周上的位置。取决于扬声器放置于其中的安装区域的尺寸和形状，扬声器可能不会实际上放置在对于用户的位置而言恰当的位置，如图1所示。如果扬声器没有实际上放置在对于用户的位置而言恰当的位置，则引发了环绕声的平衡不可避免地崩溃的问题。

为了解决上面描述的问题，已提议并启用了这样一种技术：通过在用户的位置处设置用于收集扬声器所生成的声音的麦克风来校准环绕声。这种技术是用于在安装了麦克风的对于用户位置而言恰当的位置处设置由每个扬声器输出的声音的技术。通过以这种方式设置扬声器的声音，用户能够通过在安装了麦克风的位置处观看和收听内容而在最优环绕环境中听到声音，而不管以下事实：某些扬声器的安装位置在物理上对于用户的位置而言并不恰当。

作为基于这样的环绕声校准技术的方法，提供了典型地如图2所示的利用单耳麦克风的方法和典型地如图3所示的利用立体声麦克风的方法。

在如图2所示的利用单耳麦克风的方法中，由于使用单耳麦克风的声音收集的特性，可以在穿过麦克风和充当声源的扬声器的直线上确定声源的位置。换言之，声源的位置可以沿着穿过麦克风和充当声源的扬声器的线一维地移动。

另一方面，在如图3所示的利用立体声麦克风的方法的情况下，可以以立体声的方式收集声音。这样一来，由扬声器实施的声源的位置就可以在被识别为相对于立体声麦克风的方向的方向上二维地移动。结果，可以在平面上确定声源的位置，以便四个扬声器的位置变得相对于用户的位置、亦即立体声麦克风的位置对称。

另外，通过利用能够从三个或更多声道收集声音的多声道麦克风，不仅可以在平面上确定声源的位置，而且还可以三维地确定声源的位置。

然而，这样的环绕声校准技术引发了如下问题：如果用户在除了麦克风的安装位置之外的地方观看和收听内容，则环绕声的平衡不可避免地崩溃。

这样一来就希望应对上述问题的本公开提供一种声学控制方法，该方法将要在下面描述，作为源自对以下技术的认真研究的方法，所述技术每个都能够监视用户的动态变化的位置并且根据用户的位置来控制声学输出。如图4所示，用户的位置的变化被监视，并且声源的位置动态地变化。这样一来就可以在任何时间向用户提供具有良好平衡的环绕声，而不考虑用户的观看/收听位置。

(2)第一实施例

(2-1)环绕声调整系统

首先，通过参考图5来说明根据本公开的第一实施例的环绕声调整系统1如下。图5是在以下描述根据实施例的典型环绕声调整系统1时加以参考的说明框图。

如图5所示，根据实施例的环绕声调整系统1具有用于显示图像内容的图像显示设备3和声学控制设备10。图像显示设备3的典型例子是TV。

图像显示设备3是能够显示包括图像和声音的内容的图像内容的设备。另外，在图像显示设备3上提供摄影机。摄影机能够拍摄图像显示设备3的环境的图像。摄影机可以是能够拍摄活动和静止图像的摄像机，也可以是拍摄静止图像的照相机。由这样的摄影机拍摄的图像被输出到根据实施例的声学控制设备10。

以下描述说明了这样的典型配置，在所述典型配置下，如上所述，在图像显示设备3上提供能够拍摄图像显示设备3的环境的图像的摄影机。然而，根据实施例的环绕声调整系统1决不限于这样的配置。即使环绕声调整系统1可以具有没有设置在图像显示设备3上的摄影机的配置，环绕声调整系统1也可以具有这样的配置，在所述配置下，声学控制设备10可以从外部摄影机中接收多个扬声器设置在其中的扬声器布局空间的拍摄图像。

声学控制设备10是用于通过采用下面将要描述的声学控制方法来控制内容的声音并且向用户提供对于用户而言恰当的环绕声的设备。声学控制设备10能够向多个扬声器5输出音频内容并且获取由麦克风7从扬声器5收集的声音。另外，根据实施例的声学控制设备10还能够从图像拍摄设备获取由图像拍摄设备拍摄的图像。图像拍摄设备的典型例子是外部安装的各种摄影机和各种便携式装置如具有摄影机功能的移动电话。

如图5所示，内容记录/再生设备9可以连接到声学控制设备10。内容记录/再生设备9的典型例子是DVD记录器和蓝光记录器。另外，内容再生设备可以连接到声学控制设备10。内容再生设备的典型例子是紧致盘(CD)播放器、小型盘(MD)播放器、DVD播放器和蓝光播放器。

在图5所示的典型配置中，声学控制设备10被示出为与图像显示设备3和内容记录/再生设备9相分离。然而要注意的是，包括根据实施例的声学控制设备10的配置决不限于这样的配置。例如，声学控制设备10可以与图像显示设备3集成。作为另一种替换，声学控制设备10与内容记录/再生设备9集成。另外，在以下描述中说明的声学控制设备10可以被实施为具有图像显示设备3和内容记录/再生设备9的功能的设备。

根据实施例的声学控制设备可以包括：扬声器位置计算部，配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置：基于所述扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为所述麦克风的位置的位置；以及声音收集的结果，所述声音收集由所述麦克风执行，以收集每个都由所述扬声器中的每一个生成的信号声音；以及声学控制部，配置成通过以下来执行对由所述扬声器中的每一个生成的声音的控制：基于所述扬声器布局空间中的用户的拍摄图像来计算所述用户的位置；计算所述用户的位置和所述扬声器中的每一个的位置之间的距离；以及根据计算的距离来控制由所述扬声器生成的声音。

(2-2)声学控制设备的配置

[整体配置]

接下来，通过参考图6来说明根据实施例的声学控制设备10的整体配置。图6是示出根据实施例的声学控制设备10的典型配置的框图。

如图6所示，根据实施例的声学控制设备10使用综合控制部101、用户操作信息获取部103、图像获取部105、图像处理部107、位置计算信号控制部109、声学信息获取部111、扬声器位置计算部113、声学控制部115、显示控制部117和存储部119。

综合控制部101典型地具有中央处理单元(CPU)、数字信号处理器(DSP)、只读存储器(ROM)、随机存取存储器(RAM)和通信部。综合控制部101是用于一般地控制根据实施例的声学控制设备10的所有操作的处理部。另外，综合控制部101输出触发，以便开启声学控制设备10中使用的每一个其它处理部的操作。而且，综合控制部101将特定处理部中生成的数据和信息传递到别的处理部。另外，综合控制部101还充当调停者，以便驱使根据实施例的声学控制设备10中使用的其它处理部通过彼此协作来进行操作。

用户操作信息获取部103典型地具有CPU、ROM、RAM、输入部和通信部。通过典型地操作针对声学控制设备10设置的遥控器，或者操作声学控制设备10的按钮或触摸面板上的多个输入键，用户可以执行用户操作。当用户执行这样的用户操作时，用户操作信息获取部103获取用户操作信息(其为关于用户所执行的操作的信息)，并且将信息输出到综合控制部101。参考从用户操作信息获取部103接收的用户操作信息，综合控制部101请求起到负责由用户执行的操作的部件之作用的处理部执行针对该操作的处理。

图像获取部105典型地具有CPU、ROM、RAM和通信部。图像获取部105获取用于多个扬声器5布置于其中的空间的拍摄图像的数据。在以下描述中，多个扬声器5布置于其中的空间也被称为扬声器布局空间。通过利用声学控制设备10能够与之通信的摄影机已拍摄了扬声器布局空间的拍摄图像。如下面将要描述的那样，扬声器布局空间的拍摄图像的典型例子是放置在扬声器布局空间中的麦克风和放置在接近于麦克风位置的地方的对象的拍摄图像。扬声器布局空间的拍摄图像的另一个典型例子是存在于扬声器布局空间中的用户的拍摄图像。

在图像获取部105已从安装在声学控制设备10外部地方的摄影机(例如安装在图像显示设备3上的摄影机)成功地获取了这样的拍摄图像之后，图像获取部105将用于拍摄图像的数据输出到综合控制部101。当综合控制部101从图像获取部105接收到拍摄图像时，综合控制部101将拍摄图像传递到图像处理部107。另外，通过将拍摄图像中的每一个与典型地关于图像拍摄日期和图像拍摄时间的信息相关联，综合控制部101可以将从图像获取部105接收的多个拍摄图像存储在稍后将要描述的存储部119中作为历史信息。

图像处理部107典型地具有CPU、图形处理单元(GPU)、ROM和RAM。图像处理部107是用于对从图像获取部105接收的多个拍摄图像进行各种信号处理的处理部。当图像处理部107对从图像获取部105接收的多个拍摄图像进行各种信号处理时，图像处理部107能够对稍后将要描述的存储部119进行访问，以便引用各种程序、各种数据库和各种参数。图像处理部107将由此执行的图像处理的结果供应到综合控制部101，综合控制部101然后将结果传递到声学控制设备10中使用的各种其它处理部。

要注意的是，稍后将会另外描述根据实施例的图像处理部107的详细配置。

位置计算信号控制部109典型地具有CPU、DSP、ROM和RAM。当综合控制部101开始对布置于扬声器布局空间中的扬声器5的位置的计算时，根据从综合控制部101接收的预定触发，位置计算信号控制部109控制操作以输出在对扬声器5的位置的计算中使用的信号。在以下描述中，在对扬声器5的位置的计算中使用的信号也被称为位置计算信号。位置计算信号控制部109控制操作以典型地输出位置计算信号，以便驱动布置于扬声器布局空间中的扬声器5中的每一个单独地输出预定位置计算信号如嘟嘟声。

要注意的是，当用户操作信息获取部103向综合控制部101提供指示用户已对遥控器等的预定按钮进行了操作的用户操作信息时，综合控制部101向位置计算信号控制部109提供触发，以便开始对操作的控制以典型地输出位置计算信号。当接收到触发时，位置计算信号控制部109开始对操作的控制以输出位置计算信号。

另外，除了嘟嘟声之外，位置计算信号可以是多种信号中的任何一种，并且可以恰当地设置位置计算信号的属性。位置计算信号的属性包括位置计算信号的频率。

声学信息获取部111典型地具有CPU、ROM、RAM和通信部。声学信息获取部111获取声学信息，所述声学信息是关于连接到声学控制设备10的麦克风所收集的声音的信息。麦克风的典型例子是单耳麦克风、立体声麦克风和多声道麦克风。声学信息的典型例子是关于通过位置计算信号控制部109进行的从扬声器5中的每一个单独输出的位置计算信号的声音收集结果的信息。然而，根据实施例的声学信息决不限于关于这样的声音的收集结果的信息。换言之，由麦克风收集的各种信息都可以用作声学信息。由麦克风收集的信息的典型例子是用户的语音。

声学信息获取部111将获取的声学信息输出到综合控制部101。综合控制部101然后将声学信息传递到根据将要对拍摄图像执行的处理而选择的其它处理部。另外，通过将声学信息与关于声学信息获取日期和声学信息获取时间的信息相关联，综合控制部101可以将从声学信息获取部111接收的各种声学信息存储在稍后将要描述的存储部119中作为历史信息。

扬声器位置计算部113典型地具有CPU、ROM和RAM。通过利用由图像处理部107对图像获取部105所生成的拍摄图像进行的图像处理的结果，并且通过利用由声学信息获取部111获取的结果作为由扬声器5中的一个所输出的每个通过位置计算信号来表示的声音收集结果，扬声器位置计算部113计算布置于扬声器布局空间中的扬声器5中的每一个的位置。具体而言，基于麦克风的位置和由麦克风执行用以收集每个由扬声器5中之一输出的信号声音的操作的结果，扬声器位置计算部113计算布置于扬声器布局空间中的扬声器5中的每一个的位置。基于放置在扬声器布局空间中的麦克风和放置在麦克风位置附近的地方的对象，已计算了麦克风的位置。

在扬声器位置计算部113已基于这样的各种信息计算了布置于扬声器布局空间中的扬声器5中的每一个的位置之后，扬声器位置计算部113将获得的计算结果供应给综合控制部101。计算的结果是扬声器位置信息，所述扬声器位置信息是关于扬声器5中的每一个的位置的信息。综合控制部101然后将从扬声器位置计算部113接收的扬声器位置信息传递到稍后将要描述的声学控制部115。另外，通过将扬声器位置信息与关于扬声器位置信息获取日期和扬声器位置信息获取时间的信息相关联，综合控制部101可以将从扬声器位置计算部113接收的扬声器位置信息存储在稍后将要描述的存储部119中作为历史信息。

要注意的是，稍后将会另外描述根据实施例的扬声器位置计算部113的详细配置。

声学控制部115典型地具有CPU、DSP、ROM和RAM。基于用户的拍摄图像，声学控制部115计算存在于扬声器布局空间中的用户的位置。详细而言，基于对用户的拍摄图像执行的处理结果，声学控制部115计算存在于扬声器布局空间中的用户的位置。另外，声学控制部115利用计算的用户位置以找到用户的位置和扬声器5中的每一个的位置之间的距离。然后，根据计算结果，声学控制部115控制由扬声器5中的每一个生成的声音。

通过执行声源位置确定处理以确定针对物理扬声器5中之一充当虚拟扬声器的每个声源的位置作为对于用户的位置而言恰当的位置，并且根据用户的特性执行音质调整处理，声学控制部115控制由扬声器5中的每一个生成的声音。用户的特性的典型例子是用户的元数据。用户的元数据包括用户的性别及其年龄。

要注意的是，稍后将会另外描述根据实施例的声学控制部115的详细配置。

显示控制部117典型地具有CPU、ROM、RAM和通信部。显示控制部117控制根据实施例的声学控制设备10中使用的显示设备。显示设备的典型例子是显示单元和显示面板。这样一来，根据实施例的声学控制设备10中使用的每个处理部就能够示出消息或显示，以通知用户已完成了处理。进而，每个特定处理部能够向用户示出表示处理结果的消息或显示。

另外，根据实施例的显示控制部117还能够显示处理终止通知，其通知用户如上所述的声学控制设备10中执行的处理结束，以及诸如图像显示设备3之类的外部设备上的相同处理的结果。这样一来，例如，显示控制部117就能够在图像显示设备3的显示屏上显示声学控制设备10中执行的环绕声校准处理的结果。

存储部119是根据实施例的声学控制设备10中使用的存储设备的典型例子。存储部119被用来存储诸如扬声器位置信息之类的信息，所述扬声器位置信息是关于布置于扬声器布局空间中的扬声器5中的每一个的位置的信息。如稍早前描述的那样，通过扬声器位置计算部113来计算扬声器位置信息。另外，存储部119还可以用来存储各种信息和各种数据。在根据实施例的声学控制设备10中产生所述信息和数据。最重要的是，存储部119还可以用来存储在根据实施例的声学控制设备10所执行的处理期间需要保存的多种参数和中间结果。进而，存储部119还可以用来恰当地存储多种数据库和多种程序。

在上面的描述中已详细地说明了根据实施例的声学控制设备10的整体配置。

[图像处理部]

接下来，通过参考图7来说明根据实施例的声学控制设备10中使用的图像处理部107的配置。图7是示出根据实施例的声学控制设备10中使用的图像处理部107的典型配置的框图。

如图7所示，图像处理部107使用了脸检测部131、年龄/性别确定部133、姿势识别部135、对象检测部137和脸标识部139。

脸检测部131典型地具有CPU、GPU、ROM和RAM。通过参考从图像获取部105接收的多个拍摄图像，脸检测部131执行脸检测处理，以便检测与人的脸相对应的部分。拍摄图像包括麦克风、放置在接近于麦克风位置的地方的对象以及用户的拍摄图像。非常有可能的是，与人的脸相对应的部分包括在拍摄图像中。如果与人的脸相对应的部分包括在拍摄图像中，则脸检测部131从拍摄图像中检测到与人的脸相对应的部分，并且标识与人的脸相对应的部分的属性。属性包括与人的脸相对应的部分的像素坐标以及与人的脸相对应的部分的尺寸。

另外，通过执行脸检测处理，脸检测部131能够确定每个充当存在于拍摄图像中的用户的人的数目。如果每个充当用户的多个人存在于拍摄图像中，则脸检测部131能够标识与每个人的脸相对应的部分的属性。如上所述，与人的脸相对应的部分的属性包括与人的脸相对应的部分的像素坐标以及与人的脸相对应的部分的尺寸。另外，脸检测部131可以计算表征用户群的多个特征量。特征量包括针对具有用户的脸的群体的重心位置。

脸检测部131将脸检测处理的检测结果供应给综合控制部101。综合控制部101然后将检测结果传递到其它处理部，包括扬声器位置计算部113和声学控制部115。另外，脸检测部131还将检测结果供应给图像处理部107中使用的其它处理部，以便脸检测部131能够在执行处理的同时，与图像处理部107中使用的其它处理部进行协作。

脸检测处理可以由脸检测部131通过采用任何一种已知的相关技术来执行，比如日本专利公开第2007-65766号中公开的技术以及日本专利公开第2005-44330号中公开的技术。

年龄/性别确定部133典型地具有CPU、GPU、ROM和RAM。年龄/性别确定部133利用脸检测部131所检测的脸图像，以便检测脸的特征部分。脸的特征部分包括眉毛、眼睛、鼻子和嘴巴。用于检测脸的特征部分的处理可以由年龄/性别确定部133通过采用任何一种已知的相关技术来执行，包括充当主动外观模型(AAM)方法基础的技术。

然后，年龄/性别确定部133关注于检测的脸的特征部分，以便确定脸的拥有者的年龄以及拥护者的性别。这样一来，年龄/性别确定部133就能够提取包括年龄和性别的信息作为用户的元数据。用于通过关注于检测的脸的特征部分来确定年龄和性别的方法可以是基于任何一种已知的相关技术的任何方法。

然后，年龄/性别确定部133将确定结果供应给综合控制部101。确定结果是前面提到的包括用户年龄和用户性别的元数据。随后，综合控制部101将确定结果传递到包括声学控制部115的其它处理部。另外，年龄/性别确定部133还将确定结果供应给图像处理部107中使用的其它处理部，以便年龄/性别确定部133能够在执行处理的同时，与图像处理部107中使用的其它处理部进行协作。

姿势识别部135典型地具有CPU、GPU、ROM和RAM。姿势识别部135关注于从图像获取部105接收的拍摄图像和拍摄图像的时滞变化，以便识别拍摄图像中包括的用户所做出的姿势。如稍早前说明的那样，拍摄图像包括麦克风、放置在接近于麦克风位置的地方的对象以及用户的拍摄图像。以这种方式，姿势识别部135能够识别用户所做出的特定姿势。例如，当用户通过摇手或用手给出和平符号来做出姿势时，姿势识别部135能够识别这个姿势。

上面描述的姿势识别处理可以由姿势识别部135通过采用任何一种已知的相关技术来执行。

姿势识别部135将姿势识别处理的结果供应给综合控制部101。然后，综合控制部101将姿势识别处理的结果传递到包括声学控制部115的其它处理部。另外，姿势识别部135还将姿势识别处理的结果供应给图像处理部107中使用的其它处理部，以便姿势识别部135能够在执行处理的同时，与图像处理部107中使用的其它处理部进行协作。

对象检测部137典型地具有CPU、GPU、ROM和RAM。通过参考从图像获取部105接收的多个拍摄图像，对象检测部137执行对象检测处理，以便检测对应于特定对象的部分。拍摄图像包括麦克风、放置在接近于麦克风位置的地方的对象以及用户的拍摄图像。非常有可能的是，对应于特定对象的部分包括在拍摄图像中。由对象检测部137检测的特定对象的典型例子是放置在扬声器布局空间中某个位置的麦克风自身和麦克风上提供的可视标记。可视标记的典型例子是计算机代码。

如果对应于特定对象的部分包括在拍摄图像中，则对象检测部137从拍摄图像中检测到对应于特定对象的部分，并且标识对应于特定对象的部分的属性。属性包括对应于特定对象的部分的像素坐标以及该部分的尺寸。

另外，通过执行对象检测处理，对象检测部137能够标识拍摄图像上示出的特定对象的数目和类型，比如麦克风的类型。如果在拍摄图像上示出了多个特定对象，则对象检测部137能够标识对应于每个特定对象的部分的属性。如上所述，对应于特定对象的部分的属性包括对应于特定对象的部分的像素坐标以及该部分的尺寸。另外，对象检测部137可以计算表征具有特定对象的群体的多个特征量。特征量包括针对具有特定对象的群体的重心位置。

对象检测部137将对象检测处理的检测结果供应给综合控制部101。综合控制部101然后将检测结果传递到包括扬声器位置计算部113和声学控制部115的其它对象处理部。另外，对象检测部137还将检测结果供应给图像处理部107中使用的其它处理部，以便对象检测部137能够在执行处理的同时，与图像处理部107中使用的其它处理部进行协作。

对象检测处理可以由对象检测部137通过采用任何一种已知的相关技术来执行。

脸标识部139典型地具有CPU、GPU、ROM和RAM。脸标识部139是用于标识由脸检测部131所检测的脸的处理部。脸标识部139除了别的以外尤其关注于脸检测部131所检测的脸的特征部分，并且计算局部特征量。然后，通过将所述量与脸检测部131所检测的脸的图像相关联，脸标识部139存储计算的局部特征量，以便构造用户数据库。然后，脸标识部139利用用户数据库，以便将脸检测部131所检测的脸标识为用户的脸。

要注意的是，脸识别处理可以由脸标识部139通过采用任何一种已知的相关技术来执行，比如在日本专利公开第2007-65766号中公开的技术和在日本专利公开第2005-44330号中公开的技术。

脸标识部139将对象识别处理的识别结果供应给综合控制部101。综合控制部101然后将识别结果传递到包括声学控制部115的对象处理部。另外，脸标识部139还将识别结果供应给图像处理部107中使用的其它处理部，以便脸标识部139能够在执行处理的同时，与图像处理部107中使用的其它处理部进行协作。

上面的描述通过参考图7简短地说明了构成根据实施例的图像处理部107的配置的处理部。除了上面描述的处理部之外，图像处理部107可以设置有图像处理所需的任何处理部。

[扬声器位置计算部]

接下来，通过参考图8来说明根据实施例的声学控制设备10中使用的扬声器位置计算部113的配置。图8是示出根据实施例的声学控制设备10中使用的扬声器位置计算部113的典型配置的框图。

如图8所示，根据实施例的扬声器位置计算部113典型地使用了麦克风位置计算部151、麦克风扬声器距离计算部153和扬声器位置标识部155。

麦克风位置计算部151典型地具有CPU、ROM和RAM。基于图像处理部107所执行的图像处理的结果和声学信息获取部111所获取的声学信息，麦克风位置计算部151计算布置于扬声器布局空间中的麦克风的位置。在以下描述中，麦克风的位置也被简称为麦克风位置。

例如，麦克风位置计算部151利用图像处理部107所执行的脸检测的结果，以便在如下假定之下基于脸检测的结果来计算麦克风的位置：当在执行环绕声校准的时候安装麦克风时，麦克风放置在接近于用户的脸的地方。另外，麦克风位置计算部151可以利用图像处理部107所执行的对象检测的结果，以便计算麦克风的位置。对象检测的结果的典型例子是麦克风检测的结果和诸如计算机代码之类的可视标记的检测结果。最重要的是，麦克风位置计算部151可以利用声学信息本身来计算麦克风的位置。声学信息是通过利用麦克风来收集(每个由扬声器5中之一输出的)声音而执行的声音收集的结果。

在用户的位置几乎与麦克风的位置相一致的假定之下，拿用于计算用户的位置的方法作为例子，以下描述具体地说明了麦克风位置计算方法。在以下描述中，用户的位置也被简称为用户位置。在这种情况下，基于图像显示设备3上安装的摄影机所生成的拍摄图像，通过利用用户脸检测的结果来计算用户的位置。

例如，麦克风位置计算部151计算相对于摄影机光轴的用户位置。用户的这个相对位置用方向φ1和θ1以及距离d1来表示。在这种情况下，通过利用图像处理部107所执行的图像处理的多个结果和图像显示设备3上典型地安装的摄影机的光学信息，麦克风位置计算部151计算用户的相对位置。光学信息包括关于摄影机视场角的信息和关于摄影机分辨率的信息。

在这种情况下，由图像处理部107执行的图像处理的结果包括拍摄图像和关于拍摄图像中检测的用户脸的信息。关于用户脸的信息包括脸检测位置[a1，b1]和脸尺寸[w1，h1]。

根据给出如下的方程(101)和(102)，从通过利用拍摄图像的尺寸[xmax，ymax]而规范化的脸检测位置[a1，b1]中，并且从摄影机的视场角[φ0，θ0]中，麦克风位置计算部151计算用户的相对位置的方向[φ1，θ1]：

水平方向：

垂直方向：θ1＝θ0×b1 ……(102)

另外，根据给出如下的方程(103)，基于参考距离d0处的参考脸尺寸[w0，h0]，麦克风位置计算部151计算用户的相对位置的距离d1：

距离d1＝d0×(w0/w1) ……(103)

稍后，基于相对于摄影机光轴的用户位置的计算结果和摄影机安装信息，麦克风位置计算部151计算相对于图像显示设备3的物理中心和图像显示设备3的前面方向轴的用户三维位置。摄影机安装信息包括摄影机的安装位置和摄影机的安装角度。

例如，令图像显示设备3的物理中心的坐标为[0，0，0]，摄影机的安装位置为[Δx，Δy，Δz]，摄影机的安装角度的角差为

并且显示屏前面方向为[0，0，z]。

在这种情况下，根据给出如下的方程(104)至(106)，麦克风位置计算部151计算坐标系中相对于图像显示设备3的物理中心[0，0，0]的用户位置[x1，y1，z1]：

y1＝d1×tan(θ1-Δθ)-Δy ……(105)

通过采用上面描述的方法，麦克风位置计算部151能够从拍摄图像中的用户脸的检测结果中计算几乎与麦克风位置相一致的用户位置。要注意的是，上面描述的方法只是典型的方法。换言之，麦克风位置计算部151能够通过采用除了上面描述的方法之外的方法来计算麦克风的位置。例如，分别将在上面描述的例子中使用的脸检测位置和参考脸尺寸替换成麦克风检测位置和参考麦克风尺寸，以便通过利用从拍摄图像中检测麦克风的结果来计算麦克风的位置。

麦克风位置计算部151将关于计算的麦克风位置的信息供应给稍后将要描述的扬声器位置标识部155。

麦克风扬声器距离计算部153典型地具有CPU、DSP、ROM和RAM。基于由声学信息获取部111获取的作为收集每个由扬声器5中之一单独输出的位置计算信号的结果的声音收集结果，麦克风扬声器距离计算部153计算麦克风和每个扬声器5之间的距离。

具体而言，麦克风扬声器距离计算部153利用收集每个由扬声器5中之一单独输出的位置计算信号的结果，以便根据在日本专利公开第2009-10992号中公开的方法来计算麦克风和每个扬声器5之间的距离。在这种情况下，收集每个由扬声器5中之一单独输出的位置计算信号的结果是由收集位置计算信号导致的信号的幅度[用dB来表达]。

麦克风扬声器距离计算部153将关于每个被计算为麦克风和扬声器5中之一之间距离的距离的信息供应给描述如下的扬声器位置标识部155。

扬声器位置标识部155典型地具有CPU、ROM和RAM。基于麦克风位置计算部151计算的作为位于扬声器布局空间中的麦克风的位置的麦克风位置和每个由麦克风扬声器距离计算部153计算的作为麦克风和扬声器布局空间中设置的扬声器5中之一之间距离的距离，扬声器位置标识部155标识扬声器5中的每一个的位置。

如上所述，麦克风位置计算部151计算位于扬声器布局空间中的麦克风的位置。麦克风扬声器距离计算部153计算放置在扬声器5的中心处的麦克风和布置于扬声器布局空间中的扬声器5中的每一个之间的距离。这样一来，扬声器5中的任何特定一个就位于球体表面上的位置处，所述球体使其中心与麦克风的位置相一致，并且使其半径等于麦克风和该特定扬声器5之间的距离。因此，如果扬声器位置标识部155能够通过利用单耳麦克风针对一直到扬声器布局空间中的三个地方而言获得麦克风的位置以及麦克风和特定扬声器5之间的距离，则扬声器位置标识部155将会能够标识特定扬声器5的位置。结果，扬声器位置标识部155能够计算布置于扬声器布局空间中的扬声器5中的每一个的位置坐标。例如，坐标是使其原点与图像显示设备3的物理中心相一致的坐标系中的坐标。

在标识了布置于扬声器布局空间中的扬声器5中的每一个的位置之后，扬声器位置标识部155生成扬声器位置信息，其为关于布置于扬声器布局空间中的全部扬声器5的位置的信息，并且将扬声器位置信息供应给综合控制部101。

扬声器位置计算部113执行上面描述的处理，以便计算布置于扬声器布局空间中的扬声器5中的每一个的位置。要注意的是，稍后将会另外说明用于计算布置于扬声器布局空间中的扬声器5中的每一个的位置的方法的具体例子。

[声学控制部的配置]

接下来，通过参考图9来说明根据实施例的声学控制设备10中使用的声学控制部115的配置。图9是示出根据实施例的声学控制设备10中使用的声学控制部115的典型配置的框图。

如图9所示，根据实施例的声学控制部115典型地利用了用户位置计算部171、用户扬声器距离计算部173、用户信号确定部175、声学调整部177、环绕声调整部179和声音输出部181。

用户位置计算部171典型地具有CPU、GPU、ROM和RAM。基于对存在于扬声器布局空间中的用户的拍摄图像执行的图像处理的结果，用户位置计算部171计算用户的位置。换言之，从图像处理部107接收到存在于扬声器布局空间中的用户脸的检测结果之后，通过采用与麦克风位置计算部151所采用的方法相同的方法，用户位置计算部171计算用户的位置。用户的位置是用户在该处观看和收听内容的位置。这样一来，用户位置计算部171就能够计算存在于扬声器布局空间中的用户的位置坐标。例如，坐标是使其原点与图像显示设备3的物理中心相一致的坐标系中的坐标。

在这种情况下，如果多个用户存在于扬声器布局空间中，则用户位置计算部171计算用户中的每一个的观看/收听位置。另外，用户位置计算部171还可以计算具有用户的群体的重心。

用户位置计算部171将以这种方式获得的计算结果供应给用户扬声器距离计算部173和环绕声调整部179。在以下描述中，计算结果也被称为观看/收听位置信息，其为关于观看/收听位置的信息。

用户扬声器距离计算部173典型地具有CPU、ROM和RAM。基于从用户位置计算部171接收的观看/收听位置信息和由扬声器位置计算部113生成的扬声器位置信息，用户扬声器距离计算部173计算观看/收听位置和每个扬声器5之间的距离。观看/收听位置信息和扬声器位置信息两者都包括关于坐标值的信息。例如，坐标值是使其原点与图像显示设备3的物理中心相一致的坐标系中的坐标的值。因为这个原因，用户扬声器距离计算部173用几何学计算2组坐标值之间的距离，以便找到观看/收听位置和布置于扬声器布局空间中的扬声器5中的每一个之间的距离。

用户扬声器距离计算部173将用户扬声器距离信息供应给环绕声调整部179。用户扬声器距离信息是关于计算的观看/收听位置和布置于扬声器布局空间中的扬声器5中的每一个之间的距离的信息。

用户信号确定部175典型地具有CPU、ROM和RAM。用户信号确定部175利用包括从图像处理部107接收的姿势识别结果在内的信息，以便确定用户做出的多个姿势是否包括具有特殊意义的姿势。

例如，如果预先已设置了用于通过取摇手的用户的位置作为中心来执行环绕声校准的配置，则用户信号确定部175确定检测到的由用户做出的多个姿势是否包括具有特殊意义的摇手姿势。例如通过检测做出具有特殊意义的姿势的用户，可以通过取摇手的用户的位置作为中心来执行环绕声校准。

另外，用户信号确定部175可以利用包括从图像处理部107接收的脸识别结果在内的信息，以便针对存在多个用户的情况向每个用户分配优先级。详细而言，基于每个分配给注册用户中之一的优先级、图像显示设备3和每个用户之间的距离以及每个用户的内容观看/收听状态，用户信号确定部175根据策略为用户设置优先顺序。用户的内容观看/收听状态是这样一种状态，在所述状态下，用户大多数关注于内容并观看且收听内容。

另外，例如，如果根据实施例的声学控制设备10具有语音/声音识别功能，则用户信号确定部175可以确定是否存在讲话的用户。例如如果检测到讲话的用户，则通过典型地取该用户作为中心，可以执行环绕声校准。

用户信号确定部175将确定结果供应给声学调整部177和环绕声调整部179。

声学调整部177典型地具有CPU、DSP、ROM和RAM。基于从图像处理部107接收的图像处理结果、从用户信号确定部175接收的确定结果和其它信息，声学调整部177除了别的以外尤其调整输出声音的质量。图像处理结果包括用户的元数据，所述元数据典型地包括年龄和性别。

例如，如果用户是预先确定的年龄之上的老年人，则声学调整部177能够通过将声音放在高音范围内并且提高声音的设定值来调整输出声音。另一方面，如果用户是预先确定的年龄之下的小孩，则声学调整部177能够通过减少声音的动态范围来调整输出声音。通过执行这样的调整，可以向用户提供对于用户的身体特征而言恰当的环绕声。

另外，通过利用脸识别处理的结果，声学调整部177能够执行针对用户的个人爱好而均衡调整的环绕声。

而且，如果存在多个用户，则声学调整部177能够根据预先设置的多个条件来执行对输出声音的质量的调整。作为例子，声学调整部177能够通过考虑针对用户建立的优先顺序来调整输出声音的质量，以便典型地向老年人或小孩给予最高优先权。作为另一个例子，声学调整部177能够通过执行满足针对全部用户设置的条件的均衡来调整输出声音的质量。作为进一步的例子，声学调整部177能够通过向做出特定姿势和声音的用户给予最高优先权来调整输出声音的质量。

当上面描述的环绕声调整完成时，声学调整部177将确定的声音输出设置供应给声音输出部181。声音输出设置典型地与输出声音的质量有关。

环绕声调整部179典型地具有CPU、DSP、ROM和RAM。根据由用户位置计算部171计算的观看/收听位置、由用户扬声器距离计算部173计算的用户扬声器距离和由用户信号确定部175产生的确定结果，环绕声调整部179执行也被称为环绕声校准的环绕声调整。

具体地，环绕声调整部179执行环绕声校准，以便生成其中心与用户的位置相一致的甜蜜点(sweet spot)。希望生成这样的甜蜜点，该甜蜜点包围用户，并且具有圆形或椭圆形形状以及最小尺寸。

另外，如果存在多个用户，则环绕声调整部179可以执行环绕声校准，以便生成这样的甜蜜点，该甜蜜点典型地使其中心与具有用户的群体的重心相一致，并且进一步展现扩展。而且，如果用户信号确定部175已为每个用户设置了优先级，则环绕声调整部179可以根据优先级来执行环绕声校准，以便生成其中心与具有最高优先级的用户相一致的甜蜜点。进而，环绕声调整部179可以通过利用脸识别的结果来执行环绕声校准，以便生成其中心与脸识别结果所指示的特定用户的位置相一致的甜蜜点。

在确认了针对环绕声调整的设置之后，环绕声调整部179将关于设置的信息供应给声音输出部181。

要注意的是，由环绕声调整部179采用的环绕声校准方法可以是用于环绕声校准的任何已知的方法。

声音输出部181典型地具有CPU、DSP、ROM和RAM。基于环绕声调整部179和声学调整部177所输出的声学输出设置，声音输出部181从布置于扬声器布局空间中的扬声器5中输出内容的环绕声。

上面的描述通过参考图9说明了根据实施例的声学控制部115的配置的细节。

上面的描述说明了根据实施例的声学控制设备10的典型功能。每个配置元件可以通过利用通用部件或通用电路来配置，或者可以通过利用针对配置元件的功能而特殊设计的硬件来配置。作为替代，每一个配置元件的全部功能可以通过CPU等来执行。这样一来，根据作为用于实现实施例的水平而不时地改进的技术水平，可以恰当地改变用于实现每一个配置元件的硬件的配置。

要注意的是，可以创建计算机程序以便实施像上面描述的那样的根据实施例的声学控制设备的每个功能，并且可以利用个人计算机等来执行该程序。另外，还可以向用户提供记录介质，该记录介质用来以这样的方式存储计算机程序：个人计算机等能够从记录介质中读出程序。记录介质的典型例子是磁盘、光盘、磁光盘和快闪存储器。另外，代替使用这样的记录介质，典型地可以通过网络向用户分发计算机程序。

(2-3)用于计算扬声器位置的典型具体方法

通过参考图10至13来简短地说明用于计算扬声器5中的每一个的位置的典型具体方法。图10至13是在以下描述根据实施例的用于计算扬声器5中的每一个的位置的典型具体方法时加以参考的说明图。

以下描述假定了这样一个坐标系，该坐标系使其原点与如图10所示的图像显示设备3的物理中心相一致。摄影机的光轴与坐标系的Z轴相一致。另外，在坐标系上的扬声器布局空间中，设置了四个扬声器。在附图中，四个扬声器分别被示出为扬声器A至D。另外，在以下描述的例子中，使用中的麦克风假定为单耳麦克风。

在这种情况下，为了计算每一个扬声器的位置，用户把持着单耳麦克风并且静止地站在扬声器布局空间中的位置P处。典型地，为了减少位置标识误差，用户将单耳麦克风把持在接近于脸的地方。在这种状态下，设置在图像显示设备3上的摄影机拍摄把持单耳麦克风的用户的图像，生成单耳麦克风和放置在接近于麦克风位置的地方的对象的拍摄图像。在这种情况下，放置在接近于单耳麦克风位置的地方的对象是用户的脸。然后，经由典型地通过高清晰度多媒体接口(HDMI)线缆连接到声学控制设备10的图像显示设备3，摄影机将拍摄图像供应给附图中未示出的声学控制设备10。

当从图像显示设备3接收到包括单耳麦克风和用户的脸在内的拍摄图像时，声学控制设备10通过采用与稍早前描述的方法相同的方法来计算用户的脸的位置P。如从上面的描述中明显的那样，用户的脸的位置P是单耳麦克风的安装位置P。在这个例子中，用户的脸的位置P或单耳麦克风的安装位置P用附图中的坐标(x1，y1，z1)来表示。

然后，声学控制设备10从扬声器A至D中的每一个向单耳麦克风单独地输出诸如嘟嘟声之类的位置计算信号，所述单耳麦克风放置在位置P处以充当用于收集来自扬声器A至D中的每一个的位置计算信号的麦克风。声学控制设备10获取由单耳麦克风执行的声音收集的结果作为声学信息，并且根据声音收集的结果中包括的信号声音的幅度来计算麦克风和扬声器A至D中的每一个之间的距离。

在图10所示的例子中，单耳麦克风和扬声器A之间的距离|AP|为A1，单耳麦克风和扬声器B之间的距离|BP|为B1，单耳麦克风和扬声器C之间的距离|CP|为C1，并且单耳麦克风和扬声器D之间的距离|DP|为D1。

在把持着单耳麦克风的同时，用户在扬声器布局空间中从位置P移动到两个位置Q和R。在这种情况下，声学控制设备10针对位置Q和R中的每一个执行与上面描述的处理相同的处理。

结果，声学控制设备10能够计算图11A所示的数据以表示单耳麦克风的位置P、Q和R的坐标，并且能够计算图11B所示的数据以表示位置P、Q和R与扬声器A至D之间的距离。

图12是在以下描述根据实施例的由声学控制设备10采用以计算扬声器A位置的方法时加以参考的说明图。如图11A和11B所示，声学控制设备10确定扬声器A已被放置在这样一个地方，该地方与位置P离开距离A1，与位置Q离开距离A2，并且与位置R离开距离A3。这样一来，如图12所示，声学控制设备10就关注于3个不同球体AP、AQ和AR的球面，这3个不同球体AP、AQ和AR分别具有半径A1、A2和A3和分别与位置P、Q和R相一致的中心。然后，声学控制设备10计算三个不同球体AP、AQ和AR的球面的交点。以这种方式，声学控制设备10能够计算扬声器A的位置(xa，ya，za)。

声学控制设备10同样地还对扬声器B至D执行上面描述的处理。这样一来，声学控制设备10就能够计算扬声器布局空间中的扬声器A至D的位置坐标。

通过如上所述地分别标识扬声器布局空间中的扬声器A至D的位置A(xa，ya，za)、B(xb，yb，zb)、C(xc，yc，zc)和D(xd，yd，zd)的坐标，一旦用户的位置X(x，y，z)已被标识，声学控制设备10就能够容易地计算从作为在一定的时间点存在于扬声器布局空间中的用户的当前位置的图13所示的位置X(x，y，z)分别到扬声器A至D的位置A(xa，ya，za)、B(xb，yb，zb)、C(xc，yc，zc)和D(xd，yd，zd)的距离|AX|、|BX|、|CX|和|DX|。

声学控制设备10为了用户的位置典型地对图像显示设备3和摄影机执行轮询，以便如果用户位置相对于图像显示设备3和摄影机改变，则图像显示设备3和摄影机输出新的拍摄图像，以用来计算新的用户位置。通过采用这种方法等，声学控制设备10能够监视用户位置的动态变化。这样一来，声学控制设备10就能够不时地监视用户的观看/收听位置的动态变化。结果，可以使声音动态地适应于用户的观看/收听位置。

在上面描述的例子中，通过利用单耳麦克风的三个不同安装地方来一次性计算每一个扬声器的位置，而每当麦克风的位置或用户的位置改变时，都更新每一个扬声器和麦克风或用户之间的距离。然而要注意的是，如果可以假定扬声器和用户的高度的方向是可忽略的，则可以通过利用麦克风的两个不同的安装地方来计算每一个扬声器的位置。在附图中，扬声器和用户的高度的方向是Y轴的方向。

(2-4)用于计算麦克风位置的典型修改方法

通过参考图14至16，简短地说明用于计算麦克风位置的典型修改方法如下。图14至16是在以下描述根据实施例的每个被采用以便计算单耳麦克风位置的典型修改方法时加以参考的说明图。

在通过参考图10至13稍早前说明的具体例子中，通过关注于接近于单耳麦克风的用户的脸来计算单耳麦克风的位置。然而，还可以通过采用像如下描述的那样的方法来计算单耳麦克风的位置。

例如在图14所示的典型布置中，诸如计算机代码之类的可视标记附接到单耳麦克风，以便实施用于计算单耳麦克风位置的方法。诸如计算机代码之类的可视标记附接到单耳麦克风，并且麦克风的位置在彼此不同的三个地方之间改变，以便通过对分别放置在三个不同地方的麦克风的三个拍摄图像执行图像处理，声学控制设备10能够计算标记有可视标记的单耳麦克风的位置。

另外，在图14所示的典型布置中，二维可视标记附接到单耳麦克风。然而如图15所示，可用于计算三维姿势的可视标记附接到单耳麦克风，以便允许找到麦克风的位置。在图15所示的典型例子的情况下，以可视标记的表面在朝向扬声器A至D的方向上取向的方式，扬声器A至D中的每一个输出位置计算信号。

这样一来，通过执行图像处理以便检测可视标记，基于标记的位置和取向以及从标记至扬声器的距离，不仅可以检测单耳麦克风的位置，而且还可以计算扬声器的位置。结果，可以执行环绕声校准而无需移动单耳麦克风。

另外，代替像图15所示的那样的三维可视标记，用户的脸也可以用来推断麦克风的位置和姿势。这样一来，就可以采用这样的方法，根据所述方法，在朝向扬声器的方向上取向用户的脸。

而且，代替通过参考图14和15在上面说明的方法，不用说的是，可以通过如图16所示将麦克风安装在扬声器布局空间中的指定地方来标识单耳麦克风的位置。

(2-5)麦克风类型

在上面说明的典型方法中，使用了单耳麦克风。即使单耳麦克风具有便宜的优点，但是它也具有需要将麦克风放置在三个不同地方的缺点。

另一方面，由于立体声麦克风将扬声器所输出的声音收集为立体声，所以不仅可以计算麦克风和扬声器之间的距离，而且还可以计算将麦克风连接到扬声器的直线的方向。结果，通过利用立体声麦克风，可以仅通过搜索如图17所示的圆圈的圆周来找到扬声器的位置。这样一来，通过在根据实施例的方法中利用立体声麦克风，就可以将麦克风应当移动的次数减少到两次。

另外，三声道麦克风将扬声器所输出的声音收集为三声道声音。这样一来，通过仅搜索如图17所示的相互对称的位置就可以找到扬声器的位置。结果，通过在根据实施例的方法中利用三声道麦克风，可以将麦克风应当移动的次数减少到一次。

(2-6)声学控制方法的流程

接下来，通过参考图18和19来简短地说明根据实施例的声学控制方法的典型流程如下。图18和19每个示出了表示根据实施例的声学控制方法的典型流程中之一的流程图。

首先，通过参考图18所示的流程图，以下描述简短地说明了用于计算每一个扬声器位置的方法的流程。

流程图开始于步骤S101，在步骤S101，声学控制设备10中使用的综合控制部101请求摄影机输出拍摄图像。在步骤S103，在综合控制部101所做出的请求之下，摄影机将麦克风和放置在接近于麦克风位置的地方的对象的拍摄图像输出到声学控制设备10。

在声学控制设备10中，图像获取部105接收由摄影机输出的拍摄图像，并且将图像传递到综合控制部101。然后，综合控制部101将从图像获取部105接收的拍摄图像转发到图像处理部107。

在声学控制设备10中，图像处理部107在步骤S105对从综合控制部101接收的拍摄图像执行图像处理。图像处理包括脸检测处理、对象检测处理和姿势识别处理。图像处理部107然后将图像处理的结果输出到综合控制部101。随后，综合控制部101将从图像处理部107接收的图像处理结果传递到扬声器位置计算部113。

由扬声器位置计算部113从综合控制部101接收的图像处理结果是由图像处理部107对包括麦克风和放置在接近于麦克风位置的地方的对象在内的拍摄图像执行的图像处理的结果。在声学控制设备10中，扬声器位置计算部113将图像处理的结果传递到麦克风位置计算部151。在步骤S107，麦克风位置计算部151利用图像处理的结果，以便通过采用诸如以前说明的那样的方法来计算麦克风的位置。

同时，综合控制部101请求位置计算信号控制部109开始处理以驱动扬声器5。在综合控制部101所做出的请求之下，位置计算信号控制部109在步骤S109驱动扬声器5中的每一个以单独地输出信号声音。在步骤S111，安装在某个地方的麦克风收集由扬声器5单独地输出的信号声音，并且将声音收集的结果输出到声学控制设备10。

在声学控制设备10中，声学信息获取部111从麦克风接收声音收集的结果，并且将结果传递到综合控制部101。综合控制部101从声学信息获取部111接收声音收集的结果作为声学信息，并且将这个信息传递到扬声器位置计算部113。然后，在步骤S113，综合控制部101确定麦克风是否已针对麦克风的三个不同地方从扬声器5收集了信号声音。如果综合控制部101在步骤S113确定麦克风尚未针对麦克风的三个不同地方从扬声器5收集了信号声音，则声学控制设备10通过返回到步骤S101来继续声学控制方法的处理。

另一方面，如果综合控制部101在步骤S113确定麦克风已针对麦克风的三个不同地方从扬声器5收集了信号声音，则声学控制设备10通过前进到步骤S115来继续声学控制方法的处理，在步骤S115，综合控制部101请求扬声器位置计算部113计算扬声器5的位置。在综合控制部101所做出的请求之下，基于麦克风位置计算部151所计算的麦克风位置和从综合控制部101接收的声学信息，扬声器位置计算部113中使用的麦克风扬声器距离计算部153计算麦克风的位置和扬声器5中的每一个的位置之间的距离。然后，基于计算的麦克风的位置和扬声器5中的每一个的位置之间的距离，扬声器位置标识部155标识扬声器5中的每一个的位置。以这种方式，可以在步骤S115计算布置于扬声器布局空间中的扬声器5的位置。

接下来，通过参考图19所示的流程图，以下描述简短地说明了环绕声调整方法的流程。

流程图开始于步骤S151，在步骤S151，声学控制设备10中使用的综合控制部101请求摄影机输出拍摄图像。在步骤S153，在综合控制部101所做出的请求之下，摄影机将存在于扬声器布局空间中的用户的拍摄图像输出到声学控制设备10。

在声学控制设备10中，图像获取部105从摄影机接收用户的拍摄图像，并且将图像传递到综合控制部101。然后，综合控制部101将从图像获取部105接收的拍摄图像传递到图像处理部107。

在声学控制设备10中，图像处理部107在步骤S155对从综合控制部101接收的拍摄图像执行图像处理。图像处理包括脸检测处理、对象检测处理和姿势识别处理。图像处理部107然后将图像处理的结果输出到综合控制部101。随后，综合控制部101将从图像处理部107接收的图像处理结果传递到声学控制部115。

在步骤S157，基于从综合控制部101接收的图像处理结果，声学控制部115中使用的用户位置计算部171通过采用诸如以前说明的那样的方法来计算用户的位置。

然后，在下一个步骤S159，在声学控制设备10中，综合控制部101或声学控制部115确定用户的位置是否已改变。如果综合控制部101或声学控制部115在步骤S159确定用户的位置尚未改变，则声学控制设备10通过返回到步骤S151来继续声学控制方法的处理。另一方面，如果综合控制部101或声学控制部115在步骤S159确定用户的位置已改变，则声学控制设备10确定需要执行动态环绕声校准，并且通过前进到下面将要描述的步骤S161来继续声学控制方法的处理。

在步骤S161，用户位置计算部171重新计算用户的新位置，而声学控制部115中使用的用户扬声器距离计算部173则基于存储部119等中存储的扬声器位置信息和用户位置计算部171所计算的用户位置来计算用户的新位置和扬声器5中的每一个的位置之间的距离。

然后，在下一个步骤S163，基于图像处理的结果，声学控制部115中使用的用户信号确定部175识别诸如用户的元数据和用户所做出的姿势之类的信息。用户的元数据包括用户的年龄。随后，在下一个步骤S165，基于用户的元数据，声学控制部115中使用的声学调整部177调整计划输出的声音的属性，并且将声音设置供应给声音输出部181作为调整的结果。声音的属性包括声音的质量。

然后，在下一个步骤S167，基于由用户位置计算部171、用户扬声器距离计算部173和用户信号确定部175产生的处理结果，声学控制部115中使用的环绕声调整部179执行位置确定处理，以确定声源的位置。随后，环绕声调整部179将位置确定设置供应给声音输出部181作为确定处理的结果，以确定声源的位置。

随后，在下一个步骤S169，基于从声学调整部177接收的声音设置和从环绕声调整部179接收的位置确定设置，声学控制部115的声音输出部181驱动扬声器5以输出声音。以这种方式，扬声器5能够输出对于用户的新位置而言恰当的声音。

通过参考图18和19所示的流程图，上面的描述简短地说明了根据实施例的声学控制方法的流程。

(3)根据当前实施例的声学控制设备的硬件配置

接下来，通过参考图20，以下描述说明了根据本公开实施例的声学控制设备10的硬件配置的细节。图20是示出根据本公开实施例的声学控制设备10的硬件配置的框图。

如图所示，声学控制设备10利用了包括CPU 901、ROM 903和RAM905在内的主要部件。另外，声学控制设备10还具有主机总线907、桥接器909、外部总线911、接口913、输入部915、输出部917、存储部919、驱动器921、连接端口923和通信部925。

CPU 901起到处理部以及控制部的作用。根据ROM 903、RAM 905、存储部919或驱动器921上安装的可移动记录介质927中存储的多个程序，CPU 901控制在声学控制设备10中执行的全部或某些操作。ROM 903是用来存储将要由CPU 901执行的程序和诸如处理参数之类的数据的存储器。RAM 905是用来临时存储将要由CPU 901执行的程序和在程序的执行期间改变的参数的存储器。CPU 901、ROM 903和RAM 905通过主机总线907彼此连接，该主机总线907是诸如CPU总线之类的内部总线。

主机总线907通过桥接器909连接到诸如外围部件互连/接口(PCI)总线之类的外部总线911。

输入部915是将要由用户操作的操作部。输入部915典型地包括鼠标、键盘、触摸面板、按钮、开关和控制杆。输入部915还可以是所谓的遥控部，其典型地利用红外线和其它电波。作为另一种替换，输入部915还可以是为了操作声学控制设备10而设置的外部连接设备929。外部连接设备929的典型例子是移动电话和个人数字助理(PDA)。作为进一步的替换，输入部915典型地被配置为输入控制电路，用于基于用户典型地通过对操作部进行操作而输入的信息来生成输入信号，并且将信号供应给CPU 901。声学控制设备10的用户操作输入部915，以便向声学控制设备10输入各种数据，并且请求声学控制设备10执行处理操作。

输出部917是用于在视觉上或听觉上向用户通知信息的部件。输出部917可以是阴极射线管(CRT)显示部、液晶显示部、等离子体显示部、电致发光(EL)显示部、灯显示部、声音输出部如扬声器或头戴耳机、打印机、移动电话和传真机。输出部917典型地输出由声学控制设备10执行的各种处理的结果。具体而言，显示部将声学控制设备10所执行的各种处理的结果示出为文本或图像。另一方面，声音输出部将表示再生音频数据和再生声学数据的音频信号转换成模拟信号并输出模拟信号。

存储部919是声学控制设备10中使用的典型存储部。存储部919是用来存储数据的存储器。存储部919的典型例子是磁存储装置如硬盘驱动器(HDD)、半导体存储装置、光存储装置和磁光存储装置。更加具体地，存储部919被用来存储将要由CPU 901执行的多个程序、内部生成的各种数据和从外部来源接收的各种数据。

驱动器921是用于安装在驱动器921上的可移动记录介质927的读取驱动器。驱动器921可以嵌入在声学控制设备10中，或者可以外部连接到声学控制设备10。驱动器921上安装的可移动记录介质927可以是磁盘、光盘、磁光盘或半导体存储器。驱动器921从可移动记录介质927中读出信息，并且将信息供应给RAM 905。另外，使用驱动器921上安装的可移动记录介质927，驱动器921还能够将记录写入到可移动记录介质927上。可移动记录介质927的典型例子是DVD介质、高清晰度数字通用盘(HD-DVD)介质和蓝光介质。可移动记录介质927的其它典型例子是作为注册商标的紧致闪存(CF)和安全数字(SD)存储卡。可移动记录介质927的进一步的典型例子是集成电路(IC)卡和电子装置。IC卡具有安装在其上的非接触IC芯片。

连接端口923是用于将外部设备直接连接到声学控制设备10的端口。连接端口923的典型例子是通用串行总线(USB)端口、IEEE1394端口和小型计算机系统接口(SCSI)端口。连接端口923的其它典型例子是RS-232C端口、光学音频终端和高清晰度多媒体接口(HDMI)端口。使用连接到连接端口923的外部连接设备929，声学控制设备10能够从外部连接设备929获取各种输入数据并且将各种输出数据提供给外部连接设备929。

通信部925是配置为通信装置的通信接口，该通信装置将要连接到通信网络931。通信部925典型地是用于有线和无线电局域网(LAN)通信、蓝牙(注册商标)通信或无线USB(WUSB)通信的通信卡。另外，通信部925可以是光通信路由器、非对称数字用户线(ADSL)路由器或设置用于各种通信的调制解调器。通信部925能够与因特网和遵守预定协议如传输控制协议/网际协议(TCP/IP)的其它通信设备交换信号等。另外，连接到通信部925的通信网络931典型地配置为用于有线和无线电通信的连接到通信部925的网络。通信网络931的典型例子包括因特网、家用LAN、红外线通信网络、无线电通信网络或卫星通信网络。

上面的描述说明了用于实施根据本公开实施例的声学控制设备10的功能的典型硬件配置。配置元件中的每一个可以通过利用通用部件或针对配置元件的功能而专门制作的硬件来配置。这样一来，根据作为用于实现实施例的水平而不时地改进的技术水平，可以恰当地改变用于实现每一个配置元件的硬件的配置。

已通过参考附图详细地说明了本公开的优选实施例。然而，本公开的实施决不限于所述实施例。明显的是，在属于本公开的技术领域内拥有普通知识的人员能够在本说明书或本公开的权利要求中描述的技术概念的范围内提出对实施例做出的多种改变和实施例的修改版本。然而，这样的改变和这样的修改版本自然地被认为是落在权利要求中描述的技术概念的范围之内。

本公开包含与2010年11月5日向日本专利局申请的日本优先权专利申请JP 2010-248832中公开的主题有关的主题，该专利申请的整体内容通过引用结合于此。

Claims

1.一种声学控制设备，包括：

扬声器位置计算部，配置成基于以下来找到位于扬声器布局空间中的多个扬声器中的每一个的位置：基于所述扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像而被计算为所述麦克风的位置的位置；以及声音收集的结果，所述声音收集由所述麦克风执行，以收集每个都由所述扬声器中的每一个生成的信号声音；以及

声学控制部，配置成通过以下来执行对由所述扬声器中的每一个生成的声音的控制：基于所述扬声器布局空间中的用户的拍摄图像来计算所述用户的位置；计算所述用户的位置和所述扬声器中的每一个的位置之间的距离；以及根据计算的距离来控制由所述扬声器生成的声音。

2.根据权利要求1所述的声学控制设备，其中，基于所述麦克风的位置以及通过利用由所述扬声器中的每一个生成并且由所述麦克风收集的所述信号声音的音量而计算的所述麦克风的位置和所述扬声器中的每一个的位置之间的距离，所述扬声器位置计算部找到位于所述扬声器布局空间中的所述扬声器中的每一个的位置。

3.根据权利要求1所述的声学控制设备，其中，所述声学控制部利用所述用户的位置和所述扬声器中的每一个的位置之间的距离，以便动态地改变用来设置由所述扬声器生成的声音的位置。

4.根据权利要求3所述的声学控制设备，进一步包括：

图像处理部，配置成处理所述用户的拍摄图像，

其中，所述图像处理部基于所述用户的拍摄图像来提取所述用户的元数据、所述拍摄图像上示出的其它用户的数目和由所述用户做出的姿势中的至少任何一个，并且

根据所述用户的元数据、所述拍摄图像上示出的其它用户的数目和由所述用户做出的姿势中的至少任何一个，所述声学控制部执行设置由所述扬声器生成的声音和调整所述声音的质量的处理中的至少任何一个。

5.根据权利要求1所述的声学控制设备，进一步包括：

图像处理部，配置成处理所述麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像，

其中，所述图像处理部检测靠近所述麦克风的所述用户的脸作为放置在所述麦克风的位置附近的地方的对象。

6.根据权利要求1所述的声学控制设备，进一步包括：

其中，所述图像处理部检测所述麦克风或所述麦克风上设置的可视标记。

7.根据权利要求1所述的声学控制设备，其中，基于从所述扬声器输出并且通过利用单耳麦克风、立体声麦克风和多声道麦克风而收集的信号声音的收集结果，所述扬声器位置计算部找到所述扬声器中的每一个的位置。

8.一种声学控制方法，包括：

基于多个扬声器布置于其中的扬声器布局空间中的麦克风和放置在所述麦克风的位置附近的地方的对象中的至少任何一个的拍摄图像，计算所述麦克风的位置；

基于计算的所述麦克风的位置以及由所述麦克风执行用来收集每个都由所述扬声器中的每一个生成的信号声音的声音收集的结果，找到布置于所述扬声器布局空间中的所述扬声器中的每一个的位置；以及

根据计算的用户的位置和从所述用户的位置到所述扬声器中的每一个的位置的距离，控制由所述扬声器中的每一个生成的声音。