CN100484177C

CN100484177C - 用于电信会议的立体声话筒处理

Info

Publication number: CN100484177C
Application number: CNB2005100818069A
Authority: CN
Inventors: 宽·K·张; 朱彼德; 迈克尔·A·波奇诺
Original assignee: Polycom Inc
Current assignee: Huihe Development Co ltd
Priority date: 2004-06-30
Filing date: 2005-06-30
Publication date: 2009-04-29
Anticipated expiration: 2025-06-30
Also published as: JP4255461B2; CN1716986A; EP1613124A3; US8687820B2; TWI264934B; EP1613124B1; TW200610373A; JP2006020314A; US20060013416A1; EP1613124A2

Abstract

用于在一个电信会议单元中提高音频信号的清晰度的方法与装置。使用了多个话筒和多个音频声道，其中只选择最佳话筒来表示每一个音频声道。可根据在一个房间中的话筒的位置来混合多个话筒信号，以便形成表示一个音频声道的单一信号。该音频信号可被进一步处理来实现其它特征。

Description

用于电信会议的立体声话筒处理

相关申请的交叉引用

本申请与Michael A.Pocino和Kwan K.Truong于2003年1月21日提交的、标题是″Digital Linking of Multiple Microphone Systems＂的、序列号为10/349,419的美国专利申请相关(代理卷号为199-0061US)，该专利申请被指定到同一受让人。

技术领域

本发明涉及电信会议，更具体地说涉及电信会议中的音频成分。

背景技术

电信会议已被长期用作商业、政府和教育机构的通信工具。有许多类型的电信会议设备。一种类型的电信会议单元是电视会议单元，它发送实时图像以及实况谈话。电视会议单元一般包括一个视频处理组件和一个音频处理组件。视频处理组件可以包括摄取会议参与者的实时图像的摄像机和用于显示来自近端或远端的会议参与者的实时图像或文件的静止图像的一个图像显示器。电视会议单元的音频部分通常包括一个或多个拾取会议参与者的语音信号的话筒，以及再现远端参与者的话音的扬声器。有时，改用音频会议单元，更常称之为扬声器电话。扬声器电话只发送在两个或多个位置处的人之间的对话。

当许多人在一个会议现场参加电信会议时，单一话筒的会议单元会有许多问题。来自靠近该话筒就坐的人的话音可能产生强信号，而来自远离该话筒就坐的人的话音可能产生弱信号。通常对系统增益进行限制，使得最强的信号不饱和该系统或使得该系统不稳定。由于这种增益限制，来自远离该话筒就坐的人员的低语音可能会太弱而不清晰。

可以使用遍布会议室放置的多个话筒来缓解这一问题。当遍布该会议室放置多个话筒时，将会有一个话筒距讲话人足够近，以便能够拾取该讲话人的话音。来自全部话筒的信号将被混音，以便产生一个音频信号，该音频信号被处理并且被发送到该会议的远端。用这种方法，来自全部讲话人的话音有相似的强度。但是该全部话筒信号的混音仍然有其自身的问题。并非所有的讲话人全都同时说话。当没有人靠近一个话筒讲话时，来自该话筒的信号实质上是噪声。如果来自全部话筒的全部信号都被一起混音，则将有大量噪声信号被与一个或少数几个语音信号混音，降低了信号/噪声比。期望有一种会议单元，能够使得在该会议的远端的各方能听清全部参与者的讲话。所期望的是增加该信号/噪声比(SNR)。

为了改善该SNR，某些已有技术的电信会议单元使用了话筒选通或动态混音技术。当把话筒选通应用在具有多个话筒的一个电信会议单元中时，仅＂选通＂具有足够强信号的话筒，即与其它话筒信号混音而形成一个音频信号。话筒中的一个强信号表示该信号来自讲话人而不仅仅是背景噪声。当一个话筒中的信号是微弱信号时，可以表明附近没有讲话人并且该信号主要来自背景噪声。这些话筒被关闭，即拒绝将它们的信号与其它＂选通＂话筒信号混音。这种话筒选通技术提高了SNR，但仍然提供不了人耳能够鉴别的一个很逼真的声场。

立体声音频和多路音频系统能够再现更为逼真的声场。这种立体声场再现出在各种声源之间的空间关系。这种空间关系能够使该系统更易于区别来自不同人的话音并且使得这些话音更清晰。期望把立体声音包括在一个电信会议单元中，或包括在电视会议单元、或包括在音频会议单元中。

期望具有一种能够提高这种电信会议能力的方法和装置。

发明内容

根据本发明的一个实施例，在具有多个话筒的一个电信会议单元中，在近端位于进行以下步骤：在会议场点之间保持并交换多个音频声道，针对每一个音频声道选择(选通)具有最佳信号电平的话筒而同时忽略(关闭)其他所有话筒，以便获得最佳信号/噪声比。

根据一个实施例，可以使用频带受限分析来选择该最佳话筒。针对一个时间间隔把来自多个话筒的每一个信号分解成多个子频带。针对每个子频带选择最强的信号，并且把一个投票(vote)给到这一子频带所出自的该话筒。针对全部子频带聚集针对每一个话筒的投票。具有最多数投票的话筒被选择用于该时间间隔。在一个可选方案中，只要投票的数量超出一个阈值，就选择该话筒用于该时间间隔。如果没有话筒具有足够大的一个投票数目，则选择针对最后时间间隔所选择的话筒。在另一可选方案中，不是只选择具有最多投票的一个话筒，而是可以选择几个话筒。如果这些话筒的每一个都具有超过最小投票阈值的投票，则选择这些话筒。在一个可选方案中，使用在选通(增益＝1)和关闭(增益＝0)之间的一个中间增益。

根据另一实施例，来自一个话筒的一个信号可被使用在一个以上的音频声道中，即进行音频声道移动(panning)。可以根据一个话筒的相对位置把用于一个音频声道的该话筒信号的一部分混合到另一音频声道中。类似地，来自几个话筒的信号可被混音而形成一个音频声道信号。混音的量取决于这些话筒的相对位置。

附图说明

在把优选实施例的下列详细描述与附图结合考虑时将能够更好地理解本发明，其中：

图1描述了在一个会议室中的一个电视会议单元的典型设计。

图2描述了具有一个立体声音频系统的大会议室，包括多个话筒和扬声器，并且使用话筒声道移动技术。

图3示出在具有两个音频声道的会议系统中话筒信号和音频再现的裁决(arbitrating)流程图。

图4示出用于左音频声道的话筒信号的子频带裁决、再混合和音频再现的流程图。

图5示出具有多个音频声道的一个电视会议单元的框图。

图6示出具有两个远端现场的一个电视会议单元的图像屏幕。

图7示出具有一个近端现场和一个远端现场的一个电视会议系统。

具体实施方式

根据本发明的方法与装置将改进在一个电信会议单元中的音频系统。该电信会议单元可以是既包括一个视频系统又包括一个音频系统得电视会议单元，或者是一个仅具有一个音频系统的扬声器电话的音频会议单元。

图1示出了在一个会议室中用于电视会议的典型设计。该电视会议设备包括一个视频显示屏幕101、在视频显示屏幕101顶部的摄像机105、扬声器102和104、以及在一会议桌119前面的话筒112、114、116、111、113和115。话筒112、114和116被分组在一起作为右话筒110，而话筒111、113和115被分组在一起作为左话筒120。为了简化起见，图1仅示出了这些部件。这些部件都被连接到一个中央模块。中央模块包括全部的信号处理电路、控制电路、网络接口等。图5示出电视会议单元的一个框图，具有该中央模块的一些细节。会议参与者121、122和123坐在会议桌119的前面。在此设置中有六个话筒在此现场的会议参与者的前面。

图2示出用于一个大会议室的另一设置。图像显示屏幕201和旋转摄像机241在该会议室的前面。围绕会议室放置了几个扬声器。202和204是示出的两个扬声器。还示出遍布该会议室分布多个话筒，包括话筒212、214、216、218、222、224、226、211、213、215、217、221、223和225。类似于图1所示的设置，这些话筒被分成一个右话筒分组和一左话筒分组。话筒的每一个分组被用于一个音频声道。会议参与者可以随着话筒坐在该会议室中。所示的三个与会者是231、233和235。

图5示出可以使用在图1和图2设置中的电视会议单元500的框图。电视会议单元500具有一个中央模块440，它具有内部扬声器422和424、内部话筒432和434、到一个安装的摄像机412的连接和到一个安装的图像显示屏410的连接。中央模块440具有多个用于附加视频和音频组件的接口：视频输入接口441、视频输出接口442、音频输入接口445和音频输出接口446。每个接口都具有到多个音频或视频信道的连接。例如，视频输入接口441能够从两个附加摄像机接受视频信号。视频输出接口442可以输出两个视频信道，达到四个监视器。该音频输入接口445可以接受达到十二个话筒，这十二个话筒能够被分组成四个音频声道。音频输出接口446可以输出五个以上的音频声道。由处理器单元450执行信号处理和控制，该处理器单元450通过中间级451、452、453和454耦合到各个音频/视频组件或接口。那些中间级执行信号转换，例如DAC和ADC等。它们被显示为分离的部件，但它们能够被集成为单一模块或一个集成芯片。处理器单元450由RAM 456和闪速存储器457支持。信号处理程序可被存储在该闪速存储器457中。可被使用在某些情形中的组件配置文件也能够被存储在该闪速存储器中。中央模块440具有几个网络接口，一个接口443用于数字网络而另一接口444用于模拟网络，通常用于与普通老式电话业务(POTS)线连接。接口444至少具有两个POTS线路，一个线路针对每一个音频声道。数字接口443可以支持各种数字连接，例如ISDN、以太网或USB。该ISDN连接主要用于通过ISDN网络的电视会议连接。以太网或LAN连接主要通过互联网络或在一企业通信网上内部地用于电视会议。该USB连接可被用于交换附加音频/视频媒体数据流，例如附加的摄像机、话筒、具有附加文件的计算机等媒体的数据流。

在图1和图2的设置中，全部参与者的讲话都可以至少由一个话筒拾取。当来自每一个话筒的音频信号都被收集并且被混合在一起而形成在每一个音频声道中的单一音频信号时，该讲话人的语音能够被发送到该电信会议的远端并且由在该远端的扬声器再现。在根据本发明的图1和图2的每一个设置中，选择并且混合来自多个话筒的信号，以便形成至少两个音频声道。

根据本发明的一个实施例，不是所有的话筒都被同等地对待。每一个话筒都根据其话筒的信号质量而被选通或关闭。每一个话筒都可被指定到一个特定的音频声道。

参考图1，例如保持两个音频声道。一个右音频声道具有话筒112、114和116。一个左音频声道具有话筒111、113和115。如果讲话人121正在说话，则来自话筒112的音频信号对于右声道是最强烈的音频信号，并且话筒111对于左声道具有最强的信号。所以来自话筒112的音频信号被选定来表示该右声道，而来自话筒111的音频信号被选择作为代表左音频声道的音频信号。该信号处理可以遵循图3示出的流动示意图。为简化起见，只示出一个信号路径，即拾取、处理该电视会议的近端位置的话音并且发送到远端，在远端处理并且再现。另外有一个与此信号路径完全相同的信号路径，只是方向相反，即从远端到近端的信号路径。在图3所示的流程图中，收集来自全部近端话筒的所有音频信号，并且送到用于每个音频声道的裁决器142和141。裁决器142或141比较来自各个话筒的每个音频信号的强度。从每个声道中选择最强的音频信号并且送到一个混音器152。该混音器152将执行进一步的处理，把该音频信号格式化或变换成用于通过电话网络或数据网络153发送的适当的格式。例如，每一个音频声道都可以使用一个独立的模拟电话线来与远端交换音频信号。或每一个音频声道都可被编码为数字数据包，并且发送到远端以便被解码。该格式化的数据被发送到远端处理器154。一旦该远端处理器154接收其中嵌入了用于左声道和右声道的音频信号的格式化数据，该远端处理器154则分离这两个声道。进一步处理用于每个声道的音频信号，例如右声道的音频信号转到处理器162而左声道的音频信号转到处理器161。放大和重新调整的音频信号被馈送到扬声器172和171并且被再现为语音。

在某些情形中，可以选择一个以上的话筒信号用于每一个声道。例如，当一个以上的讲话人在同一个会议现场同时讲话时，来自接近这些讲话人的话筒的信号应该被混合成用于一个音频声道的音频信号，使得每一讲话人的讲话都能被听到。在此情况中，具有表明某人正在讲话的具有足够高的信号强度的全部话筒信号被裁决器142和141选择，并且进一步处理。

仍然参考图3，示出作为分离组件的不同组件，例如裁决器142、混音器152、相应的远端混音器154、以及处理器162。它们可以是物理分离的组件。它们也可以被组合或集成为更少的组件。

上述的话筒信号裁决或选择是简单的。根据本发明的另一实施例，更精细地选择音频信号或裁决来自不同话筒的信号，以便实现更好的音频质量和灵活性。根据本实施例，针对每一个话筒信号执行子频带分析并且以该子频带电平执行裁决和选择。图4示出针对该音频信号的一个音频声道的处理。相同处理可被用于任何音频声道。与图3中的系统类似，收集来自全部话筒，例如话筒112、114和116的音频信号。该音频信号被每次一个时间帧地处理，而不是即时地处理。一旦从各个话筒收集了针对一个时间帧的音频信号，则把每一个话筒信号分解成多个子频带。在图4示出的实例中，一个时间帧是20毫秒，并且子频带是以50Hz间隔的从500Hz到3000Hz的频带范围，并且产生50个频带。每一个话筒信号都由频率分解器181划分。该音频信号的每一个子频带被收集到一个频带裁决器182中用于特定频带。例如，裁决器182收集全部3000Hz的频带信号，如图4所示。分析来自每一个话筒的用于每一个特定子频带的子频带能量。对于每个子频带来说，话筒之一将具有最大的能量。因此每一个子频带都投该最佳话筒的一票。当计数全部50个频带的投票时，该话筒之一将具有最大的投票数目。与上面的讨论类似，在只有一个讲话人正在讲话的某些情形中，选择一个话筒用于一个音频声道；在其它情形中，一个以上的讲话人正在讲话，则选择多个话筒。

如果一个话筒接收的投票的数量超出一个阈值，则该话筒被选择作为用于该当前时间间隔的话筒。如果几个话筒接收的投票超出该阈值，则能够选择这几个话筒。如果具有最高投票数目的话筒仍然是小于该阈值，则选择先前时间间隔中的最佳话筒。该阈值可被调整来适应一个会议。在一个实施方案中的该阈值是16。此子频带分析方法提供了针对每一个单独会议情形以及在一个会议的任何时期过程中的该最佳话筒的一种更好的指示。它提供了从一个讲话人到另一讲话人的平滑过渡。

在本发明的上述实施例中，选择话筒信号来形成用于一个特定音频声道的音频信号的方法可用下列公式表示：

Left_audio_signal = \underset{i}{Σ} Gain_Lef t_{i} \cdot Mic_L {eft}_{i},

其中

\underset{i}{Σ} Gain_{Left}_{i} = 1

对于在一个双音频声道系统中的左声道来说，其中Left_audio_signal是用于左音频声道的音频信号，Gain_lefti是用于第i个话筒信号的增益，Mic_Lefti是第i个话筒信号。当Gain_lefti实质为0时，＂删除＂来自该第i个话筒的话筒信号。当Gain_lefti实质为1时，＂选择＂来自该第i个话筒的话筒信号。如果选择了多个话筒，则选择的话筒的增益大约是1/n，其中n是选择的话筒的数量。

对于单一话筒选择或多个信号选择来说，可以更容易实现这种话筒增益的确定。当选择一个话筒信号时，增益实质上大于零，例如，当选择单一信号时的增益是大于0.8。当选择两个话筒信号时，用于至少一个话筒的增益是大于0.4。当放弃一个信号时，该增益实质上等于零。例如在图1所示的示例中，如果仅选择一个话筒，则用于话筒111的话筒增益是0.95，用于话筒113和115的话筒的增益分别是0.025。当两个话筒被选择时，增益分布则可以是：0.45，0.45，0.1，或0.7，0.3，0.0。

参见图2，在一个大会议室中大量的话筒被许多人使用。在此会议系统中，一个讲话人特别接近一个话筒，例如讲话人231很靠近话筒223。因此，当讲话人231说话时，来自话筒223的信号是目前最强的信号。此信号被指定到左音频声道。在右音频声道中，来自话筒216的信号可以是最强的信号，所以被选择来表示该右声道。但是由于来自话筒216的信号和来自话筒223的信号在强度上有如此大的差异，所以当在远端对这两个信号再现时，将听起来像是该讲话人231是在该会议室的很左侧。这将失真该音频图像(audio image)，使得谈话者231听起来像是他是在靠近话筒215或225讲话，而不是在话筒223讲话。这将可能在该远端在的参会者中引起混乱。在一个实时视频图像中所示的相对位置将不匹配根据该声音的相对位置。

根据本发明的一个实施例，这种音频图像的失真将随着音频声道移动而被降低或消除。＂声道移动＂意味着在假定一个双声道音频系统的条件下拾取一个信号、并且把该信号的一个百分比分配到左声道而剩余部分分配到右声道。仍然参见图2，不是单独地把话筒223的信号用于左音频声道以及把话筒216的信号用于右音频声道，而是这些信号的某些混合被用于每个声道。来自话筒223的信号的一部分与来自话筒216的信号的一部分混合，以便形成右音频声道信号。用这种方法，该右音频声道的信号较强，但不损失太多的SNR。类似地，来自话筒223的信号在被用于左音频声道信号之前被衰减一定的程度，使得该信号在左音频声道中不是太强。

混音的量以及混音比例取决于这些话筒的相对位置。在图2所示的示例中，话筒223是在相距会议室的中心、即摄像机观察中心线的θ_L的角度。所以它到摄像机观察中心被声道移动了θ_L度。类似地，话筒216是相距该中心线θ_R。当其被使用到音频声道中时，它被声道移动了θ_R度。利用话筒信号在左和右音频声道中的声道移动，该讲话人231的音频图像被重新定位到相距该中心线θ_L。因此，讲话人231的音频图像在该视频显示器上与该视频图像匹配。音频声道移动在音乐混合中是公知的，它被用于重新定位一个音频图像。因为该话筒位置已知，所以该定位角度θ_R或θ_L是已知的。调整该话筒信号来实现这种音频图像的重新定位是公知的。在此不作更详细地讨论。

当选通多个话筒信号用于一个信号音频声道时，可以声道移动每个话筒信号来避免如上述讨论的音频图像失真。衰减每个选通的话筒信号并且在音频声道当中比例调节。随后在每一个音频声道中混合并均衡全部选通的信号。仍然参考图2，例如当讲话人233和231都正在讲话时，话筒211和223被选择用于左声道，并且话筒216可被选择用于右声道。根据每一个话筒的位置，来自话筒211、233和216的每个话筒信号都被声道移动到左声道和右声道。

类似地，如果讲话人234和233在同一时间讲话，则话筒212和233被选择分别用于右声道和左声道。两个信号都将被声道移动到另一声道中，以便适当地定位该讲话人的音频图像。

上述实例中利用了两个音频声道。当电信会议单元中有足够的带宽和处理能力时，可以建立更多的音频声道并且发送到远端的电信会议单元。多个音频声道将再现更实际和逼真的声音。例如，一个五声道的音频系统能够提供一个非常真实的声场。

当一个电视会议有几个会议场点时，一个立体声音频系统将特别有用。参考图2示出的设置，图像显示器屏幕201可被分成几个窗口，每一个窗口表示在每一场点的参会者。如图6所示，例如第一远端现场被显示在屏幕201的左侧窗口242上，第二远端现场被显示在屏幕201的右侧窗口243上。近端场点可被显示在屏幕201的底部作为一个小插入画面244。在屏幕201的底部还有两个窗口245和246，显示关于该会议的当前状态信息。从每一远端场点接收的两个音频声道通过扬声器202和204被再现。来自第一远端场点的音频信号可被稍向左声道移动，而来自第二远端场点的音频信号可被稍向右声道移动。用这种方法，除了在每一场点中的不同讲话人的分离之外，用于每一远端场点的音频图像被彼此分离。每一讲话人的音频图像匹配其在屏幕201上显示的视频图像。由于来自远端的每个讲话人的讲话在空间上是明显区分的，所以比如果每个讲话人与其它讲话人的讲话混合时要好理解得多。

为了进一步改善在如上所述的电信会议单元中的音频信号，该话筒信号可以经历附加的音频信号处理，例如立体声回声抵消、立体声AGC、立体声噪声抑制或其它处理。可以根据该话筒信号的在前处理来选择这些附加的音频信号处理。例如，一个噪声抑制算法对于每一个话筒将具有唯一的噪声频谱形状。用于每个话筒的噪声频谱形状被存储在可由该声信号处理器接入的存储器模块中。因此，根据选择的话筒，该声音处理器可以使用该噪声频谱形状来降低来自特定话筒的噪声。可以启动立体声AGC来在话筒信号被送到该话筒信号判优器之前重新调整该话筒信号。立体声AGC可以调整在该话筒上的增益以便补偿讲话人的话音的变化的音量。对于高声的讲话人来说，可以调低增益，使得信号的峰值不被削波。对于温和的讲话人来说，可以调高增益，使得该信号强度达到强度阈值，并且使得该信号能够由该判优器选择。如果没有足够的信号强度，则该温和的讲话人的语音可能被该判优器当作是背景噪声而排除。

同样地，可以针对每个话筒存储一个话筒配置文件。可以在进一步的信号处理过程中使用这一配置文件，使得仅对于特定的话筒使用必要的处理，并且避免不必要的或无用的处理。用于每一个话筒的话筒配置文件可以包括其位置和相关的声道移动因数。在声道移动操作过程中使用其位置和相关的声道移动因数，以便声道移动该信号到全部音频声道，不论使用的是双音频声道或更多个音频声道。该配置文件可以包括在噪声抑制中使用的噪声频谱。该配置文件还可以包括在AGC中使用的频率响应频谱。

当两个如上述讨论的电视会议单元被连接在一起时，它们形成如图7中示出的一个更好的电视会议系统。图7所示的会议系统具有两个场点，每一场点都具有图2所示的电视会议单元。通过在每一个装置上的网络接口(没示出)把近端中央模块440连接到远端中央模块740。该中央模块440和740耦合到如图7所示的它们组件。为了简化起见，没有示出在组件和中央模块之间的连接。这一电视会议系统能够向全部参与者提供一个非常好的会议经历，好像他们是在同一个会议室中开会。

本发明的实施例使用多路音频处理提供了更实际的逼真声音再现，比如在电信会议的每个场点的立体声音响或多路环绕声。本发明的实施例利用双耳人类听觉的空间识别来区别在一个电信会议期间不同讲话人的不同位置，并且改进讲话人的话音清晰度。本发明的实施例使用各种方式从会议系统中的许多话筒中选择最佳的音频信号。本发明的实施例大大地改进了电信会议的质量。

虽然已经示出并且描述了本发明的示例性实施例，但可以理解，在不偏离本发明精神和范围的条件下能够作出各种改变。

Claims

1.用于在电信会议中处理多声道音频信号的方法，该方法包括在近端位置进行的以下步骤：

从用于多个声道的多个话筒接收话筒信号；

裁决用于每个声道的话筒信号以便生成一个或多个选定的话筒信号；

从该一个或者多个选定的话筒信号形成用于每个声道的一个音频信号；以及

把用于每个声道的该音频信号发送到远端。

2.如权利要求1的方法，

其中裁决用于每个声道的话筒信号的步骤包括：

把一个话筒信号的强度与一个强度阈值进行比较；

如果其信号强度大于该强度阈值，则选择该话筒信号；以及

如果其信号强度小于该强度阈值，则放弃该话筒信号。

3.如权利要求2的方法，

其中如果其信号强度大于该强度阈值则选择该话筒信号的步骤是指定一个话筒信号增益实质上大于零；以及

其中如果其信号强度小于该强度阈值则放弃该话筒信号的步骤是指定一个话筒信号增益实质上等于零。

4.如权利要求1的方法，还包括步骤：

针对一个时间帧累积话筒信号；以及

把在该时间帧中的每个话筒信号分解成多个频带受限的子频带，

其中裁决用于每个声道的话筒信号的步骤包括步骤：

针对每个子频带，比较来自全部话筒的子频带信号；

对于具有最大信号能量的话筒给出一个投票；

针对每个话筒相加针对全部子频带的全部投票；以及

选择对于该时间帧来说其投票数超过一个投票阈值的一个话筒信号。

5.如权利要求4的方法，

其中裁决用于每个声道的话筒信号的步骤还包括步骤：

如果选择了对于该时间帧来说其投票数超过一个投票阈值的一个以上的话筒，则保持其投票数是最大的一个话筒信号；以及

放弃其它选定的话筒信号。

6.如权利要求4的方法，

其中裁决用于每个声道的话筒信号的步骤还包括一个步骤：

如果对于该时间帧来说没有话筒具有超过该阈值的投票，则选择针对前一时间帧选定的话筒。

7.如权利要求4的方法，

其中把在该时间帧中的每个话筒信号分解成多个频带受限的子频带的步骤是把每一个话筒信号分解成至少50个子频带，并且该投票阈值是16。

8.如权利要求1的方法，还包括步骤：

根据所选定的话筒的位置，把用于一个音频声道的该选定的话筒信号声道移动到其它音频声道。

9.如权利要求1的方法，还包括：

在一个视频显示器上显示会议参与者的图像；以及

调整所选定的话筒信号电平，以便把一个讲话人的音频图像位置与在该视频显示器上显示的该讲话人的视频图像的位置相匹配。

10.如权利要求1的方法，还包括执行自动增益控制或噪声抑制的步骤。

11.如权利要求1的方法，还包括步骤：检索选定的话筒的配置文件，并且根据所检索的选定的话筒的配置文件而处理该音频信号。

12.如权利要求11的方法，其中每一个话筒的配置文件至少包括该话筒的下列信息：话筒位置和噪声频谱。

13.一种电信会议单元，包括：

一个网络接口(443，444)；

耦合到该网络接口(443，444)的一个处理模块(450)；

耦合到该处理模块而用于接收音频输入信号的一个音频输入接口(445)；以及

耦合到该处理模块而用于将音频输出信号送出到扬声器的一个音频输出接口(446)，

其中该处理模块(450)用来执行权利要求1-12任何之一的方法。

14.如权利要求13的电信会议单元，还包括：

耦合到该处理模块(450)而用于接收视频信号的一个视频输入接口(441)；和

耦合到该处理模块(450)而用于送出视频信号到一个图像显示器(410)的一个视频输出接口(442)。

15.如权利要求14的电信会议单元，

其中该处理模块(450)还可用于调整选定的话筒信号以便使一个讲话人的音频图像位置与在该视频显示器(410)上显示的该讲话人的视频图像位置相匹配。

16.一种电信会议系统，包括：

在一个近端的权利要求13到15任意之一的一个第一电信会议单元；和

在通过一个网络耦合到该第一电信会议单元的一个远端的第二电信会议单元。