CN101278337A

CN101278337A - 噪声环境中语音信号的健壮分离

Info

Publication number: CN101278337A
Application number: CNA2006800341438A
Authority: CN
Inventors: 埃里克·维斯; 杰里米·托曼; 陈国良
Original assignee: Softmax Inc
Current assignee: Softmax Inc
Priority date: 2005-07-22
Filing date: 2006-07-21
Publication date: 2008-10-01
Also published as: WO2007014136A9; WO2007014136A3; WO2007014136A2; JP2009503568A; KR20080059147A; EP1908059A4; EP1908059A2; US7464029B2; US20070021958A1

Abstract

提供了一种对从嘈杂声环境中提取的语音信号的质量进行改进的方法。在一种方法中，信号分离处理(180)与话音活动检测器(185)相关。话音活动检测器(185)是双通道(178，182)检测器，其使得能够进行尤其健壮和正确的话音活动检测。当检测到语音时，话音活动检测器生成控制信号(411)。控制信号(411)用来启动、调节或控制信号分离处理或后处理操作(195)，以改进所形成的语音信号的质量。在另一种方法中，提供信号分离处理(180)作为学习级(752)和输出级(756)。学习级(752)主动地调节以适应当前的声学条件，并将系数传递给输出级(756)。输出级(756)适应得更慢，并生成语音内容信号(181，770)和噪声为主的信号(407，773)。当学习级变(752)得不稳定时，仅对学习级(752)复位，从而使得输出级(756)能够继续输出高质量的语音信号。

Description

噪声环境中语音信号的健壮分离

相关申请

本申请要求了2005年7月22日递交的题为“噪声环境中语音信号的健壮(Robust)分离”的第11/187,504号美国专利申请的优先权，并且与2004年7月22日递交的题为“多换能器结构中目标声信号的分离”的第10/897,219号美国专利申请相关，第10/897,219号美国专利申请与2003年12月11日递交的题为“使用改进的独立成分分析进行语音处理的系统和方法”的第PCT/US03/39593号共同未决的专利合作条约申请相关，第PCT/US03/39593号共同未决的专利合作条约申请要求了第60/432,691号和第60/502,253号美国专利申请的优先权，所有上述申请都通过引用并入本文。

技术领域

本发明涉及用于从有噪声的声环境中分离语言信号的处理和方法。更具体地，本发明的一个实施例提供了用于从噪声环境中分离语音信号的盲信号源处理。

背景技术

声环境通常是有噪声的，这使得难以可靠地检测期望的提供信息的信号和对该信号作出反应。例如，某人可能希望使用话音通信信道与另一人通信。该信道可由例如移动无线手持装置、步话机、双向无线电装置或其他通信装置来提供。为了改进可用性，该人可使用连接到通信装置的手持装置或听筒。手持装置或听筒通常具有一个或多个耳机和麦克风。通常，麦克风在话筒吊杆上朝着该人的嘴部延伸，以增加麦克风拾取该人讲话的声音的似真性。当该人讲话时，麦克风接收其话音信号，并将该信号转换为电子信号。麦克风还从各种噪声源接收声音信号，因此在上述电子信号中还包括了噪声分量。由于听筒可将麦克风定位于距离该人的嘴部几英寸处，而环境可具有许多不可控制的噪声源，因此所得到的电子信号可具有大量的噪声分量。上述噪声导致了不能令人满意的通信体验，并可使得通信装置以低效率的方式工作，从而增加了电池消耗。

在一个特定示例中，在噪声环境中生成语音信号，并使用语音处理方法将语音信号从环境噪声中分离。这种语音信号处理在日常通信的许多领域中是重要的，这是由于在真实世界条件中总是存在噪声。噪声被定义为干扰感兴趣的语音信号或降低感兴趣的语音信号质量的所有信号的组合。真实世界充满了多种噪声源，包括经常越界进入多种声音从而形成混响的单点噪声源。除非将期望的语音信号从背景噪声中分离和隔离，否则便难以可靠和有效地使用期望的语音信号。背景噪声可包括由普通环境生成的大量噪声信号、由其他人的背景交谈生成的信号、以及由上述信号中的每一个生成的反射和混响。在用户通常在噪声环境中通话的通信中，希望能够将用户的语音信号从背景噪声中分离。语音通信媒介(例如蜂窝电话、扬声器电话、听筒、无绳电话、电话会议、CB无线电装置、手提式步话机(walkie-talkies)、计算机电话应用程序、计算机和汽车语音命令应用和其他免提的应用、对讲电话装置、麦克风系统等等)可利用语音信号处理将期望的语音信号从背景噪声中分离。

已经创建出许多方法来从背景噪声信号中分离期望的声音信号，包括简单的滤波处理。现有技术的噪声滤波器将具有预定特征的信号识别为白噪声信号，并将这些信号从输入信号中减除。虽然这些方法对于声音信号的实时处理而言足够简单和快速，但它们不能轻易地适应不同的声音环境，并可导致想要分解的语音信号质量显著降低。噪声性质的预定假设可以是过度包含(over-inclusive)或包含不足(under-inclusive)。因此，这些方法可将人的语音的一些部分视作“噪声”，并从输出的语音信号中将其去除，而将背景噪声的一些部分(例如音乐或交谈)视作非噪声，因而将其包含在输出的语音信号中。

在信号处理应用中，通常使用换能器传感器(例如麦克风)获得一个或多个输入信号。由传感器提供的信号是许多源的混合。通常，这些信号源以及它们的混合特性是未知的。如果除了源独立性的一般统计假设之外，没有这些信号源的其它知识，则信号处理问题在现有技术中通称为“盲源分离(BSS)问题”。盲分离问题以许多熟悉的形式出现。例如，众所周知，即使在包含许多声音信号源的环境中，某人可将注意力集中在单个这样的源上，这种现象通常被称为“鸡尾酒会效应(cocktail-party effect)”。在从源到麦克风的传输过程中，这些源信号中的每一个以某种随时间变化的方式被延迟和衰减，然后在麦克风处与其它独立延迟和衰减的源信号(包括其自身的多径信号(混响)，其为从不同方向到达的延迟的信号)混合。接收到所有这些声信号的人能够听到声音信号的特定集合，同时滤出或忽略其它干扰源，包括多径信号。

现有技术中已经投入相当多的努力来解决鸡尾酒会效应，既有物理装置方面的又有上述装置的计算模拟方面的。普遍采用了各种噪声降低技术，从在分析之前对信号的简单排除到依赖语音和非语音信号之间的恰当辨别的噪声谱的自适应估计方案。这些技术的描述在第6,002,776号美国专利(其通过引用并入本文)中一般性地定性。具体地，第6,002,776号美国专利描述了分离源信号的方案，其中两个或多个麦克风安装在包含不同声源的环境中，不同声源的数目等于或小于麦克风的数目。使用到达方向信息，第一模块试图提取原始的源信号，而第二模块则去除信道之间的剩余串音。这种结构可有效地分离具有清晰定义的到达方向的空间局部化点源，但却不能在真实世界的空间分布式噪声环境中分离出语音信号，因为在空间分布式噪声环境中不能确定特定的到达方向。

诸如独立成分分析(“ICA”)的方法提供了用于从噪声源分离语音信号的相对精确和灵活的手段。ICA是用于分离可假定彼此独立的混合源信号(成分)的技术。在其简化形式中，独立成分分析在混合信号上执行权重的“未混合”矩阵运算，例如将该矩阵乘以混合信号，以产生分离的信号。权重是指派的初值，然后进行调节以使信号的相关熵最大化，从而使信息冗余最小化。重复权重调节和熵增加处理，直到信号的信息冗余降到最小。由于这一技术不需要各个信号的源的信息，因此其通常被称作“盲源分离”方法。盲分离问题涉及分离来自多个独立源的混合信号的想法。

已经开发出许多流行的ICA算法来最优化它们的性能，包括通过对仅在十年前存在的算法进行重要的修改而发展出的大量算法。例如，A.J.Bell和TJ Sejnowski在神经计算7：1129-1159(1995)(NeuralComputation 7：1129-1159(1995))和Bell，AJ.在美国专利第5,706,402号中描述的工作通常不会以其专利形式使用。与之相反，为了最优化其性能，由许多不同实体对该算法进行了若干重新定性。上述改变的一种包括使用“自然梯度(natural gradient)”，这在Amari，Cichocki，Yang(1996)中进行了描述。其它流行的ICA算法包括计算高阶统计的方法，例如累积量(Cardoso，1992；Comon，1994；Hyvaerinen和Oja，1997)。

但是，许多公知的ICA算法不能有效地分离已记录在固有地包括声学回声的真实环境中的信号，这些声学回声例如由与房间建筑结构有关的反射引起。需要强调的是，迄今为止所提及的方法局限于由源信号的线性定常混合所引起的信号的分离。由直达信号与其回声对应物的相加所引起的现象被称作混响，其在人工语音增强和识别系统中引起主要的问题。ICA算法可能需要能够分离那些时延的回声信号的长滤波器，从而阻碍了有效的实时使用。

公知的ICA信号分离系统通常使用作为神经网络的滤波器网络，以从输入滤波器网络的任意数量的混合信号中分解单独的信号。也就是说，ICA网络被用来接收包括钢琴音乐和人的谈话的声音信号，双端口的ICA网络将声音分离为两个信号：具有大部分钢琴音乐的一个信号，以及具有大部分语音的另一个信号。

另一种现有的技术是基于听觉情景分析(auditory scene analysis)来分离声音。在这一分析中，对源所具有的性质的假设构成主要的使用。假设声音可被分解为较小的元素，例如音调和脉冲，然后可根据诸如调和性和时间连贯性等属性而对这些元素进行分组。可使用来自单个麦克风或多个麦克风的信息来执行听觉情景分析。由于计算机器学习方法的可用性，产生了计算听觉情景分析或CASA，因此听觉情景分析的领域已经得到了更多关注。尽管由于其包括人类听觉处理的理解而具有科学上受到关注，但是模型假设和计算技术仍然在其解决现实的鸡尾酒情节的初级阶段。

用于分离声音的其它技术通过对其源的空间分离来工作。基于这一原理的装置的复杂性是变化的。最简单的上述装置是具有高度选择性、但灵敏度为固定模式的麦克风。例如定向传声器被设计为对从特定方向发射的声音具有最大化的灵敏度，并因而可用来对一个话音源相对于其它话音源进行增强。类似地，安装于讲话者嘴部附近的近通话麦克风可拒绝某些远距离源。因而，麦克风阵列处理技术可用来通过使用感知到的空间分离来对源进行分离。这些技术并不实用，这是因为，由于至少一个麦克风仅包含期望的信号的假设在声环境中并不实际，因而不能完成对竞争的声源的充分抑制。

用于线性麦克风阵列处理的普遍公知的技术通常被称作“波束赋形(beamforming)”。在这一方法中，由于麦克风的空间差异而形成的信号间的时差被用来增强信号。更具体地，其中一个麦克风可能在语音源处“看上去”更直接，而其它的麦克风可生成相对衰减的信号。虽然可获得某些衰减，但波束赋形装置不能提供其波长大于阵列的频率分量的相对衰减。这些技术是用于空间滤波以调整波束朝向声源、并因此在其它方向上设置零信号的方法。波束赋形技术不对声源进行假设，而是为了去除信号的混响或者使声源局部化，而假设源与传感器或者声源信号本身之间的几何形状是已知的。

Hoshuyama，O.、Sugiyama，A.，Hirano在1999年10月的IEEE信号处理学报第10期第47卷第2677-2684页(IEEE Transactions onSignal Processing，vol 47，No 10，pp 2677-2684，October 1999)发表的“用于使用带约束的自适应滤波器的具有分块矩阵的麦克风阵列的健壮的自适应波束赋形装置(A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters)”一文中对在健壮的自适应波束赋形中被称为“通用副瓣对消(GSC)”的公知技术进行了讨论。GSC的目的在于从一组测量值x中滤出单个期望的源信号z_i，这一点在GSC原理(Griffiths，L.J.、Jim，C.W.的“用以线性受约束的自适应波束赋形的选择性方法”(Analternative approach to linear constrained adaptive beamforming)，IEEE天线与传播学报第1期第30卷第27-34页，1982年1月(IEEETransaction Antennas and Propagation，vol 30，no 1，pp.27-34，Jan1982))中进行了全面的解释。通常，GSC预先规定信号独立的波束赋形装置c过滤传感器信号，以使得来自期望的源的直达路径保持无失真，而理想地，应该对其它的方向进行抑制。最常见地，必须由另外的定位方法来预先确定期望源的位置。在较低的侧部路径中，自适应分块矩阵B的目的在于对源自期望信号z_i的所有成分进行抑制，以使得B的输出处仅出现噪声成分。这样，通过使总的输出功率E(z_i*z_i)的估计值达到最小，自适应干扰消除器a在c的输出处得到剩余噪声成分的估计值。因此，固定的波束赋形装置c和干扰消除器a共同执行干扰抑制。由于GSC要求期望的扬声器限制在有限的追踪区域中，因此其适用性受到严格的空间方案限制。

另一公知技术是一类主动消除算法，其与声音分离相关。但是，这一技术需要“参考信号”，即，仅来自于其中一个源的信号。主动噪声消除和回声消除技术广泛使用该技术，通过过滤仅包含噪声的已知信号并将其从混合信号中减除，使噪声降低与噪声对于混合信号的贡献相关。这一方法假设测量信号的其中之一由唯一的源构成，这种假设在许多现实生活设定中是不实际的。

不需要参考信号的用于主动消除的技术被称作“盲的(blind)”，在本申请中受到主要的关注。目前，这些技术在涉及声学处理的基本假设的现实性程度基础上被分类，不需要的信号通过上述声学处理到达麦克风。一类盲的主动消除技术可被称作“基于增益的(gain-based)”或者也通常被称作“瞬时混合(instantaneous mixing)”：其假定各个源产生的波形由多个麦克风同时接收，但是具有变化的相对增益。(定向传声器通常被用来产生所需的增益差别。)因此，基于增益的系统试图通过将相对增益应用于麦克风信号以及减除但并不应用延时或其它滤波，而消除不同麦克风信号中的不期望的源。已经提出了用于盲的主动消除的大量基于增益的方法；参见Herault和Jutten(1986)、Tong等人(1991)以及Molgedey和Schuster(1994)。当麦克风在空间上分隔(与在大部分声学应用中一样)时，基于增益或瞬时混合的假设不成立。这一方法的简单扩展是包括延时因子但却没有任何其它滤波，其工作在无回声的条件下。但是，当存在回声和混响时，从源到麦克风的声传播的简单模型的使用受限。当前公知的最实际的主动消除技术是“卷积的(convolutive)”：从各个源到各个麦克风的声传播被模型化为卷积滤波器。这些技术比基于增益和基于延迟的技术更实际，这是因为它们明显地适应内部麦克风分隔、回声和混响的效应。原则上，由于增益和延迟是卷积滤波的特殊情况，因此上述技术也更通用。

许多研究者已经描述了卷积盲消除技术，其中包括Jutten等人(1992)、Van Compernolle和Van Gerven(1992)、Platt和Faggin(1992)、Bell和Sejnowski(1995)、Torkkola(1996)、Lee(1998)以及Parra等人(2000)。数学模型主要用于经由麦克风阵列的多信道观测，该多源模型可进行如下公式表示：

x_{i} (t) = Σ_{l = 0}^{L} Σ_{j = 1}^{m} a_{ijl} (t) s_{j} (t - l) + n_{i} (t)

其中x(t)表示观测的数据，s(t)是隐藏的源信号，n(t)是附加的感觉的噪声信号，a(t)是混合滤波器。参数m是源的数目，L是卷积阶并依赖于环境声学，而t指的是时间系数。第一个求和是对环境中的源的滤波，第二个求和是对不同源的混合。大部分对于ICA的工作已经集中于瞬时混合情况的算法，其中去除了第一个求和，任务是进行简化以倒转混合矩阵a。细微的变化是在假设没有混响时，源自点源的信号在被记录在不同的麦克风位置时，除了振幅系数和延迟之外均可被视作是相同的。上述公式所描述的问题被通称为多信道盲去卷积问题。自适应信号处理的代表性工作包括Yellin和Weinstein(1996)，其中，高阶统计信息被用来估计感觉的输入信号间的共同信息。ICA和BSS工作到卷积混合的扩展包括Lambert(1996)、Torkkola(1997)、Lee等人(1997)以及Parra等人(2000)。

用于解决多信道盲去卷积问题的基于ICA和BSS的算法已经变得越来越流行，这是因为它们可能能够解决声学上混合的源的分离。但是，在这些算法中仍然具有强烈的假设，这些假设限制了这些算法对于实际情况的适用性。最矛盾的假设是要求具有至少与要分离的源一样多的传感器。从数学上讲，这一假设是讲得通的。但是实际上，源的数目通常是动态变化的，而传感器的数目则需要固定。另外，具有大量的传感器在许多应用中并不实际。在大部分算法中，调整统计的源信号模型以确保适当的密度估计，并因此确保各种各样的源信号的分离。由于除了对滤波器的调整之外，对源模型的调整也需要在线完成，因此这一需求在计算上是繁重的。假设源之间的统计独立性是比较实际的假设，但共有信息的计算是密集和困难的。实际的系统需要良好的近似。此外，通常要考虑到没有传感器噪声，这在使用高级麦克风时是正当的假设。但是，简单的麦克风具有传感器噪声，这必须注意到，以使得算法能够获得合理的性能。最终，大部分ICA公式表示隐含地假设，基本的源信号本质上来源于空间局部化的点源，虽然它们具有各自的回声和反射。这一假设通常对于强漫射或空间分布的噪声源而言并不有效，例如发自许多方向的具有可比声压级的风噪声。对于这些类型的分布式噪声情况而言，单独通过ICA方法实现分离是不够的。

期望有一种简化的语音处理方法，其能够以近乎实时的方式从背景噪声中分离语音信号，并且不需要大量的计算能力，却仍然产生相对正确的结果，并且能够灵活地适应不同环境。

发明内容

简要地，本发明提供了一种对从有噪的声学环境中提取的语音信号的质量进行改进的健壮的方法。在一种方法中，信号分离处理与话音活动检测器相关。所述话音活动检测器是双通道检测器，其使得能够进行尤其健壮和正确的话音活动检测。当检测到语音时，话音活动检测器生成控制信号。该控制信号用来启动、调节或控制信号分离处理或后处理操作，以改进所形成的语音信号的质量。在另一种方法中，提供信号分离处理作为学习级和输出级。学习级主动地适应当前声学条件，并将系数传递给输出级。输出级适应得比较慢，并生成语音内容信号和噪声为主的信号。当学习级变得不稳定时，仅对学习级复位，从而使得输出级能够继续输出高质量的语音信号。

在另一种方法中，分离处理接收分别由两个麦克风生成的两个输入信号。所述麦克风与目标讲话者具有预定的关系，从而一个麦克风生成语音为主的信号，而另一个麦克风生成噪声为主的信号。将两个信号接收进入信号分离处理，且在一组后处理操作中对来自信号分离处理的输出进行进一步处理。缩放监控器(scaling monitor)对信号分离处理或者一个或多个后处理操作进行监控。为了在信号分离处理中进行调节，缩放监控器可控制输入信号的缩放或放大。优选地，各输入信号可独立地缩放。通过缩放一个或两个输入信号，信号分离处理可更有效或主动地操作，从而使得需要较少的后处理，并提高总体的语音信号质量。

在另一种方法中，监控来自麦克风的信号是否受到存在的风噪声的影响。当从一个麦克风中检测到风噪声时，停止该麦克风或降低该麦克风的重要性，并将系统设定作为单通道系统操作。当不再存在风噪声时，再次启动所述麦克风，系统回到正常的双通道操作。

附图说明

图1是根据本发明分离语音信号的处理的框图；

图2是根据本发明分离语音信号的处理的框图；

图3是根据本发明的声音检测处理的框图；

图4是根据本发明的声音检测处理的框图；

图5是根据本发明分离语音信号的处理的框图；

图6是根据本发明分离语音信号的处理的框图；

图7是根据本发明分离语音信号的处理的框图；

图8是根据本发明的无线听筒的图；

图9是根据本发明的分离过程的流程图；

图10是根据本发明的改进的ICA处理子模快的一个实施方案的框图；

图11是根据本发明的改进的ICA语音分离处理的一个实施方案的框图；

图12是根据本发明的对信号分离处理复位的处理的框图；

图13是根据本发明的、用于对信号分离处理的输入信号进行缩放的处理的方框图；以及

图14是根据本发明管理风噪声的处理的流程图。

具体实施方式

现在参照图1，其示出了语音分离处理过程100。语音分离处理100具有一组信号输入(例如来自麦克风的声音信号)102和104，所述信号输入与预期的交谈者具有预定义的关系。例如，信号输入102可来自于设置在最靠近交谈者嘴部处的麦克风，而信号输入104可来自于距离交谈者嘴部较远处的麦克风。通过预定义与预定交谈者的相对关系，分离、后处理以及话音活动检测处理可更有效地运转。语音分离处理106通常具有两个单独却相关的处理。分离处理106具有信号分离处理108，信号分离处理108例如可以是盲信号源(BSS)或独立成分分析(ICA)处理。在操作中，麦克风生成一对输入信号至信号分离处理108，而信号分离处理生成具有语音内容的信号112以及噪声占优的信号114。后处理步骤110接受这些信号，并进一步降低噪声以生成输出语音信号121，输出语音信号121可由传输子系统123传输125。

为了提高稳定性、增加分离的有效性以及降低功耗，处理100使用话音活动检测器106以启动、调节或控制选定的信号分离、后处理或传输功能。话音活动检测器是双通道检测器，其使得话音活动检测器(“VAD”)能够以特别健壮和精确的方式工作。VAD 106接收两个输入信号105，其中一个信号定义为保持较强的语音信号。因此，VAD以简单和有效的方式来确定何时出现语音。通过检测语音，VAD106生成控制信号107。该控制信号例如可用来仅在出现语音时启动信号分离处理，从而增加稳定性以及节约功率。在另一实施例中，后处理步骤110可被控制为更精确地表征噪声，这是因为表征处理可限制为在没有语音出现时进行。通过对噪声的较好表征，剩余的噪声信号可从语音信号中更有效地去除。如下文中将进一步描述的那样，健壮和精确的VAD 106使得能够进行更稳定和有效的语音分离处理。

现在参照图2，其示出了通信处理175。通信处理175具有生成第一麦克风信号178的第一麦克风177，第一麦克风信号178被接收进入语音分离处理180。第二麦克风175生成第二麦克风信号182，第二麦克风信号182也被接收进入语音分离处理180。在一种结构中，话音活动检测器185接收第一麦克风信号178和第二麦克风信号182。可以理解，麦克风信号可被滤波、数字化或进行其它处理。第一麦克风177设置在比麦克风179距交谈者的嘴部更近的位置。这一预定义的结构使得能够简化语音信号的识别，同时改进话音活动检测。例如，双通道话音活动检测器185可运行与参照图3或图4描述的处理类似的处理。话音活动检测电路的一般设计是众所周知的，因此不再详细描述。有益地，话音活动检测器185是双通道话音活动检测器，如参照图3或4描述的那样。这意味着VAD 185对于合理的SNR是尤其健壮和精确的，因此可确定地作为核心控制机制在通信处理175中使用。当双通道话音活动检测器185检测到语音时，其生成控制信号186。

有益地，控制信号186可用于启动、控制或调节通信处理175中的几个处理。例如，语音分离处理180可以是自适应的，并可根据具体的声环境学习。语音分离处理180还可适合于特定的麦克风设置、声环境或者特定的用户语音。为了改进语音分离处理的适应性，学习过程188可响应于话音活动控制信号186而启动。通过这种方式，语音分离过程仅在期望的语音可能出现时才使用其自适应学习处理。同样地，在仅出现噪声或者不存在噪声时，通过停止学习处理，可保存处理能力和电池功率。

为了解释的目的，将语音分离处理描述为独立成分分析(ICA)处理。通常，当期望的交谈者未说话时，ICA模块在任何时间间隔内都不能执行其主要的分离功能，因此可被关闭。基于对输入信道之间的能量含量的比较或者基于对期望的交谈者的先验知识(例如具体的频谱特征(spectral signature))，话音活动检测模块185可对“开(on)”和“关(off)”状态进行监控和控制。通过在期望的语音未出现时关闭ICA，ICA滤波器不会不适当地进行适应，从而使得仅在这种适应能够获得分离改进时才能够进行这种适应。控制ICA滤波器的适应使得，即使在期望交谈者长时间的沉默之后，ICA处理也能够获得和保持良好的分离质量，并且能够避免为解决ICA级不能解决的情况而作出无效果的分离努力而导致的算法奇异性。尽管各种ICA算法对于无向性噪声表现出了不同程度的健壮性或稳定性，但是，在缺少期望的交谈者或者缺少噪声期间关闭ICA级大大增加了该方法的健壮性。同样，通过在仅存在噪声时停止ICA处理，可保存处理能力和电池功率。

由于在ICA实现的一个实施例中使用无限脉冲响应滤波器，因此理论上，不能总是保证组合/学习处理的稳定性。但是，与具有相同性能的FIR滤波器(即，等价的ICA FIR滤波器要长得多，并且要求明显更高的MIPS)相比，IIR滤波器的高度期望的效率以及在当前IIR滤波器结构下不存在白化人为结果(artifact)是吸引人的，其中包含了与闭环系统的极性布置近似相关的一组稳定性检查，从而触发滤波器历史的初始条件和ICA滤波器的初始条件的复位。由于IIR滤波本身可导致由过去的滤波器误差(数值的不稳定性)的累积引起的无界限输出，因此可使用在有限精确度编码中使用的用以检查不稳定性的技术。对ICA滤波阶段的输入和输出能量的显式评估被用来检测异常以及将滤波器和滤波历史复位为管理模块所提供的值。

在另一个实施例中，话音活动检测器控制信号186用来设置音量调节189。例如，语音信号181的音量可在没有检测到话音活动时被充分地减小。然后，当检测到话音活动时，语音信号181的音量可增大。也可对任何后处理阶段的输出进行上述音量调节。这不仅提供了较好的通信信号，而且节约了有限的电池功率。以类似的方式，在未检测到话音活动时，噪声估计处理190可用来确定何时可更主动地运行噪声降低处理。由于噪声估计处理190现在知道信号在何时仅为噪声，因此可更精确地表征该噪声信号。通过这种方式，噪声处理可更好地调节以适应实际的噪声特征，并且可在没有语音的时期内更主动地应用。然后，在检测到话音活动时，可调节噪声降低处理以在该语音信号上具有较小的降低效果。例如，虽然一些噪声降低处理在降低噪声方面可非常有效，但它们公知地在语音信号中创建不期望的人为噪音。这些噪声处理可在不存在语音信号时运行，而在可能存在语音时被禁止或调节。

在另一实施例中，控制信号186可用来调节某些噪声降低处理192。例如，噪声降低处理192可为频谱减除处理。更具体地，信号分离处理180生成噪声信号196和语音信号181。语音信号181可仍然具有噪声成分，并且由于噪声信号196精确地表征噪声，因此频谱减除处理192可用来进一步从语音信号中去除噪声。但是，所述频谱减除也起到了降低剩余语音信号的能级的作用。因此，当控制信号指示存在语音时，通过对剩余的语音信号应用相对较小的放大，可对噪声降低处理进行调节以补偿频谱减除。所述较小的放大导致了更自然和一致的语音信号。同样，由于噪声降低处理190知道执行频谱减除的主动性如何，因此放大的程度可得到相应调节。

控制信号186也可用来控制自动增益控制(AGC)功能194。AGC应用于语音信号181的输出，并用来将语音信号维持在可用的能级。由于AGC知道何时存在语音，因此AGC可对语音信号更精确地应用增益控制。通过更精确地控制输出语音信号或对输出语音信号规格化(normalize)，可更容易和有效地应用后处理功能。同样，后处理和传输中饱和的风险得以降低。可以理解，控制信号186可有益地用来控制或调节通信系统中的几个处理，包括其它的后处理195功能。

在示例性实施方案中，AGC既可完全自适应也可具有固定的增益。优选地，AGC支持具有约-30dB到30dB范围的完全自适应工作模式。可独立地建立默认的增益值，通常为0dB。如果使用自适应增益控制，则初始增益值由这一默认的增益值指定。AGC根据输入信号181的功率级来调节增益系数。具有低能级的输入信号181被放大到舒适的声级，而高能信号则被削弱。

乘法器将增益系数应用于随后被输出的输入信号。首先将通常为0dB的默认增益应用于该输入信号。功率估计器估计增益调节信号的短期平均功率。优选地，每隔八个采样(对于8kHz信号通常每隔1ms)计算一次输入信号的短期平均功率。剪裁逻辑(clipping logic)分析短期平均功率，以识别其振幅大于预定的剪裁阈值的增益调节信号。剪裁逻辑控制AGC旁路开关，AGC旁路开关在增益调节信号的振幅超过预定的剪裁阈值时，将输入信号直接连接到媒体队列。AGC旁路开关保持在向上或旁路位置，直到AGC调整到增益调节信号的振幅下降到小于剪裁阈值为止。

在描述的示例性实施方案中，虽然如果检测到溢出或剪裁时AGC应该较快地调整，但AGC被设计为缓慢调整。从系统观点上看，如果VAD确定话音是不活动的，则AGC调整应该保持固定或设计为削弱或删除背景噪声。

在另一实施例中，控制信号186可用来启动或停止传输子系统191。特殊地，如果传输子系统191是无线的无线电装置，则该无线的无线电装置仅在检测到话音活动时需要被启动或者被充分供能。通过这种方式，可在未检测到话音活动时降低传输功率。由于本地无线电系统可能由电池供能，因此节约传输功率为听筒系统提供了增强的可用性。在一个实施例中，从传输系统191传输的信号是将由控制模块中的相应蓝牙接收器接收的蓝牙信号193。

用于无线通信听筒的信号分离处理可从健壮和精确的话音活动检测器获益。图3中示出了一种具体的健壮和精确的话音活动检测(VAD)处理。VAD处理200具有两个麦克风，所述麦克风的其中第一个位于无线听筒上，从而第一麦克风比第二麦克风更靠近交谈者的嘴部，如方框206所示。各个麦克风均生成各自的麦克风信号，如方框207所示。话音活动检测器监控每个麦克风信号的能级，并比较测量到的能级，如方框208所示。在一个简单的实现中，监控各麦克风信号之间的能级差别何时超过预定的阈值。该阈值可以是固定的，或者可以根据声环境调整。通过比较能级的大小，话音活动检测器可精确地确定目标用户的讲话是否引起了能量峰值。通常，这种比较的结果为以下二者之一：

(1)第一麦克风信号具有比第二麦克风信号更高的能级，如方框209所示。信号能级之间的差别超过预定的阈值。由于第一麦克风与交谈者较接近，因此这一能级的关系表示目标用户正在讲话，如方框212所示，可使用控制信号来表示存在期望的语音信号；或者

(2)第二麦克风信号具有比第一麦克风信号更高的能级，如方框210所示。信号能级之间的差别超过预定的阈值。由于第一麦克风与交谈者较接近，因此这一能级的关系表示目标用户未讲话，如方框213所示，可使用控制信号来表示信号仅为噪声。

实际上，由于一个麦克风与用户的嘴部比较接近，因此，在该麦克风中的语音内容比较响亮，并可通过两个记录的麦克风通道之间的伴随的较大能量差别来追踪用户的语音活动。同样，由于BSS/ICA阶段从其它通道中去除了用户的语音，因此通道之间的能量差别在BSS/ICA输出级可变得更大。使用来自BSS/ICA处理的输出信号的VAD在图4中示出。VAD处理250具有两个麦克风，所述麦克风的其中第一个位于无线听筒上，从而第一麦克风比第二麦克风更靠近交谈者的嘴部，如方框251所示。各个麦克风均生成各自的麦克风信号，所述信号接收进入信号分离处理。信号分离处理生成噪声占优的信号，以及具有语音内容的信号，如方框252所示。话音活动检测器监控每个信号的能级，并比较测量到的能级，如方框253所示。在一个简单的实现中，监控信号之间的能级差别何时超过预定的阈值。该阈值可以是固定的，或者可以根据声环境调整。通过比较能级的大小，话音活动检测器可精确地确定目标用户的讲话是否引起了能量峰值。通常，这种比较的结果为以下二者之一：

(1)语音内容信号具有比噪声占优的信号更高的能级，如方框254所示。信号能级之间的差别超过预定的阈值。由于预先确定了语音内容信号具有语音内容，因此这一能级的关系表示目标用户正在讲话，如方框257所示，可使用控制信号来表示存在期望的语音信号；或者

(2)噪声占优的信号具有比语音内容信号更高的能级，如方框255所示。信号能级之间的差别超过预定的阈值。由于预先确定了语音内容信号具有语音内容，因此这一能级的关系表示目标用户未讲话，如方框258所示，可使用控制信号来表示信号仅为噪声。

在双通道VAD的另一个实施例中，参照图3和图4描述的处理均被使用。在这一设置中，VAD使用麦克风信号(图3)进行一个比较，使用从信号分离处理(图4)的输出进行另一个比较。在麦克风记录级的通道之间的能量差别和ICA阶段的输出的结合可用来对当前处理的帧是否包含期望的语音进行健壮的评估。

双通道话音检测处理与公知的单通道检测器相比具有显著的优势。例如，扩音器上的话音可使得单通道检测器指示存在语音，而双通道处理则会理解，扩音器比目标交谈者更远，因此并未引起通道间的较大能量差别，所以将指示其为噪声。由于单纯基于能量测量的单通道VAD非常不可靠，因此其可用性受到了很大限制，并需要通过额外的基准来进行补偿，例如零交叉率或先验期望交谈者语音时间和频率模型。但是，双通道处理的健壮性和精确性使得VAD能够在对无线听筒的工作进行的管理、控制和调节中起到中心的作用。

VAD检测不包含活动语音的数字话音采样的机制可通过多种方式来实现。一个这样的机制要求监控短周期(周期长度通常在约10至30毫秒范围)的数字话音采样的能级。如果通道之间的能级差别超过固定的阈值，则所述数字话音采样被宣称为活动的，否则被宣称为非活动的。作为一种选择，VAD的阈值水平可以是自适应的，而背景噪声能量可被追踪。这也可通过多种方式来实现。在一个实施方案中，如果当前周期中的能量远大于特定的阈值(例如由舒适噪声估算器作出的背景噪声估计)，则所述数字话音采样被宣称为活动的，否则被宣称为非活动的。

在使用自适应阈值水平的单通道VAD中，测量诸如零交叉率、频谱倾斜、能量和频谱动力(spectral dynamics)等的语音参数，并将其与噪声值进行比较。如果对于话音的参数明显不同于对于噪声的参数，则表示存在活动的语音，即使数字话音采样的能级较低。在本实施方案中，可在不同的通道之间进行比较，尤其是将话音为中心的通道(例如，话音+噪声或相反)与其它通道进行比较，而不论所述其它通道是分离的噪声通道、以噪声为中心的通道(其可以或不必被增强或分离，例如，噪声+话音)、或者是用于噪声的存储值或估计值。

虽然对数字话音采样能量的测量对于检测非活动语音而言可能已经足够，但是数字话音采样相对于固定阈值的频谱动力在辨别具有声谱的较长话音部分和长期的背景噪声中可以是有用的。在采用频谱分析的VAD的一个示例性实施方案中，VAD使用Itakura或Itakura-Saito失真来执行自动相关，以对基于背景噪声的长期估计与基于一段时间内的数字话音采样的短期估计进行比较。另外，如果得到话音编码器的支持，线频谱对(LSP)可用来对基于背景噪声的长期LSP与基于一段时间内的数字话音采样的短期估计进行比较。作为一种选择，当可从另一软件模块中获得的频谱可用时，可使用FFT方法。

优选地，应该向具有活动语音的数字话音采样的活动周期的末尾应用延迟释放(hangover)。延迟释放连接较短非活动部分，以确保将安静的结尾的清音(例如/s/)或低SNR过渡内容分类为活动的。延迟释放的量可根据VAD的工作模式来调节。如果较长活动周期之后的周期明显是非活动的(即，具有与测量的背景噪声相似的频谱的非常低的能量)，则延迟释放周期的长度可缩短。通常，由于延迟释放，活动语音短脉冲串之后的约20至500毫秒范围的非活动语音将被呈现为活动语音。该阈值可以通过约-60dBm至约-50dBm之间的默认值在约-100和约-30dBm之间进行调节，所述阈值取决于话音质量、系统效率和带宽需求、或者听力的阈值水平。作为一种选择，所述阈值可适应于某个固定的或变化的值，该值大于或等于噪声(例如来自于其它通道的噪声)的值

在一个示例性实施方案中，VAD可配置为以多种模式工作，从而提供话音质量、系统效率和带宽需求之间的系统折衷。在一种模式中，VAD总是被禁用，并宣告所有数字话音采样为活动语音。但是，典型的电话交谈具有差不多百分之六十的安静或非活动内容。因此，如果在这些周期期间数字话音采样被主动VAD抑制，则可实现高带宽增益。另外，可通过VAD(尤其是自适应VAD)实现许多系统效率，例如，节约能量，减小的处理需求，增加的话音质量或改进的用户接口。主动VAD不仅试图检测包含活动语音的数字话音采样，高质量的VAD还可检测和使用数字话音(噪声)采样(分离的或未分离的)的参数，包括介于噪声和语音采样之间的数值范围或者噪声或话音的能量。因此，主动VAD(尤其是自适应VAD)具有提高了系统效率的许多附加的特征，包括调整分离和/或后(预)处理步骤。例如，将数字话音采样识别为活动语音的VAD可开启或关闭分离处理或任何预/后处理步骤，或者作为一种选择，应用不同的分离和/或处理技术或分离和/或处理技术的组合。如果VAD没有识别活动语音，则VAD也可调整不同的处理，包括削弱或删除背景噪声，估计噪声参数或者规格化或调整信号和/或硬件参数。

现在参照图5，其示出了用于操作通信听筒的处理325。处理325具有生成第一麦克风信号的第一麦克风327和生成第二麦克风信号的第二麦克风329。虽然所示的方法325具有两个麦克风，但是可以理解，可使用两个以上的麦克风和麦克风信号。将麦克风信号接收进入语音分离处理330。语音分离处理330可以为例如盲信号分离处理。在一个更具体的实施例中，语音分离处理330可以是独立成分分析处理。题为“在多换能器结构中的目标声信号的分离”的第10/897,219号美国专利申请更完整地陈述了用于生成语音信号的特定处理，该申请的全部内容并入本文。语音分离处理330生成干净的(clean)语音信号331。将干净的语音信号331接收进入传输子系统332。传输子系统332可以是例如蓝牙无线电装置、IEEE 802.11无线电装置或者有线的连接。此外可以理解，所述传输可以是到局域无线电模块、或者可以是到用于广域基础设施的无线电装置的传输。通过这样的方式，传输的信号335具有代表干净的语音信号的信息。

现在参照图6，其示出了用于操作通信听筒的处理350。通信处理350具有向语音分离处理354提供第一麦克风信号的第一麦克风351。第二麦克风352提供第二麦克风信号进入语音分离处理354。语音分离处理354生成干净的语音信号355，干净的语音信号355被接收进入传输子系统358。传输子系统358可以是例如蓝牙无线电装置、IEEE802.11无线电装置、其它这样的无线标准或者有线的连接。传输子系统将传输信号362传输到控制模块或其它远程无线电装置。干净的语音信号355也由侧音处理模块356接收。侧音处理模块356将削弱的干净语音信号反馈到本地扬声器360。通过这种方式，听筒上的耳机向用户提供更自然的话音反馈。可以理解，侧音处理模块356可响应于本地声环境而调节发送到扬声器360的侧音信号的音量。例如，语音分离处理354还可输出代表噪声音量的信号。在本地的嘈杂环境中，侧音处理模块356可被调节以将较高水平的干净语音信号输出作为对用户的反馈。可以理解，可在设定侧音处理信号的衰减水平中使用其它因素。

现在参照图7，其示出了通信处理400。通信处理400具有第一麦克风401，第一麦克风401向语音分离处理405提供第一麦克风信号。第二麦克风402向语音分离处理405提供第二麦克风信号。语音分离处理405生成相对干净的语音信号406以及代表声学噪声407的信号。双通道话音活动检测器410从语音分离处理接收一对信号，用于确定何时可能出现语音，并在可能出现语音时生成控制信号411。话音活动检测器410如参照图3或图4所述的那样操作VAD处理。控制信号411可用来启动或调节噪声估计处理413。如果噪声估计处理413知道了信号407何时可能未包含语音，则噪声估计处理413可更精确地表征噪声。因此，对声学噪声特性的这种认识可被噪声降低处理415使用，以更全面和精确地降低噪声。由于来自语音分离处理的语音信号406可具有一些噪声成分，因此附加的噪声降低处理415可进一步提高语音信号的质量。通过这种方式，由传输处理418接收的信号具有较好的质量和较低的噪声成分。可以理解，控制信号411可用来控制通信处理400的其它方面，例如，噪声降低处理或传输处理的启动，或者语音分离处理的启动。噪声采样(分离的或未分离的)的能量可用来调整输出增强话音的能量或远端用户的语音能量。另外，VAD可在本发明的处理之前、之中和之后调整信号的参数。

通常，所描述的分离处理使用一组至少两个隔开的麦克风。在一些情况下，麦克风具有至讲话者话音的相对直接路径是理想的。在这种路径中，讲话者的话音直接行进到各个麦克风，而没有任何干涉的物理障碍。在另外的情况下，麦克风可设置为其中一个具有相对直接的路径，而另一个远离讲话者。可以理解，特定的麦克风设置可根据例如预定的声环境、物理界限和可用的处理能力来完成。分离处理可具有两个以上麦克风，用于需要更健壮分离的应用、或者用于其布置约束条件使得可使用更多麦克风的应用。例如，在一些应用中，讲话者可能位于与一个或多个麦克风隔离的位置处。在这种情况下，将使用另外的麦克风来增加至少两个麦克风具有至讲话者话音的直接通路的可能性。各个麦克风从语音源以及噪声源接收声能，并生成既具有语音成分又具有噪声成分的复合麦克风信号。由于各个麦克风与其它的麦克风隔开，因此各麦克风将生成稍有不同的复合信号。例如，噪声和语音的相对含量可以变化，各个声音源的计时和延迟也可以变化。

在各个麦克风处生成的复合信号由分离处理接收。分离处理对接收的复合信号进行处理，并生成语音信号和代表噪声的信号。在一个实施例中，分离处理使用独立成分分析(ICA)处理，用于生成所述两个信号。ICA处理使用交叉滤波器对接收的复合信号进行过滤，交叉滤波器优选为使用非线性有界函数的无限脉冲响应滤波器。非线性有界函数是具有可快速计算的预定最大和最小值的非线性函数，例如根据输入值返回正值或负值作为输出的符号函数。在信号的重复反馈之后，产生两个通道的输出信号，其中以噪声为主的一个通道基本由噪声成分构成，而另一个通道则包含噪声和语音的组合。可以理解，其它的ICA滤波器函数和处理也可与本发明一致地使用。作为一种选择，本发明预期采用其它源分离技术。例如，分离处理可使用盲信号源(BSS)处理，或者使用一定程度的关于声环境的先验知识的应用专用自适应滤波器处理，以实现基本类似的信号分离。

现在参照图8，其示出了无线听筒系统450。无线听筒系统450被构建为具有整合的悬挂式麦克风的耳机。图8中示出了无线听筒系统450的左侧451和右侧452。可以理解，无线听筒或耳机仅仅是受益于本发明讨论的通信处理的许多物理装置的其中之一。例如，便携式通信装置、移动手持装置、听筒、无需用手操作的汽车装备、头盔以及各种其它装置可受益于用于从嘈杂环境中分离语音的更健壮的处理。

在类似于蜂窝电话手持装置和听筒的移动应用中，通过调整而微调分离ICA滤波器的方向性模型，和/或选择麦克风配置，从而实现对于期望的讲话者运动的健壮性，所述麦克风配置对最可能一些的装置/讲话者嘴部设置导致相同的话音/噪声通道输出顺序。因此，麦克风优选设置在移动装置的划分线上，在硬件的每侧上不对称。通过这种方式，当使用移动装置时，同一麦克风总是设置为最有效地接收最多的语音，而与通信装置的位置无关，例如，不管该装置的用户的位置，主麦克风都以这样的方式定位以最接近于讲话者的嘴部。这种一致性和预定义的定位使得ICA处理能够具有更好的默认值并且更容易地识别语音信号。

现在参照图9，其示出了特定的分离处理500。处理500放置换能器以接收声信息和噪声，并生成复合信号，用于进行如方框502和504所示的进一步处理。复合信号被处理进入通道，如方框506所示。通常，处理506包括一组具有自适应滤波器系数的滤波器。例如，如果处理506使用ICA处理，则处理506具有多个滤波器，其每一个均具有可适应和可调节的滤波器系数。在处理506工作时，调节所述系数以改进分离性能，如方框521所示，在滤波器中应用和使用新的系数如方框523所示。对滤波器系数的这一连续调整使得即使在变化的声环境中，处理506也能够提供足够的分离水平。

处理506通常生成两个通道，在方框508中对这两个通道进行识别。具体地，将一个通道识别为噪声为主的信号，而将另一个通道识别为语音信号，语音信号可以是噪声和信息的组合。如方框515中所示，可对噪声为主的信号或信号组合进行测量，以检测信号分离的水平。例如，可对噪声为主的信号进行测量以检测语音成分的水平，并且响应于所述测量，可调节麦克风的增益。可在处理500的工作期间、或者在处理的建立期间执行所述测量和调节。通过这种方式，可在设计、测试或者制造处理中选择和预定义用于处理的期望增益因子，从而在工作期间将处理500从执行这些测量和设定中解脱出来。同样地，增益的正确设定可受益于高级电子测试装置的使用，例如高速数字示波器，其可在设计、测试或制造阶段中最有效地使用。应该理解，可在设计、测试或制造阶段进行初始的增益设定，而在处理500的现场工作期间可进行增益设定的附加调谐。

图10示出了ICA或BSS处理功能的一个实施方案600。参照图10和11描述的ICA处理非常好地适合于图8中所示的听筒设计。这一设计具有良好定义和预定义的麦克风定位，使得两个语音信号能够从讲话者嘴部前方的相对较小的“泡”中提取出。输入信号X₁和X₂分别从通道610和620中接收。通常，这些信号中的每一个来自于至少一个麦克风，但是可以理解，可使用其它来源。将交叉滤波器W₁和W₂应用于各个输入信号，以产生分离的信号U₁的通道630和分离的信号U₂的通道540。通道630(语音通道)包含占优势的期望信号，而通道640(噪声通道)包含占优势的噪声信号。应该理解，虽然使用术语“语音通道”和“噪声通道”，但是可基于期望互换术语“语音”和“噪声”，例如，可期望一个语音和/或噪声超过其它的语音和/或噪声。另外，该方法也可用来从两个以上的来源中分离混合的噪声信号。

无限脉冲响应滤波器优选用于本发明的处理过程。无限脉冲响应滤波器是这样的滤波器，即，其输出信号作为输入信号的至少一部分反馈进入滤波器。有限脉冲响应滤波器是这样的滤波器，即，其输出信号不作为输入反馈。交叉滤波器W₂₁和W₁₂可具有时间上的分散分布的系数，以捕获较长的时间延迟。在最简化的形式中，交叉滤波器W₂₁和W₁₂是每个滤波器仅具有一个滤波器系数的增益因子，例如，输出信号与反馈输入信号之间时间延迟的延迟增益因子，以及用于放大输入信号的振幅增益因子。在另外的形式中，交叉滤波器可各自具有数十、数百或数千滤波器系数。如下所述，输出信号U₁和U₂可通过后处理子模块——降噪模块或语音特征提取模块——进行进一步处理。

虽然已经明确地推导出ICA学习规则以获得盲源分离，但是ICA学习规则对声环境中语音处理的实际执行可导致滤波方案的不稳定性能。为了确保该系统的稳定性，必须首先稳定W₁₂和W₂₁的适应动态(adaptation dynamics)。上述系统的增益余量通常较低，这意味着输入增益的增加(例如与不稳定的语音信号相冲突的输入增益的增加)可导致不稳定性，并因此导致加权系数的指数增长。由于语音信号通常表现出具有零平均值的分散分布，因此符号函数会在时间上频繁振荡，从而导致不稳定性能。最后，因为快速收敛希望使用较大的学习参数，而较大的输入增益会使得系统更不稳定，因此在稳定性和性能之间具有固有的折衷。已知的学习规则不仅导致不稳定性，还可能因为非线性的符号函数而形成振荡(尤其在逼近稳定性极限时)，从而导致滤波后的输出信号U₁(t)和U₂(t)的混响。为了解决这些问题，用于W₁₂和W₂₁的适应规则必须是稳定的。如果用于滤波器系数的学习规则是稳定的，并且从X到U的系统传递函数的闭环极点都位于单位圆内，那么，大量的分析和实验研究表明，系统在BIBO(有界输入有界输出)中是稳定的。因此，总的处理方案的最终相应目标将是在稳定性约束下的嘈杂语音的盲源分离。

因此，确保稳定性的主要方法是适当地对输入进行缩放。在这一框架中，基于进入的输入信号特征对缩放因子sc_fact进行适应。例如，如果输入过高，则增大sc_fact的增加以降低输入振幅。在性能和稳定性之间存在折衷。通过sc_fact将输入减小降低了SNR，这导致了分离性能的降低。因此，输入应该仅被缩放到确保稳定性所需的程度。通过运行考虑了每个采样的加权系数的短期波动的滤波器结构，可实现用于交叉滤波器的附加的稳定化处理，从而避免了相关的混响。这种适应规则滤波器可被看作是时域平滑。另外，滤波器平滑可在频域中执行，以增强收敛的分离滤波器在相邻频点(frequency pin)上的相干性。这可通过对K抽头滤波器零抽头至长度L、然后用增加的时间支持对滤波器进行傅立叶变换、接着进行逆变换，来方便地完成。由于该滤波器已经通过矩形时域窗口被有效地窗口化，因此其通过正弦函数在频域中进行相应平滑。所述频域平滑可在规则的时间间隔完成，以周期性地将已适应的滤波器系数重新初始化为相关的方案。

下面的公式是ICA滤波器结构的实施例，其可用于每个时间采样t，k为时间增量变量

U_{1} (t) = X_{1} (t) + W_{12} (t) &CircleTimes; U_{2} (t)

(公式1)

U_{2} (t) = X_{2} (t) + W_{21} (t) &CircleTimes; U_{1} (t)

(公式2)

ΔW_12k＝-f(U₁(t))×U₂(t-k) (公式3)

ΔW_21k＝-f(U₂(t))×U₁(t-k) (公式4)

函数f(x)是非线性有界函数，即，具有预定最大值和预定最小值的非线性函数。优选地，f(x)是这样的非线性有界函数，即，其根据变量x的符号快速逼近最大值或最小值。例如，可将符号函数作为简单的有界函数来使用。符号函数f(x)是这样的函数，即，其根据x是正或负，而具有1或-1的二进制值。非线性有界函数的实施例包括但不限于：

f (x) = sign (x) = {\begin{matrix} 1 \\ - 1 \end{matrix}| \begin{matrix} x > 0 \\ x \leq 0 \end{matrix}\}

(公式7)

f (x) = \tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}

(公式8)

f (x) = simple (x) = {\begin{matrix} 1 \\ x / ϵ \\ - 1 \end{matrix}| \begin{matrix} x &GreaterEqual; ϵ \\ - ϵ > x > ϵ \\ x \leq - ϵ \end{matrix}\}

(公式9)

这些规则假设浮点精度可用于执行必要的计算。虽然浮点精度是优选的，但是也可使用定点运算，尤其是在应用于具有最小计算处理能力的装置时。不论采用定点运算的能力如何，收敛到最优ICA方案都更为困难。实际上，ICA算法是基于必须消除干扰源的原则的。由于在减去了几乎相等的数(或者加上了非常不同的数)的情况下定点运算的某些错误，ICA算法可显示出不够最优的收敛性质。

可影响到分离性能的另一个因素是滤波器系数的量化误差效应。由于有限的滤波器系数精度(resolution)，滤波器系数的适应会在某一点产生出渐进的附加分离改进，并因此将考虑确定收敛性质。量化误差效应取决于多个因素，但主要是所用的滤波器长度和位精度的函数。之前列出的输入缩放问题在避免数值溢出的有限精度计算中也是必需的。由于滤波处理所涉及的卷积可潜在地合计为大于可用精度范围的数值，因此缩放因数必须确保滤波器输入足够小，以避免上述情况发生。

本发明的处理函数从至少两个音频输入通道(例如麦克风)接收输入信号。音频输入通道的数量可增加超过最少的两个通道。随着输入通道数量的增加，可提高语音分离质量，通常到输入通道的数量等于音频信号源的数量时为止。例如，如果输入音频信号源包括讲话者、背景讲话者、背景音乐源以及由远处的公路噪声和风噪声所生成的一般背景噪声，则四通道语音分离系统通常优于双通道系统。当然，在使用更多输入通道时，需要更多的滤波器和更大的计算能力。作为一种选择，通常，只要存在用于期望的分离信号和噪声的通道，则可实现通道数少于源的总数。

本发明的处理子模块和过程可用来分离两个以上的输入信号通道。例如，在蜂窝电话应用中，一个通道可基本包含期望的语音信号，另一个通道可基本包含来自一个噪声源的噪声信号，再另一个通道可基本包含来自另一个噪声源的噪声信号。例如，在多用户环境中，一个通道可包括主要来自一个目标用户的语音，而另一个通道可包括主要来自另一个目标用户的语音。第三通道可包括噪声，其对于进一步处理两个语音通道是有用的。可以理解，可使用附加的语音或目标通道。

虽然一些应用仅包括期望语音信号的一个源，但是在其它应用中可存在期望语音信号的多个源。例如，电话会议应用或音频监督应用可需要从背景噪声中分离出多个讲话者的语音信号以及将多个讲话者的语音信号彼此分离。本发明的处理不仅可用来从背景噪声中分离语音信号的一个源，还可用来从一个讲话者的语音信号中分离出另一个讲话者语音信号。本发明适应多个源，只要至少一个麦克风与讲话者具有相对直接的路径即可。如果不能像听筒应用中(其中两个麦克风都位于用户的耳朵附近且直接的声音路径被用户的脸颊遮挡)那样获得所述直接路径，那么，由于用户的语音信号仍然局限于空间中的相当小的区域(嘴部周围的语音泡)，使得本发明仍然能发挥作用。

本发明的处理将声音信号分离到至少两个通道中，例如，以噪声信号为主的一个通道(噪声为主通道)以及语音和噪声信号的一个通道(复合通道)。如图11所示，通道730是复合通道，通道740是噪声为主通道。噪声为主通道很可能仍然包含某些较低水平的语音信号。例如，如果存在两个以上的显著声源和仅两个麦克风，或者如果两个麦克风靠拢设置而声源远离设置，则单独的处理可能并不总是将噪声完全分离。因此，经过处理的信号可需要附加的语音处理，以去除剩余的背景噪声水平和/或进一步改进语音信号的质量。这是通过经由单通道或多通道语音增强算法来馈送分离的输出而实现的，所述算法例如，具有使用噪声为主的输出通道评估的噪声频谱的维纳滤波器(当第二通道仅是噪声为主时，通常并不需要VAD)。维纳滤波器也可使用通过话音活动检测器检测到的非语音时间间隔，以获得用于由具有较长时间支持的背景噪声而劣化的信号的较好SNR。另外，有界函数仅仅是对相关熵计算的简化逼近，并可以不必总是完全降低信号的信息冗余。因此，在使用本发明的分离处理分离信号之后，可使用后处理来进一步改进语音信号的质量。

基于噪声为主通道中的噪声信号具有与复合通道中的噪声信号类似的信号特征的合理假设，其特征类似于噪声为主通道信号的特征的复合通道中的这些噪声信号应该在语音处理函数中被滤除。例如，频谱减除技术可用来执行所述处理。识别噪声通道中的信号的特征。跟现有技术中依赖于噪声特征的预定假设的滤波器相比，语音处理更为灵活，这是因为语音处理分析特定环境的噪声特征并去除代表该特定环境的噪声信号。因此，不太可能在噪声去除时过度包含或包含不足。诸如维纳滤波和卡尔曼滤波等的其它滤波技术也可用来执行语音后处理。由于ICA滤波器方案仅收敛到实际方案的极限环，因此滤波器系数将继续适应，而不会导致更好的分离性能。已经观察到一些系数漂移至其精度极限。因此，将包含期望的讲话者信号的ICA输出的后处理的版本通过所示的IIR反馈结构反馈，从而克服了收敛极限环，并且不会动摇ICA算法。这一过程的有益的副产品是显著地加速了收敛。

通过一般解释的ICA过程，某些特定的特征对于听筒或耳机装置是可用的。例如，通常的ICA过程被调节以提供自适应复位机制。信号分离过程750在图12中示出。信号分离过程750从第一麦克风接收第一输入信号760，从第二麦克风接收第二输入信号762。如上所述，ICA过程具有在工作期间进行适应的滤波器。在这些滤波器适应时，总的处理可最终变得不稳定，所引起的信号变得失真或饱和。在输出信号变得饱和后，滤波器需要进行复位，这可导致所生成的语音信号770中的令人讨厌的“弹出(pop)”。在一个特别期望的结构中，ICA处理750具有学习级752和输出级756。学习级752采用相对主动的ICA滤波器结构，而其输出仅用来“教导”输出级756。输出级756提供平滑函数，并更缓慢地适应于改变的条件。输出级生成具有语音内容770的信号，以及噪声为主的信号773。通过这种方式，学习级快速适应并指引对输出级进行这些改变，而输出级表现出对改变的惯性或抵抗。ICA复位处理765监控每个级中的值以及最终输出信号。由于学习级752主动地工作，因此学习级752可能比输出级756更经常饱和。一旦饱和，学习级滤波器系数754被复位为默认条件，学习ICA 752使其滤波器历史替换为当前的采样值。但是，由于学习ICA752的输出并不直接连接到任何输出信号，因此所引起的“一闪信号(glitch)”不会导致任何可觉察到或可听到的失真。与之相反，所述改变仅仅导致发送到输出级756的一组不同的滤波器系数。但是，由于输出级756相对较慢地改变，其也不会生成任何可觉察到或可听到的失真。通过仅复位学习级752，使得ICA处理750工作，而不会因复位而导致显著失真。当然，输出级756可仍然偶尔需要被复位，这种复位可导致通常的“弹出”。但是，这种情况目前很少发生。

另外，期望创建稳定的分离ICA滤波的输出的复位机制，以使得在生成的音频信号中用户可感知到失真和不连续性最小。由于对一批立体声系统缓冲采样进行饱和检查的评估，因此缓冲器应该选择为与实际的一样小，这是因为从ICA级缓冲的复位将被弃用，而且没有足够的时间在当前采样周期中重新进行ICA滤波。用当前记录的输入缓冲值对用于两个ICA滤波器级的过去的滤波器历史重新初始化。后处理级将接收当前记录的语音+噪声信号和当前记录的噪声通道信号作为参考。由于ICA缓冲器尺寸可减小到4ms，因此将导致期望的讲话者话音输出中的觉察不到的不连续性。

当启动或复位ICA处理时，将滤波器值754或758或抽头复位为预定义的值。由于听筒或耳机通常仅具有有限范围的工作条件，因此可选择用于抽头的默认值，以说明预期的工作结构。例如，从每个麦克风到讲话者嘴部的距离通常保持在较小的范围，并且讲话者的话音的预期频率可能在相对较小的范围。使用这些约束以及实际的工作值，可确定一组适当的正确抽头值。通过仔细选择默认值，ICA执行可预期分离的时间得以减少。应该包括用以约束可能的方案空间的对滤波器抽头范围的显式约束。可从方向性考虑或者通过之前实验中收敛到最优方案而获得的实验值而得出这些约束。同样应该理解，默认值可随时间而适应，以及根据环境条件而适应。

同样可以理解，通信系统可具有一组以上的默认值777。例如，一组默认值(例如“组1”)可在非常嘈杂的环境中使用，另一组默认值(例如“组2”)可在比较安静的环境中使用。在另一个实施例中，不同的默认值组可存储用于不同的用户。如果提供了一组以上的默认值，则将包括管理模块767，其确定当前工作环境，并且确定将使用哪一组可用的默认值组。然后，当从复位监控器765接收到复位命令时，管理处理767将例如通过在芯片组上的闪速存储器中存储新的默认值，将所选定的默认值传送给ICA处理滤波器系数。

使用从一组初始条件启动分离优化的任何方法来加速收敛。对于任何给定的情景，管理模块应该决定是否特定的一组初始条件适当并且执行该组初始条件。

在听筒中自然会出现声学回声问题，这是因为由于空间或设计局限，麦克风可能位于耳机附近。例如，在图8中，麦克风461靠近耳机456。当来自远端用户的语音在耳机中播放时，该语音也将被麦克风拾取并回波返回远端用户处。根据耳机的音量和麦克风的位置，这一不期望的回声可能响亮和令人讨厌。

声学回声可视作干扰噪声，并可通过相同的处理算法来去除。对一个交叉滤波器的滤波器约束反映出需要从一个通道去除期望的讲话者并限制了其方案范围。另外的交叉滤波器去除任何可能的外部干扰和来自扩音器的声回声。因此，通过赋予足够的适应灵活性来确定第二交叉滤波器抽头上的约束，以去除回声。用于该交叉滤波器的学习速率可能也需要改变，并可与用于噪声抑制的学习速率不同。根据听筒设置，耳机与麦克风的相对位置可固定。可提前学习并固定用于去除耳机语音的必需的第二交叉滤波器。另一方面，麦克风的传递特性可在时间上漂移，或者随环境(例如温度改变)而漂移。可由用户调节将麦克风的位置调节到某种程度。所有这些都要求调节交叉滤波器系数，以更好地消除回声。在适应期间，这些系数可被约束在固定的学习到的一组系数附近。

可使用公式(1)至(4)中所描述的相同算法去除声学回声。输出U₁是没有回声的期望的近端用户语音。U₂是去除了近端用户语音的噪声参考通道。

按照惯例，使用自适应规格化最小均方(NLMS)算法以及使用远端信号作为参考，从麦克风信号中去除声回声。然后，需要检测近端用户的沉默，并且假设通过麦克风拾取的信号仅包含回声。NLMS算法使用远端信号作为滤波器输入、使用麦克风信号作为滤波器输出，建立声学回声的线性滤波器模型。当检测到远端和近端用户均在讲话时，经过学习的滤波器则停止且应用于进入的远端信号，以生成对回声的评估。然后从麦克风信号中减除所评估后的回声，将所形成的信号作为清除了回声的信号进行发送。

上述方案的缺点在于，其需要对近端用户的沉默进行良好检测。如果用户处于嘈杂环境中，这可能难以实现。上述方案也假设进入到耳机至麦克风拾取路径的远端电子信号中的线性处理。在将电信号转换为声音时，耳机很少是线性装置。当扬声器在高音量被驱动时，非线性效应是明显的。其可能饱和，产生谐波或失真。使用双麦克风设置，将由两个麦克风拾取来自耳机的失真的声信号。由第二交叉滤波器将回声评估为U₂，并由第一交叉滤波器将其从主麦克风中去除。这样就产生了去除了回声的信号U₁。这一方案评估了对至麦克风路径的远端信号的非线性度进行模型化的需要。不论近端用户是否沉默，学习规则(3-4)均运行。这样就可去除双向通话检测器(double talkdetector)，并且在整个交谈期间都更新交叉滤波器。

在第二麦克风不可用的情况下，可将近端麦克风信号和进入的远端信号可用作输入X₁和X₂。本发明中描述的算法仍然可用来去除回声。唯一的修改是在远端信号X2不包含任何近端语音时，权重W_21k均设置为0。这样，学习规则(4)将被去除。虽然非线性度问题在单麦克风设置中未解决，但交叉滤波器仍然可在整个交谈期间更新，并且不需要双向通话检测器。在双麦克风或单麦克风结构的任一种中，仍然可应用传统的回声抑制方法来去除任何残余回声。这些方法包括声回声抑制和补充梳状滤波。在补充梳状滤波中，首先将到耳机的信号通过梳状滤波器的频带。将麦克风耦合到补充梳状滤波器，补充梳状滤波器的阻带是第一滤波器的通带。在声学回声抑制中，当检测到近端用户沉默时，将麦克风信号衰减6dB或更多。

现在参照图13，其示出了语音分离系统800。语音分离处理808具有麦克风801，麦克风801比麦克风802距目标讲话者更近。通过这种方式，麦克风801将生成较强的语音信号，而麦克风802将具有更占优势的噪声信号。通信处理800具有信号分离处理808，例如BSS或ICA处理。信号分离处理生成具有语音内容的信号812以及噪声为主的信号814。通信处理800具有后处理步骤810，在后处理步骤810中，从语音内容信号812中去除了附加噪声。在一个实施例中，使用噪声特征从语音信号812中在频谱上减除噪声。这种减除的主动性由OSF(over-saturation-factor，过饱和因数)控制。但是，频谱减除的主动应用可导致令人讨厌的或不自然的输出语音信号821。为了减少必需的频谱减除，通信处理800可对ICA/BSS处理的输入应用缩放805或806。为了在话音+噪声和仅噪声通道之间的每个频点中匹配噪声特征和振幅，左、右输入通道可相对于彼此进行缩放，这样，从噪声通道获得话音+噪声通道中的噪声的尽可能接近的模型。不在处理级中对过饱和因数(OSF)进行调谐，而是进行所述缩放，通常可产生更好的话音质量，这是因为ICA级被迫去除了无向性噪声中尽可能多的方向成分。在特定实施例中，当需要将附加噪声降低时，可将来自麦克风802的噪声为主的信号更主动地放大805。通过这种方式，ICA/BSS处理808提供了附加的分离，需要较少的后处理。

真实的麦克风可具有频率和灵敏度失配，而在各个通道，ICA级可产生高/低频率的不完全分离。因此，需要在各个频点或者频点阵列中进行OSF的单独缩放，以实现可能的最好的话音质量。同样，可加强或削弱选定频点的重要性，以改进觉察性。

根据期望的ICA/BSS学习速率、或者为了能够更有效地应用后处理方法，还可对来自麦克风801和802的输入水平独立地调节。ICA/BSS和后处理采样缓冲器经过了多个不同的振幅。在高输入水平时期望减小ICA学习速率。例如，在高输入水平时，ICA滤波器的值可快速改变，并更快地饱和或变得不稳定。通过缩放或衰减输入信号，学习速率可被适当减小。缩小后处理输入还可期望用于避免计算对导致失真的语音和噪声功率的粗略评估。为了避免ICA级中的稳定性和溢出问题以及为了获益于后处理级810中的最大可能动态范围，可对ICA/BSS 808和后处理810级的输入数据应用自适应缩放。在一个实施例中，通过适当选择与DSP输入/输出精度相比较更高的中间级输出缓冲器精度，可全面提高声音质量。

独立的输入缩放也可用来帮助两个麦克风801和802之间的振幅校准。如前所述，两个麦克风801和802适当匹配是期望的。虽然可动态地完成某些校准，但其它的校准和选择可在生产过程中完成。应该对两个麦克风进行校准以匹配频率和总灵敏度，从而使ICA和后处理级中的调谐达到最小。这可要求将一个麦克风的频率响应倒置，以获得另一个麦克风的响应。本领域中实现通道倒置的所有公知技术(包括盲通道倒置)可用来实现上述目的。可通过适当匹配来自生产麦克风的库(pool)的麦克风而实现硬件校准。考虑离线或在线调谐。在线调谐要求VAD的帮助，以在仅有噪声的时间间隔中调节校准设定，即，麦克风频率范围需要通过白噪声优先激励，以能够纠正所有频率。

风噪声通常是由直接施加至麦克风的换能器膜的持续风力所导致的。高度灵敏的膜生成较大的、有时是饱和的电子信号。所述信号淹没并经常毁坏麦克风信号中的有用信息，包括任何的语音内容。另外，由于风噪声非常强，因此其可导致信号分离处理以及后处理步骤中的饱和以及稳定性问题。同样地，被传输的任何风噪声都产生令收听者讨厌和不舒适的收听体验。不幸的是，风噪声已经是听筒和耳机装置具有的尤其困难的问题。

但是，无线听筒的双麦克风结构允许以更健壮的方式来检测风，并允许使风噪声的干扰效应最小化的麦克风结构或设计。图14中示出了双通道风噪声降低处理900。由于无线听筒具有两个麦克风，因此该听筒可运行更精确识别风噪声存在的处理900。如上所述，两个麦克风可设置为使其输入端口朝向不同方向，如方框902中所示，或者两个麦克风彼此屏蔽以使其每一个从不同方向接收风。在这种结构中，一股风将导致朝向风的麦克风中能级水平的急剧增加，而另一麦克风则仅受到最低限度的影响。因此，当听筒仅在一个麦克风上检测到大的能量尖峰信号时，该听筒可确定所述麦克风受到了风的影响。另外，可向麦克风信号应用其它处理，以进一步确定所述尖峰信号是由风噪声引起的。例如，风噪声通常具有低频模式，当在一个或两个通道发现所述模式时，则可表示存在风噪声，如方框904所示。作为一种选择，可考虑用于风噪声的特定的机械或工程设计。

一旦听筒发现麦克风的其中之一被风撞击时，该听筒可运行用以最小化风的影响的处理。例如，所述处理可阻止来自受到风影响的麦克风的信号，而仅处理另一个麦克风的信号，如方框906所示。在这种情况下，也停止分离处理，且噪声降低处理像更传统的麦克风系统那样工作，如方框908所示。一旦麦克风不再被风撞击，如方框911所示，则听筒可回到通常的双通道工作，如方框913所示。在一些麦克风结构中，离讲话者较远的麦克风接收上述受限的语音信号水平，使得该麦克风不能如同单麦克风输入那样工作。在这种情况下，不能停止最接近讲话者的麦克风或削弱该麦克风的重要性，即使是在其受到风的影响的情况下。

因此，通过将麦克风设置为朝向不同的风向，有风环境可仅在一个麦克风中导致显著的噪声。尽管一个麦克风受到风的影响，但是由于另一麦克风可能很大程度上不会受到影响，因此，其可单独用来向听筒提供高质量的语音信号。使用这一处理，无线听筒可在有风环境中有利地使用。在另一实施例中，听筒在其外部具有机械旋钮，因此用户可从双通道模式切换到单通道模式。如果单独的麦克风是定向的，那么，即使单麦克风工作也仍然可以对风噪声过于灵敏。但是，在单独的麦克风是无向时，虽然会使声学噪声抑制恶化，但是风噪声效果应该可略微减轻。在同时处理风噪声和声学噪声时，信号质量存在固有的折衷。可通过软件来调节所述平衡中的一些，同时可响应于用户偏好(例如，使用户在单通道或双通道工作之间进行选择)来做出一些决定。在一些结构中，用户还可能能够选择使用哪个麦克风作为单通道输入。

本发明的多个方面可实现为在任意的多种电路中编程的功能性，所述电路包括可编程逻辑装置(PLD)，例如现场可编程门阵列(FPGA)、可编程阵列逻辑(PAL)装置、电可编程逻辑和存储装置和标准的基于单元的装置、以及专用集成电路(ASIC)。实现本发明多个方面的一些其它的可能包括：具有存储器的微控制器(例如电可擦除只读存储器(EEPROM))、嵌入式微处理器、固件、软件等。如果本发明的多个方面在制造过程中的至少一个阶段(例如，在嵌入固件或PLD之前)具体化为软件，则该软件可由任何计算机可读介质(例如可读磁盘或可读光盘(固定盘或软盘))承载、在载波信号上调制或以其它方式传输等。

此外，本发明的多个方面可嵌入微处理器中，该微处理器具有基于软件的电路仿真、(顺序的或组合的)离散逻辑、定制器件、模糊(神经)逻辑、量子器件以及任何上述器件类型的混合。当然，可提供以下多种组件类型的下层器件技术，例如，如互补金属氧化物半导体(CMOS)的金属氧化物半导体场效应晶体管(MOSFET)技术，如发射极耦合逻辑(ECL)的双极技术、聚合体技术(例如硅共轭聚合物和金属共轭聚合物金属结构)、混合模拟和数字等。

虽然已经公开了本发明的特别优选的实施方案和可选的实施方案，但是应该理解，可使用本发明的教导来实现上述技术的许多不同修改和扩展。所有这些修改和扩展应该包括在所附权利要求的实际精神和范围内。

Claims

1.一种使用话音活动检测器改进语音信号的方法，所述方法包括：

接收第一信号；

接收第二信号；

比较所述第一信号的能级与所述第二信号的能级；

当所述第一信号的能级高于所述第二信号的能级时，确定存在话音活动；

响应于存在话音活动的所述确定，生成控制信号；以及

使用所述控制信号来控制语音增强处理。

2.根据权利要求1所述的方法，其中，所述第一信号由第一麦克风生成，所述第二信号由第二麦克风生成。

3.根据权利要求1所述的方法，其中，所述第一信号是由信号分离处理生成的语音内容信号，所述第二信号是由所述信号分离处理生成的噪声为主的信号。

4.根据权利要求1所述的方法，其中，所述确定的步骤包括：确定所述第一信号与所述第二信号之间的能级差别超过阈值。

5.根据权利要求4所述的方法，其中，所述阈值是动态调节的。

6.根据权利要求1所述的方法，其中，所述比较的步骤包括：将长度约10ms的信号采样与长度约30ms的信号采样进行比较。

7.根据权利要求1所述的方法，其中，所述语音增强处理是信号分离处理，所述信号分离处理是响应于所述控制信号而启动的。

8.根据权利要求1所述的方法，其中，所述语音增强处理是后处理操作，所述后处理操作是响应于所述控制信号而启动的。

9.根据权利要求1所述的方法，其中，所述语音增强处理是后处理操作，所述后处理操作是响应于所述控制信号而停止的。

10.根据权利要求1所述的方法，其中，所述语音增强处理是信号分离处理，用于所述信号分离处理的学习过程是响应于所述控制信号而启动的。

11.根据权利要求1所述的方法，其中，所述语音增强处理是噪声评估处理，所述噪声评估处理是响应于所述控制信号而停止的。

12.根据权利要求1所述的方法，其中，所述语音增强处理是自动增益控制处理，所述自动增益控制处理是响应于所述控制信号而启动的。

13.根据权利要求1所述的方法，其中，所述语音增强处理是后处理频谱减除处理，所述后处理频谱减除处理的输出响应于所述控制信号而缩放。

14.根据权利要求1所述的方法，其中，所述语音增强处理是回声消除处理，所述回声消除处理是在不出现所述控制信号的情况下，使用远端信号和麦克风信号作为滤波器输入。

15.根据权利要求1所述的方法，其中，所述语音增强处理是回声消除处理，所述回声消除处理响应于所述控制信号，停止经过学习的滤波器且将所述经过学习的滤波器应用于进入的远端信号。

16.一种信号分离处理，包括：

接收第一信号；

接收第二信号；

比较所述第一信号与所述第二信号，以确定存在话音活动；

响应于存在话音活动的所述确定，生成控制信号；

响应于所述控制信号，启动盲信号分离处理；

将所述第一信号和第二信号接收进入所述盲信号分离处理；以及

生成具有语音内容的信号。

17.根据权利要求16所述的信号分离处理，进一步包括以下步骤：当未存在所述控制信号时，停止所述盲信号分离处理。

18.根据权利要求16所述的信号分离处理，其中，所述盲信号分离处理是独立成分分析处理。

19.一种信号分离系统，包括：

第一麦克风，其生成第一信号；

第二麦克风，其生成第二信号；

第一学习级，其接收所述第一信号和所述第二信号，并生成一组学习系数；所述学习级配置为使其系数快速适应于当前的声学条件；

输出级，其耦合于所述学习级并接收所述学习系数；

所述输出级接收所述第一信号和所述第二信号，并生成语音内容信号和噪声为主的信号；以及

所述输出级配置为更慢地使其系数适应。

20.根据权利要求19所述的信号分离系统，进一步包括复位监控器，所述复位监控器监控所述学习级的不稳定条件，并在发现不稳定条件时生成复位信号。

21.根据权利要求20所述的信号分离系统，其中，响应于所述复位信号，对用于所述学习级的所述系数进行复位，而不对所述输出级复位。

22.根据权利要求20所述的信号分离系统，其中，响应于所述复位信号，以一组默认的系数对用于所述学习级的所述系数进行复位。

23.根据权利要求22所述的信号分离系统，其中，从多组默认的系数中选择所述系数，每组系数根据不同期望操作环境来确定。