CN102047688B - 用于多通道信号平衡的系统、方法和设备 - Google Patents

用于多通道信号平衡的系统、方法和设备 Download PDF

Info

Publication number
CN102047688B
CN102047688B CN200980119649.2A CN200980119649A CN102047688B CN 102047688 B CN102047688 B CN 102047688B CN 200980119649 A CN200980119649 A CN 200980119649A CN 102047688 B CN102047688 B CN 102047688B
Authority
CN
China
Prior art keywords
level
section
channel
audio signal
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980119649.2A
Other languages
English (en)
Other versions
CN102047688A (zh
Inventor
张国亮
贤珍·Sr·朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN102047688A publication Critical patent/CN102047688A/zh
Application granted granted Critical
Publication of CN102047688B publication Critical patent/CN102047688B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix

Abstract

一种用于处理多通道音频信号的方法可经配置以基于所述信号的两个通道的电平相对于一个通道控制另一通道的振幅。一种此实例将偏置因子用于对所述信号的信息区段的振幅控制,所述偏置因子是基于音频感测装置相对于定向声信息源的标准定向。

Description

用于多通道信号平衡的系统、方法和设备
根据35U.S.C.§119主张优先权
本专利申请案主张2008年6月2日申请且转让给本案受让人的标题为“用于一对麦克风的自动增益匹配的系统和方法(SYSTEM AND METHOD FOR AUTOMATICGAIN MATCHING OF A PAIR OF MICROPHONES)”的第61/058,132号临时申请案(代理人案号为081747P1)的优先权。
共同待决专利申请案的参考
本专利申请案与以下共同待决美国专利申请案有关:
2008年8月25日申请且转让给本案受让人的标题为“用于信号分离的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR SIGNAL SEPARATION)”的第12/197,924号美国专利申请案;以及
2008年12月12日申请且转让给本案受让人的标题为“用于基于多麦克风的语音加强的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FORMULTI-MICROPHONE BASED SPEECH ENHANCEMENT)”的第12/334,246号美国专利申请案(代理人案号为080426)。
技术领域
本发明涉及具有两个或两个以上通道的音频信号的平衡。
背景技术
先前在安静的办公室或家庭环境中执行的许多活动如今在如汽车、街道或咖啡馆等声可变场合中执行。因而,大量话音通信在用户被其他人围绕的环境中使用移动装置(例如,手持机和/或头戴式耳机)而发生,通常在人们趋向于聚集的地方遭遇这种噪声内容。此噪声趋向于使正在进行电话交谈的用户分心或苦恼。此外,许多标准自动商业交易(例如,账户余额或股票报价核对)使用基于话音辨识的数据查询,且干扰噪声可显著妨碍这些系统的准确性。
对于通信在嘈杂环境中发生的应用,可能需要分离所要语音信号与背景噪声。可将噪声界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包括在声环境内产生的众多噪声信号,例如其他人的背景交谈,以及从所述信号中的每一者产生的反射和混响。除非将所要语音信号与背景噪声分离并隔绝,否则可能难以可靠且高效利用所要语音信号。在一个特定实例中,语音信号在嘈杂环境中产生,且语音处理方法用于分离语音信号与环境噪声。由于噪声几乎总是存在于真实世界情形中,所以此语音信号处理在许多日常通信领域中是重要的。
在移动环境中遭遇的噪声可包括多种不同分量,例如竞争谈话者、音乐、混串音、街道噪声和/或机场噪声。由于此噪声的特征通常是不固定的且接近用户自身的频率特征,因此可能难以使用传统的单麦克风或固定波束成形类型方法来模仿所述噪声。单麦克风噪声减少技术通常需要显著的参数调谐以实现最优性能。举例来说,合适的噪声参考在此些情况下可能不直接可用,且可能有必要间接地得出噪声参考。因此,基于多个麦克风的高级信号处理对于支持用于话音通信的移动设备在嘈杂环境中的使用可为理想的。
发明内容
一种根据一般配置的处理多通道音频信号的方法包括:随着时间的过去而计算音频信号的第一通道的电平的一系列值;以及随着时间的过去而计算音频信号的第二通道的电平的一系列值。此方法包括:基于所述第一通道的电平的所述系列值和所述第二通道的电平的所述系列值,随着时间的过去而计算增益因子的一系列值;以及根据所述增益因子的所述系列值,随着时间的过去而相对于所述第一通道的振幅控制所述第二通道的振幅。此方法包括指示所述音频信号的一区段是信息区段。在此方法中,随着时间的过去而计算增益因子的一系列值包括:对于所述增益因子的所述系列值中的至少一者且响应于所述指示,基于所述第一通道的所述电平的对应值、所述第二通道的所述电平的对应值以及偏置因子来计算增益因子值。在此方法中,所述偏置因子是基于音频感测装置相对于定向信息源的标准定向。本文中还揭示此方法在音频感测装置(例如,通信装置)内的执行。本文中还揭示包括用于执行此方法的装置的设备,以及具有用于此方法的可执行指令的计算机可读媒体。
一种根据一般配置的用于处理多通道音频信号的设备包括:用于随着时间的过去而计算音频信号的第一通道的电平的一系列值的装置;以及用于随着时间的过去而计算音频信号的第二通道的电平的一系列值的装置。此设备包括:用于基于所述第一通道的电平的所述系列值和所述第二通道的电平的所述系列值,随着时间的过去而计算增益因子的一系列值的装置;以及用于根据所述增益因子的所述系列值,随着时间的过去而相对于所述第一通道的振幅控制所述第二通道的振幅的装置。此设备包括用于指示所述音频信号的一区段是信息区段的装置。在此设备中,所述用于随着时间的过去而计算增益因子的一系列值的装置经配置以响应于所述指示,基于所述第一通道的所述电平的对应值、所述第二通道的所述电平的对应值以及偏置因子来计算所述增益因子的所述系列值中的至少一者。在此设备中,所述偏置因子是基于音频感测装置相对于定向信息源的标准定向。本文中还揭示此设备的实施,其中用于计算第一通道的电平的一系列值的装置是第一电平计算器,用于计算第二通道的电平的一系列值的装置是第二电平计算器,用于计算增益因子的一系列值的装置是增益因子计算器,用于控制所述第二通道的振幅的装置是振幅控制元件,且用于指示的装置是信息区段指示器。本文中还揭示音频感测装置的各种实施方案,所述音频感测装置包括经配置以产生多通道音频信号的麦克风阵列。
附图说明
图1A到图1D展示多麦克风无线头戴式耳机D100的各种视图。
图2A到图2D展示多麦克风无线头戴式耳机D200的各种视图。
图3A展示多麦克风通信手持机D300的横截面图(沿中央轴)。
图3B展示装置D300的实施方案D310的横截面图。
图4A展示多麦克风媒体播放器D400的图。
图4B和图4C分别展示设备D400的实施方案D410和D420的图。
图5A展示多麦克风免提车载套件D500的图。
图5B展示多麦克风书写装置D600的图。
图6A展示阵列R100的实施方案R200的框图。
图6B展示阵列R200的实施方案R210的框图。
图7A展示阵列R100的麦克风可安装于声端口后面的装置外壳内的实例的横截面。
图7B展示经布置以用于预递送校准操作的消声室的俯视图。
图8展示以相对于用户的嘴巴的标准定向安装在用户的耳朵处的头戴式耳机D100的图。
图9展示以相对于用户的嘴巴的标准定向定位的手持机D300的图。
图10A展示根据一般配置的处理多通道音频信号的方法M100的流程图。
图10B展示方法M100的实施方案M200的流程图。
图11A展示任务T400的实施方案T410的流程图。
图11B展示任务T400的实施方案T460的流程图。
图12A展示任务T410的实施方案T420的流程图。
图12B展示任务T460的实施方案T470的流程图。
图13A展示任务T420的实施方案T430的流程图。
图13B展示任务T470的实施方案T480的流程图。
图14展示头戴式耳机D100相对于用户的嘴巴的标准定向的范围的两个界限的实例
图15展示手持机D300相对于用户的嘴巴的标准定向的范围的两个界限的实例。
图16A展示方法M100的实施方案M300的流程图。
图16B展示任务T500的实施方案T510的流程图。
图17展示各种类型的信息和噪声源活动的大致到达角度的理想化视觉描绘。
图18A展示任务T510的实施方案T550的流程图。
图18B展示任务T510的实施方案T560的流程图。
图19展示三种不同信息源的活动的大致到达角度的理想化视觉描绘。
图20A展示方法M100的实施方案M400的流程图。
图20B展示其中任务T500的执行是以任务T400的结果为条件的实例的流程图。
图21A展示其中任务T550的执行是以任务T400的结果为条件的实例的流程图。
图21B展示其中任务T400的执行是以任务T500的结果为条件的实例的流程图。
图22A展示任务T510的实施方案T520的流程图。
图22B展示任务T510的实施方案T530的流程图。
图23A展示任务T550的实施方案T570的流程图。
图23B展示任务T550的实施方案T580的流程图。
图24A展示根据一般配置的装置D10的框图。
图24B展示设备MF100的实施方案MF110的框图。
图25展示设备MF110的实施方案MF200的框图。
图26展示设备MF110的实施方案MF300的框图。
图27展示设备MF110的实施方案MF400的框图。
图28A展示根据一般配置的装置D20的框图。
图28B展示设备A100的实施方案A110的框图。
图29展示设备A110的实施方案A200的框图。
图30展示设备A110的实施方案A300的框图。
图31展示设备A110的实施方案A400的框图。
图32展示设备MF300的实施方案MF310的框图。
图33展示设备A300的实施方案A310的框图。
图34展示通信装置D50的框图。
具体实施方式
除非受其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置的集合)的状态。除非受其上下文明确地限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如创建、计算或以其它方式生成。除非受其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如计算、评估、平滑和/或从多个值中选择。除非受其上下文明确地限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。在本描述和所附权利要求书中使用术语“包含”之处,其并不排除其它元件或操作。术语“基于”(如在“A是基于B”中)用以指示其普通意义中的任一者,包括以下情况:(i)“至少基于”(例如,“A至少基于B”);以及如果在特定上下文中为适当的,(ii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。
除非上下文另有指示,否则对多麦克风音频感测装置的麦克风的“位置”的参考指示麦克风的声敏感面的中心的位置。根据特定上下文,术语“通道”有时用以指示信号路径,且在其它时间用以指示由此路径载运的信号。除非另有指示,否则术语“系列”用以指示两个或两个以上项的序列。术语“对数”用以指示基数为十的对数,但此运算向其它基数的扩展是在本发明的范围内。
除非另有指示,否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。术语“配置”可如由其特定上下文所指示关于方法、设备和/或系统而使用。除非由特定上下文另外指示,否则术语“方法”、“过程”、“程序”和“技术”一般地且可互换地使用。除非由特定上下文另外指示,否则术语“设备”与“装置”也一般地且可互换地使用。术语“元件”和“模块”通常用以指示较大配置的一部分。除非受其上下文明确地限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包括“交互以服务共同目的的一群元件”。通过引用文献的一部分而进行的任何并入还应被理解为并入有所述部分内所引用的术语或变量的定义,其中此些定义在文献中的别处,以及在所并入的部分中所引用的任何图中出现。
可能需要生产具有阵列R100的便携型音频感测装置,所述阵列R100具有经配置以接收声信号的两个或两个以上麦克风。举例来说,可将助听器实施为包括此阵列。可实施为包括此阵列且用于音频记录和/或话音通信应用的便携型音频感测装置的其它实例包括电话手持机(例如,蜂窝式电话手持机);有线或无线头戴式耳机(例如,蓝牙头戴式耳机);手持式音频和/或视频记录器;经配置以记录音频和/或视频内容的个人媒体播放器;个人数字助理(PDA)或其它手持式计算装置;以及笔记本型计算机、膝上型计算机或其它便携型计算装置。
阵列R100的每一麦克风可具有全向、双向或单向(例如,心形线)的响应。可用于阵列R100中的各种类型的麦克风包括(但不限于)压电麦克风、动态麦克风和驻极体麦克风。在例如手持机或头戴式耳机等用于便携型话音通信的装置中,阵列R100的邻近麦克风之间的中心到中心间距通常在从约1.5cm到约4.5cm的范围内,但更大间距(例如,至多达10cm或15cm)在例如手持机等装置中也是可能的。在助听器中,阵列R100的邻近麦克风之间的中心到中心间距可为如约4mm或5mm一样小。阵列R100的麦克风可沿一线布置,或替代地使得其中心位于二维(例如,三角形)或三维形状的顶点处。
图1A到图1D展示多麦克风便携型音频感测装置D100的各种视图。装置D100为无线头戴式耳机,其包括载运阵列R100的双麦克风实施方案的外壳Z10和从外壳延伸的听筒Z20。此装置可经配置以经由与例如蜂窝式电话手持机等电话装置的通信(例如,使用如由华盛顿州贝尔维尤市的蓝牙技术联盟公司(Bluetooth Special Interest Group,Inc.,)发布的BluetoothTM协议的版本)来支持半双工或全双工电话。一般来说,头戴式耳机的外壳可为矩形或另外如图1A、图1B和图1D中所示为细长形(例如,形状类似迷你吊杆)或可为较圆的或甚至圆形的。所述外壳还可封入电池和处理器和/或其它处理电路(例如,印刷电路板和安装于其上的组件),且可包括电端口(例如,迷你通用串行总线(USB)或用于电池充电的其它端口)以及例如一个或一个以上按钮开关和/或LED等用户接口特征。通常,外壳沿其主轴的长度在从一英寸到三英寸的范围内。
通常,阵列R100的每一麦克风安装于外壳中充当声端口的一个或一个以上小孔后面的装置内。图1B到图1D展示用于装置D100的阵列的主要麦克风的声端口Z40和用于装置D100的阵列的次要麦克风的声端口Z50的位置。
头戴式耳机还可包括紧固装置,例如耳钩Z30,其通常可从头戴式耳机拆卸。外部耳钩可为可反转的(例如)以允许用户配置头戴式耳机用于任一耳朵上。或者,可将头戴式耳机的听筒设计为内部紧固设备(例如,耳塞),其可包括可移除耳承以允许不同用户使用不同大小(例如,直径)的耳承,以更好地配合特定用户的耳道的外部部分。
图2A到图2D展示多麦克风便携型音频感测装置D200的各种视图,多麦克风便携型音频感测装置D200是无线头戴式耳机的另一实例。装置D200包括完整的椭圆形外壳Z12和可经配置为耳塞的听筒Z22。图2A到图2D还展示用于装置D200的阵列的主要麦克风的声端口Z42和用于装置D200的阵列的次要麦克风的声端口Z52的位置。次要麦克风端口Z52可至少部分地被封闭(例如,通过用户接口按钮)是可能的。
图3A展示作为通信手持机的多麦克风便携型音频感测装置D300的横截面图(沿中央轴)。装置D300包括具有主要麦克风MC10和次要麦克风MC20的阵列R100的实施方案。在此实例中,装置D300还包括主要扬声器SP10和次要扬声器SP20。此设备可经配置以经由一个或一个以上编码和解码方案(也称为“编解码器”)无线地发射和接收话音通信数据。此些编解码器的实例包括:如2007年2月的标题为“用于宽带扩频数字系统的加强型可变速率编解码器,语音服务选项3、68和70(Enhanced Variable RateCodec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum DigitalSystems)”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C,v1.0(在www.3gpp.org在线可得)中描述的加强型可变速率编解码器;如2004年1月的标题为“用于宽带扩频通信系统的可选模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文献C.S0030-0,v3.0(在www.3gpp.org在线可得)中描述的可选模式声码器语音编解码器;如在文献ETSI TS 126092V6.0.0(欧洲电信标准协会(ETSI),索菲亚-安提波利斯经济管理学校(Sophia Antipolis Cedex),法国,2004年12月)中描述的自适应多重速率(AMR)语音编解码器;以及如文献ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中描述的AMR宽带语音编解码器。在图3A的实例中,手持机D300为掀盖式蜂窝式电话手持机(也称为“翻盖”手持机)。此多麦克风通信手持机的其它配置包括直板式和滑盖式电话手持机。图3B展示包括阵列R100的三麦克风实施方案的装置D300的实施方案D310的横截面图,阵列R100包括第三麦克风MC30。
图4A展示作为媒体播放器的多麦克风便携型音频感测装置D400的图。此装置可经配置以用于经压缩音频或视听信息的重放,经压缩音频或视听信息例如是根据标准压缩格式(例如,移动图片专家组(MPEG)-1音频层3(MP3)、MPEG-4部分14(MP4)、视窗媒体音频/视频(WMA/WMV)(华盛顿州雷蒙德市的微软公司)的某一版本、高级音频编码(AAC)、国际电信联盟(ITU)-T H.264或类似格式)而编码的文件或流。装置D400包括安置于所述装置的正面的显示屏幕SC10和扬声器SP10,且阵列R100的麦克风MC10和MC20安置于所述装置的同一面(例如,如在此实例中在顶面的相对侧上,或在正面的相对侧上)。图4B展示装置D400的另一实施方案D410,其中麦克风MC10和MC20安置于装置的相对面,且图4C展示装置D400的又一实施方案D420,其中麦克风MC10和MC20安置于所述装置的邻近面。媒体播放器还可经设计以使得较长轴在既定使用期间为水平的。
图5A展示作为免提车载套件的多麦克风便携型音频感测装置D500的图。此装置可经配置以安装在交通工具的仪表盘中或可移除地固定至风挡、遮光板或另一内部表面。装置D500包括扬声器85和阵列R100的实施方案。在此特定实例中,装置D500包括阵列R100的四麦克风实施方案R102。此装置可经配置以经由一个或一个以上编解码器无线地发射和接收话音通信数据,例如上文所列的实例。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机等电话装置的通信(例如,使用如上文所描述的BluetoothTM协议的版本)支持半双工或全双工电话。
图5B展示作为书写装置(例如,钢笔或铅笔)的多麦克风便携型音频感测装置D600的图。装置D600包括阵列R100的实施方案。此装置可经配置以经由一个或一个以上编解码器无线地发射和接收话音通信数据,例如上文所列的实例。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机和/或无线头戴式耳机等装置的通信(例如,使用如上文所描述的BluetoothTM协议的版本)支持半双工或全双工电话。装置D600可包括一个或一个以上处理器,其经配置以执行空间选择性处理操作以减小阵列R100所产生的信号中因装置D600的尖端在绘图表面81(例如,一张纸)上的移动引起的劈啪噪声82的电平。明确地揭示本文中所揭示的系统、方法和设备的适用性不限于图1A到图5B中所展示的特定实例。
在多麦克风音频感测装置(例如,装置D100、D200、D300、D400、D500或D600)的操作期间,阵列R100产生多通道信号,其中每一通道是基于麦克风中的对应一者对声环境的响应。一个麦克风与另一麦克风相比可更直接地接收特定声音,使得对应通道彼此不同以共同地提供对声环境的与使用单个麦克风可捕捉到的表示相比更完整的表示。
阵列R100可能需要对由麦克风产生的信号执行一个或一个以上处理操作以产生多通道信号S10。图6A展示包括音频预处理阶段AP10的阵列R100的实施方案R200的框图,所述音频预处理阶段AP10经配置以执行一个或一个以上此些操作,此些操作可包括(但不限于)阻抗匹配、模/数转换、增益控制和/或模拟和/或数字域中的滤波。
图6B展示阵列R200的实施方案R210的框图。阵列R210包括音频预处理阶段AP10的实施方案AP20,其包括模拟预处理阶段P10a和P10b。在一个实例中,阶段P10a和P10b各自经配置以对对应的麦克风信号执行高通滤波操作(例如,使用截止频率50Hz、100Hz或200Hz)。
阵列R100可能需要产生多通道信号作为数字信号,也就是说,作为样本序列。举例来说,阵列R210包括各自经布置以对对应的模拟通道进行取样的模/数转换器(ADC)C10a和C10b。用于声应用的典型取样率包括8kHz、12kHz、16kHz和在从约8kHz到约16kHz的范围内的其它频率,但还可使用高达约44kHz的取样率。在此特定实例中,阵列R210还包括数字预处理阶段P20a和P20b,其各自经配置以对对应的数字化通道执行一个或一个以上预处理操作(例如,回音消除、噪声降低和/或频谱整形)。
由阵列R100产生的多通道信号可用于支持空间处理操作,例如确定音频感测装置与特定声源之间的距离、降低噪声、加强从特定方向到达的信号分量和/或使一个或一个以上声音分量与其它环境声音分离的操作。举例来说,可执行空间选择性处理操作以使多通道信号的一个或一个以上所要声音分量与多通道信号的一个或一个以上噪声分量分离。典型的所要声音分量为音频感测装置的用户的话音的声音,且噪声分量的实例包括:(但不限于)漫射环境噪声,例如街道噪声、汽车噪声和/或混串音噪声;以及定向噪声,例如造成干扰的讲话者和/或来自例如电视机、无线电或扩音系统等另一点源的声音。可在音频感测装置内和/或另一装置内执行的空间处理操作的实例在2008年8月25日申请的标题为“用于信号分离的系统、方法和设备(SYSTEMS,METHODS,ANDAPPARATUS FOR SIGNAL SEPARATION)”的第12/197,924号美国专利申请案和2008年11月24日申请的标题为“用于加强的可懂度的系统、方法、设备和计算机程序产品(SYSTEMS,METHODS,APPARATUS,AND COMPUTER PROGRAM PRODUCTS FORENHANCED INTELLIGIBILITY)”的第12/277,283号美国专利申请案中描述,且包括(但不限于)波束成形和盲源分离操作。
变化可在阵列R100的麦克风的制造期间出现,使得即使在一批大规模生产且外观上相同的麦克风当中,敏感性也可能在一个麦克风与另一麦克风之间显著变化。用于便携型畅销装置中的麦克风可以(例如)+/-三分贝的敏感性公差制造,使得两个此类麦克风的敏感性在阵列R100的实施方案中可相差多达六分贝。
此外,一旦已将麦克风安装到所述装置中或所述装置上,在所述麦克风的有效响应特性就可发生改变。麦克风通常安装在声端口后面的装置外壳内,且可通过按压和/或通过摩擦或粘附而固定在适当位置。图7A展示麦克风A10安装在声端口A30后面的装置外壳A20内的实例的横截面。外壳A20通常由成模塑料(例如,聚碳酸酯(PC)和/或丙烯腈-丁二烯-苯乙烯(ABS))制成,且通常将声端口A30实施为外壳中的一个或一个以上小孔或槽。外壳A20中的突出部抵着可压缩(例如,弹性体)垫片A40将压力施加到麦克风A10,以将麦克风紧固在适当位置。许多因素可能影响以此方式安装的麦克风的有效响应特性,例如麦克风安装于内的腔的共振和/或其它声特性、抵着垫片的压力的量和/或均匀性、声端口的大小和形状等。
对由阵列R100产生的多通道信号的操作(例如,空间处理操作)的性能可取决于阵列通道的响应特性彼此匹配的程度如何。举例来说,通道的电平因相应麦克风的响应特性的差异、相应预处理阶段的增益等级的差异和/或电路噪声电平的差异而不同是可能的。在此情况下,所得多通道信号可能不提供对声环境的准确表示,除非可补偿麦克风响应特性之间的差异。在无此补偿的情况下,基于此信号的空间处理操作可能提供错误结果。举例来说,在低频率(即,大约100Hz到1kHz)下通道之间小至一或两分贝的振幅响应偏差可显著减小低频率方向性。阵列R100的通道当中的不平衡的效应对于处理来自具有两个以上麦克风的阵列R100的实施方案的多通道信号的应用可能尤其有害。
可能需要对经组装的多麦克风音频感测装置执行预递送校准操作(也就是说,在递送给用户之前),以便量化阵列的通道的有效响应特性之间的差异。举例来说,可能需要对经组装的多麦克风音频感测装置执行预递送校准操作,以便量化阵列的通道的有效增益特性之间的差异。
预递送校准操作可包括基于阵列R100的实例对声场的响应而计算一个或一个以上补偿因子,其中待校准的所有麦克风暴露于相同的声压电平(SPL)。图7B展示经布置以用于此操作的一个实例的消声室的俯视图。在此实例中,将头部和躯干仿真器(Headand Torso Simulator)(HATS,如由丹麦奈如姆的Bruel & Kjaer公司制造)定位于四个扬声器的向内聚焦阵列内的消声室中。所述扬声器由校准信号驱动以产生如图所示封闭HATS的声场,使得声压电平(SPL)关于在所述场内的位置大体上恒定。在一个实例中,所述扬声器由白或粉红噪声的校准信号驱动以产生漫射噪声场。在另一实例中,校准信号包括在所关注频率下的一个或一个以上音调(例如,在约200Hz到约2kHz的范围内(例如在1kHz下)的音调)。声场可能需要在HATS耳朵参考点(ERP)或嘴巴参考点(MRP)处具有从75dB到78dB的SPL。
具有待校准的阵列R100的实例的多麦克风音频感测装置适当地放置于所述声场内。举例来说,如在图8的实例中,头戴式耳机D100或D200可以相对于用嘴巴讲话者的标准定向安装于HATS的耳朵处,或如在图9的实例中,手持机D300可以相对于用嘴巴讲话者的标准定向定位于HATS处。接着记录由阵列响应于声场而产生的多通道信号。基于信号的通道之间的关系,计算一个或一个以上补偿因子(例如,通过所述装置的一个或一个以上处理器和/或通过一个或一个以上外部处理器)以匹配所述阵列的特定实例的通道的增益和/或频率响应特性。举例来说,可计算通道的电平之间的差异或比率以获得增益因子,其可在此之后应用于所述通道中的一者(例如,作为增益因子)以补偿阵列的通道的增益响应特性之间的差异。
虽然预递送校准程序在研究和设计期间可为有用的,但对于大多数所制造装置来说,此程序可能过于耗时或在其它方面执行起来不切实际。举例来说,对畅销装置的每一实例执行此操作在经济上可能是不可行的。此外,单独的预递送操作可能不足以在装置的整个寿命期间确保良好的性能。由于可包括老化、温度、辐射和污染的因素,麦克风敏感性可随着时间的过去而偏移或以其它方式改变。然而,在未适当地补偿阵列的各个通道的响应间的不平衡的情况下,多通道操作(例如,空间选择性处理操作)的所要性能等级可能难以或不可能实现。
图10A展示根据包括任务T100a、T100b、T200和T300的一般配置的处理多通道音频信号(例如,如由阵列R100的实施方案所产生)的方法M100的流程图。任务T100a随着时间的过去而计算音频信号的第一通道的电平的一系列值,且任务T100b随着时间的过去而计算音频信号的第二通道的电平的一系列值。基于第一和第二通道的所述系列值,任务T200随着时间的过去而计算增益因子的一系列值。任务T300根据所述系列的增益因子值,随着时间的过去而相对于第一通道的振幅控制第二通道的振幅。
任务T100a和T100b可经配置以在对应时间周期(也称为多通道信号的“区段”)内计算对应通道的电平的系列值中的每一者,作为对所述通道的振幅或量值(也称为“绝对振幅”或“经改正振幅”)的量度。振幅或量值的量度的实例包括总量值、平均量值、均方根(RMS)振幅、中值量值和峰值量值。在数字域中,可根据例如以下表达式的表达式对n个样本值xi,i=1,2,...,n的块(也称为“帧”)计算这些量度:
Figure BPA00001259691500121
Figure BPA00001259691500122
median|xi|
(中值量值);                (4)
i=1,2,...,n
max|xi|
(峰值量值)。                (5)
i=1,2,...,n
此些表达式还可用于在变换域(例如,傅立叶或离散余弦变换(DCT)域)中计算这些量度。还可根据类似表达式(例如,使用积分来代替求和)在模拟域中计算这些量度。
或者,任务T100a和T100b可经配置以在对应的时间周期内计算对应通道的电平的系列值中的每一者,作为对通道的能量的量度。能量的量度的实例包括总能量和平均能量。在数字域中,可根据例如以下表达式的表达式对n个样本值xi,i=1,2,...,n的块计算这些量度:
Figure BPA00001259691500123
Figure BPA00001259691500124
此些表达式还可用于在变换域(例如,傅立叶或离散余弦变换(DCT)域)中计算这些量度。还可根据类似表达式(例如,使用积分来代替求和)在模拟域中计算这些量度。
典型的区段长度在从约五或十毫秒到约四十或五十毫秒的范围内,且所述区段可重叠(例如,邻近区段重叠25%或50%)或不重叠。在一个特定实例中,将音频信号的每一通道划分成一系列10毫秒不重叠区段,任务T100a经配置以计算第一通道的每一区段的电平的值,且任务T100b经配置以计算第二通道的每一区段的电平的值。如由任务T100a和T100b处理的区段还可为如由不同操作处理的较大区段的区段(即,“子帧”),或反之亦然。
可能需要配置任务T100a和T100b以在计算系列电平值之前对音频信号通道执行一个或一个以上频谱整形操作。此些操作可在模拟和/或数字域中执行。举例来说,可能需要配置任务T100a和T100b中的每一者以在计算系列电平值之前将低通滤波器(使用截止频率(例如)200Hz、500Hz或1000Hz)或带通滤波器(使用(例如)200Hz到1kHz的通带)施加到来自相应通道的信号。
可能需要配置任务T100a和/或任务T100b以包括时间平滑操作,使得对应系列的电平值随着时间的过去而平滑。此操作可根据例如以下表达式的表达式来执行:
Ljn=(μ)Lj-tmp+(1-μ)Lj(n-1),                (8)
其中Ljn表示对应于针对通道j的区段n的电平值,Lj-tmp表示根据例如上文的表达式(1)到(7)中的一者的表达式针对区段n的通道j而计算的未经平滑的电平值,Lj(n-1)表示对应于针对通道j的先前区段(n-1)的电平值,且μ表示具有在从0.1(最大平滑)到1(无平滑)的范围内的值(例如,0.3、0.5或0.7)的时间平滑因子。
在音频感测装置的操作期间的一些时间,声信息源和任何定向噪声源大体为不活动的。在此些时间,多通道信号的定向内容相对于背景噪声电平可为无关紧要的。音频信号的仅含有无声或背景噪声的对应区段在本文中被称为“背景”区段。可将此些时间时的声音环境视为漫射场,使得每一麦克风处的声压电平通常相等,且可预期背景区段中的通道的电平也应相等。
图10B展示方法M100的实施方案M200的流程图。方法M200包括任务T400,其经配置以指示背景区段。任务T400可经配置以随着时间的过去而产生作为具有二进制值的信号的一系列状态(例如,具有二进制值的旗标的状态)的指示,使得具有一个值的状态指示对应区段为背景区段,且具有另一值的状态指示对应区段不是背景区段。或者,任务T400可经配置以产生作为同时具有两个以上可能值的信号的一系列状态的指示,使得状态可指示非背景区段的两个或两个以上不同类型中的一者。
任务T400可经配置以基于区段的一个或一个以上特性指示所述区段为背景区段,所述特性例如是总能量、低带能量、高带能量、频谱分布(如使用(例如)一个或一个以上线频谱频率、线频谱对和/或反射系数来评估)、信噪比、周期性和/或过零率。对于此些特性中的一者或一者以上中的每一者,此操作可包括将此特性的值或量值与固定或自适应阈值进行比较。或者或另外,对于此些特性中的一者或一者以上中的每一者,此操作可包括计算此特性的值或量值的改变的值或量值并将其与固定或自适应阈值进行比较。可能需要实施任务T400以基于多个准则(例如,能量、过零率等)和/或新近背景区段指示的存储器来指示区段为背景区段。
或者或另外,任务T400可包括将一个频带中的此特性(例如,能量)的值或量值或者此特性的改变的值或量值与另一频带中的类似值进行比较。举例来说,任务T400可经配置以评估低频带(例如,300Hz到2kHz)和高频带(例如,2kHz到4kHz)中的每一者中的当前区段的能量,且在每一频带中的能量小于(或者,不大于)相应阈值(其可为固定或自适应的)时指示区段为背景区段。可由任务T400执行的此话音活动检测操作的一个实例包括将所再现的音频信号S40的高带和低带能量与相应阈值进行比较,如描述于(例如)2007年1月的标题为“宽带扩频数字系统的加强型可变速率编解码器,语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70 for Wideband Spread Spectrum Digital Systems)”的3GPP2文献C.S0014-C,v1.0的部分4.7(第4-49页到4-57页)中(在www.3gpp.org在线可得)。在此实例中,每一带的阈值是基于锚定操作点(如从所要的平均数据速率得出)、针对先前区段的在所述带中的背景噪声电平的估计以及针对先前区段的在所述带中的信噪比。
或者,任务T400可经配置以根据(A)对应于一区段的电平值sln与(B)背景电平值bg之间的关系来指示所述区段是否为背景区段。电平值sln可为区段n的通道中的仅一者的电平的值(例如,如由任务T100a计算的L1n,或如由任务T100b计算的L2n)。在此情况下,电平值sln通常为对应于主要麦克风MC10(即,经定位以更直接地接收所要信息信号的麦克风)的通道的电平的值。或者,电平值sln可为区段n的两个或两个以上通道的混合(例如,平均)的电平的值,如根据例如上文的表达式(1)到(7)中的一者的表达式而计算。在又一替代方案中,区段电平值sln为区段n的两个或两个以上通道中的每一者的电平的值的平均值。电平值sln可能需要为不随着时间的过去而而平滑的值(例如,如上文参考表达式(8)而描述),甚至对于其中任务T100a经配置以随着时间的过去而使L1n平滑且任务T100b经配置以随着时间的过去而使L2n平滑的情况也是如此。
图11A展示任务T400的此实施方案T410的流程图,其将电平值sln与背景电平值bg与权重w1的乘积进行比较。在另一实例中,将权重w1实施为与背景电平值bg的偏移而不是实施为因子。权重w1的值可选自例如从一到1.5、二或五的范围,且可为固定或可适应的。在一个特定实例中,w1的值等于1.2。可实施任务T410以对音频信号的每一区段执行或较不频繁地(例如,对每第二个或第四个区段)执行。
图11B展示任务T400的相关实施方案T460的流程图,其将电平值sl与背景电平值bg之间的差diff与背景电平值bg与权重w2的乘积进行比较。在另一实例中,将权重w2实施为与背景电平值bg的偏移而不是实施为因子。权重w2的值可选自例如从零到0.4、一或二的范围,且可为固定或可适应的。在一个特定实例中,w2的值等于0.2。可实施任务T460以对音频信号的每一区段执行或较不频繁地(例如,对每第二个或第四个区段)执行。
任务T400可经配置以仅在对应的电平值sln大于(或不小于)下限时指示区段为背景区段。可使用此特征(例如)来避免计算较大程度上基于非声噪声(例如,固有或电路噪声)的增益因子的值。或者,任务T400可经配置以在无此特征的情况下执行。举例来说,可能需要准许任务T210计算用于背景噪声环境的非声分量以及用于声分量的增益因子的值。
任务T400可经配置以将固定值用于背景电平值bg。然而,更通常的是,任务T400经配置以随着时间的过去而更新背景电平的值。举例来说,任务T400可经配置以用来自背景区段的信息(例如,对应的区段电平值sln)代替或以其它方式更新背景电平值bg。此更新可根据例如bg←(1-α)bg+(α)sln等表达式来执行,其中α为具有在从零(无更新)到一(无平滑)的范围内的值的时间平滑因子,且y←x指示值x到y的指派。任务T400可经配置以针对每一背景区段或较不频繁地(例如,针对每隔一个背景区段,针对每第四个背景区段等)更新背景电平的值。任务T400还可经配置以在从非背景区段过渡到背景区段之后设法不更新一个或若干区段的背景电平的值(也称为“释放延迟周期”)。
可能需要配置任务T400以随着时间的过去而根据背景电平的值之间的关系(例如,背景电平的当前值与先前值之间的关系)使用不同的平滑因子值。举例来说,可能需要配置任务T400以在背景电平升高时(例如,在背景电平的当前值大于背景电平的先前值时)与在背景电平下降时(例如,在背景电平的当前值小于背景电平的先前值时)相比执行更多平滑。在一个特定实例中,平滑因子α在背景电平正升高时被指派有值αR=0.01,且在背景电平正下降时被指派有值αF=0.02(或者,2×αR)。图12A展示任务T410的此实施方案T420的流程图,且图12B展示任务T460的此实施方案T470的流程图。
可能需要配置任务T400以根据方法M200已执行多长时间来使用不同的平滑因子值。举例来说,可能需要配置方法M200,使得任务T400在音频感测会话的初始区段期间与稍后区段期间相比(例如,在所述会话的前五十、一百、两百、四百或八百个区段,或前五、十、二十或三十秒期间)执行较少平滑(例如,使用α的较高值,例如αF)。可使用此配置(例如)来支持背景电平值bg在音频感测会话(例如,通信会话,例如电话呼叫)期间的较快初始收敛。
任务T400可经配置以观测背景电平值bg上的下限。举例来说,任务T400可经配置以选择背景电平值bg的当前值作为(A)背景电平值bg的所计算值和(B)最小可允许背景电平值minlvl的最大值。最小可允许值minlvl可为固定值。或者,最小可允许值minlvl可为自适应值,例如观测到的最低新近电平(例如,最近两百个区段中的区段电平值sln中的最低值)。图13A展示任务T420的此实施方案T430的流程图,且图13B展示任务T470的此实施方案T480的流程图。
可能需要配置任务T400以将背景电平值bg和/或最小可允许值minlvl存储在非易失性存储器中,以用作方法M200的后续执行中(例如,在后续音频感测会话中和/或在一电力周期之后)的相应参数的初始值。任务T400的此实施方案可经配置以周期性地(例如,每隔十秒、二十秒、三十秒或六十秒一次)、在音频感测会话(例如,通信会话,例如电话呼叫)结束时和/或在掉电例程期间执行此存储。
方法M200还包括任务T200的实施方案T210,其经配置以基于任务T400的指示来计算增益因子的系列值。对于背景区段来说,通常希望第一通道和第二通道的电平的对应值将相等。然而,阵列R100的通道的响应特性之间的差异可致使这些电平在多通道音频信号中不同。背景区段中的通道电平之间的不平衡可至少部分地通过根据所述电平之间的关系改变第二通道在所述区段上的振幅来补偿。方法M200可经配置以通过使区段的第二通道的样本乘以因子L1n/L2n来执行此补偿操作的特定实例,其中L1n和L2n分别表示区段的第一通道和第二通道的电平的值。
对于背景区段,任务T210可经配置以基于第一通道的电平的值与第二通道的电平的值之间的关系来计算增益因子的值。举例来说,任务T210可经配置以基于第一通道的电平的对应值与第二通道的电平的对应值之间的关系来计算用于背景区段的增益因子的值。任务T210的此实施方案可经配置以将增益因子的值计算为线性电平值的函数(例如,根据例如Gn=L1n/L2n等表达式,其中Gn表示增益因子的当前值)。或者,任务T210的此实施方案可经配置以将增益因子的值计算为对数域中的电平值的函数(例如,根据例如Gn=L1n-L2n等表达式)。
可能需要配置任务T210以随着时间的过去而使增益因子的值平滑。举例来说,任务T210可经配置以根据例如以下表达式的表达式来计算增益因子的当前值:
Gn=(β)Gtmp+(1-β)Gn-1,            (9)
其中Gtmp是基于第一通道和第二通道的电平的值之间的关系的增益因子的未经平滑的值(例如,根据例如Gtmp=L1n/L2n等表达式而计算的值),Gn-1表示增益因子的最近值(例如,对应于最近背景区段的值),且β是具有在从零(无更新)到一(无平滑)的范围内的值的时间平滑因子。
麦克风阵列的通道的响应特性之间的差异可致使通道电平对于非背景区段以及对于背景区段而不同。然而,对于非背景区段,通道电平还可能因声信息源的方向性而不同。对于非背景区段,可能需要在不去除因源方向性而导致的通道电平之间的不平衡的情况下补偿阵列不平衡。
举例来说,可能需要配置任务T210以更新仅用于背景区段的增益因子的值。任务T210的此实施方案可经配置以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
任务T300根据增益因子的系列值,随着时间的过去而相对于音频信号的一个通道的振幅控制另一通道的振幅。举例来说,任务T300可经配置以放大来自响应性较小的通道的信号。或者,任务T300可经配置以控制(例如,放大或衰减)对应于次要麦克风的通道的振幅。
任务T300可经配置以在线性域中执行对通道的振幅控制。举例来说,任务T300可经配置以通过使一区段的第二通道中的区段的样本的值中的每一者乘以对应于所述区段的增益因子的值来控制所述第二通道的振幅。或者,任务T300可经配置以在对数域中控制振幅。举例来说,任务T300可经配置以通过将增益因子的对应值与在区段的持续时间内应用于所述区段的第二通道的对数增益控制值相加来控制所述第二通道的振幅。在此情况下,任务T300可经配置以接收作为对数值(例如,以分贝计)的增益因子的系列值,或将线性增益因子值转换成对数值(例如,根据例如xlog=20logxlin等表达式,其中xlin是线性增益因子值,且xlog是对应的对数值)。任务T300可与所述通道的其它振幅控制(例如,自动增益控制(AGC)或自动音量控制(AVC)模块、用户操作的音量控制等)组合,或在所述通道的其它振幅控制(例如,自动增益控制(AGC)或自动音量控制(AVC)模块、用户操作的音量控制等)的上游或下游执行。
可能需要配置任务T210以随着时间的过去根据增益因子的值之间的关系(例如,增益因子的当前值与先前值之间的关系)使用不同的平滑因子值。举例来说,可能需要配置任务T210以在增益因子的值升高时(例如,在增益因子的当前值大于增益因子的先前值时)与在增益因子的值下降时(例如,在增益因子的当前值小于增益因子的先前值时)相比执行更多平滑。任务T210的此配置的实例可通过评估参数ΔG=Gtmp-Gn-1、在ΔG大于(或者,不小于)零时将值βR指派给平滑因子β且否则将值βF指派给ΔG来实施。在一个特定实例中,βR具有值0.2,且βF具有值0.3(或者,1.5×βR)。注意,任务T210可经配置以如下依据ΔG来实施上文的表达式(11):
Figure BPA00001259691500181
可能需要配置任务T210以根据方法M200已执行多长时间来改变增益因子值的时间平滑程度。举例来说,可能需要配置方法M200,使得任务T210在音频感测会话的初始区段期间与稍后区段期间相比(例如,在会话的前五十、一百、两百、四百或八百个区段,或前五、十、二十或三十秒期间)执行较少平滑(例如,使用较高平滑因子值,例如β×2或β×3)。可使用此配置(例如)来支持值在音频感测会话(例如,电话呼叫)期间的较快初始收敛。或者或另外,可能需要配置方法M200,使得任务T210在音频感测会话的稍后区段期间与初始区段期间相比(例如,在会话的前五十、一百、两百、四百或八百个区段,或前五、十、二十或三十秒之后)执行较多平滑(例如,使用较低平滑因子值,例如β/2、β/3或β/4)。
在一些情况中,可能需要禁止任务T200更新增益因子的值。举例来说,可能需要配置任务T200以在对应区段电平值sln小于(或者,不大于)最小电平值时使用增益因子的先前值。在另一实例中,可能需要配置任务T200以在对应区段的通道的电平值之间的不平衡过大(例如,电平值之间的绝对差大于(或者,不小于)最大不平衡值,或电平值之间的比率过大或过小)时使用增益因子的先前值。当麦克风中的一者被封闭(例如,通过用户的手指)、损坏或受污染(例如,被污物或水)时,可能发生可指示一个或两个通道电平值均不可靠的情形。
在又一实例中,可能需要配置任务T200以在于对应区段中检测到不相关噪声(例如,风噪声)时使用增益因子的先前值。多通道音频信号中的不相关噪声的检测在(例如)2008年8月29日申请的标题为“用于检测不相关分量的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR DETECTION OF UNCORRELATEDCOMPONENT)”的第12/201,528号美国专利申请案中描述,此文献为限于用于检测不相关噪声和/或对此检测的指示的设备和程序的揭示内容的目的而特此以引用的方式并入。此检测可包括将差异信号的能量与阈值进行比较,其中差异信号为区段的通道之间的差异。此检测可包括在差异信号的计算的上游,对所述通道进行低通滤波,和/或将增益因子的先前值应用于第二通道。
多麦克风音频感测装置可被设计为相对于声信息源以特定方式(也称为“标准定向”)佩戴、握持或以其它方式定向。对于例如手持机或头戴式耳机等话音通信装置,信息源通常为用户的嘴巴。图8展示处于标准定向的头戴式耳机D100的俯视图,使得阵列R100的主要麦克风MC10与次要麦克风MC20相比更直接地朝用户的嘴巴定向且更接近用户的嘴巴。图9展示处于标准定向的手持机D300的侧视图,使得主要麦克风MC10与次要麦克风MC20相比更直接地朝用户的嘴巴定向且可更接近用户的嘴巴。
在正常使用期间,便携型音频感测装置可以相对于信息源的标准定向范围中的任一者操作。举例来说,不同用户可以不同方式佩戴或握持装置,且同一用户可在不同时间,甚至在同一使用周期内(例如,在单次电话呼叫期间)以不同方式佩戴或握持装置。对于安装在用户的耳朵65上的头戴式耳机D100,图14展示相对于用户的嘴巴64的标准定向范围66的两个界限的实例。图15展示手持机D300相对于用户的嘴巴的标准定向范围的两个界限的实例。
音频信号的“信息”区段含有来自定向声信息源(例如,用户的嘴巴)的信息,其中阵列的麦克风中的第一者与阵列的麦克风中的第二者相比更接近所述源和/或更直接地朝所述源定向。在此情况下,即使所述两个麦克风的响应完美地匹配,仍可预期对应通道的电平不同。
如上文所论述,可能需要补偿因麦克风阵列的通道的响应特性之间的差异而导致的通道电平之间的不平衡。然而,对于信息区段,还可能需要保留因信息源的方向性而导致的通道电平之间的不平衡。因源方向性而导致的不平衡可(例如)向空间处理操作提供重要信息。
图16A展示方法M100的实施方案M300的流程图。方法M300包括任务T500,其经配置以指示信息区段。任务T500可经配置以基于(例如)第一通道的电平的对应值和第二通道的电平的对应值来指示区段为信息区段。方法M300还包括任务T200的实施方案T220,其经配置以基于任务T500的指示来计算增益因子的系列值。
图16B展示任务T500的实施方案T510的流程图。任务T510经配置以基于区段的平衡量度的值来指示区段是否为信息区段,其中平衡量度是基于第一通道和第二通道的电平的对应值以及因阵列R100的通道的不同响应特性而导致的通道电平之间的所估计不平衡(“阵列不平衡估计”)。任务T510可经配置以通过使用阵列不平衡估计对电平值之间的关系进行加权来计算平衡量度。举例来说,任务T510可经配置以根据例如MB=IA(L2n/L1n)等表达式来计算区段n的平衡量度MB,其中L1n和L2n分别表示所述区段的第一和第二通道的电平的值(即,如由任务T100a和T100b所计算);且IA表示阵列不平衡估计。
阵列不平衡估计IA可基于增益因子的至少一个值(即,如由任务T220所计算)。在一个特定实例中,阵列不平衡估计IA为增益因子的先前值G(n-1)。在其它实例中,阵列不平衡估计IA为增益因子的两个或两个以上先前值的平均值(例如,增益因子的两个最近值的平均值)。
任务T510可经配置以在对应的平衡量度MB小于(或者,不大于)阈值T1时指示区段为信息区段。举例来说,任务T510可经配置以根据例如以下表达式的表达式来产生每一区段的二进制指示:
Figure BPA00001259691500201
其中结果“一”指示信息区段,且结果“零”指示非信息区段。可用于实施任务T510的此配置的具有相同关系的其它表达式包括(但不限于)以下表达式:
Figure BPA00001259691500202
Figure BPA00001259691500211
Figure BPA00001259691500212
当然,此些表达式的其它实施方案可使用不同值来指示对应结果(例如,值“零”用以指示信息区段,且值“一”用以指示非信息区段)。任务T510可经配置以使用阈值T1,所述阈值T1具有例如一、1.2、1.5或二或此值的对数等效表示等所指派数值。或者,阈值T1可能需要基于如下文参考任务T220所描述的偏置因子。可能需要选择阈值T1以支持增益因子计算任务T220的适当操作。举例来说,可能需要选择阈值T1以在任务T510中提供错误肯定(指示非信息区段为信息区段)与错误否定(未能指示信息区段)之间的适当平衡。
任务T220经配置以基于任务T500的指示来计算增益因子的系列值。对于信息区段,任务T220经配置以基于通道电平值和偏置因子IS来计算增益因子值的对应值。偏置因子是基于音频感测装置相对于定向信息源的标准定向,通常与区段的第一通道和第二通道的电平之间的比率无关,且可如下文所描述而计算或评估。任务T220可经配置以通过使用所述偏置因子作为第一通道和第二通道的电平的对应值之间的关系中的权重来计算信息区段的增益因子的值。任务T220的此实施方案可经配置以将增益因子的值计算为线性值的函数(例如,根据例如Gn=L1n/(ISL2n)等表达式,其中偏置因子IS用于对第二通道的电平的值进行加权)。或者,任务T220的此实施方案可经配置以将增益因子的值计算为对数域中的值的函数(例如,根据例如Gn=L1n-(IS+L2n)等表达式)。
可能需要配置任务T220以更新仅用于信息区段的增益因子的值。任务T220的此实施方案可经配置以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
Figure BPA00001259691500213
其中β为如上文所论述的平滑因子值。
可将偏置因子IS计算为因来自定向声源的声信号而导致的阵列的不同麦克风处的声压电平之间的比率的近似值。此计算可基于例如麦克风在装置内的位置和定向以及当装置相对于源处于标准定向中时装置与源之间的预期距离等因子而离线(例如,在装置的设计或制造期间)执行。此计算还可考虑可能影响麦克风阵列所感测到的声场的声因子,例如装置的表面和/或用户的头部的反射特性。
另外或在替代方案中,可基于装置的实例对定向声信号的实际响应来离线评估偏置因子IS。在此方法中,将装置的参考实例(也称为“参考装置”)放置在相对于定向信息源的标准定向中,且声信号由所述源产生。响应于所述声信号从装置阵列获得多通道信号,且基于所述多通道信号的通道电平之间的关系(例如,作为通道电平之间的比率,例如主要麦克风的通道的电平与次要麦克风的通道的电平的比率)来计算偏置因子。
此评估操作可包括以相对于定向声源(例如,HATS的嘴巴扬声器)的标准定向将参考装置安装在合适的测试台(例如,HATS)上。在另一实例中,参考设备由人佩戴或另外以相对于人的嘴巴的标准定向安装。所述源可能需要将所述声信号产生为在从75dB到78dB的声压电平(SPL)(例如,如在耳朵参考点(ERP)或嘴巴参考点(MRP)处所测量)下的语音信号或人工语音信号。在获得多通道信号的同时,参考装置和源可位于消声室内(例如,以如图6B中所展示的布置)。参考装置还可能需要在获得多通道信号的同时处于漫射噪声场(例如,由如图6B中所展示而布置的四个扬声器产生且由白或粉红噪声驱动的场)内。参考装置的处理器或外部处理装置处理多通道信号,以计算偏置因子(例如,作为通道电平的比率,例如主要麦克风的通道的电平与次要麦克风的通道的电平的比率)。
对于处于相对于源的标准定向中的与参考实例具有相同类型的装置的任何实例(例如,具有相同型号的任何装置),偏置因子IS可能需要描述因信息源的方向性而导致的可预期的通道不平衡。在大量生产期间,此偏置因子将通常被复制到所述装置的其它实例。用于头戴式耳机和手持机应用的偏置因子IS的典型值包括一、1.5、二、2.5、三、四和六分贝以及此些值的线性等效表示。
为了获得可靠地适用于所述装置的其它实例的偏置因子,可能需要在执行偏置因子评估之前校准所述装置的参考实例。可能需要此校准以确保所述偏置因子与参考装置的阵列的通道的响应特性之间的不平衡无关。可(例如)根据如早先参看图6B而描述的预递送校准操作来校准参考装置。
或者,可能需要在偏置因子评估操作之后校准参考实例,且接着根据校准结果(例如,根据所得补偿因子)来调整偏置因子IS。在又一替代方案中,基于用于背景区段的如由任务T200计算的增益因子的值,在方法M100在每一生产装置内执行期间调整偏置因子。
可能需要减小因任一参考实例而导致的偏置因子IS的误差的效应。举例来说,可能需要对装置的若干参考实例执行偏置因子评估操作,且求结果的平均值以获得偏置因子IS
如上文所提到,任务T510的阈值T1可能需要基于偏置因子IS。在此情况下,阈值T1可具有例如1/(1+δε)的值,其中ε=(IS-1),且δ具有在从0.5到二的范围内的值(例如,0.8、0.9或一)。
可能需要实施任务T500以随着时间的过去而调谐偏置因子IS。举例来说,对于同一装置,偏置因子的最佳值从一个用户到另一用户可稍微地变化。此变化可因例如以下各者的因子而发生:各种用户所采用的标准定向之间的差异和/或装置与用户的嘴巴之间的距离的差异。在一个实例中,实施任务T500以调谐偏置因子IS,以使背景区段与信息区段之间的过渡内的增益因子的系列值的改变减到最小。任务T500的此实施方案还可经配置以将经更新的偏置因子IS存储在非易失性存储器中,以用作在方法M300的后续执行中(例如,在后续音频感测会话中和/或在电力周期之后)用于相应参数的初始值。任务T500的此实施方案可经配置以周期性地(例如,每隔十秒、二十秒、三十秒或六十秒一次)、在音频感测会话(例如,电话呼叫)结束时和/或在掉电例程期间执行此存储。
图17展示平衡量度MB的值可如何用于确定多通道音频信号的对应区段的定向分量的大致到达角度的理想化视觉描绘。在这些方面,可将任务T510描述为在平衡量度MB的对应值小于阈值T1的情况下使区段与信息源S1相关联。
来自较远定向源的声音趋向于漫射。因此,在远场活动的周期期间,可假定阵列R100的麦克风处的SPL将如同在无声或背景噪声的周期期间那样相对相等。然而,由于远场活动的周期期间的SPL高于无声或背景噪声的周期期间的SPL,所以从对应区段得出的通道不平衡信息与从背景区段得出的类似信息相比可较少地受非声噪声分量(例如电路噪声)影响。
可能需要配置任务T500以在两种以上类型的区段之间进行区分。举例来说,可能需要配置任务T500以指示对应于远场活动的周期的区段(也称为“经平衡噪声”区段)以及信息区段。任务T500的此实施方案可经配置以在对应的平衡量度MB大于(或者,不小于)阈值T2且小于(或者,不大于)阈值T3时指示区段为经平衡噪声区段。举例来说,任务T510的实施方案可经配置以根据例如以下表达式的表达式来产生针对每一区段的指示:
其中结果“一”指示信息区段,结果“负一”指示经平衡噪声区段,且结果“零”指示并非上述两者的区段。
任务T510的此实施方案可经配置以使用阈值,所述阈值具有例如用于阈值T2的一、1.2、1.5或二或此值的对数等效表示和用于阈值T2的1.2、1.5、二或三或此值的对数等效表示等所指派数值。或者,阈值T2和/或阈值T3可能需要基于偏置因子IS。举例来说,阈值T2可具有例如1/(1+γε)等值,和/或阈值T3可具有例如1+γε等值,其中ε=(IS-1)且γ具有在从0.03到0.5的范围内的值(例如,0.05、0.1或0.2)。可能需要选择阈值T2和T3以支持增益因子计算任务T220的适当操作。举例来说,可能需要选择阈值T2以提供信息区段的充分剔除,且选择阈值T3以提供近场噪声的充分剔除。
对于任务T500经配置以指示信息区段和经平衡噪声区段的情况,任务T220可经配置以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
Figure BPA00001259691500242
Figure BPA00001259691500243
其中β是如上文所论述的平滑因子值。
图18A展示任务T510的实施方案T550的流程图,其根据如(例如)由表达式(19)描述的程序来指示信息区段和经平衡噪声区段。图18B展示任务T510的类似实施方案T560的流程图,其中针对经平衡噪声区段的测试在针对信息区段的测试的上游执行。所属领域的技术人员现在将认识到可用于实施任务T510的此配置的具有相同关系的各种其它表达式,且还将了解此些表达式可使用不同的值来指示对应结果。
在例如头戴式耳机或手持机等便携型通信装置的典型使用中,仅预期一个信息源(即,用户的嘴巴)。然而,对于其它音频感测应用,可能需要配置任务T500以在两种或两种以上不同类型的信息区段之间进行区分。此能力在(例如)会议或扬声器电话应用中可为有用的。图19展示平衡量度MB的值可如何用于在对应于来自三个不同相应信息源(例如,使用电话会议装置的三个人)的活动的信息区段之间进行区分的理想化视觉描绘。任务T510的对应实施方案可经配置以根据例如以下表达式的表达式来指示特定类型的信息区段
Figure BPA00001259691500251
其中结果1、2和3分别指示对应于源S1、S2和S3的信息区段,且阈值T1到T4被选择为支持增益因子计算任务T220的适当操作。
对于方法M300经配置以在对应于来自不同相应信息源的活动的信息区段之间进行区分的情况,任务T220可经配置以将不同的相应偏置因子用于不同类型的信息区段中的每一者。对于方法M300的此实施方案,可能需要执行如上文所描述的偏置因子评估操作的对应实例以获得不同偏置因子中的每一者,在每一情况下,参考装置处于相对于相应信息源的标准定向中。
音频感测装置可经配置以执行方法M200和M300中的一者。或者,音频感测装置可经配置以在方法M200和M300之中选择。举例来说,可能需要配置音频感测装置以在具有不足背景声噪声的环境中使用方法M300以支持方法M200的可靠使用。在又一替代方案中,音频感测装置经配置以如图20A的流程图中所示而执行方法M100的实施方案M400。也是方法M200和M300的实施方案的方法M400包括本文中所描述的任务T400的实施方案中的任一者的实例以及本文中所描述的任务T500的实施方案中的任一者的实例。方法M400还包括任务T200的实施方案T230,其经配置以基于任务T400和T500的指示来计算增益因子的系列值。
可能需要配置方法M400,使得任务T400和T500并行执行。或者,可能需要配置方法M400,使得任务T400和T500以串行(例如,级联)方式执行。图20B展示此实例的流程图,其中对于每一区段,任务T500的执行是以任务T400的结果为条件。图21A展示此实例的流程图,其中对于每一区段,任务T550的执行是以任务T400的结果为条件。图21B展示此实例的流程图,其中对于每一区段,任务T400的执行是以任务T500的结果为条件。
任务T500可经配置以基于对应于区段的电平值(例如,如本文中参考任务T410而描述的电平值sln)与背景电平值(例如,如本文中参考任务T410而描述的背景电平值bg)之间的关系来指示区段为信息区段。图22A展示任务T510的此实施方案T520的流程图,其执行是以任务T400的结果为条件。任务T520包括将电平值sln与背景电平值bg和权重w3的乘积进行比较的测试。在另一实例中,将权重w3实施为与背景电平值bg的偏移而不是实施为因子。权重w3的值可选自例如从一至1.5、二或五的范围,且可为固定或可适应的。在一个特定实例中,w3的值等于1.3。
图22B展示任务T510的类似实施方案T530的流程图,其包括将电平值sl与背景电平值bg之间的差diff同背景电平值bg与权重w4的乘积进行比较的测试。在另一实例中,将权重w4实施为与背景电平值bg的偏移而不是实施为因子。权重w4的值可选自例如从零到0.4、一或二的范围,且可为固定或可适应的。在一个特定实例中,w4的值等于0.3。图23A和图23B分别展示任务T550的类似实施方案T570和T580的流程图。
明确地注意,方法M100的各种任务的比较(也称为“测试”)和其它操作,以及同一任务内的测试和其它操作可经实施以并行执行,甚至对于另一操作的结果可使一操作变为不必要的情况也是如此。举例来说,可能需要并行执行任务T520的测试(或任务T530的测试,或执行任务T570或T580的测试中的两者或两者以上),即使第一测试中的否定结果可使第二测试为不必要也是如此。
任务T230可经配置以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
Figure BPA00001259691500261
Figure BPA00001259691500271
其中β是如上文所论述的平滑因子值。可能需要配置任务T230以根据任务T400和/或任务T500的指示来改变增益因子值的时间平滑程度。举例来说,可能需要配置任务T230以至少在音频感测会话的初始区段期间(例如,在会话的前五十、一百、两百、四百或八百个区段,或前五、十、二十或三十秒期间)对背景区段执行较少平滑(例如,使用较高平滑因子值,例如β×2或β×3)。另外或在替代方案中,可能需要配置任务T230以在信息和/或经平衡噪声区段期间执行更多平滑(例如,使用较低平滑因子值,例如β/2、β/3或β/4)。
对于其中任务T500经配置以指示信息区段和经平衡噪声区段的方法M400的实施方案,任务T230可经配置以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
Figure BPA00001259691500272
Figure BPA00001259691500273
其中β是如上文所论述的平滑因子值。此外,可能需要配置任务T230以如上文所描述来改变用于背景区段和/或用于信息和/或经平衡噪声区段的增益因子值的时间平滑程度。
可能需要配置方法M100以在与其它任务不同的时间标度上执行电平值计算任务T100a、电平值计算任务T100b和增益因子计算任务T200中的一者或一者以上。举例来说,方法M100可经配置以使得任务T100a和T100b针对每一区段产生一电平值,但任务T200仅针对每隔一个区段或针对每第四个区段计算增益因子值。类似地,方法M200(或方法M300)可经配置以使得任务T100a和T100b针对每一区段产生一电平值,但任务T400(和/或任务T500)仅针对每隔一个区段或针对每第四个区段更新其结果。在此些情况下,来自较不频繁任务的结果可基于来自更频繁任务的结果的平均值。
可能需要配置方法M100,以使得对应于一个区段的增益因子值(例如,基于来自区段n的电平值的增益因子值)由任务T300应用于不同区段,例如区段(n+1)或区段(n+2)。同样,可能需要配置方法M200(或M300),以使得对应于一个区段的背景区段指示(或信息或经平衡噪声区段指示)用于计算由任务T300应用于不同区段(例如,应用于下一区段)的增益因子值。举例来说,如果此配置降低计算预算而不产生可听假影,那么此配置可为需要的。
可能需要对多通道音频信号的相应频率子带执行方法M100的单独实例。在一个此实例中,使用一组分析滤波器或一变换运算(例如,快速傅立叶变换或FFT)将信号的每一通道分解成一组子带,方法M100的实例对每一子带单独地执行,且使用一组合成滤波器或一逆变换运算来重组第一通道和经处理的第二通道中的每一者。各种子带可重叠或不重叠,且具有均一宽度或具有不均一宽度。可使用的非均一子带划分方案的实例包括例如基于巴克标度(Bark scale)的方案等超越方案(transcendental scheme)或例如基于唛耳标度(Mel scale)的方案等对数方案。
可能需要将方法M100扩展到具有两个以上通道的多通道音频信号。举例来说,可执行方法M100的一个实例以基于第一通道和第二通道的电平相对于第一通道控制第二通道的振幅,而执行方法M100的另一实例以相对于第一通道控制第三通道的振幅。在此情况下,方法M300的不同实例可经配置以使用不同的相应偏置因子,其中所述偏置因子中的每一者可通过对参考装置的对应通道执行相应的偏置因子评估操作来获得。
便携型多麦克风音频感测装置可经配置以执行如本文所描述的方法M100的实施方案,以用于麦克风阵列的通道的服务中匹配。此装置可经配置以在装置的每次使用期间执行方法M100的实施方案。或者,此装置可经配置以在小于整个使用周期的时间间隔期间执行方法M100的实施方案。举例来说,此装置可经配置以与每次使用相比较不频繁地(例如,不多于每天、每周或每月一次)执行方法M100的实施方案。或者,此装置可经配置以在某一事件(例如,每个电池充电周期)后即刻执行方法M100的实施方案。在其它时间,所述装置可经配置以根据所存储的增益因子值(例如,最近计算的增益因子值)相对于第一通道而执行第二通道的振幅控制。
图24A展示根据一般配置的装置D10的框图。装置D10包括本文中所揭示的麦克风阵列R100的实施方案中的任一者的实例,且可将本文中所揭示的音频感测装置(例如,装置D100、D200、D300、D400、D500和D600)中的任一者实施为装置D10的实例。装置D10还包括设备MF100,所述设备MF100经配置以处理如由阵列R100产生的多通道音频信号,以相对于第一通道的振幅控制第二通道的振幅。举例来说,设备MF100可经配置以根据本文中所揭示的方法M100的实施方案中的任一者的实例来处理多通道音频信号。设备MF100可以硬件和/或以软件(例如,固件)实施。举例来说,设备MF100可在装置D10的处理器上实施,所述处理器还经配置以对经处理的多通道信号执行如上文所描述的空间处理操作(例如,确定音频感测装置与特定声源之间的距离、降低噪声、加强从特定方向到达的信号分量和/或使一个或一个以上声音分量与其它环境声音分离的一个或一个以上操作)。
图24B展示设备MF100的实施方案MF110的框图。设备MF110包括用于随着时间的过去而计算音频信号的第一通道的电平的一系列值的装置FL100a(例如,如上文参考任务T100a而描述)。设备MF110还包括用于随着时间的过去而计算音频信号的第二通道的电平的一系列值的装置FL100b(例如,如上文参考任务T100b而描述)。可将装置FL100a和FL100b实施为不同结构(例如,不同电路或软件模块)、实施为同一结构的不同部分(例如,逻辑元件阵列的不同区域,或计算进程的并行线程),和/或在不同时间实施为同一结构(例如,经配置以随着时间的过去而执行不同任务的序列的计算电路或处理器)。
设备MF110还包括用于随着时间的过去而计算增益因子的一系列值的装置FG100(例如,如上文参考任务T200而描述)以及用于相对于第一通道的振幅控制第二通道的振幅的装置FA100(例如,如上文参考任务T300而描述)。相对于装置FL100a和FL100b中的任一者,可将计算装置FG100实施为不同结构、实施为同一结构的不同部分,和/或在不同时间实施为同一结构。相对于装置FL100a、FL100b和FG100中的任一者,可将装置FA100实施为不同结构、实施为同一结构的不同部分,和/或在不同时间实施为同一结构。在一个实例中,将装置FA100实施为经配置以使第二通道的样本乘以增益因子的对应值的计算电路或进程。在另一实例中,将装置FA100实施为放大器或其它可调整增益控制元件。
图25展示设备MF110的实施方案MF200的框图。设备MF200包括用于指示区段为背景区段的装置FD100(例如,如上文参考任务T400而描述)。可将装置FD100实施为(例如)逻辑电路(例如,逻辑元件阵列)和/或实施为可由处理器执行的任务。在一个实例中,将装置FD100实施为话音活动检测器。设备MF200还包括装置FG100的实施方案FG200,其经配置以基于装置FD100的指示来计算增益因子的系列值(例如,如上文参考任务T210而描述)。
图26展示设备MF110的实施方案MF300的框图。设备MF300包括用于指示区段为信息区段的装置FD200(例如,如上文参考任务T500而描述)。可将装置FD200实施为(例如)逻辑电路(例如,逻辑元件阵列)和/或实施为可由处理器执行的任务。设备MF300还包括装置FG100的实施方案FG300,其经配置以基于装置FD200的指示来计算增益因子的系列值(例如,如上文参考任务T220而描述)。
图27展示设备MF110的实施方案MF400的框图,其包括用于指示区段为背景区段的装置FD100以及用于指示区段为信息区段的装置FD200。设备MF400还包括装置FG100的实施方案FG400,其经配置以基于装置FD100和FD200的指示来计算增益因子的系列值(例如,如上文参考任务T230而描述)。
图28A展示根据一般配置的装置D20的框图。装置D20包括本文中所揭示的麦克风阵列R100的实施方案中的任一者的实例,且可将本文中所揭示的音频感测装置(例如,装置D100、D200、D300、D400、D500和D600)中的任一者实施为装置D20的实例。装置D20还包括设备A100,所述设备A100经配置以处理如由阵列R100产生的多通道音频信号,以相对于第一通道的振幅控制第二通道的振幅。举例来说,设备A100可经配置以根据本文中所揭示的方法M100的实施方案中的任一者的实例来处理多通道音频信号。设备A100可以硬件和/或以软件(例如,固件)实施。举例来说,设备A100可在装置D20的处理器上实施,所述处理器还经配置以对经处理的多通道信号执行如上文所描述的空间处理操作(例如,确定音频感测装置与特定声源之间的距离、降低噪声、加强从特定方向到达的信号分量和/或使一个或一个以上声音分量与其它环境声音分离的一个或一个以上操作)。
图28B展示设备A100的实施方案A110的框图。设备A110包括经配置以随着时间的过去而计算音频信号的第一通道的电平的一系列值的第一电平计算器LC100a(例如,如上文参考任务T100a而描述)。设备A110还包括经配置以随着时间的过去而计算音频信号的第二通道的电平的一系列值的第二电平计算器LC100b(例如,如上文参考任务T100b而描述)。可将电平计算器LC100a和LC100b实施为不同结构(例如,不同电路或软件模块)、实施为同一结构的不同部分(例如,逻辑元件阵列的不同区域,或计算进程的并行线程),和/或在不同时间实施为同一结构(例如,经配置以随着时间的过去而执行不同任务的序列的计算电路或处理器)。
设备A110还包括经配置以随着时间的过去而计算增益因子的一系列值的增益因子计算器GF100(例如,如上文参考任务T200而描述)以及经配置以相对于第一通道的振幅而控制第二通道的振幅的振幅控制元件AC100(例如,如上文参考任务T300而描述)。相对于电平计算器LC100a和LC100b中的任一者,可将增益因子计算器GF100实施为不同结构、实施为同一结构的不同部分,和/或在不同时间实施为同一结构。相对于计算器LC100a、LC100b和GF100中的任一者,可将振幅控制元件AC100实施为不同结构、实施为同一结构的不同部分,和/或在不同时间实施为同一结构。在一个实例中,将振幅控制元件AC100实施为经配置以使第二通道的样本乘以增益因子的对应值的计算电路或进程。在另一实例中,将振幅控制元件AC100实施为放大器或其它可调整增益控制元件。
图29展示设备A110的实施方案A200的框图。设备A200包括经配置以指示区段为背景区段的背景区段指示器SD100(例如,如上文参考任务T400而描述)。可将指示器SD100实施为(例如)逻辑电路(例如,逻辑元件阵列)和/或实施为可由处理器执行的任务。在一个实例中,将指示器SD100实施为话音活动检测器。设备A200还包括增益因子计算器GF100的实施方案GF200,其经配置以基于指示器SD100的指示来计算增益因子的系列值(例如,如上文参考任务T210而描述)。
图30展示设备A110的实施方案A300的框图。设备A300包括经配置以指示区段为信息区段的信息区段指示器SD200(例如,如上文参考任务T500而描述)。可将指示器SD200实施为(例如)逻辑电路(例如,逻辑元件阵列)和/或实施为可由处理器执行的任务。设备A300还包括增益因子计算器GF100的实施方案GF300,其经配置以基于指示器SD200的指示来计算增益因子的系列值(例如,如上文参考任务T220而描述)。
图31展示设备A110的实施方案A400的框图,其包括背景区段指示器SD100和信息区段指示器SD200。设备A400还包括增益因子计算器GF100的实施方案GF400,其经配置以基于指示器SD100和SD200的指示来计算增益因子的系列值(例如,如上文参考任务T230而描述)。
方法M100可以反馈配置实施,使得第二通道的电平的系列值是在振幅控制任务T300的下游计算。在方法M200的反馈实施方案中,任务T210可经配置以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
Figure BPA00001259691500311
Figure BPA00001259691500312
其中λ2n表示在此情况下区段的第二通道的电平的值。
类似地,任务T220可以方法M300的反馈实施方案配置,以根据例如以下表达式中的一者的表达式来计算增益因子的当前值Gn
Figure BPA00001259691500321
Figure BPA00001259691500322
其中β是如上文所论述的平滑因子值。类似地,任务T510可以方法M300的反馈实施方案配置,以根据例如MB=(IA/Gn-1)(λ2n/L1n)等表达式来计算用于区段n的平衡量度MB
同样,设备MF110可经配置以使得第二通道的电平的系列值是在振幅控制装置FA100的下游计算,且设备A110可经配置以使得第二通道的电平的系列值是在振幅控制元件AC100的下游计算。举例来说,图32展示设备MF300的此实施方案MF310的框图,其包括:增益因子计算装置FG300的实施方案FG310,其可经配置以执行任务T220的反馈版本(例如,根据表达式(29)或(30));以及信息区段指示装置FD200的实施方案FD210,其可经配置以执行如上文所描述的任务T510的反馈版本。图33展示设备A300的此实施方案A310的框图,其包括:增益因子计算器GF300的实施方案GF310,其可经配置以执行任务T220的反馈版本(例如,根据表达式(29)或(30));以及信息区段指示器SD200的实施方案SD210,其可经配置以执行如上文所描述的任务T510的反馈版本。
图34展示作为装置D10的实施方案的通信装置D50的框图。装置D50包括芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组),所述芯片或芯片组CS10包括设备MF100。芯片/芯片组CS10可包括一个或一个以上处理器,其可经配置以执行设备MF100的全部或一部分(例如,作为指令)。芯片/芯片组CS10包括:接收器,其经配置以接收射频(RF)通信信号,且解码并再现编码在RF信号内的音频信号;以及发射器,其经配置以编码基于由设备MF100产生的经处理的多通道信号的音频信号,且发射描述经编码音频信号的RF通信信号。芯片/芯片组CS10的一个或一个以上处理器可经配置以对经处理的多通道信号执行如上文所描述的空间处理操作(例如,确定音频感测装置与特定声源之间的距离、降低噪声、加强从特定方向到达的信号分量和/或使一个或一个以上声音分量与其它环境声音分离的一个或一个以上操作),使得经编码的音频信号是基于所述经空间处理的信号。
装置D50经配置以经由天线C30接收和发射RF通信信号。装置D50在到达天线C30的路径中还可包括双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中,装置D50还包括一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,BluetoothTM)头戴式耳机等外部装置的短程通信。在另一实例中,此通信装置自身为蓝牙头戴式耳机且无小键盘C10、显示器C20和天线C30。
本文中所揭示的方法和设备可一般应用于任何收发和/或音频再现应用中,尤其是此些应用的移动或其它便携型实例中。举例来说,本文中所揭示的配置的范围包括驻存在无线电话通信系统中的通信装置,所述无线电话通信系统经配置以使用码分多址(CDMA)无线接口。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法和设备可驻存在使用所属领域的技术人员已知的广泛范围的技术的各种通信系统中的任一者中,所述系统例如为经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道使用IP话音(VoIP)的系统。
明确地预期且借此揭示,本文中所揭示的通信装置可适于用于经包交换(例如,经布置以根据例如VoIP等协议来载运音频发射的有线和/或无线网络)的网络中和/或经电路交换的网络中。还明确地预期且借此揭示,本文中所揭示的通信装置可适于用于窄带编码系统(例如,对约四或五千赫的音频频率范围进行编码的系统)中和/或用于宽带编码系统(例如,对大于五千赫的音频频率进行编码的系统)中,包括全带宽带编码系统和分割带宽带编码系统。
提供所描述配置的前述呈现是为了使所属领域的技术人员能够制作或使用本文中所揭示的方法和其它结构。本文所展示并描述的流程图、框图、状态图和其它结构仅为实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明无意限于上文所展示的配置,而是被赋予与在本文中(包括在如所申请的所附权利要求书中)以任何方式揭示的原理和新颖特征一致的最广范围,所附权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将理解,可使用多种不同技术和技法中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁粒子、光场或光学粒子或其任一组合来表示可在整个上述描述中提到的数据、指令、命令、信息、信号、位和符号。
如本文中所揭示的配置的实施方案的重要设计要求可包括使处理延迟和/或计算复杂性(通常以每秒百万个指令或MIPS来测量)减到最小,尤其对于计算密集型应用,例如用于较高取样速率下的话音通信的应用(例如,用于宽带通信)。
如本文中揭示的设备的实施方案的各种元件可以被视为适合于既定应用的硬件、软件和/或固件的任一组合来体现。举例来说,可将此些元件制造为驻存在(例如)同一芯片上或芯片组中的两个或两个以上芯片之中的电子和/或光学装置。此装置的一个实例为逻辑元件(例如,晶体管或逻辑门)的固定或可编程阵列,且这些元件中的任一者可实施为一个或一个以上此些阵列。这些元件的任何两者或两者以上或甚至全部可在同一阵列或若干相同阵列内实施。此或此些阵列可在一个或一个以上芯片内(例如,在包括两个或两个以上芯片的芯片组内)实施。
本文中所揭示的设备(例如,设备MF100、MF110、MF200、MF300、MF310、MF400、A100、A110、A200、A300、A310和A400)的各种实施方案的一个或一个以上元件还可全部或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列上执行,所述逻辑元件例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可在同一此计算机或相同的此些计算机内实施。
可将如本文中所揭示的处理器或用于处理的其它装置制造为驻存在(例如)同一芯片上或芯片组中的两个或两个以上芯片之中的一个或一个以上电子和/或光学装置。此装置的一个实例是逻辑元件(例如,晶体管或逻辑门)的固定或可编程阵列,且这些元件中的任一者可实施为一个或一个以上此些阵列。此或此些阵列可在一个或一个以上芯片内(例如,在包括两个或两个以上芯片的芯片组内)实施。此些阵列的实例包括固定或可编程逻辑元件阵列,所述逻辑元件例如为微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。还可将如本文中所揭示的处理器或用于处理的其它装置体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。如本文中所描述的处理器有可能用于实施并非与信号平衡程序直接相关的任务或执行并非与信号平衡程序直接相关的其它指令集,例如与嵌入有所述处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务。如本文中所揭示的方法的一部分由音频感测装置的处理器执行(例如,电平值计算任务T100a和T100b以及增益因子计算任务T200),且所述方法的另一部分在一个或一个以上其它处理器的控制下执行(例如,振幅控制任务T300)也是可能的。
所属领域的技术人员将了解,结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。此些模块、逻辑块、电路和操作可用经设计以产生如本文中所揭示的配置的通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任一组合来实施或执行。举例来说,此配置可至少部分地实施为硬连线电路、实施为制造成专用集成电路的电路配置,或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由逻辑元件(例如,通用处理器或其它数字信号处理单元)的阵列执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器的组合、结合DSP核心的一个或一个以上微处理器,或任何其它此类配置。软件模块可驻存在RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻存在ASIC中。ASIC可驻存在用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻存在用户终端中。
注意,本文中所揭示的各种方法(例如,方法M100、M200、M300和M400)可由例如处理器等逻辑元件的阵列执行,且可将如本文中所描述的设备的各种元件实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指代包括呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。将理解,多个模块或系统可组合成一个模块或系统,且一个模块或系统可分成用以执行相同功能的多个模块或系统。当以软件或其它计算机可执行指令实施时,进程的元素本质上为用以执行相关任务的代码段,例如以例程、程序、对象、组件、数据结构等。术语“软件”应被理解为包括源代码、汇编语言码、机器码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列,以及此些实例的任一组合。程序或代码段可存储在处理器可读媒体中或通过体现在载波中的计算机数据信号经由发射媒体或通信链路而发射。
本文所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在本文所列出的一个或一个以上计算机可读媒体中)为可由包括逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器读取和/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包括可存储或传送信息的任何媒体,包括易失性、非易失性、可装卸和不可装卸媒体。计算机可读媒体的实例包括电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包括可经由发射媒体(例如,电子网络信道、光纤、空气、电磁、RF链路等)来传播的任何信号。可经由例如因特网或企业内部网络等计算机网络来下载代码段。在任何情况下,本发明的范围不应被解释为受此些实施例限制。
可以硬件、以由处理器执行的软件模块或以所述两者的组合来直接地体现本文所描述的方法的任务中的每一者。在如本文所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至所有。还可将任务中的一者或一者以上(可能所有)实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包括逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如,计算机)读取和/或执行。还可通过一个以上的此阵列或机器来执行如本文所揭示的方法的实施方案的任务。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话或具有此通信能力的其它装置)内执行所述任务。此装置可经配置以与电路交换和/或包交换网络通信(例如,使用例如VoIP等一个或一个以上协议)。举例来说,此装置可包括经配置以接收和/或发射经编码帧的RF电路。
明确地揭示,可通过例如手持机、头戴式耳机或便携型数字助理(PDA)等便携型通信装置来执行本文所揭示的各种方法,且本文所描述的各种设备可包括于此装置内。典型的实时(例如,在线)应用为使用此移动装置进行的电话交谈。
在一个或一个以上示范性实施例中,可以硬件、软件、固件或其任一组合来实施本文所描述的操作。如果以软件来实施,那么此些操作可作为一个或一个以上指令或代码而存储在计算机可读媒体上或经由计算机可读媒体来传输。术语“计算机可读媒体”包括计算机存储媒体和通信媒体两者,通信媒体包括促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。举例来说且非限制,此计算机可读媒体可包含存储元件阵列,例如半导体存储器(其可包括(但不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于载运或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。此外,严格地说,任何连接均被称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程来源传输软件,那么所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包括在媒体的定义中。如本文中所使用,磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘TM(蓝光光盘协会,加利福尼亚州环球影城),其中磁盘通常以磁性方式来再现数据,而光盘用激光以光学方式再现数据。上述各者的组合也应包括在计算机可读媒体的范围内。
如本文所描述的声信号处理设备可并入接受语音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装置(例如,通信装置)中。许多应用可受益于加强清楚的所要声音或将其与源自多个方向的背景声音分离。所述应用可包括在并入有例如话音辨识与检测、语音加强与分离、话音激活的控制等能力的电子或计算装置中的人机界面。可能需要实施此声信号处理设备以使其在仅提供有限处理能力的装置中为适合的。
可将本文所描述的模块、元件和装置的各种实施方案的元件制造为驻存在(例如)同一芯片上或芯片组中的两个或两个以上芯片之中的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)阵列。本文所描述的设备的各种实施方案的一个或一个以上元件还可整个或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)阵列上执行。
如本文所描述的设备的实施方案的一个或一个以上元件可用以执行与所述设备的操作不直接相关的任务或执行与所述设备的操作不直接相关的其它指令集,例如与所述设备所嵌入于其中的装置或系统的另一操作有关的任务。此设备的实施方案的一个或一个以上元件也可具有共同结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间实施对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子和/或光学装置的布置)。举例来说,可将电平计算器LC100a和LC100b中的两者或两者以上实施为在不同时间包含相同结构。

Claims (19)

1.一种处理多通道音频信号的方法,所述方法包含:
随着时间的过去而计算所述音频信号的第一通道的电平的一系列值;
随着时间的过去而计算所述音频信号的第二通道的电平的一系列值;
基于所述第一通道的电平的所述系列值和所述第二通道的电平的所述系列值,随着时间的过去而计算增益因子的一系列值;以及
根据所述增益因子的所述系列值随着时间的过去而相对于所述第一通道的振幅控制所述第二通道的振幅,
其中所述方法包括指示所述音频信号的区段是信息区段,且
其中随着时间的过去而计算增益因子的一系列值包括:对于所述增益因子的所述系列值中的至少一者且响应于所述指示,基于所述第一通道的所述电平的对应值、所述第二通道的所述电平的对应值以及偏置因子来计算所述增益因子值,且
其中所述偏置因子是基于音频感测装置相对于定向信息源的标准定向。
2.根据权利要求1所述的处理多通道音频信号的方法,其中所述指示区段是信息区段是基于所述第一通道的所述电平的对应值和所述第二通道的所述电平的对应值。
3.根据权利要求1所述的处理多通道音频信号的方法,其中所述指示区段是信息区段是基于包括阵列不平衡估计的关系,且
其中所述阵列不平衡估计是基于所述增益因子的所述系列值中的至少一者。
4.根据权利要求1所述的处理多通道音频信号的方法,其中增益因子的所述系列值中的每一者是基于所述第一通道的电平的所述系列值中的一者与所述第二通道的电平的所述系列值中的一者的比率。
5.根据权利要求1所述的处理多通道音频信号的方法,其中所述偏置因子与所述第一通道的所述电平的所述对应值与所述第二通道的所述电平的所述对应值之间的比率无关。
6.根据权利要求1所述的处理多通道音频信号的方法,其中所述计算所述增益因子值包括使用所述偏置因子来对所述第二通道的所述电平的所述对应值进行加权,且
其中所述增益因子值是基于所述第一通道的所述电平的所述对应值与所述第二通道的所述电平的所述经加权对应值的比率。
7.根据权利要求1所述的处理多通道音频信号的方法,其中所述方法包括基于所述音频信号的区段的电平与背景电平值之间的关系来指示所述区段是背景区段。
8.根据权利要求1所述的处理多通道音频信号的方法,其中所述方法包括指示所述音频信号的并非背景区段的区段是经平衡噪声区段。
9.根据权利要求1所述的处理多通道音频信号的方法,其中所述方法包括基于包括阵列不平衡估计的关系来指示所述音频信号的并非背景区段的区段是经平衡噪声区段,且
其中所述阵列不平衡估计是基于所述增益因子的所述系列值中的至少一者。
10.一种用于处理多通道音频信号的设备,所述设备包含:
用于随着时间的过去而计算所述音频信号的第一通道的电平的一系列值的装置;
用于随着时间的过去而计算所述音频信号的第二通道的电平的一系列值的装置;
用于基于所述第一通道的电平的所述系列值和所述第二通道的电平的所述系列值随着时间的过去而计算增益因子的一系列值的装置;以及
用于根据所述增益因子的所述系列值随着时间的过去而相对于所述第一通道的振幅控制所述第二通道的振幅的装置,
其中所述设备包括用于指示所述音频信号的区段是信息区段的装置,且
其中所述用于随着时间的过去而计算增益因子的一系列值的装置经配置以响应于所述指示,基于所述第一通道的所述电平的对应值、所述第二通道的所述电平的对应值以及偏置因子来计算所述增益因子的所述系列值中的至少一者,且
其中所述偏置因子是基于音频感测装置相对于定向信息源的标准定向。
11.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述用于指示区段是信息区段的装置经配置以基于所述第一通道的所述电平的对应值和所述第二通道的所述电平的对应值来指示区段是信息区段。
12.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述用于指示区段是信息区段的装置经配置以基于包括阵列不平衡估计的关系来指示区段是信息区段,且
其中所述阵列不平衡估计是基于所述增益因子的所述系列值中的至少一者。
13.根据权利要求10所述的用于处理多通道音频信号的设备,其中增益因子的所述系列值中的每一者是基于所述第一通道的电平的所述系列值中的一者与所述第二通道的电平的所述系列值中的一者的比率。
14.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述偏置因子与所述第一通道的所述电平的所述对应值与所述第二通道的所述电平的所述对应值之间的比率无关。
15.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述用于计算所述增益因子值的装置经配置以使用所述偏置因子对所述第二通道的所述电平的所述对应值进行加权来计算所述增益因子的所述系列值中的所述至少一者中的每一者,且
其中所述增益因子值是基于所述第一通道的所述电平的所述对应值与所述第二通道的所述电平的所述经加权对应值的比率。
16.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述设备包括用于基于所述音频信号的区段的电平与背景电平值之间的关系来指示所述区段是背景区段的装置。
17.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述设备包括用于指示所述音频信号的并非背景区段的区段是经平衡噪声区段的装置。
18.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述设备包括用于基于包括阵列不平衡估计的关系来指示所述音频信号的并非背景区段的区段是经平衡噪声区段的装置,且
其中所述阵列不平衡估计是基于所述增益因子的所述系列值中的至少一者。
19.根据权利要求10所述的用于处理多通道音频信号的设备,其中所述设备包含通信装置,所述通信装置包括所述用于计算第一通道的电平的一系列值的装置、所述用于计算第二通道的电平的一系列值的装置、所述用于计算增益因子的一系列值的装置、所述用于控制所述第二通道的所述振幅的装置以及所述用于指示所述音频信号的区段是信息区段的装置,且
其中所述通信装置包含经配置以产生所述多通道音频信号的麦克风阵列。
CN200980119649.2A 2008-06-02 2009-06-02 用于多通道信号平衡的系统、方法和设备 Expired - Fee Related CN102047688B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US5813208P 2008-06-02 2008-06-02
US61/058,132 2008-06-02
US12/473,930 2009-05-28
US12/473,930 US8321214B2 (en) 2008-06-02 2009-05-28 Systems, methods, and apparatus for multichannel signal amplitude balancing
PCT/US2009/046021 WO2009149119A1 (en) 2008-06-02 2009-06-02 Systems, methods, and apparatus for multichannel signal balancing

Publications (2)

Publication Number Publication Date
CN102047688A CN102047688A (zh) 2011-05-04
CN102047688B true CN102047688B (zh) 2014-06-25

Family

ID=41380869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980119649.2A Expired - Fee Related CN102047688B (zh) 2008-06-02 2009-06-02 用于多通道信号平衡的系统、方法和设备

Country Status (7)

Country Link
US (1) US8321214B2 (zh)
EP (1) EP2301258A1 (zh)
JP (1) JP5329655B2 (zh)
KR (1) KR101217970B1 (zh)
CN (1) CN102047688B (zh)
TW (1) TW201012244A (zh)
WO (1) WO2009149119A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
EP1989777A4 (en) 2006-03-01 2011-04-27 Softmax Inc SYSTEM AND METHOD FOR GENERATING A SEPARATE SIGNAL
US8077893B2 (en) * 2007-05-31 2011-12-13 Ecole Polytechnique Federale De Lausanne Distributed audio coding for wireless hearing aids
CN101847412B (zh) * 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
EP2489206A1 (fr) * 2009-10-12 2012-08-22 France Telecom Traitement de donnees sonores encodees dans un domaine de sous-bandes
CN102483918B (zh) * 2009-11-06 2014-08-20 株式会社东芝 声音识别装置
US9031221B2 (en) * 2009-12-22 2015-05-12 Cyara Solutions Pty Ltd System and method for automated voice quality testing
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
TWI423688B (zh) * 2010-04-14 2014-01-11 Alcor Micro Corp 具有電磁波接收器之聲音感測器
CA2804638A1 (en) * 2010-07-15 2012-01-19 Aliph, Inc. Wireless conference call telephone
JP5926490B2 (ja) 2011-02-10 2016-05-25 キヤノン株式会社 音声処理装置
US9549251B2 (en) 2011-03-25 2017-01-17 Invensense, Inc. Distributed automatic level control for a microphone array
TWI449440B (zh) * 2011-12-21 2014-08-11 Wistron Neweb Corp 電子裝置以及播放方法
US20130253923A1 (en) * 2012-03-21 2013-09-26 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Multichannel enhancement system for preserving spatial cues
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
CN103929557B (zh) * 2013-01-11 2016-04-13 华为技术有限公司 语音会议噪声处理方法及装置
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US9570093B2 (en) 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9363598B1 (en) * 2014-02-10 2016-06-07 Amazon Technologies, Inc. Adaptive microphone array compensation
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US10070220B2 (en) 2015-10-30 2018-09-04 Dialog Semiconductor (Uk) Limited Method for equalization of microphone sensitivities
CN110121890B (zh) * 2017-01-03 2020-12-08 杜比实验室特许公司 处理音频信号的方法和装置及计算机可读介质
US10657981B1 (en) * 2018-01-19 2020-05-19 Amazon Technologies, Inc. Acoustic echo cancellation with loudspeaker canceling beamformer
CN111989935A (zh) 2018-03-29 2020-11-24 索尼公司 声音处理装置、声音处理方法及程序
JP7001029B2 (ja) * 2018-09-11 2022-01-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
EP3629602A1 (en) * 2018-09-27 2020-04-01 Oticon A/s A hearing device and a hearing system comprising a multitude of adaptive two channel beamformers
KR102088056B1 (ko) 2019-08-08 2020-03-11 남정덕 태양광 발전 수배전반 시스템
CN113301329B (zh) * 2021-05-21 2022-08-05 康佳集团股份有限公司 基于图像识别的电视声场校正方法、装置及显示设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809105A (zh) * 2006-01-13 2006-07-26 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4649505A (en) 1984-07-02 1987-03-10 General Electric Company Two-input crosstalk-resistant adaptive noise canceller
US5742735A (en) 1987-10-06 1998-04-21 Fraunhofer Gesellschaft Zur Forderung Der Angewanten Forschung E.V. Digital adaptive transformation coding method
US4912767A (en) 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
JP2962572B2 (ja) * 1990-11-19 1999-10-12 日本電信電話株式会社 雑音除去装置
US5327178A (en) 1991-06-17 1994-07-05 Mcmanigal Scott P Stereo speakers mounted on head
US5208786A (en) 1991-08-28 1993-05-04 Massachusetts Institute Of Technology Multi-channel signal separation
JPH05316587A (ja) 1992-05-08 1993-11-26 Sony Corp マイクロホン装置
US5251263A (en) 1992-05-22 1993-10-05 Andrea Electronics Corporation Adaptive noise cancellation and speech enhancement system and apparatus therefor
US5732143A (en) 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
US5383164A (en) 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5375174A (en) 1993-07-28 1994-12-20 Noise Cancellation Technologies, Inc. Remote siren headset
JP3146804B2 (ja) 1993-11-05 2001-03-19 松下電器産業株式会社 アレイマイクロホンおよびその感度補正装置
US5706402A (en) 1994-11-29 1998-01-06 The Salk Institute For Biological Studies Blind signal processing system employing information maximization to recover unknown signals through unsupervised minimization of output redundancy
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5770841A (en) 1995-09-29 1998-06-23 United Parcel Service Of America, Inc. System and method for reading package information
US5675659A (en) 1995-12-12 1997-10-07 Motorola Methods and apparatus for blind separation of delayed and filtered sources
US6130949A (en) 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
AU4826697A (en) 1996-10-17 1998-05-11 Andrea Electronics Corporation Noise cancelling acoustical improvement to wireless telephone or cellular phone
US5999567A (en) 1996-10-31 1999-12-07 Motorola, Inc. Method for recovering a source signal from a composite signal and apparatus therefor
US7072476B2 (en) 1997-02-18 2006-07-04 Matech, Inc. Audio headset
FR2759824A1 (fr) 1997-02-18 1998-08-21 Philips Electronics Nv Systeme de separation de sources non stationnaires
US6496581B1 (en) 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US6167417A (en) 1998-04-08 2000-12-26 Sarnoff Corporation Convolutive blind source separation using a multiple decorrelation method
DE19822021C2 (de) 1998-05-15 2000-12-14 Siemens Audiologische Technik Hörgerät mit automatischem Mikrofonabgleich sowie Verfahren zum Betrieb eines Hörgerätes mit automatischem Mikrofonabgleich
US6654468B1 (en) 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
DE19849739C2 (de) 1998-10-28 2001-05-31 Siemens Audiologische Technik Adaptives Verfahren zur Korrektur der Mikrofone eines Richtmikrofonsystems in einem Hörgerät sowie Hörgerät
US6898612B1 (en) 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6606506B1 (en) 1998-11-19 2003-08-12 Albert C. Jones Personal entertainment and communication device
US6343268B1 (en) 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
DE19859174C1 (de) 1998-12-21 2000-05-04 Max Planck Gesellschaft Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
US6381570B2 (en) 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
AU4284600A (en) 1999-03-19 2000-10-09 Siemens Aktiengesellschaft Method and device for receiving and treating audiosignals in surroundings affected by noise
US6526148B1 (en) 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US6882734B2 (en) 2001-02-14 2005-04-19 Gentex Corporation Vehicle accessory microphone
JP4277400B2 (ja) * 1999-12-17 2009-06-10 ソニー株式会社 音声信号記録装置
US6549630B1 (en) 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
US6654719B1 (en) 2000-03-14 2003-11-25 Lucent Technologies Inc. Method and system for blind separation of independent source signals
DE10195933T1 (de) 2000-03-14 2003-04-30 Audia Technology Inc Adaptiver Mikrophonabgleich in einem Richtsystem mit mehreren Mikrophonen
US20010038699A1 (en) 2000-03-20 2001-11-08 Audia Technology, Inc. Automatic directional processing control for multi-microphone system
US8903737B2 (en) 2000-04-25 2014-12-02 Accenture Global Service Limited Method and system for a wireless universal mobile product interface
US6879952B2 (en) 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US7027607B2 (en) 2000-09-22 2006-04-11 Gn Resound A/S Hearing aid with adaptive microphone matching
US7471798B2 (en) 2000-09-29 2008-12-30 Knowles Electronics, Llc Microphone array having a second order directional pattern
EP2348752A1 (en) 2000-09-29 2011-07-27 Knowles Electronics, LLC Second order microphone array
JP4028680B2 (ja) 2000-11-01 2007-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測データから原信号を復元する信号分離方法、信号処理装置、モバイル端末装置、および記憶媒体
US6462664B1 (en) 2000-11-20 2002-10-08 Koninklijke Philips Electronics N.V. Baby monitor, system, and method and control of remote devices
US7206418B2 (en) 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
US7076069B2 (en) 2001-05-23 2006-07-11 Phonak Ag Method of generating an electrical output signal and acoustical/electrical conversion system
US7123727B2 (en) 2001-07-18 2006-10-17 Agere Systems Inc. Adaptive close-talking differential microphone array
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
AU2002309146A1 (en) 2002-06-14 2003-12-31 Nokia Corporation Enhanced error concealment for spatial audio
CN1682566A (zh) 2002-09-13 2005-10-12 皇家飞利浦电子股份有限公司 校准第一麦克风和第二麦克风
EP1570464A4 (en) 2002-12-11 2006-01-18 Softmax Inc SYSTEM AND METHOD FOR LANGUAGE PROCESSING USING AN INDEPENDENT COMPONENT ANALYSIS UNDER STABILITY RESTRICTIONS
US7142682B2 (en) 2002-12-20 2006-11-28 Sonion Mems A/S Silicon-based transducer for use in hearing instruments and listening devices
KR100480789B1 (ko) 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
DE602004006967T2 (de) * 2003-02-07 2008-02-14 Nippon Telegraph And Telephone Corp. Telefonkonferenzverfahren und telefonkonferenzsystem
EP1453348A1 (de) 2003-02-25 2004-09-01 AKG Acoustics GmbH Selbstkalibrierung von Arraymikrofonen
WO2004079388A1 (ja) 2003-03-04 2004-09-16 Nippon Telegraph And Telephone Corporation 位置情報推定装置、その方法、及びプログラム
DE10310579B4 (de) 2003-03-11 2005-06-16 Siemens Audiologische Technik Gmbh Automatischer Mikrofonabgleich bei einem Richtmikrofonsystem mit wenigstens drei Mikrofonen
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US7203323B2 (en) 2003-07-25 2007-04-10 Microsoft Corporation System and process for calibrating a microphone array
US7424119B2 (en) 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
US7496482B2 (en) 2003-09-02 2009-02-24 Nippon Telegraph And Telephone Corporation Signal separation method, signal separation device and recording medium
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US7515721B2 (en) 2004-02-09 2009-04-07 Microsoft Corporation Self-descriptive microphone array
KR100600313B1 (ko) 2004-02-26 2006-07-14 남승현 다중경로 다채널 혼합신호의 주파수 영역 블라인드 분리를 위한 방법 및 그 장치
US7415117B2 (en) 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US7688985B2 (en) 2004-04-30 2010-03-30 Phonak Ag Automatic microphone matching
ATE405925T1 (de) 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
US7190308B2 (en) 2004-09-23 2007-03-13 Interdigital Technology Corporation Blind signal separation using signal path selection
US7826624B2 (en) 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
US7342536B2 (en) * 2005-09-12 2008-03-11 Lockheed Martin Corporation System and method for determining the location of emitters having well-behaved timing features
DE102005047047A1 (de) 2005-09-30 2007-04-12 Siemens Audiologische Technik Gmbh Mikrofonkalibrierung bei einem RGSC-Beamformer
US7813923B2 (en) 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
KR100636368B1 (ko) 2005-11-09 2006-10-19 한국전자통신연구원 상대 최적화를 이용한 다중경로 혼합신호 분리 방법 및 그장치
JP2007156300A (ja) 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
JP4863713B2 (ja) 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US8874439B2 (en) 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
EP1989777A4 (en) 2006-03-01 2011-04-27 Softmax Inc SYSTEM AND METHOD FOR GENERATING A SEPARATE SIGNAL
US20070244698A1 (en) 2006-04-18 2007-10-18 Dugger Jeffery D Response-select null steering circuit
JP2008057926A (ja) 2006-09-01 2008-03-13 Sanyo Electric Co Ltd タンクユニット
US20080175407A1 (en) 2007-01-23 2008-07-24 Fortemedia, Inc. System and method for calibrating phase and gain mismatches of an array microphone
JP2010519602A (ja) 2007-02-26 2010-06-03 クゥアルコム・インコーポレイテッド 信号分離のためのシステム、方法、および装置
US8160273B2 (en) 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1809105A (zh) * 2006-01-13 2006-07-26 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开平7-131886A 1995.05.19

Also Published As

Publication number Publication date
CN102047688A (zh) 2011-05-04
US20090299739A1 (en) 2009-12-03
WO2009149119A1 (en) 2009-12-10
EP2301258A1 (en) 2011-03-30
JP5329655B2 (ja) 2013-10-30
JP2011523836A (ja) 2011-08-18
TW201012244A (en) 2010-03-16
KR20110025677A (ko) 2011-03-10
KR101217970B1 (ko) 2013-01-02
US8321214B2 (en) 2012-11-27

Similar Documents

Publication Publication Date Title
CN102047688B (zh) 用于多通道信号平衡的系统、方法和设备
CN102461203B (zh) 用于对多信道信号进行基于相位的处理的系统、方法及设备
CN103026733B (zh) 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体
CN102763160B (zh) 用于稳健噪声降低的麦克风阵列子组选择
CN102947878B (zh) 用于音频均衡的系统、方法、装置和设备
CN103295579B (zh) 用于一致性检测的系统、方法和设备
CN102473405B (zh) 用于自适应主动噪声消除的系统、方法与设备
CN102893331B (zh) 用于使用头戴式麦克风对来处理语音信号的方法和设备
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
US20160078880A1 (en) Systems and Methods for Restoration of Speech Components
CN203242334U (zh) 用于电子系统的风抑制/替换部件
CN102047326A (zh) 用于频谱对比加强的系统、方法、设备及计算机程序产品
CN102884575A (zh) 话音活动检测
WO2012061145A1 (en) Systems, methods, and apparatus for voice activity detection
US20140365212A1 (en) Receiver Intelligibility Enhancement System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140625

Termination date: 20190602

CF01 Termination of patent right due to non-payment of annual fee