CN102907077B

CN102907077B - 用于移动装置的智能音频记录的系统和方法

Info

Publication number: CN102907077B
Application number: CN201180025888.9A
Authority: CN
Inventors: 太元·李; 哈立德·埃尔-马勒; 柳熙钟; 辛钟元
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-04-08
Filing date: 2011-04-08
Publication date: 2015-11-25
Anticipated expiration: 2031-04-08
Also published as: EP3035655A1; KR20120137436A; WO2011127457A1; EP2556652B1; US20150325267A1; PT3035655T; HUE028665T2; JP6689664B2; EP3917123C0; EP3438975A1; CN102907077A; US20210264947A1; CN105357371B; KR20140043845A; EP3438975B1; JP2014195275A; SI3035655T1; ES2877325T3; DK3035655T3; EP2556652A1

Abstract

本发明呈现一种能够自动开始和结束通过至少一个麦克风俘获的音频信号的录入的移动装置。所述移动装置能够基于所述音频输入信号的上下文信息来调整与音频记录相关的多个参数。

Description

用于移动装置的智能音频记录的系统和方法

相关申请案

本发明主张2010年4月8日申请的题目为“智能音频记录(SMARTAUDIOLOGGING)”的第61/322,176号美国临时申请案的优先权，所述临时申请案转让给本受让人且特此明确地以引用的方式并入本文中。

技术领域

本发明大体上涉及音频和语音信号俘获。更具体地说，本发明涉及能够基于音频上下文信息的分析来起始且/或终止音频和语音信号俘获操作或(可互换地说)记录操作的移动装置。

背景技术

由于专用集成电路(ASIC)的功率控制技术进步以及例如数字信号处理器(DSP)等移动处理器或微处理器的计算能力增加，越来越多的移动装置现在能够实现复杂得多的特征，所述特征归因于缺少所需要的计算能力或硬件(HW)支持而直到现在才被视为切实可行的。举例来说，最初开发移动台(MS)或移动电话以使得能够经由传统的基于电路的无线蜂窝式网络进行话音或语音通信。因此，原先设计MS以解决基本的话音应用，如话音压缩、声学回声消除(AEC)、噪声抑制(NS)和话音录入。

实施话音压缩算法的过程被称为声码，且实施设备被称为声码器或“语音译码器”。存在若干种标准化声码算法以支持需要语音通信的不同数字通信系统。第三代合作伙伴计划2(3GPP2)是实例标准化组织，其指定码分多址(CDMA)技术，例如IS-95、CDMA20001x无线电发射技术(1xRTT)和CDMA2000演进数据优化(EV-DO)通信系统。第三代合作伙伴计划(3GPP)是另一实例标准化组织，其指定全球移动通信系统(GSM)、通用移动电信系统(UMTS)、高速下行链路包接入(HSDPA)、高速上行链路包接入(HSUPA)、高速包接入演进(HSPA+)和长期演进(LTE)。因特网协议话音(VOIP)是在3GPP和3GPP2中所定义的通信系统以及其它系统中使用的实例协议。此类通信系统和协议中所采用的声码器的实例包括国际电信联盟(ITU)-TG.729、自适应性多速率(AMR)编解码器和增强型可变速率编解码器(EVRC)语音服务选项3、68和70。

话音录入是用以录入人类话音的应用。话音录入常常被可互换地称为话音记录或话音存储。话音录入允许用户将由一个或一个以上麦克风拾取的语音信号的某部分保存到存储器空间中。所保存的话音录入可稍后在同一装置中播放，或其可通过话音通信系统发射到不同装置。虽然话音录入器可录入一些音乐信号，但所录入的音乐的质量通常并不是极好的，因为话音录入器是针对人类声道所发出的语音特性来优化的。

音频录入或音频记录有时可与话音录入互换地使用，但其有时被理解成用以录入包括人类话音、乐器和音乐在内的任何可听声音的不同应用，因为其能够俘获频率比人类声道所产生的信号高的信号。在本申请案的上下文中，“音频记录”或“音频录入”术语将广泛地用以指代话音录入或音频录入。

音频记录使得能够录入通常由一个或一个以上移动装置中的一个或一个以上麦克风拾取的所关注的音频信号的全部或一些部分。音频记录有时被可互换地称为音频录入或音频备忘录。

发明内容

本文献描述一种针对移动装置处理数字音频信号的方法。所述方法包括：通过至少一个麦克风接收声学信号；将所述所接收的声学信号转换为所述数字音频信号；从所述数字音频信号提取至少一个听觉上下文信息；响应于自动检测到开始事件指示符，针对所述数字音频信号执行音频记录；以及响应于自动检测到结束事件指示符，结束所述音频记录。此至少一个听觉上下文信息可与音频分类、关键词识别或说话者识别相关。此至少一个听觉上下文信息可至少部分基于信号能量、信噪比、频谱倾斜或过零率。此至少一个听觉上下文信息可至少部分基于非听觉信息，例如日程安排信息或日历信息。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种针对移动装置处理数字音频信号的方法。所述方法包括：通过至少一个麦克风接收声学信号；将所述所接收的声学信号变换为电信号；基于用于每一经取样数据的取样频率和数据宽度来取样所述电信号以获得所述数字音频信号；将所述数字音频信号存储到缓冲器中；从所述数字音频信号提取至少一个听觉上下文信息；响应于自动检测到开始事件指示符，针对所述数字音频信号执行音频记录；以及响应于自动检测到结束事件指示符，结束所述音频记录。此检测所述开始或结束事件指示符可至少部分基于非听觉信息，例如日程安排信息或日历信息。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种检测开始事件指示符的方法。此方法包括从所述至少一个听觉上下文信息选择至少一个上下文信息；将所述选定上下文信息与至少一个预定阈值进行比较；以及基于所述将所述选定上下文信息与至少一个预定阈值进行比较来确定是否已检测到所述开始事件指示符。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种检测结束事件指示符的方法。此方法包括：从所述至少一个听觉上下文信息选择至少一个上下文信息；将所述选定上下文信息与至少一个预定阈值进行比较；以及基于所述将所述选定上下文信息与至少一个预定阈值进行比较来确定是否已检测到所述结束事件指示符。此检测结束事件指示符可至少部分基于在预定时间周期期间不出现听觉事件。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种执行音频记录的方法。此方法包括：至少部分基于所述至少一个听觉上下文信息来更新与所述转换相关的至少一个参数；响应于至少部分基于所述至少一个听觉上下文信息来确定是否需要额外处理，将所述额外处理应用于所述数字音频信号以获得经处理的音频信号；以及将所述经处理的音频信号存储到存储器存储装置中。所述额外处理可为信号增强处理，例如声学回声消除(AEC)、接收话音增强(RVE)、主动噪声消除(ANC)、噪声抑制(NS)、声学增益控制(AGC)、声学音量控制(AVC)或声学动态范围控制(ADRC)。所述噪声抑制可基于基于单个麦克风或多个麦克风的解决方案。所述额外处理可为信号压缩处理，例如语音压缩或音频压缩。可基于听觉上下文信息来确定例如压缩模式、位率或通道数目等压缩参数。所述存储器存储装置包括在所述移动装置内部的本地存储器或通过无线信道连接到所述移动装置的远程存储器。本地存储器与远程存储器之间的选择可至少部分基于所述听觉上下文信息。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种用于移动装置的方法，其包括：自动检测开始事件指示符；响应于检测到开始事件指示符而处理音频输入信号的第一部分以获得第一信息；基于所述第一信息来确定至少一个录入参数；以及基于所述所确定的至少一个录入参数来重新配置所述移动装置的音频俘获单元。此重新配置可出现在所述音频输入信号的不活动部分期间。此至少一个录入参数包括指示用于所述移动装置的A/D转换器的取样频率或数据宽度的信息。此至少一个录入参数包括指示所述移动装置的活动麦克风的数目的信息或指示至少一个麦克风的唤醒时间间隔或活动持续时间的定时信息。此第一信息可为描述其中所述移动装置正在进行录入的环境或所述音频输入信号的特性的上下文信息。此开始事件指示符可基于经由无线信道发射的信号。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种用于移动装置的方法，其包括：自动检测开始事件指示符；响应于检测到开始事件指示符而处理音频输入信号的第一部分以获得第一信息；基于所述第一信息来确定至少一个录入参数；基于所述所确定的至少一个录入参数来重新配置所述移动装置的音频俘获单元；处理所述音频输入信号的第二部分以获得第二信息；通过抑制背景噪声来增强所述音频输入信号以获得经增强的信号；编码所述经增强的信号以获得经编码的信号；以及将所述经编码的信号存储在所述移动装置内的本地存储装置处。此编码所述经增强的信号包括：基于所述第二信息来确定编码类型；确定用于所述所确定的编码的至少一个编码参数；以及基于所述所确定的编码类型和所述所确定的至少一个编码参数来处理所述经增强的信号以获得所述经编码的信号。此处，此至少一个编码参数包括位率或编码模式。另外，此方法可包括基于所述第二信息来确定所述增强所述音频输入信号的程度。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

本文献还描述一种用于移动装置的方法，其包括：自动检测开始事件指示符；响应于检测到开始事件指示符而处理音频输入信号的第一部分以获得第一信息；基于所述第一信息来确定至少一个录入参数；基于所述所确定的至少一个录入参数来重新配置所述移动装置的音频俘获单元；处理所述音频输入信号的第二部分以获得第二信息；通过抑制背景噪声来增强所述音频输入信号以获得经增强的信号；编码所述经增强的信号以获得经编码的信号；以及将所述经编码的信号存储在所述移动装置内的本地存储装置处。另外，此方法可包括：自动检测结束事件指示符；以及响应于检测到结束事件指示符，在所述移动装置内的所述本地存储装置与通过无线信道连接到所述移动装置的网络存储装置之间确定用于所述经编码的信号的长期存储位置。此确定所述长期存储位置可基于所述经编码的信号的优先级。本文献还描述与此方法相关的设备、装置组合和计算机可读媒体。

附图说明

通过结合附图参看以下详细描述将更容易明白本文中所描述的实施例的方面和伴随优点，其中：

图1A为说明智能音频记录系统的概念的图。

图1B为说明智能音频记录系统的概念的另一图。

图1C为说明常规音频记录系统的概念的图。

图2为智能音频记录系统的示范性实施例的图。

图3为输出处理单元240的实施例的图。

图4为输入处理单元250的实施例的图。

图5为音频记录处理器230的实施例的图。

图6为说明上下文信息S600的实例的图。

图7为上下文识别器560的实施例的图。

图8为上下文识别器560和上下文信息S600的示范性实施例的图。

图9A为单等级开始事件指示符的产生机制的实施例。

图9B为单等级开始事件指示符的产生机制的另一实施例。

图10为结束事件指示符的产生机制的实施例。

图11为说明音频记录处理器230状态及其转变的第一示范性实施例的图。

图12为说明音频记录处理器230状态及其转变的第二示范性实施例的图。

图13为在被动音频监视状态S1或音频监视状态S4期间的音频俘获单元215的实施例的流程图。

图14为用于在被动音频监视状态S1或音频监视状态S4期间将数字音频输入存储到音频俘获单元215处的缓冲器220的实例的图。

图15为在被动音频监视状态S1期间的音频记录处理器230的实施例的流程图。

图16为在主动音频监视状态S2期间的音频俘获单元215的实施例的流程图。

图17为用于在主动音频监视状态S2期间将数字音频输入存储到音频俘获单元215处的缓冲器220的实例的图。

图18为在主动音频监视状态S2期间的音频记录处理器230的实施例的流程图。

图19为在主动音频监视状态S2期间的在音频记录处理器230处的上下文识别实施例的实例的图。

图20为在活动音频记录状态S3或S5期间的音频俘获单元215的实施例的流程图。

图21为在活动音频记录状态S3期间的音频记录处理器230的实施例的流程图。

图22为在音频监视状态S4期间的音频记录处理器230的实施例的流程图。

图23为在活动音频记录状态S5期间的音频记录处理器230的实施例的流程图。

图24为在活动音频记录状态S3或S5期间的核心音频记录模块的实施例的流程图。

图25为单个麦克风开启和关闭控制的实施例的图。

图26为单个麦克风开启和关闭控制的第一实施例的图。

图27为单个麦克风开启和关闭控制的第二实施例的图。

图28为多个麦克风开启和关闭控制的第一实施例的图。

图29为多个麦克风开启和关闭控制的第二实施例的图。

图30为活动麦克风数目控制的实施例的图。

图31为存储位置选择的实施例的图，其中所述选择可根据预定义的上下文信息S600优先级来控制。

图32为存储位置选择的实施例的图，其中所述选择可在活动音频记录状态S3或S5期间根据上下文信息S600优先级来动态地控制。

图33为存储装置期满时间设置的实施例的图，其中期满时间可根据预定义的上下文信息S600优先级来控制；

图34为智能音频记录系统内的块的逐阶段加电的实施例的图，其中可根据每一状态来动态地控制活动块的数目及其总功率消耗。

图35为A/D转换器精确度控制的实施例的图，其中精确度可关于每一预定状态来配置或根据上下文信息S600来动态地控制。

图36为音频输入信号增强控制的实施例的图，其中增强可根据上下文信息S600来动态地配置。

图37为音频压缩参数控制的实施例的图，其中压缩可根据上下文信息S600来动态地配置。

图38为压缩译码格式选择的实施例的图，其中压缩译码格式选择或其缺乏可根据上下文信息S600来动态地配置。

具体实施方式

将参看附图较好地理解本申请案。

除非由其上下文明确地限制，否则本文中使用术语“信号”来指示其普通意义中的任一者，包括在电线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确地限制，否则本文中使用术语“产生”来指示其普通意义中的任一者，例如计算或以另外方式产生。除非由其上下文明确地限制，否则本文中使用术语“计算”来指示其普通意义中的任一者，例如计算、评估和/或从值集合中选择。除非由其上下文明确地限制，否则使用术语“获得”来指示其普通意义中的任一者，例如计算、导出、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。在术语“包含”用于本描述及权利要求书中的情况下，其不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者，包括以下情况：(i)“基于至少”(例如，“A基于至少B”)；以及如果在特定上下文中恰当的话，(ii)“等于”(例如，“A等于B”)。

除非另有指示，否则对具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。除非另有指示，否则术语“上下文”(或“音频上下文”)用以指示音频或语音的分量且传达来自说话者的周围环境的信息，且术语“噪声”用以指示音频或语音信号中的任何其它假影。

图1A为说明智能音频记录系统的概念的图。移动装置中的一个或一个以上麦克风可经配置以在移动装置处于闲置模式时连续地或周期性地接收声学信号。所接收的声学信号可由模/数(A/D)转换器转换为数字音频信号。此转换可包括将所接收的声学信号变换为一般具有模拟或连续形式的电信号，取样或量化所述电信号以产生数字音频信号。数字音频信号的数目和大小可取决于每一数字音频样本的取样频率和数据宽度。此数字音频信号可经配置以暂时存储在存储器或缓冲器中。此数字音频信号可经处理以提取有意义的信息。此信息通常被称为“上下文信息S600”或可互换地称为“听觉上下文信息”。上下文信息可包括关于其中移动装置正在进行录入的环境和由至少一个麦克风接收的音频输入信号的特性的信息。将在后续揭示内容中呈现对上下文信息S600的详细描述。

智能音频记录系统可经配置以执行音频记录的智能开始115或智能结束150。与其中用户手动地起始或结束音频信号的录入的常规音频记录系统相比，智能音频记录系统可经配置以通过自动地检测开始事件指示符或结束事件指示符来开始或结束音频记录。这些指示符可基于：从音频信号导出的上下文信息；位于移动装置内或通过有线或无线网络连接而连接到移动装置的数据库；非声学传感器；或甚至来自其它智能音频记录装置的信令。或者，这些指示符可经配置以还包括用户的话音命令或按键命令。在一个实施例中，结束事件指示符可经配置以基于在预定时间周期期间不出现听觉事件。开始事件指示符和结束事件指示符的检测可包括以下步骤：从至少一个听觉上下文信息中选出至少一个特定上下文信息；将选定上下文信息与至少一个预定阈值进行比较；以及基于所述比较来确定是否已检测到开始或结束事件指示符。

智能音频记录系统可经配置以包含多个智能子块或(可互换地)智能构建块，其至少部分地基于至少一个听觉上下文信息。智能构建块可特征在于，与其中配置或操作模式可预先确定或在操作期间静态地确定的常规音频记录相反，其能够在音频记录过程期间动态地配置其自身的操作模式或功能参数。

举例来说，在智能音频记录的一个实施例中，图1A的智能麦克风控制块120可经配置以在音频记录过程期间基于上下文信息S600来动态地调整活动麦克风的数目或至少一个麦克风的开启/关闭时序控制。在另一实施例中，图1A的智能A/D转换器块125可经配置以基于上下文信息S600来动态地调整其自身的操作参数。此类参数可包括基于上下文信息S600的从至少一个麦克风俘获的音频信号的取样频率或所俘获的数字音频样本的数据宽度。这些参数可被称为“录入参数”，因为这些参数的选择将影响所录入的音频记录的质量或大小。这些参数可经配置以在音频输入信号的不活动部分期间重新配置或切换以将对音频质量的影响减到最小。音频输入信号的不活动部分仍可能包括某种等级的最小音频活动。但一般来说，“不活动部分”意指音频输入信号的没有活动以及活动相对较少的部分。

在另一实施例中，图1A的智能音频增强块130可经配置以基于上下文信息S600来动态地选择音频信号增强是否为必要的，且在此情况下选择应执行什么类型的信号增强。智能音频增强块130可经配置以基于上下文信息S600来选择信号增强等级的程度，例如积极增强或较不积极增强。信号增强可经配置以基于单个麦克风或多个麦克风。图1A的智能音频压缩块135可经配置以基于上下文信息S600来动态地选择待使用的译码格式的类型或其译码参数，例如压缩模式、位率或音频/语音通道数目。随后将呈现智能子块的动态配置特征的较详细描述和实例。图1A的智能音频保存到存储装置块145可经配置以基于上下文信息S600来选择其中将存储所俘获的音频记录的位置。所述选择可在移动装置的本地存储器与通过有线或无线信道连接到移动装置的远程存储器之间进行。智能音频保存到存储装置块145可经配置以在音频记录过程期间默认地将数字音频信号存储在本地存储器中且接着随后在本地存储装置与网络存储装置之间确定长期存储位置。

应注意，图1A中所揭示的智能构建块120、125、130、135、145及其次序仅用于示范性目的，且因而对于所属领域的技术人员来说应明显的是，可在本申请案的范围内重新排列、组合或甚至完全地或部分地省略一些构建块。举例来说，在根据本申请案的一个实施例中，智能音频增强块130可被省略或用传统的音频增强块替换，在传统的音频增强块中根据上下文信息S600来动态地重新配置其自身的操作模式的能力是不可用的。同样，智能音频压缩块135可被省略或由常规的音频压缩来替换。

智能音频记录系统还可指代可经配置以使用一些现存的常规音频记录系统和一些智能构建块或智能记录开始/结束特征的组合的系统，如其在图1B中呈现。相比之下，图1C为说明常规音频记录系统的概念的图，其中既不包括智能音频记录开始/结束特征，也不包括智能构建块中的任一者。

图1B展示智能音频记录系统的三个不同示范性概念配置。配置1呈现其中实施智能开始/结束音频记录特征165和智能构建块175两者的系统。因此，具有配置1的系统被视为最高级的智能音频记录系统。配置2展示可经配置以用常规音频记录开始/结束特征160替换配置1的智能音频记录开始/结束165特征的系统。在替代性实施方案中，配置3展示可经配置以用常规构建块170置换配置1的智能构建块175的系统。

图2为智能音频记录系统的示范性实施例。包含麦克风单元200和A/D转换器210的音频俘获单元215为智能音频记录系统的前端。麦克风单元200包含至少一个麦克风，其可经配置以拾取或接收声学音频信号并将其变换为电信号。A/D转换器210将所述音频信号转换为离散数字信号。在另一实施例中，在麦克风单元200内部的至少一个麦克风可为数字麦克风。在此情况下，A/D转换步骤可经配置以被省略。

听觉事件S210通常指代音频信号或尤其指代用户所关注的音频信号。举例来说，听觉事件S210可包括但不限于存在语音信号、音乐、特定背景噪声特性或特定关键词。听觉事件S210在此项技术中常常被称为“听觉场景”。

音频俘获单元215可包括至少一个麦克风或至少一个A/D转换器。至少一个麦克风或至少一个A/D转换器可能已成为常规音频记录系统的一部分，且可仅在移动装置的活动使用期间被加电。举例来说，常规系统中的传统音频俘获单元可经配置以仅在整个话音呼叫或整个视频录入期间响应于用户对发出或接收呼叫的选择或按压视频录入开始按钮来被加电。

然而，在本申请案中，音频俘获单元215可经配置以除了在话音呼叫期间或在执行可能需要至少一个麦克风的活动使用的任何其它应用程序期间之外，甚至在移动装置的闲置模式期间，也间歇地唤醒或加电。音频俘获单元215可甚至经配置以保持加电，从而连续地拾取音频信号。此方法可被称为“始终开启”。所拾取的音频信号S260可经配置以用离散形式存储于缓冲器220中。

本文中所描述的移动装置的“闲置模式”通常指代其中移动装置不在响应于用户的手动输入而活动地运行任何应用程序的状态，除非另有指定。举例来说，典型的移动装置甚至在没有用户选择的情况下周期性地向一个或一个以上基站发送信号或从一个或一个以上基站接收信号。在本申请案的范围内，移动装置执行这种类型的活动的状态被视为闲置模式。当用户正活跃地使用他或她的移动装置参与话音通信或视频录入时，这不被视为闲置模式。

缓冲器220在由音频记录处理器230处理数字音频数据之前暂时存储数字音频数据。缓冲器220可为任何物理存储器，且尽管其归因于从音频俘获单元215的较快存取优点和相对较小所需存储器占据面积而优选位于移动装置内，但缓冲器220也可经由无线或有线网络连接位于移动装置的外部。在另一实施例中，所拾取的音频信号S260可经配置以直接连接到音频记录处理器230而不被暂时存储在缓冲器220中。在此情况下，所拾取的音频信号S260可等同于音频输入S270。

音频记录处理器230为智能音频记录系统的主要处理单元。其可经配置以关于何时开始或结束记录或如何配置智能构建块做出各种决策。其可进一步经配置以控制邻近块，与输入处理单元250或输出处理单元240介接，确定智能音频记录系统的内部状态，且存取辅助数据单元280或数据库。在图5中呈现音频记录处理器230的实施例的一个实例。音频记录处理器230可经配置以读取存储在缓冲器中的离散音频输入数据。接着可处理音频输入数据以提取上下文信息S600，所述上下文信息S600接着可存储在位于音频记录处理器230内部或外部的存储器中。结合图6和图7的描述来呈现上下文信息S600的较详细描述。

辅助数据单元280可包括各种数据库或应用程序，且其可经配置以提供可部分地或完全地由音频记录处理器230使用的额外信息。在一个实施例中，辅助数据单元280可包括装备有智能音频记录特征的移动装置的拥有者的日程安排信息。在此情况下，举例来说，日程安排信息可包括以下细节：“下一个商业会议的时间和/或持续时间”、“受邀出席者”、“会议地点的位置”或“会议主题”，仅举几例。在一个实施例中，日程安排信息可从例如微软Outlook(MicrosoftOutlook)等日历应用程序或任何其它市售日历应用程序获得。在从辅助数据单元280接收或主动地检索这些类型的细节后，音频记录处理器230可经配置以优选地结合从存储在缓冲器220中的离散音频输入数据提取的上下文信息S600来根据所述细节做出关于何时开始或停止音频记录的决策。

存储装置通常指代所述系统中的经设计以存储来自音频记录处理器230的经处理音频记录的一个或一个以上存储器位置。存储装置可经配置以包含在移动装置内部本地可用的本地存储装置270或经由有线或无线通信信道远程连接到移动装置的远程存储装置290。音频记录处理器230可经配置以在本地存储装置270与远程存储装置290之间选择何处存储经处理的音频记录。可根据各种因素进行存储装置选择，所述因素可包括但不限于上下文信息S600、音频记录的估计大小、可用存储器大小、网络速度、网络的等待时间或上下文信息S600的优先级。存储装置选择可甚至经配置以在必要时在活动音频记录过程期间动态地在本地存储装置270与远程存储装置290之间切换。

图3为输出处理单元240的实施例的实例图。输出处理单元240可经配置以将从音频记录处理器230产生的输出信号S230传递到例如扬声器、显示器、触觉装置或外部智能音频记录装置等各种外围装置。触觉装置允许所述系统基于触觉反馈机制来提供高级用户体验。其可通过向用户施加力、振动和/或运动来利用用户的触觉。所述智能音频记录系统可将输出信号S230通过输出处理单元240发射到另一至少一个智能音频记录系统。输出信号的发射可经由无线信道进行，且可使用优选地例如GSM、UMTS、HSPA+、CDMA、Wi-Fi、LTE、VOIP或WiMax等各种无线通信协议。输出处理单元240可经配置以包括多路分用器(De-Mux)310，其可将输出信号S230选择性地分配给适当外围装置。音频输出产生器315在由多路分用器310选择的情况下根据输出信号S230产生用于扬声器或头戴式耳机的音频信号。显示输出产生器320在由多路分用器310选择的情况下根据输出信号S230产生用于显示装置的视频信号。触觉输出产生器330在由多路分用器310选择的情况下产生用于触觉装置的触觉信号。发射器在由多路分用器310选择的情况下产生准备好用于发射到包括其它智能音频记录系统的外部装置的经处理信号。

图4为输入处理单元250的实施例的实例图。在此实例中，输入处理单元250处理各种类型的输入且产生可选择性地通过多路复用器(Mux)410传送到音频记录处理器230的输入信号S220。输入可包括但不限于用户的话音或按键命令、来自例如相机、定时器、GPS、接近传感器、陀螺仪、环境传感器、加速计等非声学传感器的信号。所述输入可从另一至少一个智能音频记录系统发射。所述输入可因此在被发送到音频记录处理器230之前由例如话音命令处理器420、按键命令处理器430、定时器接口440、接收器450或传感器接口460等各种模块进行处理。

图5为音频记录处理器230的实施例的示范性图。音频记录处理器230为智能音频记录系统的主要计算引擎，且可实际上用至少一个微处理器或用至少一个数字信号处理器或用其任何组合来实施。或者，音频记录处理器230的一些或全部模块可以硬件来实施。如图5所示，音频记录处理器230可包含多个专用于特定操作的模块以及称为“一般音频信号处理器595”的较一般模块。

听觉活动检测器510模块或“音频检测器”可检测来自音频输入S270的音频活动的等级。音频活动可经定义为二元分类(例如活动或不活动)或在必要时定义为较多等级的分类。可使用用以确定音频输入S270的音频等级的各种方法。举例来说，听觉活动检测器510可基于信号能量、信噪比(SNR)、周期性、频谱倾斜和/或过零率。但优选的是使用相对简单的解决方案以便将计算复杂度维持得尽可能地低，这又帮助延长电池寿命。音频质量增强器520模块可通过以下方式来改进音频输入S270的质量：通过主动地或被动地抑制背景噪声；通过消除声学回声；通过调整输入增益；或通过改进会话语音信号的音频输入S270的可懂度。

辅助信号分析器530模块可分析来自辅助数据单元280的辅助信号。举例来说，辅助信号可包括例如日历程序或电子邮件客户端程序等日程安排程序。其还可包括例如词典等额外数据库、雇员简档或从第三方来源或训练数据获得的各种音频和语音参数。输入信号处置器540模块可检测、处理或分析来自输入处理单元250的输入信号S220。输出信号处置器590模块可因此向输出处理单元240产生输出信号S230。

控制信号处置器550处置可施加到智能音频记录系统的外围单元的各种控制信号。在图5中出于示范性目的揭示控制信号的两个实例，即A/D转换器控制S215和麦克风单元控制S205。开始事件管理器570可经配置以处置、检测或产生开始事件指示符。开始事件指示符为指示智能音频记录可准备好开始的旗标或信号。在音频记录处理器230的操作是基于状态机的情况下，可能需要使用开始事件指示符来使音频记录处理器230切换其内部状态。对于所属领域的技术人员来说应明显的是，开始事件指示符为用于理解音频记录处理器230的操作的概念旗标或信号。在一个实施例中，其可在软件实施方案中使用一个或一个以上变量来实施或在硬件设计中使用一个或一个以上硬连线信号来实施。开始事件指示符可为单等级，其中在满足一个或一个以上条件时触发开始事件指示符S910，或可为多等级，其中在全部触发一个以上等级的开始事件指示符时起始触发实际智能音频记录。

一般音频信号处理器595为用于处置未在本申请案中明确地呈现但对于成功实施仍必要的所有其它基本音频和语音信号处理方法的多用途模块。举例来说，这些信号处理方法可包括但不限于时间/频率或频率/时间转换、杂项滤波、信号增益调整或动态范围控制。应注意，仅出于音频记录处理器230的功能描述的说明目的来提供图5中分开揭示的每一模块。在一个实施例中，一些模块可组合为单个模块，或一些模块可在系统的现实实施方案中更进一步划分为较小模块。在另一实施例中，图5中所揭示的所有模块可集成为单个模块。

图6为说明上下文信息S600的实例的图。除非另有指示，否则术语“上下文”(或“上下文信息S600”)指代：用户的信息，例如识别、情绪、习惯、生物条件或参与活动；物理环境，例如绝对或相对位置；关于例如关键词或类别识别等内容的信息；或社会环境，例如社会互动或商业活动。图7为上下文识别器560的实施例的图。上下文识别器560为音频记录处理器230的一部分，且从音频输入S270提取上下文信息S600。在一个实施例中，上下文识别器560可经配置以在专用硬件引擎上或在数字信号处理器上实施。

图8为上下文识别器560和上下文信息S600的示范性实施例的图。关键词识别器分析音频输入S270且从会话语音内容中辨识出重要关键词。辨识过程可基于例如字典等辅助数据库或存储一个或一个以上词汇的查找表。音乐/语音检测器可经配置以基于输入信号的特性来将音频输入S270信号分类为一个以上种类。所述检测可基于音频或语音参数的识别和所识别的音频或语音参数与一个或一个以上阈值的比较。在本申请案的范围内，分类可被可互换地视为检测。

音乐/语音检测器820还可经配置以将输入信号分类为多等级分类。举例来说，在音乐/语音检测器820的一个实施例中，其可将输入信号分类为第一等级分类，例如“音乐”或“语音”或“音乐+语音”。随后，其可进一步针对在第一等级分类阶段处经分类为“音乐”的信号确定第二等级分类，例如“摇滚”、“通俗”或“古典”。以相同方式，其还可针对在第一等级分类阶段处经分类为“语音”的信号确定第二等级分类，例如“商业会话”、“私人会话”或“讲演”。

说话者识别器830可经配置以针对语音信号输入检测说话者的识别。说话者识别过程可基于输入语音信号的特性，例如信号或帧能量、信噪比(SNR)、周期性、频谱倾斜和/或过零率。说话者识别器830可经配置以识别简单分类，例如“男性说话者”或“女性说话者”；或识别较复杂信息，例如说话者的名字或头衔。识别说话者的名字或头衔可能需要外延计算复杂度。当说话者识别器830出于各种原因而必须搜索大量语音样本时，这变得更具挑战性。

举例来说，假设以下设想情形。公司X具有总共15,000位雇员，且用户Y必须每天使用其装备有智能音频记录特征的移动装置参加一系列工作相关的音频会议。用户Y想要在多个说话者(公司X的雇员)参与会话时实时地识别说话者。第一，首先可能无法针对所有雇员得到语音样本或从语音样本提取的语音特性。第二，即使其已经在本地存储器中或在经由无线信道连接的远程服务器侧处可用，在移动装置处实时地搜索所述大量语音样本仍可为极具挑战性的。第三，即使搜索可在远程服务器侧处进行且服务器的计算能力可显著高于移动装置的计算能力，考虑到接收/发射传输等待时间，实时处理仍可为具挑战性的。如果可从辅助数据库得到额外信息，那么这些问题可变为易处理的。举例来说，如果可从日历程序得到会议参与者列表，那么说话者识别器可有效地通过缩小搜索空间来显著减小待搜索人员的数目。

环境检测器850可经配置以基于输入语音信号的一个或一个以上特性(例如帧能量、信噪比(SNR)、周期性、频谱倾斜和/或过零率)来识别听觉场景。举例来说，其可将当前输入信号的环境识别为“办公室”、“小汽车”、“餐馆”、“地铁”、“棒球场”等。

噪声分类器840可经配置以分类音频输入S270的背景噪声的特性。举例来说，其可将背景噪声识别为“平稳与不平稳”、“街道噪声”、“飞机噪声”或其组合。其可基于背景噪声的严重性等级(例如“严重”或“中等”)来分类背景噪声。噪声分类器840可经配置以在单状态处理或多阶段处理中分类输入。

情绪检测器850可经配置以检测会话语音的说话者的情绪或音乐内容的情感方面。音乐由多个引起关注的声学参数组成。举例来说，音乐可包括节奏、乐器、音调、声乐、音色、音符和歌词。这些参数可用以针对一个或一个以上情绪种类(例如愉快、愤怒、害怕、胜利、焦虑或沮丧)检测或估计说话者的情绪。参与活动检测器870可经配置以基于音频输入S270的特性来检测说话者的活动。举例来说，其可检测说话者正在“谈话”、“跑步”、“行走”、“做运动”、“上课”或“购物”。所述检测可基于语音参数和/或音乐信号参数。所述检测还可经配置以从辅助数据单元280或图8中的其它模块获得补充信息。举例来说，情绪检测器850可经配置以使用来自环境检测器860、噪声分类器840或图8中所揭示的模块的任何其它组合的信息。

图9A和图9B分别为单等级和多等级开始事件指示符的产生机制的示范性实施例的图。单等级开始事件指示符对于相对简单的开始机制实施例来说为合乎需要的，而多等级开始事件指示符对于相当复杂的开始机制实施例来说为合乎需要的，借此较积极的逐阶段加电方案对于有效的功率消耗来说为合乎需要的。开始事件管理器570可经配置以根据来自听觉活动检测器510、辅助信号分析器530或输入信号处置器540的输出或内部触发信号的任何组合来产生开始事件指示符S910。举例来说，听觉活动检测器510可经配置以在检测到一个或一个以上引起关注的听觉事件或活动时基于音频输入S270的活动来产生内部触发信号。

辅助信号分析器530还可根据用户的日历程序的日程安排来产生内部触发信号。用户想要录入的特定会议可自动地产生内部触发信号而无需来自所述用户的任何手动干预。或者，辅助信号分析器530可经配置以基于会议的显式或隐含优先级来决定此类决策。可从除了音频输入S270或辅助信号的分析之外的输入来起始内部触发信号的产生。此类输入可包括：用户的话音或手动按键控制；定时器；来自例如相机、定时器、GPS、接近传感器、陀螺仪、环境传感器或加速计等非声学传感器的信号；或从另一至少一个智能音频记录系统发射的信号。组合逻辑900可经配置以基于内部触发信号的某些组合机制来产生开始事件指示符S910。举例来说，组合逻辑可经配置以根据来自听觉活动检测器510、辅助信号分析器530或输入信号处置器540的内部触发信号的“或”运算或“与”运算来产生开始事件指示符S910。在另一实施例中，其可经配置以在已经设置或触发一个或一个以上内部触发信号时产生开始事件指示符S910。

返回参看图9B，开始事件管理器570可经配置以在开始实际记录之前产生第一等级开始事件指示符S920且接着产生第二等级开始事件指示符S930。本文中所揭示的多等级开始事件指示符机制可优选通过依赖于一个以上等级的指示符来确定音频记录的较精确开始点。多等级开始事件指示符的示范性实施方案可经配置以针对第一等级开始事件指示符S920采用相对简单且低复杂性的决策机制且针对第二等级开始事件指示符S930采用高级且高复杂性的决策机制。在一个实施例中，第一等级开始事件指示符S920的产生可经配置以大致上类似于图9A中的开始事件指示符S910的产生的方法。与图9A相反，音频记录处理器230在触发第一等级开始事件指示符S920后并不即刻开始实际记录，而是代替地，其可优选地基于音频输入S270的进一步深入分析来对触发第二等级开始事件指示符S930信号所必要的额外模块进行唤醒或(可互换地说)加电。这些模块可包括上下文识别器560和上下文评估逻辑950。上下文识别器560接着将根据图8中所揭示的方法来分析音频输入S270，且可检测或识别多个可由上下文评估逻辑950评估的上下文信息S600。上下文评估逻辑950可经配置以根据各种内部决策方法来触发第二等级开始事件指示符S930。举例来说，此类方法可包括针对图8中所揭示的子模块中的一些或全部的输出来计算优先级的加权总和以及将所述加权总和与一个或一个以上阈值进行比较。应注意，上下文评估逻辑950可用软件或硬件来实施，或其可实施为图8中的一般音频信号处理器595的一部分。

图10为结束事件指示符产生机制的实施例。结束事件指示符S940可由结束事件管理器580根据来自听觉活动检测器510、辅助信号分析器530或输入信号处置器540的输出或内部触发信号的任何组合来产生。图10中的模块的操作大致上类似于图9A或图9B中所解释的方法，但来自每一模块的内部触发信号通常在每一模块检测到用以停止实际记录的指示或用以从其当前操作模式切换到功率有效模式的指示时被触发。举例来说，听觉活动检测器510可在音频输入S270的音频活动相比之下变得显著减少时触发其内部触发信号，或类似地，辅助信号分析器530可在会议已达到其安排结束时间时触发其内部触发信号。组合逻辑900可经配置以基于内部触发信号的某些组合机制来产生结束事件指示符S940。举例来说，其可经配置以根据(例如)来自听觉活动检测器510、辅助信号分析器530或输入信号处置器540的内部触发信号的“或”运算或“与”运算来产生结束事件指示符S940。在另一实施例中，其可经配置以在已经设置或触发一个或一个以上内部触发信号时产生结束事件指示符S940。

图11为说明用于多等级开始事件指示符系统的音频记录处理器230的内部状态及其转变的第一示范性实施例的图。智能音频记录的启动时的默认状态可为被动音频监视状态S1，在其期间包含智能音频记录特征的移动装置大致上等效于典型的闲置模式状态。在被动音频监视状态S1期间，关键的是将功率消耗减到最小，因为在统计上移动装置大多数时间处于此状态。因此，除了检测音频输入S270的活动所需的几个模块之外，智能音频记录系统的大多数模块可经配置以保持处于休眠状态或任何其它功率节省模式。举例来说，这几个例外模块可包括音频俘获单元215、缓冲器220或听觉活动检测器510。在一个实施例中，这些模块可经配置以一直开启或可经配置以间歇地唤醒。

所述状态可在触发第一等级开始事件指示符S920后即刻从被动音频监视状态S1改变为主动音频监视状态S2。在主动音频监视状态S2期间，智能音频记录系统可经配置以唤醒一个或一个以上额外模块，例如上下文识别器560或上下文评估逻辑950。这些额外模块可用以提供音频输入S270信号的深入监视和分析以根据图9B中所呈现的描述来确定是否需要触发第二等级开始事件指示符S930。如果最终触发第二等级开始事件指示符S930，那么系统转变到活动音频记录状态S3，在其期间随后将进行实际音频记录。将在以下段落中呈现每一状态中的示范性操作的详细描述。如果在主动音频监视状态S2期间触发结束事件指示符S940，那么系统可经配置以将在所述状态期间已被加电的额外模块置于休眠模式且将所述状态切换回到被动音频监视状态S1。以类似方式，如果在活动音频记录状态S3期间触发结束事件指示符S940，那么系统可经配置以停止音频记录且将所述状态切换回到被动音频监视状态S1。

图12为说明用于单等级开始事件指示符系统的音频记录处理器230的内部状态及其转变的第二示范性实施例的图。此处的实施例比图11中所揭示的实施例简单，因为仅存在两个可用的操作状态。智能音频记录的启动时的默认状态可为音频监视状态S1，在其期间包含智能音频记录特征的移动装置大致上等效于典型的闲置模式状态。在音频监视状态S4期间，优选的是使功率消耗减到最小，因为在统计上移动装置大多数时间处于此状态。因此，除了检测音频输入S270的活动最低程度所需的几个模块之外，智能音频记录系统的大多数模块可经配置以保持处于休眠状态或任何其它功率节省模式。举例来说，所述几个例外模块可包括音频俘获单元215、缓冲器220或听觉活动检测器510。在一个实施例中，这些模块可经配置以一直开启或可经配置以间歇地唤醒。

所述状态可在触发开始事件指示符S910后即刻从音频监视状态S4改变为活动音频记录状态S5。在活动音频记录状态S5期间，将随后进行实际音频记录。将在以下段落中呈现每一状态中的典型操作的详细描述。如果在活动音频记录状态S5期间触发结束事件指示符S940，那么所述系统可经配置以停止音频记录且将所述状态切换回到音频监视状态S4。

图13为在图11的被动音频监视状态S1或图12的音频监视状态S4期间的音频俘获单元215的实施例的流程图。最初假设包含智能音频记录特征的移动装置处于闲置模式。图13中呈现两个时间间隔。T₁表示麦克风唤醒时间间隔，且T2表示麦克风保持开启的持续时间。此处所呈现的流程图仅用于示范性目的，且对于所属领域的技术人员来说应明显的是，所述流程图中的一些框可在本申请案的范围内可互换地重新排列。举例来说，在一个实施例中，图13中的专用于设置A/D转换器的框1315、1320可经配置以在开启麦克风和/或A/D转换器的框1330之后进行处理。在此情况下，框1315、1320可经配置以在每个T₁时间间隔处而非仅在操作开始时一次性运行。

另外，图13揭示对于智能音频记录实施方案为基本的若干重要概念。A/D转换器可经编程以在取样频率和/或数据宽度方面维持低分辨率。低分辨率设置有助于将待处理和/或存储于缓冲器220处的数据的大小减到最小。高分辨率可用以改进经数字化音频输入的精确度。然而，在示范性实施方案中，归因于高分辨率设置的缓冲器使用和功率消耗增加，可优选使用低分辨率设置。考虑到音频监视状态S1、S2、S4的目的主要是感测和监视等待正确时机来开始活动音频记录的环境，低分辨率设置可为合乎需要的。

麦克风可经配置以在每个T1时间间隔(麦克风唤醒时间间隔)处唤醒，且在T₂持续时间(麦克风开启持续时间)内收集音频输入S270。T₁或T₂的值可经预定为处于固定时间间隔或可在运行时间期间动态地调适。在所述系统的示范性实施方案中，T₁可大于T₂或T₂可经确定为较小但与T₁成比例。如果在麦克风单元200中存在一个以上麦克风，那么每一麦克风可经配置以具有相同时间间隔或一些麦克风可经配置以具有与其它麦克风不同的时间间隔。在一个实施例中，一些麦克风可在图11的被动音频监视状态S1或图12的音频监视状态S4期间始终不被开启。在另一实施例中，一个或一个以上麦克风可一直被开启，这可仅仅是其中T₁等同于T₂的特殊情况。

在T₂持续时间期间的经数字化音频输入可在每个T1时间间隔处存储到缓冲器220，且可由音频记录处理器230在每个T3时间间隔处存取并处理所存储的数字音频输入。这可用图14较好地理解，图14展示用于在被动音频监视状态S1或音频监视状态S4期间将数字音频输入存储到音频俘获单元215处的缓冲器220的示范性图。存储到缓冲器220的数字音频输入1415、1425、1435、1445可由音频记录处理器230内的听觉活动检测器510分析。在示范性实施方案中，T₃时间间隔可等同于T₂持续时间或可与T₂持续时间不相关地确定。当T₃时间间隔大于T₂持续时间时，听觉活动检测器510可经配置以存取并处理大于在一个循环的T₁时间间隔期间存储在缓冲器220中的数据的大小。

图15为在被动音频监视状态S1期间的音频记录处理器230的实施例的流程图。在此状态处，可为合乎需要的是除了图15的操作所需的最小数目的模块之外，音频记录处理器230内的大多数模块可处于功率有效模式。这些所需的模块可为图9B中所示的模块。因此，图15中的流程图可用图9B较好地理解。如果在移动装置处于闲置模式时由输入信号处置器540检测到1515起源于输入信号S220的开始事件请求，那么其可触发第一等级开始事件指示符1540。如果由辅助信号分析器530检测到1520起源于辅助信号S240的开始事件请求，那么其可触发第一等级开始事件指示符1540。图15还展示听觉活动检测器510在每个T3时间间隔处分析缓冲器220中的数据1530，且可确定是否已检测到指示可需要进一步深入分析的任何听觉活动。先前已在本申请案中连同图5揭示了用于此测试的示范性实施例的详细描述。如果检测到引起关注的听觉活动，那么其可触发第一等级开始事件指示符1540。

所属领域的技术人员将认识到，图15中的框的次序仅出于示范性目的来解释音频记录处理器230的操作，且因此可存在可在功能上等效于或大致上等效于图15的多个变型。举例来说，可以使得可首先执行框1520的方式来重新排列一个框1515和另一框1520，或可以使得可不以顺序次序执行所述框来重新排列所述框。

图16为在主动音频监视状态S2期间的音频俘获单元215的实施例的流程图。除了少数不同之外，图16中的音频俘获单元215的操作非常类似于图13中所揭示的操作，且因此，此处可仅描述不同部分。A/D转换器可经编程以在取样频率和/或数据宽度方面维持比图13中的“低”分辨率高的分辨率，在图16中标记为“中等”。中等分辨率设置可有助于以较好准确度获得经数字化音频输入数据，这又可有益于音频记录处理器230提取较可靠的上下文信息S600。

麦克风可经配置以在每个T₄时间间隔(麦克风唤醒时间间隔)处唤醒，且在T₅持续时间(麦克风开启持续时间)内收集音频输入S270。T₄或T₅的值可分别等同于或大致上类似于T₁或T₂的值。然而，可优选将T₄设置为小于T1，因为这可有益于音频记录处理器230提取较准确的上下文信息S600。在另一实施例中，T₄或T₅的值可经预定为处于固定时间间隔或可在运行时间期间动态地调适。在其中在麦克风单元200中存在多个麦克风的另一实施例中，一个或一个以上麦克风可一直被开启，这可仅仅为其中T₄等同于T₅的特殊情况。

图17为用于在主动音频监视状态S2期间将数字音频输入存储到音频俘获单元215处的缓冲器220的实例图。存储到缓冲器220的数字音频输入1715、1725、1735、1745可在每个T₆时间间隔处由音频记录处理器230内的上下文识别器560和上下文评估逻辑950分析。在示范性实施方案中，T₆时间间隔可等同于T₅持续时间，或者可与T₅持续时间不相关地确定。当T₆时间间隔大于T₅持续时间时，听觉活动检测器510可经配置以存取并处理在一个或一个以上循环的T₄时间间隔期间存储在缓冲器220中的数据。

图18为在主动音频监视状态S2期间的音频记录处理器230的实施例的流程图。在此状态中，音频记录处理器230内的上下文识别器560分析存储在缓冲器220中的音频输入S270，且在每个T₆时间间隔处识别1815所述上下文信息S600。上下文信息S600可经配置以存储1820在存储器位置中以供将来参考。上下文评估逻辑950可评估1825上下文信息S600，且其可根据各种内部决策方法来触发第二等级开始事件指示符1835。举例来说，此类决策方法可包括针对图8中所揭示的子模块中的一些或全部的输出来计算优先级的加权总和以及将所述加权总和与一个或一个以上阈值进行比较。图18还展示触发结束事件指示符S940的示范性机制。可在上下文评估逻辑950在最后S持续时间内未触发第二等级开始事件指示符S930时触发结束事件指示符S940，所述最后S持续时间可优选地比T₆时间间隔长得多。在另一实施例中，可在结束事件管理器580检测到如图10中所示的来自辅助信号分析器530或输入信号处置器540的信号S1052、S1053时产生结束事件指示符S940。

图19为在主动音频监视状态S2期间的音频记录处理器230处的上下文识别实施例的实例图。其展示上下文识别过程(其在每个T₆时间间隔处由上下文识别器560执行)可经配置以异步于T₄时间间隔来开始。T₆时间间隔可在考虑到缓冲器220的大小和功率消耗与决策的准确度之间的折衷的情况下来确定。过于频繁的上下文识别过程或过小的T₆时间间隔可导致功率消耗增加，而过于偶尔的上下文识别过程或过大的T₆时间间隔可导致上下文信息S600的准确度降级。

图20为在活动音频记录状态S3、S5期间的音频俘获单元215的实施例的流程图。A/D转换器可经编程以在取样频率和/或数据宽度方面与图13或图16中的“低”或“中等”分辨率相比维持较高分辨率，其在此处标记为“高”。高分辨率设置可增加音频记录数据的大小，但其还可有助于获得较高质量的音频输入数据。A/D转换器的分辨率设置可经配置以根据来自音频记录处理器230的控制信号来动态地调整。在本申请案的稍后部分中呈现较详细描述。在当前状态处，音频记录处理器230可正忙于将音频数据记录(存储)到所要存储位置中。所要存储装置可驻留在本地移动装置中或通过有线或无线连接的远程服务器侧中。音频记录可继续进行，直到由结束事件管理器580检测到结束事件指示符S940为止，如图10中所示。

图21为在活动音频记录状态S3期间的音频记录处理器230的实施例的流程图。如果由输入信号处置器540检测到2110起源于输入信号S220的结束事件请求，那么其可触发结束事件指示符2130。如果由辅助信号分析器530检测到2115起源于辅助信号S240的结束事件请求，那么其可触发结束事件指示符2130。如果没有从输入信号处置器540或辅助信号分析器530检测到结束事件，那么在核心音频记录模块2120处执行实际音频记录。在音频记录期间，上下文识别器560可经配置以持续识别上下文信息S600，且存储在存储器位置中的较老所识别的上下文信息S600可由较新所识别的上下文信息S600更新。在图24处呈现核心音频记录模块的内部操作的详细描述。在实际音频记录正在进行中的同时，上下文评估逻辑950可经配置以持续监视并分析音频输入S270，且进而当在预定时间周期期间尚未检测到引起关注的上下文信息S600时触发结束事件指示符S940。用于预定时间周期的示范性实施方案可包括使用在最近S秒期间的音频数据。这种产生结束事件指示符S940的方法可被称为“超时机制”。举例来说，此类测试方法可包括针对图8中所揭示的子模块中的一些或全部的输出来计算优先级的加权总和以及将所述加权总和与一个或一个以上阈值进行比较。

图22为在音频监视状态S4期间的音频记录处理器230的实施例的流程图。此处的流程图可经配置以大致上类似于图15中的流程图，除了最后的框2240可触发开始事件指示符而非第一等级开始事件指示符1540之外。此类似性是归因于以下事实：图11的被动音频监视状态S1和图12的音频监视状态S4两者可具有相同目的，即以功率有效方式周期性地感测环境的听觉事件。

图23为在活动音频记录状态S5期间的音频记录处理器230的实施例的流程图。因为在S3或S5中的活动记录处理器可执行类似操作，所以除了在流程图的开始处的额外框2300、2305之外，此处的流程图还可大致上近似于或等同于图21中的流程图。不同于S3状态(其先前状态始终为主动音频监视状态S2，其中上下文识别器560可经配置以取决于设计偏好而周期性地或连续地识别上下文信息S600)，此处可需要这些额外框2300、2305，因为S5的先前状态为音频监视状态S4，且可在S4状态处不执行上下文识别步骤。如果由输入信号处置器540检测到2310起源于输入信号S220的结束事件请求，那么其可触发结束事件指示符2330。如果由辅助信号分析器530检测到2315起源于辅助信号S240的结束事件请求，那么其可触发结束事件指示符2330。如果没有从输入信号处置器540或辅助信号分析器530检测到结束事件，那么在核心音频记录模块2320处执行实际音频记录。在音频记录期间，上下文识别器560可经配置以持续识别上下文信息S600，且存储在存储器位置中的较老所识别的上下文信息S600可由较新所识别的上下文信息S600更新。在图24处呈现核心音频记录模块的内部操作的详细描述。在实际音频记录正在进行中的同时，上下文评估逻辑可经配置以持续监视并分析音频输入S270，且进而当在预定时间周期期间尚未检测到引起关注的上下文信息S600时触发结束事件指示符S940。用于预定时间周期的示范性实施方案可包括使用在最近S持续时间期间的音频数据。这种产生结束事件指示符S940的方法可被称为“超时机制”。举例来说，此测试方法可包括针对图8中所揭示的子模块中的一些或全部的输出来计算优先级的加权总和以及将所述加权总和与一个或一个以上阈值进行比较。

图24为在活动音频记录状态S3、S5期间的核心音频记录模块的实施例的流程图。在此示范性实施例中，来自流程图的顶部的前三个框2410、2415、2420展示智能音频记录系统的根据上下文信息S600的动态配置特性。A/D转换器的取样频率2410和/或数据宽度2415可在音频记录过程期间基于上下文信息S600来动态地重新配置。上下文信息S600通常在整个音频记录过程期间逐渐地或甚至突然地变化，整个音频记录过程可持续数分钟或甚至数小时以上。举例来说，会话语音的话题可随时间而改变。说话者的背景噪声或环境可改变，例如，当说话者正在行走于街道上或使用公共运输在途中时。而且，音频输入S270的内容可随时间而改变，例如从会话语音改变为音乐或音乐加语音，且反之亦然。可需要针对音乐内容使用取样频率或数据宽度的较高分辨率且针对主要语音信号使用取样频率或数据宽度的较低分辨率。在另一实施例中，分辨率可经配置以根据语音内容的特性而有所不同。举例来说，所述系统可经配置以针对商业交流使用与朋友之间的私人会话不同的分辨率。用于根据上下文信息S600的对A/D转换器的配置的动态设置和对存储器位置的动态选择的框2410、2415、2420可在本文中所揭示的一般原理的范围内在其之间或与流程图中的其它框相对地以不同次序重新定位。

所述系统还可经配置以基于上下文信息S600来动态地选择存储器位置2420。举例来说，所述系统可经配置以在一个或一个以上说话者在会话期间结果满足例如主要商业消费者等特定简档时或在音频输入S270大致上包括比语音信号多的音乐时将音频记录数据存储到在服务器侧处远程连接的存储装置。在此些情况下，可需要使用A/D转换器的较高分辨率且因此需要较大存储空间。

音频记录处理器230接着可经配置以从缓冲器220读取音频数据2424。可从最近的音频数据识别2430新的上下文信息，且可将新上下文信息存储2435在存储器中。在另一实施例中，上下文信息S600的上下文识别过程2430或保存过程2434可在本文中所揭示的一般原理的范围内被跳过或与流程图中的其它框相对地以不同次序来重新定位。

音频记录处理器230可经配置以在将经处理信号存储在选定存储器中之前确定2440音频输入S270信号的增强是否为合乎需要的或在此情况下什么类型的增强处理可为合乎需要的。所述确定可基于上下文信息S600或由系统自动地或由用户手动地预先配置。此类增强处理可包括声学回声消除(AEC)、接收话音增强(RVE)、主动噪声消除(ANC)、噪声抑制(NS)、声学增益控制(AGC)、声学音量控制(AVC)或声学动态范围控制(ADRC)。在一个实施例中，信号增强的积极性可基于音频输入S270的内容或上下文信息S600。

音频记录处理器230可经配置以在将经处理信号存储在选定存储器位置中之前确定2445是否音频输入S270信号的压缩为合乎需要的或在此情况下什么类型的压缩处理可为合乎需要的。所述确定可基于上下文信息S600或由系统自动地或由用户手动地预先配置。举例来说，所述系统可基于音频记录的预期持续时间，优选地基于日历信息，选择在音频记录开始之前使用压缩。对例如语音译码或音频译码等压缩方法的选择可基于音频输入S270的内容或上下文信息S600来动态地配置。除非另有指定，否则在本申请案的上下文内的压缩可意指源译码，例如语音编码/解码和音频编码/解码。因此，对于所属领域的技术人员来说应明显的是，所述压缩可以可互换地用作编码，且解压缩可以可互换地用作解码。例如位率、编码模式或通道数目等编码参数也可基于音频输入S270的内容或上下文信息S600来动态地配置。

图25为根据常规麦克风控制的单个麦克风开启和关闭控制的实施例的图。当移动装置处于闲置模式2550时，通常关闭2510麦克风和麦克风的操作所需的相关块(例如A/D转换器)。麦克风及其相关块通常仅在针对需要使用麦克风的应用(例如话音呼叫或视频录入)活动地使用移动装置期间开启2520。

图26为单个麦克风开启和关闭控制的第一实施例的图。与图25相反，麦克风可经配置以甚至在移动装置处于闲置模式2550的周期期间选择性地开启2520。麦克风可经配置以根据音频输入S270的上下文信息S600而选择性地开启。在一个实施例中，此特征可对于被动音频监视状态S1、主动音频监视状态S2或音频监视状态S4来说为合乎需要的。

图27为单个麦克风开启和关闭控制的第二实施例的图。与图26相反，麦克风可经配置以甚至在移动装置处于闲置模式2550的周期期间一贯地开启2700。在此情况下，可在麦克风被开启时增加所述系统的功率消耗。在一个实施例中，此特征可适用于被动音频监视状态S1、主动音频监视状态S2、音频监视状态S4或活动音频记录状态S3、S5。

图28为多个麦克风开启和关闭控制的第一实施例的图。在一个实施例中，一个或一个以上麦克风可经配置以按与常规系统类似的方式进行操作。换句话说，一个或一个以上麦克风可仅在活动话音呼叫期间或在视频录入或需要活动地使用一个或一个以上麦克风的任何其它应用程序期间响应于用户的手动选择而开启。然而，其它麦克风可经配置以间歇地开启。在所述图中出于示范性目的而呈现仅两个麦克风，但相同的麦克风控制概念可应用于两个以上麦克风。

图29为多个麦克风开启和关闭控制的第二实施例的图。与图28相反，一个或一个以上麦克风可经配置以按与常规系统类似的方式进行操作，其方式为使得一个或一个以上麦克风可仅在活动话音呼叫期间或在视频录入或需要活动地使用一个或一个以上麦克风的任何其它应用程序期间响应于用户的手动选择来开启。然而，其它麦克风可经配置以一直开启。在此情况下，可在麦克风被开启时增加所述系统的功率消耗。在所述图中出于示范性目的而呈现仅两个麦克风，但相同的麦克风控制概念可应用于两个以上麦克风。

图30为根据本申请案的活动麦克风数目控制的实施例的图，其中可根据上下文信息S600来动态地控制麦克风的活动数目。出于示范性目的，将可用麦克风的最大数目假设为三个，且其也为可在被动音频监视状态S1、主动音频监视状态S2或音频监视状态S4期间开启的麦克风的最大数目。然而，对麦克风的不同数目的选择仍可在本发明的范围内。在被动音频监视状态S1或音频监视状态S4状态期间，麦克风可经配置以周期性地开启，所以其可监视环境的听觉事件。因此，在这些状态期间，麦克风的活动数目可优选地在零个与一个之间改变。在主动音频监视状态S2状态期间，麦克风的活动数目可持续优选地在零个与一个之间改变，但在开启周期之间的时间间隔T₄可经配置以大于被动音频监视状态S1或音频监视状态S4状态的时间间隔T₁。

在活动音频记录状态S3、S5期间，活动麦克风数目可经配置以根据上下文信息S600而动态地改变。举例来说，麦克风的活动数目可经配置以在检测到特定上下文信息S600或高优先级上下文信息S600后即刻从一个3045增加到两个3050。在另一实例中，麦克风数目可经配置以在背景噪声的特性从平稳改变为不平稳或从轻微等级改变为严重等级时增加。在此情况下，基于多麦克风的噪声抑制方法可能够增加音频输入S270的质量。活动麦克风数目的增加或减小还可基于音频输入S270的质量。麦克风的数目可随音频输入S270的质量(例如根据音频输入S270的信噪比(SNR))降级为低于特定阈值而增加。

音频记录的存储装置可经配置以在实际音频记录过程期间或在完成音频记录之后动态地在本地存储装置与远程存储装置之间改变。举例来说，图31展示存储位置选择的实施例，其中所述选择可根据预定义的上下文信息S600优先级来控制。此选择可在开始音频记录之前或在完成音频记录之后执行。举例来说，上下文信息S600可经预配置以具有不同等级的优先级。接着，在开始每一音频记录之前，可根据在某窗口周期期间的上下文信息S600的特性与预定义的一个或一个以上阈值之间的比较来选择存储装置。在另一实施例中，可在完成每一音频记录之后决定长期存储装置的选择。初始音频记录可默认地出于短期存储目的而存储在(例如)本地存储装置内。在完成音频记录后，音频记录可即刻由音频记录处理器230分析以便确定用于音频记录的长期存储位置。每一音频记录可在完成音频记录之前或之后被指派优先级。长期存储装置选择可经配置以基于音频记录的优先级。图31展示其中将具有较低优先级上下文信息的音频记录存储在本地存储装置中而将具有较高优先级上下文信息的音频记录存储在网络存储装置中的示范性系统。应注意，在本发明的范围内，具有较低优先级上下文信息的音频记录可存储在网络存储装置中，或具有较高优先级上下文信息的音频记录可存储在本地存储装置中。

图32展示存储位置选择的实施例，其中所述选择可在活动音频记录状态S3、S5期间根据上下文信息S600优先级来动态地控制。与图31相反，存储装置选择可在实际音频记录处理期间根据上下文信息S600、可用存储器空间或移动装置与远程服务器之间的信道的质量来动态地切换。

图33为存储装置期满时间设置的实施例的图，其中期满时间可根据预定义的上下文信息S600优先级来控制。存储在存储装置中的音频记录可经配置以通过用户的手动选择来删除或通过可基于预定义的期满时间的机制而自动期满。当音频记录已期满时，期满的音频记录可经配置以被删除或移动到临时存储地点，例如“回收储仓”。期满的音频记录可经配置以在假如其在录入时未被压缩的情况下进行压缩。倘若其已经在录入时进行编码，那么其可使用可允许较高压缩的译码格式或译码参数来进行代码转换，从而导致更紧凑的音频记录大小。

期满时间设置可在音频记录时或在完成音频之后确定。在一个实施例中，可根据音频记录的上下文信息S600的特性或统计来向每一音频记录指派优先级值。举例来说，图33中的音频记录#13340可具有比音频记录#33320低的优先级。在示范性实施方案中，可需要将音频记录#1的期满时间ET₁设置为小于音频记录#3的期满时间ET₃。作为实例，ET₁可被设置为“1周”，且ET₃可被设置为“2周”。通常需要使音频记录的期满时间与所述音频记录的优先级成比例。但应注意，具有不同优先级的音频记录没有必要必须始终具有不同的期满时间设置。

图34为智能音频记录系统内的块的逐阶段加电的实施例的图，其中可根据每一状态来动态地控制活动块的数目及其总功率消耗。在被动音频监视状态S1期间，一个或一个以上数目的麦克风可经配置以周期性地唤醒以便接收音频输入S270。为了执行此接收操作，所述系统可经配置以唤醒系统的一部分，且进而所述系统的活动块的数目或(可互换地说)加电块的数目在图34中增加到N1。在主动音频监视状态S2期间，除了N1之外，一个或一个以上额外块也可经配置以唤醒，这使得在一个或一个以上麦克风活动3420的周期期间活动块的总数目为N2。举例来说，上下文识别器560和上下文评估逻辑950可经配置以唤醒，如其已在图9B中例示。在活动音频记录状态S3期间，可能的是除了N2之外，至少一些其它块也可需要唤醒，这又使得在活动音频记录状态S3状态期间的活动块的总数目为N3。在图34中将在主动音频监视状态S2状态期间的活动块的基线数目3425设置为N1，其恰巧与在被动音频监视状态S1状态期间的活动块的数目相同，但对于所属领域的技术人员来说应明显的是，这可经配置以在本发明的范围内在另一实施例中为不同的。用于音频监视状态S4或活动音频记录状态S5的活动块的数目可实施为分别类似于被动音频监视状态S1或活动音频记录状态S3。

图35为A/D转换器精确度控制的实施例的图，其中精确度可根据每一预定状态来配置或关于上下文信息S600来动态地控制。在被动音频监视状态S1状态期间的A/D转换器单元可经配置以具有低分辨率设置，其在图35中经标记为“低”，而其可经配置以分别针对主动音频监视状态S2或活动音频记录状态S3状态具有中分辨率设置(“中等”设置)或较高分辨率设置(“高”设置)。此机制可有助于通过针对每一状态允许优化设置来节省功率消耗或存储器使用。在另一实施例中，在被动音频监视状态S1和主动音频监视状态S2阶段期间的A/D转换器设置可经配置以具有相同分辨率。或者，在主动音频监视状态S2和活动音频记录状态S3阶段期间的A/D转换器设置可经配置以具有相同分辨率。

用于A/D转换器单元的精确度设置可经配置以在活动音频记录状态S3期间基于上下文信息S600来动态地改变。图35展示所述动态改变可经配置以在活动音频记录过程期间对于全部或部分持续时间3540有效。假设用于活动音频记录状态S3的默认精确度设置为“高”3520。当在上下文信息S600的优先级方面存在显著改变时，精确度设置可降低到“中等”3535或“低”设置3525。举例来说，精确度设置的改变可由内容分类从“音乐”改变为“语音”或从“语音”改变为“音乐”起始，所述内容分类为上下文信息S600的子集。或者，其可由音频输入S270的背景噪声等级或噪声类型的改变起始。在另一实施例中，其可由本地存储装置中的可用存储器大小或移动装置与远程服务器之间的信道的质量起始。

图36为音频输入信号增强控制的实施例的图，其中所述增强可根据上下文信息S600来动态地配置。出于示范性目的，已假设存在若干信号增强等级，即不增强、低等级、中等等级和高等级增强。在活动音频记录状态S3、S5期间，音频信号增强等级可经配置以根据上下文信息S600来动态地调整。举例来说，背景噪声的特性或等级可用以触发音频信号增强等级的改变。当背景噪声等级显著较高或背景噪声等级的特性大致上从平稳类型噪声改变为不平稳类型噪声时，音频信号增强设置可经配置以从低等级增强或不增强改变为中等等级增强或甚至高等级增强。举例来说，当智能音频记录系统可能处于音频记录状态S3、S5中活动地记录音频输入S270时，用户可在地铁站内等待他的或她的列车到达。当列车正到达或离开站台时，噪声等级时常超过特定阈值，在超出所述阈值时会难以理解正常的会话语音。在检测到显著的背景噪声等级或类型改变后或在检测到主要听觉场景改变后，智能音频记录系统可即刻因此重新配置音频信号增强设置。音频信号增强设置改变可在麦克风的活动数目之前或之后。

图37为音频压缩参数控制的实施例的图，其中压缩可根据上下文信息S600来动态地配置。出于示范性目的，已假设存在若干压缩等级，即不压缩、“低”、“中等”和“高”压缩。在活动音频记录状态S3、S5期间，音频信号压缩等级可经配置以根据上下文信息S600来动态地调整。举例来说，压缩模式的改变可由内容分类从“音乐”改变为“语音”或从“语音”改变为“音乐”起始，所述内容分类为上下文信息S600的子集。可需要针对“音乐”内容使用较高位率，而可需要针对“语音”内容使用较低位率，在“语音”内容中待编码信号的带宽通常比典型的“音乐”内容窄得多。或者，其可由本地存储装置中的可用存储器大小或移动装置与远程服务器之间的信道的质量起始。

译码格式可经配置以同样根据上下文信息S600来改变。图38为压缩译码格式选择的实施例的图，其中压缩译码格式选择或其缺乏可根据上下文信息S600来动态地配置。出于示范性目的，在图38中已展示音频编解码器#1和语音编解码器#1，但通常，译码格式还可经配置以在音频编解码器之间或在语音编解码器之间改变。

举例来说，当前音频编解码器#13810可经配置以改变为语音编解码器#13820。在检测到主要信号分类从“音乐”改变为“语音”后。在另一实施例中，译码格式改变(如果有的话)可仅在“不压缩模式”3830之后触发，或者其可无论何时在检测到预定义的上下文信息S600改变后即刻触发而在中间没有“不压缩模式”3830。

提供各种示范性配置以使得所属领域的技术人员能够制作或使用本文中所揭示的方法和其它结构。本文中所展示和描述的流程图、框图和其它结构仅为实例，且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改均为可能的，且本文中所呈现的一般原理还可应用于其它配置。举例来说，应强调本发明的范围不限于所说明的配置。而是，明确地涵盖且特此揭示，如本文中所描述的不同特定配置的特征可针对其中此些特征彼此不矛盾的任何情况经组合以产生包括在本发明的范围内的其它配置。还明确地涵盖且特此揭示，在描述设备的两个或两个以上元件之间的连接的情况下，可存在一个或一个以上介入元件(例如滤波器)，且在描述方法的两个或两个以上任务之间的连接的情况下，可存在一个或一个以上介入任务或操作(例如滤波操作)。

本文中所描述的配置可部分地或整体地实施为硬连线电路，实施为制造到专用集成电路中的电路配置，或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码从计算机可读媒体加载或加载到计算机可读媒体中的软件程序，所述代码是可由例如微处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。计算机可读媒体可为:存储元件阵列，例如半导体存储器(其可包括而不限于动态或静态RAM(随机存取存储器)、ROM(只读存储器)和/或快闪RAM)或铁电、聚合或相变存储器；磁盘媒体，例如磁盘或光盘；或任何其它用于数据存储的计算机可读媒体。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。

本文中所揭示的方法中的每一者还可有形地体现(例如，在如上文列举的一个或一个以上计算机可读媒体中)为一个或一个以上可由包括逻辑元件阵列的机器(例如，处理器、微处理器、微控制器或其它有限状态机)读取且/或执行的指令集。因此，本发明不希望限于上文所展示的配置，而是应被赋予与在本文中(包括在申请的所附权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围，所述权利要求书形成原始揭示内容的一部分。

Claims

1.一种针对移动装置处理数字音频信号的方法，所述方法包含：

通过至少一个麦克风接收声学信号；

将所接收的声学信号转换为所述数字音频信号；

从所述数字音频信号提取至少一个听觉上下文信息；

响应于基于所提取的上下文信息而自动检测到开始事件指示符，针对所述数字音频信号执行音频记录；以及

响应于自动检测到结束事件指示符，结束所述音频记录，

其中所述方法由所述移动装置执行，且

其中所述移动装置为能够参与话音呼叫的移动电话，且

其中在所述接收所述声学信号期间，所述移动装置不参与任何话音呼叫，且

其中在所述自动检测所述开始事件指示符之前，所述执行所述音频记录不发生。

2.根据权利要求1所述的处理数字音频信号的方法，其中所述方法包含：在所述音频记录期间，基于所提取的所述上下文信息，增加所述至少一个麦克风当中的活动麦克风数目。

3.根据权利要求2所述的处理数字音频信号的方法，其中所述增加所述活动麦克风数目在所接收的所述声学信号的不活动部分期间进行，且

其中所述提取至少一个听觉上下文信息在所接收的所述声学信号的活动部分期间进行。

4.根据权利要求1所述的处理数字音频信号的方法，其中所述至少一个听觉上下文信息至少部分基于以下各项中的一者：信噪比、频谱倾斜或过零率。

5.根据权利要求3所述的处理数字音频信号的方法，其中所述至少一个听觉上下文信息至少部分基于非听觉信息。

6.根据权利要求1所述的处理数字音频信号的方法，其中所述至少一个听觉上下文信息涉及以下各项中的至少一者：音频分类、关键词识别或说话者识别，且

其中所述至少一个听觉上下文信息至少部分基于非听觉信息，且

其中所述非听觉信息包含日程安排或日历信息。

7.根据权利要求1所述的处理数字音频信号的方法，其中所述检测所述开始事件指示符包含：

从所述至少一个听觉上下文信息选择至少一个上下文信息；以及

响应于将所述选定上下文信息与至少一个预定阈值进行比较，确定是否已检测到所述开始事件指示符。

8.根据权利要求1所述的处理数字音频信号的方法，其中所述至少一个听觉上下文信息涉及以下各项中的至少一者：音频分类、关键词识别或说话者识别，且

其中所述检测所述开始事件指示符至少部分基于非听觉信息，且其中所述非听觉信息包含日程安排或日历信息。

9.根据权利要求1所述的处理数字音频信号的方法，其中所述执行所述音频记录包含：

至少部分基于所述至少一个听觉上下文信息来更新与所述转换相关的至少一个参数；

响应于至少部分基于所述至少一个听觉上下文信息来确定是否需要额外处理，将所述额外处理应用于所述数字音频信号以获得经处理的音频信号；以及

将所述经处理的音频信号存储到存储器存储装置中。

10.根据权利要求9所述的处理数字音频信号的方法，其中所述额外处理包括信号增强处理。

11.根据权利要求10所述的处理数字音频信号的方法，其中所述信号增强处理包括以下各项中的至少一者：声学回声消除AEC、接收话音增强RVE、主动噪声消除ANC、噪声抑制NS、声学增益控制AGC、声学音量控制AVC或声学动态范围控制ADRC。

12.根据权利要求11所述的处理数字音频信号的方法，其中所述噪声抑制是基于多个麦克风。

13.根据权利要求9所述的处理数字音频信号的方法，其中所述额外处理包括信号压缩处理。

14.根据权利要求13所述的处理数字音频信号的方法，其中所述信号压缩处理包括语音压缩或音频压缩。

15.根据权利要求13所述的处理数字音频信号的方法，其中基于所述听觉上下文信息来确定至少一个压缩参数。

16.根据权利要求1所述的处理数字音频信号的方法，其中所述方法包括基于所述所提取的上下文信息来选择以下各项中的至少一者：用于所述数字音频信号的压缩模式、用于所述数字音频信号的位率、所述数字音频信号的多个信道。

17.根据权利要求9所述的处理数字音频信号的方法，其中所述存储器存储装置包含在所述移动装置内部的本地存储器或通过无线信道连接到所述移动装置的远程存储器。

18.根据权利要求17所述的处理数字音频信号的方法，其中至少部分基于所述听觉上下文信息来选择所述存储器存储装置。

19.根据权利要求1所述的处理数字音频信号的方法，其中所述检测所述结束事件指示符包含：

响应于将所述选定上下文信息与至少一个预定阈值进行比较，确定是否已检测到所述结束事件指示符。

20.根据权利要求1所述的处理数字音频信号的方法，其中所述检测所述结束事件指示符至少部分基于在预定时间周期期间不出现听觉事件。

21.根据权利要求1所述的处理数字音频信号的方法，其中所述检测所述结束事件指示符至少部分基于非听觉信息，且其中所述非听觉信息包含日程安排或日历信息。

22.根据权利要求1所述的处理数字音频信号的方法，其中所述针对所述数字音频信号执行音频记录包括起始所述数字音频信号的音频记录。

23.根据权利要求22所述的处理数字音频信号的方法，其中所述结束所述音频记录包括终止所述数字音频信号的所述起始的音频记录。

24.根据权利要求1所述的处理数字音频信号的方法，其中所述方法包括在所述音频记录期间且基于所述所提取的上下文信息来调整以下各项中的至少一者：(A)所述至少一个麦克风当中的多个活动麦克风、(B)所述数字音频信号的采样频率、以及(C)所述数字音频信号的数据宽度。

25.根据权利要求24所述的处理数字音频信号的方法，其中所述调整在所述接收的声学信号的不活动部分期间被执行。

26.根据权利要求1所述的处理数字音频信号的方法，其中在所述接收所述声学信号期间，所述移动装置处于闲置模式。

27.根据权利要求1所述的处理数字音频信号的方法，其中所述移动电话能够执行视频录入，且

其中在所述接收所述声学信号期间，所述移动装置不执行视频录入。

28.根据权利要求1所述的处理数字音频信号的方法，其中所述方法包括在所述接收所述声学信号期间周期性地向至少一个基站发送信号。

29.根据权利要求28所述的处理数字音频信号的方法，其中所述方法包括在所述接收所述声学信号期间周期性地从至少一个基站接收信号。

30.根据权利要求1所述的处理数字音频信号的方法，其中在所述转换所述接收的声学信号期间，所述移动装置不参与任何话音呼叫。

31.根据权利要求1所述的处理数字音频信号的方法，其中在所述提取至少一个听觉上下文信息期间，所述移动装置不参与任何话音呼叫。

32.一种用于针对移动装置处理数字音频信号的设备，所述设备包含：

至少一个麦克风，其经配置以接收声学信号；

转换器，其经配置以将所接收的声学信号转换为所述数字音频信号；

上下文识别器，其经配置以从所述数字音频信号提取至少一个听觉上下文信息；

开始事件管理器，其经配置以基于所提取的上下文信息而自动检测开始事件指示符；

结束事件管理器，其经配置以自动检测结束事件指示符；以及

音频记录处理器，其经配置以：

响应于所述检测到所述开始事件指示符而针对所述数字音频信号执行音频记录；以及

响应于所述检测到所述结束事件指示符而结束所述音频记录，

其中所述设备在所述移动装置内，且

其中所述移动装置为能够参与话音呼叫的移动电话，且

其中所述至少一个麦克风经配置以当所述移动装置不参与任何话音呼叫时接收所述声学信号，且

其中所述音频记录处理器经配置以在所述检测到所述开始事件指示符之前不执行所述音频记录。

33.根据权利要求32所述的用于处理数字音频信号的设备，其中所述音频记录处理器经配置以：在所述音频记录期间，基于所提取的所述上下文信息，增加所述至少一个麦克风当中的活动麦克风数目。

34.根据权利要求33所述的用于处理数字音频信号的设备，其中所述增加所述活动麦克风数目在所接收的所述声学信号的不活动部分期间进行，且

35.根据权利要求32所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息至少部分基于以下各项中的一者：信噪比、频谱倾斜或过零率。

36.根据权利要求34所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息至少部分基于非听觉信息。

37.根据权利要求32所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息涉及以下各项中的至少一者：音频分类、关键词识别或说话者识别，且

其中所述非听觉信息包含日程安排或日历信息。

38.根据权利要求32所述的用于处理数字音频信号的设备，其中所述开始事件管理器经配置以：

从所述至少一个听觉上下文信息选择至少一个上下文信息；

将所述选定上下文信息与至少一个预定阈值进行比较；以及

响应于所述比较而确定是否已检测到所述开始事件指示符。

39.根据权利要求32所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息涉及以下各项中的至少一者：音频分类、关键词识别或说话者识别，且

40.根据权利要求32所述的用于处理数字音频信号的设备，其中所述音频记录处理器经配置以：

至少部分基于所述至少一个听觉上下文信息来更新与所述转换器相关的至少一个参数；

至少部分基于所述至少一个听觉上下文信息来确定是否需要额外处理；

响应于所述确定而将所述额外处理应用于所述数字音频信号以获得经处理的音频信号；以及

将所述经处理的音频信号存储到存储器存储装置中。

41.根据权利要求40所述的用于处理数字音频信号的设备，其中所述额外处理包括信号增强处理。

42.根据权利要求41所述的用于处理数字音频信号的设备，其中所述信号增强处理包括以下各项中的至少一者：声学回声消除AEC、接收话音增强RVE、主动噪声消除ANC、噪声抑制NS、声学增益控制AGC、声学音量控制AVC或声学动态范围控制ADRC。

43.根据权利要求42所述的用于处理数字音频信号的设备，其中所述噪声抑制是基于多个麦克风。

44.根据权利要求40所述的用于处理数字音频信号的设备，其中所述额外处理包括信号压缩处理。

45.根据权利要求44所述的用于处理数字音频信号的设备，其中所述信号压缩处理包括语音压缩或音频压缩。

46.根据权利要求44所述的用于处理数字音频信号的设备，其中至少一个压缩参数是基于所述听觉上下文信息来确定。

47.根据权利要求32所述的用于处理数字音频信号的设备，其中所述音频记录处理器经配置以基于所述所提取的上下文信息来选择以下各项中的至少一者：用于所述数字音频信号的压缩模式、用于所述数字音频信号的位率、所述数字音频信号的多个信道。

48.根据权利要求40所述的用于处理数字音频信号的设备，其中所述存储器存储装置包含在所述移动装置内部的本地存储器或通过无线信道连接到所述移动装置的远程存储器。

49.根据权利要求48所述的用于处理数字音频信号的设备，其中所述存储器存储装置是至少部分基于所述听觉上下文信息来选择。

50.根据权利要求32所述的用于处理数字音频信号的设备，其中所述结束事件管理器经配置以：

从所述至少一个听觉上下文信息选择至少一个上下文信息；

将所述选定上下文信息与至少一个预定阈值进行比较；以及

响应于所述比较而确定是否已检测到所述结束事件指示符。

51.根据权利要求32所述的用于处理数字音频信号的设备，其中所述检测所述结束事件指示符至少部分基于在预定时间周期期间不出现听觉事件。

52.根据权利要求32所述的用于处理数字音频信号的设备，其中所述检测所述结束事件指示符至少部分基于非听觉信息，且其中所述非听觉信息包含日程安排或日历信息。

53.根据权利要求32所述的用于处理数字音频信号的设备，其中所述音频记录处理器经配置以响应于所述检测所述开始事件指示符来起始所述音频记录。

54.根据权利要求53所述的用于处理数字音频信号的设备，其中所述音频记录处理器经配置以响应于所述检测所述结束事件指示符来终止所述起始的音频记录。

55.根据权利要求32所述的用于处理数字音频信号的设备，其中所述音频记录处理器经配置以在所述音频记录期间且基于所述所提取的上下文信息来调整以下各项中的至少一者：(A)所述至少一个麦克风当中的多个活动麦克风、(B)所述数字音频信号的采样频率、以及(C)所述数字音频信号的数据宽度。

56.根据权利要求55所述的用于处理数字音频信号的设备，其中所述调整在所述接收的声学信号的不活动部分期间被执行。

57.根据权利要求32所述的用于处理数字音频信号的设备，其中所述至少一个麦克风经配置以当所述移动装置处于闲置模式时接收所述声学信号。

58.根据权利要求32所述的用于处理数字音频信号的设备，其中所述移动电话能够执行视频录入，且

其中所述至少一个麦克风经配置以当所述移动装置不在执行视频录入时接收所述声学信号。

59.根据权利要求32所述的用于处理数字音频信号的设备，其中所述设备经配置以当所述至少一个麦克风正在接收所述声学信号时周期性地向至少一个基站发送信号。

60.根据权利要求59所述的用于处理数字音频信号的设备，其中所述设备经配置以当所述至少一个麦克风正在接收所述声学信号时周期性地从至少一个基站接收信号。

61.根据权利要求32所述的用于处理数字音频信号的设备，其中所述转换器经配置以当所述移动装置不参与任何话音呼叫时转换所述接收的声学信号。

62.根据权利要求32所述的用于处理数字音频信号的设备，其中所述上下文识别器经配置以当所述移动装置不参与任何话音呼叫时提取所述至少一个听觉上下文信息。

63.一种用于针对移动装置处理数字音频信号的设备，所述设备包含：

用于通过至少一个麦克风接收声学信号的装置；

用于将所接收的声学信号转换为所述数字音频信号的装置；

用于从所述数字音频信号提取至少一个听觉上下文信息的装置；

用于基于所提取的上下文信息而自动检测开始事件指示符的装置；

用于响应于所述检测到所述开始事件指示符而针对所述数字音频信号执行音频记录的装置；

用于自动检测结束事件指示符的装置；以及

用于响应于所述检测到所述结束事件指示符而针对所述数字音频信号结束所述音频记录的装置，

其中所述设备在所述移动装置内，且

其中所述移动装置为能够参与话音呼叫的移动电话，且

其中所述用于接收的装置经配置以当所述移动装置不参与任何话音呼叫时接收所述声学信号，且

其中所述用于执行所述音频记录的装置经配置以在所述检测所述开始事件指示符之前不执行所述音频记录。

64.根据权利要求63所述的用于处理数字音频信号的设备，其中所述设备包含：用于在所述音频记录期间，基于所提取的所述上下文信息，增加所述至少一个麦克风当中的活动麦克风数目的装置。

65.根据权利要求64所述的用于处理数字音频信号的设备，其中所述增加所述活动麦克风数目在所接收的所述声学信号的不活动部分期间进行，且

66.根据权利要求63所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息至少部分基于以下各项中的一者：信噪比、频谱倾斜或过零率。

67.根据权利要求65所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息至少部分基于非听觉信息。

68.根据权利要求63所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息涉及以下各项中的至少一者：音频分类、关键词识别或说话者识别，且

其中所述非听觉信息包含日程安排或日历信息。

69.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于检测所述开始事件指示符的装置包含：

用于从所述至少一个听觉上下文信息选择至少一个上下文信息的装置；

用于将所述选定上下文信息与至少一个预定阈值进行比较的装置；以及

用于响应于所述比较而确定是否已检测到所述开始事件指示符的装置。

70.根据权利要求63所述的用于处理数字音频信号的设备，其中所述至少一个听觉上下文信息涉及以下各项中的至少一者：音频分类、关键词识别或说话者识别，且

71.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于执行所述音频记录的装置包含：

用于至少部分基于所述至少一个听觉上下文信息来更新与所述用于转换的装置相关的至少一个参数的装置；

用于至少部分基于所述至少一个听觉上下文信息来确定是否需要额外处理的装置：

用于响应于所述确定而将所述额外处理应用于所述数字音频信号以获得经处理的音频信号的装置；以及

用于将所述经处理的音频信号存储到存储器存储装置中的装置。

72.根据权利要求71所述的用于处理数字音频信号的设备，其中所述额外处理包括信号增强处理。

73.根据权利要求72所述的用于处理数字音频信号的设备，其中所述信号增强处理包括以下各项中的至少一者：声学回声消除AEC、接收话音增强RVE、主动噪声消除ANC、噪声抑制NS、声学增益控制AGC、声学音量控制AVC或声学动态范围控制ADRC。

74.根据权利要求73所述的用于处理数字音频信号的设备，其中所述噪声抑制是基于多个麦克风。

75.根据权利要求71所述的用于处理数字音频信号的设备，其中所述额外处理包括信号压缩处理。

76.根据权利要求75所述的用于处理数字音频信号的设备，其中所述信号压缩处理包括语音压缩或音频压缩。

77.根据权利要求75所述的用于处理数字音频信号的设备，其中至少一个压缩参数是基于所述听觉上下文信息来确定。

78.根据权利要求63所述的用于处理数字音频信号的设备，其中所述设备包括用于基于所述所提取的上下文信息来选择以下各项中的至少一者的装置：用于所述数字音频信号的压缩模式、用于所述数字音频信号的位率、所述数字音频信号的多个信道。

79.根据权利要求71所述的用于处理数字音频信号的设备，其中所述存储器存储装置包含在所述移动装置内部的本地存储器或通过无线信道连接到所述移动装置的远程存储器。

80.根据权利要求79所述的用于处理数字音频信号的设备，其中所述存储器存储装置是至少部分基于所述听觉上下文信息来选择。

81.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于检测所述结束事件指示符的装置包含：

用于响应于所述比较而确定是否已检测到所述结束事件指示符的装置。

82.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于检测所述结束事件指示符的装置至少部分基于在预定时间周期期间不出现听觉事件。

83.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于检测所述结束事件指示符的装置至少部分基于非听觉信息，且其中所述非听觉信息包含日程安排或日历信息。

84.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于执行所述音频记录的装置经配置以响应于所述检测所述开始事件指示符来起始所述音频记录。

85.根据权利要求84所述的用于处理数字音频信号的设备，其中所述用于结束所述音频记录的装置经配置以响应于所述检测所述结束事件指示符来终止所述起始的音频记录。

86.根据权利要求63所述的用于处理数字音频信号的设备，其中所述设备包括用于基于所述所提取的上下文信息来选择以下各项中的至少一者的装置：所述数字音频信号的压缩模式、所述数字音频信号的位率、所述数字音频信号的多个信道。

87.根据权利要求63所述的用于处理数字音频信号的设备，其中所述设备包括用于在所述音频记录期间且基于所述所提取的上下文信息来调整以下各项中的至少一者的装置：(A)所述至少一个麦克风之中的多个活动麦克风、(B)所述数字音频信号的采样频率、以及(C)所述数字音频信号的数据宽度。

88.根据权利要求87所述的用于处理数字音频信号的设备，其中所述调整在所述接收的声学信号的不活动部分期间被执行。

89.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于接收的装置经配置以当所述移动装置处于闲置模式时接收所述声学信号。

90.根据权利要求63所述的用于处理数字音频信号的设备，其中所述移动电话能够执行视频录入，且

其中所述用于接收的装置经配置以当所述移动装置不在执行视频录入时接收所述声学信号。

91.根据权利要求63所述的用于处理数字音频信号的设备，其中所述设备包括用于当所述用于接收的装置正在接收所述声学信号时周期性地向至少一个基站发送信号的装置。

92.根据权利要求91所述的用于处理数字音频信号的设备，其中所述设备包括当所述用于接收的装置正在接收所述声学信号时周期性地从至少一个基站接收信号的装置。

93.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于转换的装置经配置以当所述移动装置不参与任何话音呼叫时转换所述接收的声学信号。

94.根据权利要求63所述的用于处理数字音频信号的设备，其中所述用于提取的装置经配置以当所述移动装置不参与任何话音呼叫时提取所述至少一个听觉上下文信息。