CN1977306A

CN1977306A - 音频流的音乐部分的自动提取

Info

Publication number: CN1977306A
Application number: CNA2004800367481A
Authority: CN
Inventors: O·柯克比; J·霍帕涅米; T·索尔萨
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2003-12-12
Filing date: 2004-12-08
Publication date: 2007-06-06
Also published as: KR20060086420A; US7179980B2; EP1692799A4; WO2005060337A3; EP1692799A2; EP1692799B1; DE602004016380D1; US20050126369A1; WO2005060337A2; KR100840745B1; ATE407419T1

Abstract

识别音频流中的音乐和非音乐部分。该音频流被数字化和分段成帧。所选择的帧通过滤波器组，该滤波器组具有带宽与其中心频率近似成比例的滤波器。计算并平滑每个所选择的帧的谱通量。具有低于阈值的被平滑过的谱通量的帧与音乐相关联，而具有高于阈值的被平滑过的谱通量的帧与非音乐相关联。

Description

音频流的音乐部分的自动提取

技术领域

本发明涉及记录具有音乐和非音乐成分的音频传输的音乐部分。

背景技术

随着计算机和其它电子技术的扩展，可获得的娱乐的类型和种类持续增长。音乐也不例外。目前听众可以从大量源接收音乐，例如激光唱盘(CD)和其它数字记录媒体，经由因特网的音频流，专用于音频节目的有线频道、卫星广播等。尽管有这些众多的音乐源，但是对于许多人，传统的无线广播(例如，AM、FM、短波)仍是一种重要的音乐源。

尽管相对于音乐节目的其它源，无线广播仍具有许多优点，但是它也有缺点。一个长期的问题涉及无线广播中包含非音乐节目。特别地，大多数(至少播放音乐的电台)的无线广播混合有音乐、语音(例如，通知、新闻广播、广告等)和“叮当声”(具有音乐品质的短音带，诸如可以用在商业广告中)。许多用户发现这些非音乐节目是烦人和/或讨厌的。

解决这个问题的一种方案是记录没有非音乐部分的广播。然而，很多人没有时间去手动地执行该记录，即，在歌曲开始时手动地记录广播，然后在该歌曲结束时停止记录。因此需要一种自动记录广播音乐的方法。不幸的是，众多的音乐类型(具有众多的音质)以及不可预测的音乐和非音乐在广播节目中结合的方式，使该方法案成为困难的任务。

图1A和1B示出该问题的例子。在某些情况下，如图1A所示，一个音乐声带可朝着其结尾逐渐减弱，紧接着是非音乐(例如通知、广告等)，在这之后另一个音乐声带逐渐增强。图1B示出了另一种常见情形。特别地，唱片音乐节目主持人(DJ)可在一首歌曲结束之前在该歌曲中说话，然后该歌曲逐渐减弱而另一首歌曲逐渐增强，而该DJ可在下一首歌曲的开始讲话。该问题可以用许多其它方式混合：背景音乐可加入DJ或其它通知中；DJ可以在音带中间讲话；叮当声(具有音乐品质)被包含在广告或其它非音乐节目中；某些音乐包含语音和非传统音效等。

已经有多种现有成果来自动对音频或视频流分类(即，自动区别流内的不同类型的内容)，包括语音-音乐区别。尽管在某些现有成果中所使用的算法和方法有相似之处，但是方法之间较小的差别可具有非常显著的效果。在某些情况下，算法中非常小和不明显的变化可在特定应用中产生成功或失败之间的差别。许多现有成果还使用非常复杂的需要大量处理的算法。根据这些和其它挑战，仍然需要用于区别音频广播的音乐和非音乐部分的系统和方法的不同实现。

发明内容

本发明的实施例提供一种识别音频流中音乐和非音乐部分的方法。在第一个实施例中，本发明包括一种用于有选择地记录音频流的音乐部分的方法。该方法包括：接收具有音乐和非音乐部分的音频流；将该音频流分段成连续的帧；以及使包含在多个帧的每一个中的信号通过具有不同频率响应的多个滤波器。对多个帧的至少一个子集计算被平滑过的谱通量(spectral flux)，并在对应于开始帧的音频流的点开始记录，该开始帧是多个帧中具有低于阈值的被平滑过的谱通量值的帧。在对应于停止帧的音频流的点停止记录，该停止帧是多个帧中具有高于上述阈值的被平滑过的谱通量值的帧。在另一个实施例中，本发明包括计算机可读介质，其具有用于执行与第一个实施例中的步骤类似的步骤。在又一个实施例中，本发明包括记录设备，其被配置为执行与第一个实施例中的步骤类似的步骤。

附图说明

当结合附图阅读时，本发明的上述概括以及下面对最佳实施例的详细描述更容易理解，这些是示例性的，而不是对所要求的发明的限制。

图1A是示出音乐和非音乐节目的结合的例子的图；

图1B是另一个示出音乐和非音乐节目的结合的例子的图；

图2是根据本发明的至少一个实施例的用于自动记录音频广播的音乐部分的记录设备的框图；

图3是示出根据本发明的至少一个实施例的音频信号分类器的图；

图4是示出根据本发明的至少一个实施例的一系列滤波器的频率响应图；

图5是根据本发明的至少一个实施例的差分方程的系数表；

图6A和6B是示出在谱通量上进行平滑的效果的图；

图7是示出散置有非音乐的两个音乐声带的被平滑过的谱通量的例子的图；

图8A-10B是示出根据本发明的各种实施例的分类器的操作的流程图；

图11是根据本发明的至少一个实施例的用于远程记录音频广播的体系结构的图；

图12是根据本发明的至少一个实施例的用于自动记录音频广播的音乐部分的记录设备的框图；

图13是根据本发明的至少一个实施例的移动终端的框图；

图14A-14F是说明根据本发明的至少一个实施例的记录广播的音乐部分的图。

具体实施方式

本发明包括一种用于自动记录具有音乐和非音乐成分的音频流的音乐部分的系统和方法。在许多应用中，当区别音乐和非音乐时，准确的分类不是所有时候都要求的。例如，为了避免商业广告、新闻、通知和其它非音乐节目，听众有时只希望记录一首或者多首歌曲(或者其它音乐声带)。用户可能很少关注在给定期间记录每一首歌曲，而是避免尽可能多的非音乐。在许多情况下，成功地识别超过50％的在给定的时间间隔期间播放的音乐声带就足够了。然而，当音频流的一部分被错误分类时，更好的是误把音乐当成非音乐。换句话说，用户可能更愿意错过记录某些音乐，而不是记录非音乐。

图2是示出根据本发明的一个实施例的记录设备10的组成的框图。记录设备10包括AM/FM接收器12、处理器14、缓冲(或临时)存储器16和存储(或长期)存储器18。在可选的实施例中，记录设备10可包括通过电视频率或者其它频带传输的接收器。接收器12、处理器14、存储器16和18以及其它组件通过一个或者多个数据总线26互连和通信。接收器12还包括调谐器20。调谐器20在处理器14的指导下，调谐到特定的无线频带和频率，并向数字转换器22提供模拟音频输出。调谐器20还可包括滤波器、放大器和其它组件以提高所接收的广播的质量。数字转换器22通过对在调谐器20用于接收的电台上的音频流进行采样，接着把该音频流转换为数字值，从而将来自调谐器20的模拟输出转换为数字化数据。该数字化音频被传送到处理器14用于进一步的处理，如下所述。在某些实施例中，该数字化音频还被传送到编解码器CODEC 24。CODEC 24将该数字化音频转换为特定格式(例如MP3)。虽然CODEC 24在图2中作为单独的组件示出，但是将音频转换为MP3或者其它格式可以通过由处理器14执行的CODEC软件执行。处理器14控制数字转换器22的操作，访问缓冲存储器16和访问存储存储器18。处理器14根据软件指令操作，这些软件指令可以存储在存储存储器18中。来自记录设备10的音乐(无论从存储器中播放的或者通过调谐器电路20接收的)可以通过头戴受话器和/或扬声器播放，和/或可通过输出端口(未示出)传送到另一个记录媒体。

来自CODEC 24的转换后的数字化音频被存储在缓冲存储器16和/或存储存储器18中。在其它没有CODEC的实施例中，存储解压缩的音频。缓冲存储器16用于临时存储近来的广播(或者其中的部分)。在从处理器14接收到“记录”控制信号后，缓冲存储器16内的音频流的内容被复制到存储存储器18中用于长期存储。在从处理器14接收到“停止记录”控制信号后，停止音频流从缓冲存储器16到存储存储器18的传送。存储存储器18可以是硬盘驱动器。缓冲存储器16可以是RAM或者其它易失性存储器，可以是存储存储器18的单独分区的部分，或者可以用其它方式实现。本发明并不受限于缓冲存储器16和存储存储器18所体现的介质的类型。在图2中示出的特定体系结构和组件的排列仅仅是根据本发明的记录设备的一个例子。可以添加其它组件，并且上述组件可以组合和/或执行其它功能。

图3是示出根据本发明的至少一个实施例的音频信号分类器40的操作的框图。虽然以单独的功能模块示出，但是信号分类器40的各种组件代表由处理器14根据存储在存储存储器18中的指令执行的功能和处理操作。

处理器14所接收的是数字化与合并的立体声音频广播的左、右声道。虽然本发明使用立体声音频流作为例子进行描述，但是本发明也可以用具有单声道的非立体声音频广播或者具有多于两个声道的音频广播实现。左、右声道信号首先通过数字化转换器22内的模数转换器(ADC)进行数字化(图2)。在其它实施例中，音频流可以作为数字输入接收，不需要初始的A/D转换。在其它实施例中，音频信号可以以数字形式接收，但在输入处理器14之前进行处理以将该流转换为不同的格式。在图3的例子中，在数字转换器22的ADC中进行数字转换后，数字化的左、右信号被分离。一组数字化的左、右信号传送到放大器58中对每个信号的幅值减半。另一组左、右信号经过CODEC 26，然后存储在缓冲存储器16中(图2)。

来自放大器58的输出信号接着在加法器60中进行结合，并传送到下采样模块62。因为适合于分类器40的操作的采样频率低于高音频质量所要求的频率，并且因为较低的采样频率方便更快的处理，所以信号被下采样到较低的采样频率。在某些实施例中，信号用因子4进行下采样。换句话说，如果所接收的模拟音频信号被数字转换器22的ADC以44.1KHz进行采样，则来自数字转换器22的数字输出被进一步采样，使得所产生的信号有效地是原始模拟输入的11.025KHz样本。虽然如果音频信号被下采样可以有助于处理，但是在某些实施例中，不执行下采样。

来自下采样模块62的输出信号接着在模块64中被分段成更短的帧。在一个实施例中，下采样信号被分成表示大约100毫秒长度的音频输入的部分的帧。在该实施例中，帧不相互重叠(即，与帧k的末端对应的音频流的部分不超过与随后的帧k+1的开始对应的音频流的部分)并且不进行加权。相反，信号仅仅被分成100毫秒块。每个100毫秒块包含相结合的原始音频流的N个数字化样本，其中N＝下采样频率(KHz)×帧大小(毫秒)。例如，对于8KHz下采样率和100毫秒帧大小，N＝8×100＝800。在某些实施例中，可以根据下采样率调整帧大小，以提供每帧的合适样本数量。例如，如果模拟音频流最初以44.1KHz采样率进行数字化，然后下采样到11.025KHz，那么帧大小可以调整到大约93毫秒以提供N值1024。

接着，每个帧由特征提取模块66处理。在模块66中，每个帧首先并行地通过滤波器组，其包括带宽与其中心频率近似成比例的滤波器。在一个实施例中，滤波器组包括5个无限脉冲响应(IIR)滤波器。在至少一个实施例中，这些滤波器中的每一个都对应于帧内可能的音频频率的不同频带，并具有如图4所示的幅值响应。特别地，第一滤波器IIR₁对应于频带1，是低通滤波器。帧内具有非常低的频率的样本都以接近全幅地通过，而高频率样本的幅值被衰减(在1000HZ大约-20dB，在2500HZ大约-30dB)。第二滤波器IIR₂对应于频带2。具有大约450Hz频率的样本几乎没有衰减地通过，而频率低于大约250Hz和高于大约1000Hz的样本衰减-10dB。第三滤波器IIR₃对应于频带3，允许频率大约为900Hz的样本基本没有衰减地通过。频率大约为500Hz和1500Hz的样本衰减-10dB。第四滤波器IIR₄对应于频带4，允许频率大约为1500Hz的样本基本没有衰减地通过。滤波器IIR₄对频率为800Hz和2500Hz的样本衰减大约-10dB。最后，第五滤波器IIR₅对应于频带5，允许频率高于大约5000Hz的样本基本没有衰减地通过。

帧中的样本首先通过滤波器IIR₁至IIR₅，每一个滤波器都具有传递函数，该函数的Z变换为由等式1给出的类型。

等式1

H (z) = \frac{b_{0} + b_{1} z^{- 1} + b_{2} z^{- 2}}{1 + a_{1} z^{- 1} + a_{2} z^{- 2}}

来自这种类型的滤波器的输出可以通过使用由等式2给出的二阶差分方程计算。

等式2 y_i(n)＝b₀x_i(n)+b₁x_i(n-1)+b₂x_i(n-2)-a₁y_i(n-1)-a₂y_i(n-2)

在等式2中，x_i(n)是帧的第n个样本的数字化值，而y_i(n)是来自第i个IIR的输出，该滤波器用0初始化，使得x(-1)＝x(-2)＝y(-1)＝y(-2)＝0。

在其它实施例中，IIR滤波器不用0初始化，并被允许“溢出”帧边界和使用过去的输入和输出。在图5中，在至少一个实施例中，下采样频率为11.025KHz的等式2的系数被提供给滤波器IIR₁到IIR₅。对于一阶滤波器(例如，诸如IIR₁的低通滤波器或者诸如IIR₅的高通滤波器)，b₂和a₂是0。

如等式3所给出的，通过滤波器IIR_i的帧的RMS能量估计的例子是帧中每个样本n的y_i(n)的绝对值的和。

等式3

E_{i} = Σ_{n = 0}^{N - 1} | y_{i} (n) |

如等式4所给出的，根据该RMS能量估计E_i的对数计算每个帧的特征e_i。

等式4

e_{i} = \log 10 (\frac{E_{i} + C}{C}) = \log 10 (E_{i} + C) - \log 10 (C)

包括偏移量C以避免静态帧(quiet frame)的e_i的大变化。该偏移量确保静止帧(silent frame)的RMS估计等于0。对于16比特音频，|x(n)|＜32768，因此在至少一个实施例中，C被设置为100,000。

当在特征提取模块66(图3)中计算出特征e₁，e₂，e₃，e₄和e₅后，这些特征在模块68中用于计算该帧的谱通量SF。该谱通量SF是基于等式5的，它是在连续的帧k和k-1之间e_i变化多少的量度。

等式5

SF = Σ_{i = 1}^{5} | e_{i} (k) - e_{i} (k - 1) |

对于诸如语音的简单和缓慢变化信号，谱通量SF通常比较高，而对于诸如音乐的混乱的宽带信号，谱通量通常较低。然而，如果没有平滑，则谱通量SF通常变化太快以至于没有用。因此，在至少一个实施例中，SF在多个(K)以前的帧上进行平均，如等式6所示。

等式6

&lang; S F_{K} &rang; = \frac{1}{K} Σ_{k = 0}^{K - 1} S F_{- k}

在至少一个实施例中，K＝40，对应于大约4秒的音频。图6A和6B示出了在清楚地表示从音乐到语音的转换的有利的情况下平滑的效果。平滑可以引起显著的处理延迟。因为SF通常变化缓慢，所以没必要计算每个帧的SF。在某些实施例中，SF每秒计算2次或3次。这相当于进一步下采样帧频。对于长度为93毫秒的帧，这大致相当于进一步用因子4下采样。

使用由特征处理模块68计算的被平滑过的谱通量(<SF>)的值，区别模块70确定音频流当前是否包含音乐或非音乐。根据该确定，区别模块70发出控制信号，使音频广播的被缓冲部分存储到存储存储器18中。因为低的<SF>值意味着音乐，所以区别模块70搜索音频的长的部分(即，多个帧)，其中<SF>不超过决策阈值<SF>_MAX。在一个实施例中，<SF>_MAX被设定为1.0。图7示出在清晰的情况下，散置有非音乐的两个音乐声带的<SF>的值。

图8A是示出诸如在图7所示的情况下的检测算法的一个实施例的流程图。在分类器40的实例化(instantiation)后，处理器14首先确定<SF>是否高于<SF>_MAX(步骤202)。如果是，则如所示地返回到步骤202的输入，处理器14继续等待直到<SF>低于<SF>_MAX。如果在步骤202<SF>不高于<SF>_MAX，则如步骤204所示，处理器14设置变量(“Est_Start”)等于<SF>降低到低于<SF>_MAX的帧的时间戳。在步骤206，处理器14确定<SF>是否仍低于<SF>_MAX。如果是，则如所示地返回到步骤206的输入，处理器14继续等待直到<SF>不再低于<SF>_MAX。一旦<SF>升高到高于<SF>_MAX，(即，步骤206的“否”输出)，则在步骤208将另一个变量(“Est_End”)设置为<SF>升高到高于<SF>_MAX的帧的时间戳。

在步骤210，处理器14确定<SF>是否保持低于<SF>_MAX最小时间量(Min_Dur)。通过这种方式，处理器14能够排除包含叮当声的商业广告和可包含音乐的音质但用户不希望记录的其它类型的节目。如果Est_End-Est_start小于Min_Dur，则在步骤214决定不将该音带存储在存储存储器18中。缓冲存储器16的对应部分被释放用于存储随后的音频数据，并且处理器14返回到步骤202以重新等待<SF>降低到低于<SF>_MAX。然而，如果Est_End-Est_start大于或等于Min_Dur，则处理器14在步骤212决定将该音带存储到存储存储器18中。将该音带从缓冲存储器16复制到存储存储器18中，缓冲存储器16的对应部分被释放用于存储随后的音频数据，并且处理器14返回到步骤202以重新等待<SF>降低到低于<SF>_MAX。在一个实施例中，Min_Dur被设置为大约60秒。在其它实施例中，Min_Dur被设置为大约120秒。

在其它实施例中，Min_Dur由用户调整和/或由处理器14自动调整。例如，某些音乐声带可包含类似普通语音的简短部分。在这种情况下，<SF>可短暂地升高到高于<SF>_MAX的预置值，使得该音带不被分开。作为一种解决方案，如图9A所示，<SF>_MAX被调整为时间的函数。图9A的模块220，222，224，230，232，234和236分别与图8A的模块202，204，206，208，210，212和214相似。

图9A包括附加的步骤226和228。在步骤224，在确定<SF>仍然低于<SF>_MAX后，处理器14在步骤226确定<SF>低于<SF>_MAX已经多长时间。如果时间超过预定值(步骤226的“是”输出)，则在步骤228修正<SF>_MAX。例如，如果<SF>低于<SF>_MAX的时间已经超过一分钟，则在步骤228将<SF>_MAX从1.0升高到1.2，处理器14返回到步骤224。如果在步骤226，时间不超过预定值(“否”输出)，则<SF>_MAX保持不变，处理器14返回到步骤224。在至少一个实施例中，步骤226和228的逻辑被实现为查找表。如果<SF>低于<SF>_MAX的时间量超过预定值(步骤226的“是”输出)，则在不同的时间量后，<SF>_MAX增加或降低不同的量。例如，在<SF>低于<SF>_MAX的一分钟后，<SF>_MAX从1.0升高到1.2。在<SF>低于<SF>_MAX的四分钟后，<SF>_MAX从1.2降低到0.8。该特定实施方式使得很少的短歌曲被中断，但使较长的歌曲被分开。

在某些情况下，用户可能不希望特定记录的音带超过预定长度。例如，广播可连续地播放几首歌曲，而没有插入通知或其它非音乐部分，而用户仅希望记录短的音乐声带。在这种情况下，<SF>可保持低于<SF>_MAX延长的时间段(例如10分钟或更长)。在其它实施例中，处理器14因此被配置为当<SF>保持低于<SF>_MAX已经超过预定时间(Max Dur)时停止记录。

该实施例的一个算法在图10A中示出。图10A的步骤240，242，244，248，250，252和254分别与图8A的步骤202，204，206，208，210，212和214相似。然而，在图10A的步骤246，处理器14确定<SF>保持低于<SF>_MAX是否超过Max_Dur。如果是(步骤246的“是”输出)，则处理器14直接进行到步骤252。自<SF>变得低于<SF>_MAX以来播放的音带被存储到存储存储器18中，处理器14返回到步骤240。因为<SF>仍将低于<SF>_MAX(假定连续播放几首歌曲)，所以Est_Start将被重新设置为当前正播放的帧的时间戳，而当前正播放的音带将继续作为单独的音乐声带被记录(假定当前音带继续超过Min_Dur)。在其它实施例中，当<SF>保持低于<SF>_MAX超过Max_Dur时，使用“第二最好”中断点。例如，一旦<SF>保持低于<SF>_MAX达到例如Max_Dur的80％时，则分析当前的音带以确定自从该歌曲开始以来<SF>是否已经有相对大的增加或降低。例如，一旦自从该歌曲开始以来<SF>降低到低于平均<SF>的百分数(或自从该歌曲开始以来<SF>增加到超过平均<SF>的百分数)，则处理器14停止记录该音带并开始记录新的音带。

图8A、9A和10A的流程图表示这样的算法，其中处理器14在检测到歌曲的结尾时继续搜索和记录其它的歌曲。在其它实施例中，修改这些算法以在一定数量的歌曲已经被记录之后停止搜索。图8B、9B和10B分别是图8A、9A和10A的算法如何以这种方式被修改的例子。在图8B、9B和10B的每一个中都添加新的步骤280。如果在步骤280中，处理器14检测到所记录的歌曲的总数超过所允许或期望的最大数量(“Max_songs”)时，则算法结束。Max_songs可以设置为1、2、3或者任何其它值。

在其它应用中，用户可能希望当他或她听见正在广播的歌曲时记录该特定的歌曲。然而，用户可能直到该歌曲已经开始后才意识到他或/她希望记录它。在这种情况下，本发明的实施例自动“倒退”到刚播放的音频的一部分并找到当前歌曲的开始。可选择地(或者另外地)，可以自动地识别音乐声带的结尾，并且用户不需要等到该音带的结尾来手动地停止记录。在另外的其它情况下，用户可能希望远程地记录特定的歌曲。例如，用户可能在备有AM/FM接收器的移动终端上听音乐。然而，该终端可能缺乏记录大量音乐所需要的存储器和其它资源。在本发明的至少一个实施例中，通过移动终端听音乐的用户能够在远程位置记录音乐。

图11是根据本发明的其它实施例的用于远程记录音频广播的系统的结构图。虽然本发明以用于记录来自AM或FM无线电台的音频广播的系统为例进行描述，但是本发明还适用于可包括视频或其它成分的广播。移动终端310通过无线网络300进行通信。无线网络300示意性的表示为一片云，但是包括发送和接收无线通信的基站，并可包括交换设备、到其它网络的连接和其它组件。因为这些方面在本领域是已知的，所以在这里不需要作进一步的描述。除了提供无线双向通信外，移动终端310还从一个或多个广播站312接收广播无线节目。移动终端310通过调谐到分配给广播站的广播频率，选择广播站。

在图11中还示出记录设备314。虽然记录设备314也可以是便携式的，但记录设备314通常位于家中、办公室或其它相对固定的位置。记录设备314通过无线网络300从移动终端310接收通信。记录设备314可以直接连接到无线网络300，但在最佳实施例中，其可通过一个或者多个中间网络与无线网络300进行通信。这种中间网络可包括例如有线电话服务和/或因特网。在某些实施例中，记录设备314还通过无线网络300和一个或者多个中间网络向移动终端310传输通信。记录设备314还从广播站312接收广播节目。在一个实施例中，记录设备314通过到记录设备314上的天线的射频(RF)传输从广播站312接收通信，但是在其它实施例中，其可以通过电缆或者其它有线连接接收这种广播。网络连接316可以是传统的电话连接、因特网连接或其它通信网络连接。

图12是示出根据本发明的一个实施例的记录设备314的组成的图。记录设备314与记录设备10(图2)类似，包括AM/FM接收器316(具有调谐器318和数字转换器320)、处理器322、CODEC 324、缓冲存储器328、存储存储器330和总线326。记录设备314还包括网络接口320。网络接口320允许记录设备314从移动终端310接收通信，并可选择地向该移动终端310发送通信。网络接口320可以是调制解调器、网络接口卡或者其它网络接入设备。图12中所示的特定体系结构和组件的排列仅仅是根据本发明的记录设备的一个例子。可以增加其它的组件，并且上述组件可以结合和/或执行其它功能。

图13是根据本发明的一个实施例的移动终端310的框图。如在这里所用的，“移动终端”包括蜂窝电话和其它无线电话、通过通用分组无线业务(GPRS)通信以发送和接收数据的移动设备、支持无线因特网电话的设备和任何其它方便设备的用户与另一个位置之间的无线双向通信的移动通信设备。移动终端310包括通信接口342、输入(例如键盘344和音频/视频输入346)、显示器348、存储器350、处理器352和广播接收器354。通信接口342包括通过无线网络300发送和接收信息(无论声音、数据或其它信息)所需的组件。音频/视频输入346可以包括例如麦克风和/或照相机。

移动终端310的用户通过键盘344提供输入以访问移动终端310的特征。移动终端310的操作由处理器352控制，该处理器352从存储器350接收指令和数据，并将数据存储到存储器350中。移动终端310还包括广播接收器354。广播接收器354调谐到所希望的广播站的频率，并通过扬声器356或头戴受话器358提供音频输出。在其它实施例中，广播接收器354还可通过例如显示器348提供视频或其它类型的输出。图13所示的移动终端仅仅是根据本发明的可能的移动终端的一个例子。

图11所示的系统允许移动终端310的用户在通过移动终端310收听节目时存储AM、FM或其它广播节目传输。虽然该用户可能正在通过移动终端310收听广播，但是该广播可由远离移动终端310的记录设备314记录。当通过移动终端310接收广播传输时，用户可以通过无线网络300向记录设备314发送通知。该通知指示记录设备存储所指定的广播频率的当前广播传输。该广播传输被存储在记录设备314中，并可以稍后重放或传输到另一个设备上的存储器。例如，记录可以通过蓝牙链接(如例如在2001年2月22日出版的“蓝牙系统技术规范”版本1.1中所述的，其可以从蓝牙SIG有限公司的网站 http://www.bluetooth.com上获得)传输到MP3播放器或者其它设备。

在激活移动终端310的广播接收器354后，信号可以通过无线网络300发送到记录设备314。该信号通知记录设备314移动终端310已经调谐到特定的广播频率。接着，记录设备的处理器322使记录设备的调谐器318调谐到相同的频率。在一个最佳实施例中，在用户将广播接收器354调谐到特定电台后，移动终端的处理器352自动向记录设备314发送信号。例如，在广播接收器354被调谐到特定电台已经某个时间段(例如10秒)后，移动终端的处理器352确定用户已经选择收听该电台。接着，移动终端的处理器352通过无线网络300传输信号，该信号包含记录设备314的标识符和所调谐的频率的标识符。当用户调谐到另一个不同的频率时，可以传输随后的信号，其包含新的频率。在接收到该信号后，记录设备314调谐到该新的频率。

在至少一个实施例中，记录设备314在最初接收到表示移动终端310已经调谐到特定频率的通知信号后，开始将广播节目存储在缓冲存储器328中。在接收到该通知信号后，记录设备314的处理器322将调谐器318调谐到所指定的频率，并通过CODEC 324将数字转换器320的输出写入缓冲存储器328中。当使用记录设备10(图2)，CODEC可以被忽略并且解压缩所存储的音频。在一个实施例中，缓冲存储器328仅仅存储最近一段时间(例如最后30分钟)内所接收的节目。如果在该时间段的结尾，没有从移动终端310接收用户愿意记录广播节目的指示，则CODEC 324的输出覆盖缓冲存储器328中最旧的节目部分。如果用户确实希望记录他或她正通过移动终端310收听的节目，则该用户可使移动终端310通过无线网络300向记录设备314发送记录信号。在接收到记录信号后，记录设备的处理器322可对缓冲处理器328中的内容进行标记，用于以后存储在存储存储器330中。如果用户想要记录的节目的长度超过缓冲器的大小(即，从记录信号到停止记录信号之间的时间使得将被记录的节目的一部分会覆盖以前被缓冲的部分)，则CODEC 324的输出可以直接存储在存储存储器330中。可选择地，缓冲器时间段的长度可以被延长。

通过在接收记录指令之前自动缓冲数字转换器的输出，用户能够“偷取时间”，即，在节目已经开始后开始记录整个节目。例如，用户可以将移动终端310调谐到特定的无线电台，并开始收听特定的歌曲。在歌曲开始后，用户可以决定他或她喜欢这首歌曲，并愿意记录该歌曲用于将来的享受。然后，用户在移动终端的键盘344上按下适当的键(或键的组合)，这使得处理器352通过无线网络300向记录设备314发送记录信号。在接收到记录信号后，使用先前所述的分类器40，处理器322识别缓冲存储器328内的音频数据中的音乐声带的开始和/停止点，并将该音带复制到存储存储器330中。

图14A到14F示出了至少一个其它实施例的操作。在图14A到14F中，正在广播的两个音乐节目(标识为“歌曲A”和“歌曲B”)被表示为可变长度水平条。当歌曲播放时，相应的条向右移动。当前时间由最左边的箭头和垂直虚线示出。第一箭头的右边的歌曲A或歌曲B的条的部分表示已经广播的节目部分，而箭头的左边的条的部分表示将要广播的节目部分。从左箭头和垂直线到最右边的箭头和垂直线的距离表示已经存储在缓冲存储器328中的广播的时间段。缓冲器内容以图表的形式显示为B₂，B₁，A_n，A_n-1等。特别地，B₁是歌曲B的数字化第一部分，B₂是歌曲B的数字化第二部分。A_n是歌曲A的数字化最后一部分，A_n-1是歌曲A的数字化倒数第二部分等。在图14A中，歌曲B刚刚开始。在图14B中，记录设备314从移动终端310接收记录信号。如图14C和图14D所示，从该时间点向前，歌曲B的数字化部分直接存储在存储存储器330中。记录设备314的处理器322继续分析数字转换器320的输出。在检测到歌曲B的结尾后(图14E)，处理器322在缓冲存储器328中定位歌曲B的开始，然后，将歌曲B的被缓冲部分附加到已经存储在存储存储器330中的部分(图14F)。

在对如图14A到14F所示的操作的一个变形中，处理器322可以立即在缓冲存储器328中定位歌曲B的开始，并在完成歌曲B的广播之前将歌曲B的被缓冲部分传送到存储存储器330中。在另一个变形中，处理器14在接收到记录信号后假定歌曲正在播放，并寻找从<SF>低于<SF>_Max到<SF>高于<SF>_Max的下一个转换。一旦发生该转换，则在以前缓冲的部分中找到该歌曲的开始，并且整个歌曲在该点被移到存储存储器330中。还可以修改图8A到10B的算法以检测已在播放中的歌曲的开始和结尾。并非搜索从<SF>高于<SF>_Max到<SF>低于<SF>_Max的转换(步骤202、220、240)，而是接收记录信号使得处理器向后查找歌曲的以前缓冲的部分以获得从<SF>低于<SF>_Max到<SF>高于<SF>_Max的转换。接着，处理器14从接收到记录信号的那个点开始向前查找从<SF>低于<SF>_Max到<SF>高于<SF>_Max的转换。在另一个变形中，记录设备可以自动地确定歌曲的开始点，但由来自用户的随后的信号通知结束点。为了避免在分析或传输缓冲器内容时丢失节目部分，记录设备314可以用并行处理器和/或缓冲器实现，使得当其它部分被传输(或最初放置)到存储存储器330中时可以分析或缓冲广播的部分。

在另外的其它实施例中，分类器40在后台执行并在音乐声带广播时不断地识别其开始和停止点。当用户(经由移动终端、通过向记录设备10手动输入记录命令或者其它方式)发起“记录”命令时，处理器仅存储具有带有限定该记录命令的时间戳的时间戳的开始和停止点的音乐声带。如果当当前帧的被平滑过的谱通量没有被识别为音乐(例如语音占主导的歌曲的一部分)时或者在播放小于最小时间段的音带期间用户发起记录命令，则可以实施其它步骤。在一个变形中，处理器被配置为记录最小音带大小和/或在记录命令之前或之后最小数量的音频。在另一个变形中，处理器将记录命令的时间视为在音乐声带内，然后如上所述地(根据被平滑过的谱通量与阈值之间的关系)搜寻该音带的开始和结束。有效地，被平滑过的谱通量在记录命令时候的峰值被忽略。

尽管已经描述了执行本发明的特定实施例，但本领域的技术人员将知道，上述系统和方法可以有很多变化和改变，这些都包含在如随后权利要求所述的本发明的精神和范围内。例如，记录设备和/或移动终端可被配置为使得用户可以在手动和自动记录模式之间选择。各种缓冲器大小、时间段和上述的其它操作参数都可以由用户配置。作为另一个可选的方案，一种计算机可读介质可以具有在其上存储的计算机可执行指令，使得当这些指令由适当的设备(或设备组)读出和执行时，可以执行根据本发明的方法的步骤。这些和其它修改都在如所附的权利要求所述的本发明的范围内。

Claims

1.一种用于有选择地记录音频流的音乐部分的方法，包括：

接收具有音乐和非音乐部分的音频流；

将所述音频流分段为连续的帧；

使多个帧的每一个帧通过滤波器组，所述滤波器组包括带宽与其中心频率近似成比例的滤波器；

对于所述多个帧的至少一个子集，计算修正谱通量值；

识别开始帧，所述开始帧是所述多个帧中具有低于阈值的修正谱通量值的帧；

识别停止帧，所述停止帧是所述多个帧中具有高于所述阈值的修正谱通量值的帧；以及

记录由所述开始帧和停止帧限定的所述音频流的一部分。

2.如权利要求1所述的方法，其中，所述使多个帧的每一个帧通过滤波器组包括：使多个帧的每一个帧通过5个无限脉冲响应(IIR)滤波器。

3.如权利要求2所述的方法，其中，所述5个IIR滤波器包括低通滤波器、中心位于大约450Hz的带通滤波器、中心位于大约900Hz的带通滤波器、中心位于大约1500Hz的带通滤波器和高通滤波器。

4.如权利要求1所述的方法，还包括：

确定在所述开始帧和所述停止帧之间经过的时间是否超过最小时期，其中：

当确定所经过的时间超过所述最小时期间执行所述记录步骤。

5.如权利要求1所述的方法，还包括：

确定自所述开始帧以来经过的时间是否超过谱通量阈值重置时间；以及

当确定所经过的时间间超过重置时间时，重新设置谱通量阈值，其中：

所述识别停止帧包括识别所述多个帧中具有高于重新设置的谱通量阈值的修正谱通量值的帧。

6.如权利要求1所述的方法，还包括：

确定自所述开始帧以来经过的时间是否超过最大时期，其中：

基于所经过的时间不超过所述最大时期，执行所述识别停止帧和所述记录步骤。

7.如权利要求1所述的方法，还包括接收从位于远程的移动终端发起的记录控制信号，其中：

所述识别开始帧包括在所述音频流的被缓冲部分中定位所述开始帧；

所述记录包括将自所述开始帧以来所接收的所述音频流的一部分复制到另一个存储器中。

8.如权利要求1所述的方法，还包括：

数字化所述音频流，其中：

所述分段步骤包括将所述数字化音频流分段成连续的数字化帧；

所述通过步骤包括使多个数字化帧的每一个帧通过多个滤波器；

所述计算步骤包括对于所述多个数字化帧的至少一个子集，计算修正谱通量值。

9.如权利要求1所述的方法，其中，修正谱通量包括在K个以前的帧上平均的谱通量的值，其中K为整数。

10.一种用于有选择地记录无线广播的音乐部分的方法，包括：

接收本质上包含音频传输的无线广播；

对所述音频传输的多个帧的每一个帧，计算特征的值；

识别开始点，所述开始点是所述音频传输中具有与所述特征的阈值有第一关系的特征值的帧；

识别停止点，所述停止点是所述音频传输中具有与所述特征的阈值有第二关系的特征值的帧；以及

记录由所述开始点和停止点限定的所述音频传输的一部分。

11.如权利要求10所述的方法，其中，所述特征包括修正谱通量，所述方法还包括：

使所述多个帧的每一个帧通过滤波器组，所述滤波器组包括带宽与其中心频率近似成比例的滤波器，被滤波的帧用于对所述多个帧的至少一个子集计算修正谱通量值。

12.如权利要求10所述的方法，还包括接收从位于远程的移动终端发起的记录控制信号，其中：

所述识别开始点包括在所述音频传输的被缓冲部分中定位具有与所述阈值有第一关系的特征值的帧；

所述记录包括将自所述开始点以来所接收的所述音频传输的一部分复制到另一个存储器中。

13.一种具有计算机可执行指令的计算机可读介质，所述指令用于执行以下步骤，包括：

接收具有音乐和非音乐部分的音频流；

将所述音频流分段为连续的帧；

对所述多个帧的至少一个子集，计算修正谱通量值；

记录由所述开始帧和停止帧限定的所述音频流的一部分。

14.如权利要求13所述的计算机可读介质，其中，所述使多个帧的每一个帧通过滤波器组包括使多个帧的每一个帧通过5个无限脉冲响应(IIR)滤波器。

15.如权利要求14所述的计算机可读介质，其中，所述5个IIR滤波器包括低通滤波器、中心位于大约450Hz的带通滤波器、中心位于大约900Hz的带通滤波器、中心位于大约1500Hz的带通滤波器和高通滤波器。

16.如权利要求13所述的计算机可读介质，还包括用于执行以下步骤的指令，包括：

当确定所经过的时间超过所述最小时期时，执行所述记录步骤。

17.如权利要求13所述的计算机可读介质，还包括用于执行以下步骤的指令，包括：

当确定所经过的时间超过重置时间时，重新设置谱通量阈值，其中：

18.如权利要求13所述的计算机可读介质，还包括用于执行以下步骤的指令，包括：

19.如权利要求13所述的计算机可读介质，还包括用于执行接收从位于远程的移动终端发起的记录控制信号的步骤的指令，其中：

所述记录包括将从所述开始帧以来所接收的所述音频流的一部分复制到另一个存储器中。

20.如权利要求13所述的计算机可读介质，其中，修正谱通量包括在K个以前的帧上平均的谱通量的值，其中K为整数。

21.一种带有计算机可执行指令的计算机可读介质，所述指令执行以下步骤，包括：

接收本质上包括音频传输的无线广播；

对所述音频传输的多个帧的每一个帧，计算特征的值；

记录由所述开始点和停止点限定的所述音频传输的一部分。

22.如权利要求21所述的计算机可读介质，其中，所述特征包括修正谱通量，所述计算机可读介质还包括用于执行以下步骤的指令，包括：

使多个帧的每一个帧通过滤波器组，所述滤波器组包括带宽与其中心频率近似成比例的滤波器，被滤波的帧用于对所述多个帧的至少一个子集计算修正谱通量值。

23.如权利要求21所述的计算机可读介质，还包括用于执行接收从位于远程的移动终端发起的记录控制信号的步骤的指令，其中：

24.一种用于记录广播节目的记录设备，包括：

接收器，用于调谐到广播无线频率并接收广播节目；

存储器，具有在其上存储的指令；以及

处理器，连接到所述接收器和所述存储器，并被配置为执行指令以：

接收具有音乐和非音乐部分的音频流；

将所述音频流分段为连续的帧；

对于所述多个帧的至少一个子集，计算修正谱通量值；

记录由所述开始帧和停止帧限定的所述音频流的一部分。

25.如权利要求24所述的记录设备，其中，所述使多个帧的每一个帧通过滤波器组包括使多个帧的每一个帧通过5个无限脉冲响应(IIR)滤波器。

26.如权利要求25所述的记录设备，其中，所述5个IIR滤波器包括低通滤波器、中心位于大约450Hz的带通滤波器、中心位于大约900Hz的带通滤波器、中心位于大约1500Hz的带通滤波器和高通滤波器。

27.如权利要求24所述的记录设备，其中，所述处理器还被配置为执行指令以：

28.如权利要求24所述的记录设备，其中，所述处理器还被配置为执行指令以：

29.如权利要求24所述的记录设备，其中，所述处理器还被配置为执行指令以：

30.如权利要求24所述的记录设备，其中，所述记录设备是远程记录设备，其中所述处理器还被配置为执行指令以接收从位于远程的移动终端发起的记录控制信号，其中：

31.一种记录设备，用于远程记录广播节目，包括：

接收器，用于调谐到广播无线频率并接收广播节目；

存储器，具有在其上存储的指令；以及

接收本质上包含音频传输的无线广播；

对所述音频传输的多个帧的每一个帧，计算特征的值；

识别所述音频传输中的开始点，所述开始点是所述音频传输中具有与所述特征的阈值有第一关系的特征值的帧；

识别所述音频传输中的停止点，所述停止点是所述音频传输中具有与所述特征的阈值有第二关系的特征值的帧；以及

记录由所述开始点和停止点限定的所述音频传输的一部分。

32.如权利要求31所述的记录设备，其中，所述特征包括修正谱通量；所述处理器还被配置为执行指令以：

33.如权利要求31所述的记录设备，其中，所述记录设备是远程记录设备，其中所述处理器还被配置为执行指令以接收从位于远程的移动终端发起的记录控制信号，其中：

所述识别开始点包括在所述音频传输的被缓冲部分中定位具有与所述阈值有第一关系的特征值的开始点；

34.一种用于远程记录广播节目的记录设备，包括：

接收器，用于调谐到广播无线频率并接收广播节目；

缓冲存储器；

存储存储器，具有在其上存储的指令；

网络接口；以及

处理器，连接到所述接收器、网络接口和存储器，并被配置为执行指令以：

接收具有音乐和非音乐部分的音频流；

将所述音频流分段为连续的帧；

使多个帧的每一个帧通过低通无限脉冲响应(IIR)滤波器、中心位于大约450Hz的带通IIR滤波器、中心位于大约900Hz的带通IIR滤波器、中心位于大约1500Hz的带通IIR滤波器和高通IIR滤波器；

基于所述滤波器的输出，对所述多个帧的每一个帧计算修正谱通量值；

通过网络接口接收从位于远程的移动终端发起的记录控制信号；

在接收到所述记录控制信号后，在存储在所述缓冲存储器中的所述音频流的一部分中识别开始帧，所述开始帧是所述多个帧中具有低于阈值的修正谱通量值的帧；

当确定在所述开始帧和停止帧之间经过的时间超过最小值时，在所述存储存储器中存储由所述开始帧和停止帧限定的所述音频流的一部分，所述存储包括从所述缓冲存储器中复制在所述开始帧之后缓冲的所述音频流的一部分。