CN1295672C - 模式识别 - Google Patents
模式识别 Download PDFInfo
- Publication number
- CN1295672C CN1295672C CNB028286480A CN02828648A CN1295672C CN 1295672 C CN1295672 C CN 1295672C CN B028286480 A CNB028286480 A CN B028286480A CN 02828648 A CN02828648 A CN 02828648A CN 1295672 C CN1295672 C CN 1295672C
- Authority
- CN
- China
- Prior art keywords
- component
- mask
- proper vector
- distortion measure
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
模式识别,其中从一个数字化的输入信号形成一个特征向量序列,该特征向量包含特征向量分量,并且通过计算一个失真测度对至少一个特征向量和候选模式的模板进行比较。根据本发明,基于识别过程的至少一个时间相关变量形成一个控制信号。并且应用特征向量的向量分量的仅一个子集计算出该失真测度,该子集根据上述控制信号选定。由于有效降低了计算中所用到的向量的维数,因此这样就减少了计算中的计算复杂度。虽然这样的维数降低减少了所需的计算,但是已经发现这并没有显著削弱识别性能。
Description
技术领域
本发明涉及模式识别,其中一组特征向量从数字化的输入信号形成,并与候选模式的模板进行比较。
背景技术
在模式识别中,输入信号被数字化,并形成特征向量序列。然后这些特征向量与候选模式的模板(例如信号中待识别的声音或者图像)进行比较。在语音识别中,该候选模式可以表示,例如,电话本中的名字。
然而,模式识别,例如语音识别,需要进行大量计算。在许多情况下,例如在嵌入式设备中实现时,由于内存和计算能力有限,需要降低模式识别算法的复杂度。
计算复杂度依赖于几个因素:采样率,候选模型模板数量和特征向量维数。降低上述任一因素都能提高识别速度,从而能够以合理的时间在处理器上运行,但是这样会降低识别准确性。
而且,可用资源通常是在不同进程之间共享,并且因此可用的处理能力和内存容量是可变的。如果在具有有限处理能力的嵌入式设备上开始运行的识别功能在任何时候都能工作,那么最小化或者动态调整处理需求而不降低识别准确性是至关重要的。
传统的降低模式识别器复杂度的方法至少在下述现有的技术中已有介绍:
1.特征向量下采样
一种在几个连续帧(瞬时时间)中用与一个输入特征向量有关的状态似然度(SL)测度来降低解码复杂度的技术。
2.模型模板聚类
这一技术对声学空间进行离线聚类。在解码时,首先在聚类中进行快速搜索,然后只估计那些最优匹配聚类的成员的SL测度。
3.降低特征向量维数
使用高等线性变换,例如PCA,LDA等或者神经网络,将特征向量分量个数降低到预先定义的数量。
对于第三类,这一技术的传统实现方法不具有根据可用CPU能力按比例确定计算复杂度的灵活性,而是总是考虑最坏情况。另外,短时谱(Spetrol-Temporal)线性变换或者基于神经网络的映射可能会显著提高前端的复杂度,从而提高了整个识别器的复杂度。
一个降低特征向量维数的例子在“Should recognizers haveears”一文中给出,见《Speech Communication》,1998年第25卷,第三页至第27页。
发明内容
本发明的一个目的是解决或减少上述问题。
根据本发明一个方面,这一目的是通过以介绍方式提出的方法来达到,进一步包含基于识别过程的至少一个时间相关变量形成一个控制信号,并且对于上述至少一个特征向量,使用上述至少一个特征向量的向量分量仅计算上述失真测度分量的一个子集,上述子集根据上述控制信号选定。
需要强调的是“仅一个子集”这一表达方式表明存在一个小于可用失真测度分量个数的数字。换句话说,该子集包含的分量少于特征向量和模板相比较所定义的分量。这样在有效降低计算中所用到的向量维数的同时,降低了该计算中的计算复杂度。尽管这样的维数降低减少了所需的计算,但是已经发现并没有显著削弱语音识别器的性能或噪声鲁棒性。
更具体地,本发明的解决方法能够通过降低状态似然度(例如b概率)计算中的操作数量来降低计算复杂度,在计算过程中那是一个主要因素。
进一步地,本发明的解决方法不需要大量内存。实际上,依赖于实际的实现方式,本发明的一个实施例甚至不需要任何额外的内存就可以运行。
根据一个实施例,该控制信号表示处理器的负荷。因此根据处理器的瞬时容量来调整复杂度的降低。这是本发明的一个潜在的优点。控制信号也可以表示输入信号的特性。
该发明的构想可以被看作掩蔽特征向量本身的一些分量,因为正是特征向量包含待识别的信息。利用这一术语,该方法可以包括一个掩蔽过程,其中通过应用一个掩码,每个特征向量的一些分量被掩蔽。该掩码能够忽略该向量被选定的分量,得到所计算出的失真测度分量的一个减少的数量。
该分量的掩码可以根据所述控制信号从预先定义的一组掩码中选定,包括至少一个非空掩码。这样就使得在实现过程中只需要额外很少的处理容量来对掩码进行操作。
可选地,掩码可以在每个特定的实例中根据控制信号动态计算出来,这样一个有效的实现方式只需增加很少内存。而且,这种实现方式更加灵活,因为计算出的掩码可以用来匹配变化的处理需求。
换句话说,通过存储在模式识别设备的内存中或者被动态创建,当需要的时候,一组掩码就是可用的。依赖于控制信号,来自这一组掩码中的一个掩码被用来减少计算出的失真测度分量的个数。由于使用不同的掩码会得到不同的计算复杂度,因此语音识别过程能够适合于,例如,变化的处理器容量,而在低负荷情况下(和瞬时)仍能保持好的识别准确性。甚至在一个很高的短时分辨率下(例如一帧接一帧,每10毫秒),仍能进行掩码之间的转换。因此,当CPU空闲时它提供了最优的性能,而有其它负荷时,只有适度的衰减。
如果认为有利,掩码可以在给定的时间间隔掩蔽特征向量中的所有分量,即消除与这一特征向量有关的整体失真测度,并在特征向量序列中进行十中抽一的采样。这样可以将向量维数选择性降低与时域复杂度降低技术(例如特征向量降采样)结合起来。
根据一个实施例,连续特征向量的特定向量分量和依赖于特征向量短时特性的一个比率一起应用。这样能够得到特征分量的特定降采样,其中时间上缓慢变化的特征分量,可以比时间上快速变化的特征分量采样率降低更多。这样的降采样方案可以通过适当调节计算过程和/或动态选择掩码来实现。
根据另外一个实施例,将失真测度分量的子集和一个先前计算出的失真测度的分量结合起来。换句话说,在计算中被忽略的被掩蔽分量的分量,用相应分量的最近计算出的分量来代替。
这表明,一个未被计算出的分量用最近计算出的相应分量来近似,从而在不显著增加计算量的情况下提高了性能。并且,这一技术保证了所有失真测度都是基于相同维数的向量计算出来的。这样就简化了将来的处理,例如,当比较失真测度时不需要归一化并且无需重新计算依赖于分量个数的任何常数。
本发明可以优选地实现在一个语音识别过程中,在这种情况下该信号表示语音,该模式表示所说出的词。本发明可以优选地应用在嵌入式设备(例如移动电话)上所实现的语音识别系统中。进一步地,该模板可以是隐含马尔可夫模型(HMM)的高斯混合密度。
根据本发明的第二方面,上述目的是通过一个用于模式识别的设备来达到,包含从一个数字化的输入信号形成特征向量序列的方法,基于识别过程的至少一个时间相关变量形成一个控制信号的方法,和通过计算包含失真测度分量的一个失真测度来对至少一个特征向量和候选模式的模板进行比较的方法,其中该比较方法用来仅计算失真测度分量的一个子集,该子集根据所述控制信号选定。
参照附图对优选实施例进行了更加详细的描述,从中可以看出,本发明的这些以及其他方面是显而易见的。
图1表示一个语音识别引擎的框图;
图2a表示根据现有技术计算失真测度的示意图;
图2b表示根据本发明的一个实施例计算失真测度的示意图;
图2c表示适于图2b中计算的不同的掩码;
图2d表示根据本发明的第二个实施例计算失真测度的示意图;
图3表示根据本发明的一个实施例的掩蔽过程的示意流程图;
图4表示本据本发明的进一步的一个实施例的掩蔽过程;
图5表示根据本发明的另外一个实施例的掩蔽过程;
图6表示处理器负荷的影响。
在下面的描述中,该模式识别过程是一个语音识别过程,用于,例如,基于语音的用户接口。然而,这一点不应该看作对本发明的一个限制条件,本发明是面向通常的模式识别。该输入信号可以是任何数字化的信号,并且该候选模式可以表示声音,图像,文本,手写字符等。
图1所示的一个典型的语音识别器包括一个前端处理部分2,负责特征提取,和一个后端处理部分3,负责根据候选词或者词的组成部分的模型模板对提取的特征进行统计分析。这些模型可以通过在线训练(说话人相关的姓名拨号,SDND)或者离线训练(说话人无关的姓名拨号,SIND)来创建。
语音识别器的输入包括数字化采样后的波形4,该波形被分割成连续并有可能交叠的片断。对每个片断执行三个主要处理步骤:
S1.特征提取,产生一个特征向量5。
S2.与声学模型模板6(在下文的示例中是指高斯密度)进行比较,计算当前特征向量的失真值,得到一个失真表7(在下文的示例中是指一个b概率表)。
S3.Viterbi“解码”,即基于步骤S2中计算出的失真表和前一语音片断10的最优累积失真值,得到当前最优累积失真值8。允许的跳转由识别字典和语法9限定。
当语音输入结束时,由Viterbi解码步骤中得到的当前最优识别假设通常作为识别结果提交给用户。
每个声学模型通常由一个隐含马尔可夫模型(HMM)来表示。该HMM是构成可能分类结果的基石。
该HMM是一个能够接受/产生特征向量的统计自动机。它包括一组状态和在这些状态间被允许的一组跳转。每个跳转有一个对应的概率值。每个状态由特征向量空间上的一个概率密度函数(PDF)来描述。由状态PDF和特征向量给出的负的对数似然度也可以看作是一个失真测度。给定自动机的当前状态,它就根据当前状态的PDF给出的似然度来接受/产生当前特征向量,然后跳转到由该组转移概率所限定的一个新的状态。
随时间产生最小总体失真的HMM被选定为识别结果。
最困难的计算工作之一包括为每个特征向量估计对识别模型的状态的失真。如前所述,该失真通常作为状态似然度来计算(其值也称作b概率)。
在一个典型的识别引擎中,每个状态的PDF是特定数量的高斯密度的一个混合量(例如8)。每个密度包括一个均值和一个逆标准差参数向量。
在识别过程中,每个输入特征向量首先与每个密度的参数(均值和标准差)进行匹配,产生一个基于对数似然值的失真测度,如下所示:
此处L是密度的对数似然度,
xi是特征向量的第i个向量分量,
μi和istd2表示第i个均值和逆标准差向量分量,
D表示特征分量的个数(特征向量的维数),并且
C是一个附加常数,其值等于逆标准差乘以1/sqrt(2*pi)的D次幂的乘积的对数,其中D是特征向量的维数。
然后,状态的b概率以如下形式给出:
其中Wi和Li分别是密度i的对数混合权重和对数似然度,M表示状态中的密度个数,b是b概率值。
为所有状态计算出b概率后,其结果存储在Viterbi算法所需的一个所谓b概率表中。这一算法被用来确定在最大似然度意义上最优匹配输入特征向量流的一个HMM序列。该算法是用一种动态规划方法来实现。
计算b概率表所需的乘法和加法的次数可以用下述公式近似:
乘法次数=所有密度×特征分量×2,
加法次数=乘法次数。
对数似然度的计算如图2a所示。一个包含两个N维向量(μ和istd)的密度6和一个包含一个N维向量(x)的特征向量5根据公式1相乘,形成一个N维对数似然项23的集合20,然后根据公式1对该集合求和生成L值。
根据本发明,通过掩蔽一些向量分量可以减少所需的操作次数,因此在公式1中没有考虑这些向量分量。复杂度的降低近似与被掩蔽分量的相对个数成比例,如图2b所示。在这种情况下,允许使用一个掩码21来降低所计算的失真测度分量23的个数。掩码21的黑色部分表示公式1中未被计算的项23。结果,集合20中一些项24被掩蔽,只有剩下的项22被用来计算并求和,来生成对数似然值L。注意,图2a和2b中的向量(μ,istd,x)和集合(20)是示意性的,并且每个被标记为实体的部分可以包括几个分量或项。
虽然上面介绍的掩蔽与对数似然项23有关,但是掩蔽过程也可以看作:如果特征向量(x)和密度向量(μ和istd)被减少,反过来会导致失真测度分量个数的减少。当从这一角度来看时,本发明的一些优点可以被更加清楚地理解,并且下文中的一些例子,例如图4和5,实际上是指特征向量x的掩蔽。
根据本发明,掩码可以随时间变化,即,在不同的帧中掩蔽不同的分量。这一变化是基于,例如,处理器的当前负荷或者输入信号的特性。为此目的,可以为图1中的识别器1提供(或连接)这样一个负荷或者特性探测器11,来生成用于失真计算S2中的控制信号12。
图2c表示可以应用于图2b中计算的三种不同的掩码21。每个掩码21有一个不同的范围,即,能够分别通过一个不同的因子x,y和z减少失真测度分量23的个数。
某些情况下,在对数似然度计算(公式1)中保存分量或者项的个数更为有利。被掩蔽的项24因而能够被有关的前面已经计算出的项25所代替,如图2d所示。
前文所述在识别过程中实现掩蔽过程的流程图如图3所示。该流程图涉及对一个特征向量的操作。
首先,在步骤S10中形成一个控制信号。如前所述,该控制信号可以表示处理器负荷,或者识别过程中的任何其它与时间有关的变量。然后在步骤S11中,选定一个合适的掩码21。该特征掩码可以针对某个预定义的复杂度水平(例如掩蔽因子x,y,z)事先计算出来,甚至可以被硬编码到前端3的软件中来最小化计算开销。可选地,可以为识别器1提供适合的软件,为每种情况或者至少以规则的时间间隔,来计算合适的掩码。这样的软件可以实现在前端2和/或后端3中。
动态计算该掩码的一个优点是掩蔽过程更加适合于变化的情况。最优掩蔽因子的个数和范围可以根据应用、识别种类和环境等因素来改变。
注意:步骤S11可以为每个特征向量分别选择掩码,或者在简化更为复杂的特征向量时考虑几个特征向量。在下面的描述中将给出类似这样复杂方案的示例。
在步骤S12中,从静态内存中载入一组密度矢量,与当前特征向量进行比较。
如前所述,公式1中的常数C依赖于所计算出的对数似然项23的选择。因此,对每个特定的特征掩码,需要为载入的密度提供一个相应的C值。这样的C值是在步骤S13中确定。
所需的C常数可以事先计算出来并存储在识别器的内存中,以便步骤S13从这些值中作出简单的选择。这一存储过程导致的相对内存的增加量可以近似表示为:
其中delta是所需的内存增加,N是掩码的个数,dim是特征向量分量的个数。例如,在一个具有三个掩码的场合下,复杂度为80%,60%和40%,内存增加量将是声学模型大小的3/(39+1)=7.5%。可选地,为了节省内存,可以不存储C值。而是每次从静态内存中加载一个密度进行处理时在步骤S13中重新计算C值。在这种情况下,特征向量掩蔽的实现完全不需要额外的内存。
在步骤S14中,根据公式1计算对数似然度L。由于掩蔽过程会忽略公式1求和中的一些项,因此降低了计算复杂度,如图2b所示。掩码仅仅是定义在公式1计算中忽略哪些项23和计算哪些项22的一组规则。
步骤S14也可以包括前文所述失真测度分量的计算,参见图2d。由于在这种情况下进行了一个全范围的求和,因此可以不需要步骤S13。
在步骤S14中计算出对数似然度L后,步骤S15指令程序控制返回步骤S12,并载入该状态中的下一个密度向量集。对该状态中的所有密度重复执行这一步骤。
当一个状态的所有密度都与当前特征向量进行比较后,在步骤S16中b概率(公式2)被计算出来,并存储在b概率表中,然后步骤S17指令程序控制返回步骤S12,并载入下一个状态的第一组密度向量。对所有状态重复执行这一步骤。
最后,在状态S18中,按照已知方式执行Viterbi算法。
根据一个实施例,通过“掩蔽”选定帧的全部向量,掩蔽能够适于包含特征降采样原理。当特征降采样通过对特征进行十中抽一的采样(例如通过一个因子2)来去除时域的冗余度时,如上所述的特征分量掩蔽去掉了在每个特征采样中用处最小的特征向量分量。
甚至对于一个给定的掩蔽百分比,可以在给定的时刻选择最合适的分量来掩蔽,并且这些分量可以随时间变化。图4中给出了这样一个例子,其中五个特征向量(31-35)按照变化的方式被掩蔽,得到一个不变的掩蔽因子,但是若超过每隔四帧,没有分量被掩蔽。
进一步地,在许多模式识别的应用中,可以通过连接从不同信源中提取的分量形成特征向量。因此特征向量空间实际上是每个信源的子空间的乘积。在大多数情况下,失真测度可以利用特征空间分解化为几项的因子。既然对于分类算法,需要处理一个特征向量序列,在本发明的另外一个实施例中,该特征空间首先被划分为两个子空间;一个具有快速变化的分量,另外一个具有缓慢变化的分量。既然对于每个密度,该失真都是通过组合(有可能是通过加权)这两个子空间的失真得到,那么该方法能够通过对缓慢变化的分量进行降采样来有效地减少计算。这相当于为不同帧选择具有微小差异的掩码,或者具有不同的掩蔽百分比。
子空间的个数不一定是两个。如果变分次数很高,可以得到更加精确的分解。如图5所示,每个特征向量41-47可以分解为三个部分a,b,c:一个缓慢变化的子空间a,用于按2进行降采样,一个缓慢变化的子空间b,用于按3/2进行降采样,和一个快速变化的子空间,不进行降采样。这是通过用不同的周期掩蔽不同的分量来实现的。子空间b每隔三帧被掩蔽,子空间a每隔两帧被掩蔽。如图5所示,这样得到三个不同的掩码48-50,并与一个空掩码51相结合,被应用于一些帧。
对于子空间分解和降采样率的选择,有下述三种可选方案:
1.静态选择
2.半动态选择
3.动态选择
在静态选择过程中,分解(例如通过分析特征流)在识别过程之前完成。在最简单的方法中,基于每个分量的倒谱信息,该分量被分配给合适的子空间。根据前端的设计(例如多分辨率前端,或者结合不同种类特征的前端),变分次数也是已知的先验信息
在半动态选择过程中,除了静态子空间分离之外,也可以通过使用一个连续特征之间的相似测度来控制是否为一个特定的子空间计算一个给定的失真测度这样一个决策。
在动态情况下,利用一个相似测度,对成对或者成组的特征所进行的子空间分解完全是在运行时完成的。对每个特征分量,计算出一个一维的相似测度。变化最慢的分量被放入给定特征组的缓慢变化的子空间中。
图6描述了如何根据识别器1中处理器的实际当前负荷选择预定义或者动态计算出的特征掩码。预先定义阈值Th1,Th2和Th3,当达到这些阈值时,通过在具有不同掩蔽因子的特征掩码1,2或3之间转换,来改变概率计算的复杂度。当不需要时,即当处理器负荷没有超过阈值1时,特征掩蔽可以被完全禁止以提供最大的精度。注意:图6中没有包括由识别引擎自身引起的负荷。
掩码选择过程也可以是自适应的,这样选择某个掩码引起的实际负荷被用来确定使用什么掩码。通过应用一种学习算法,可以记录不同掩码对CPU负荷的影响,用来改进将来的掩码选择。
根据本发明的另一个实施例,基于输入信号的特性,例如时间变化,信噪比等,进行特征向量掩码的选择。首先对输入信号进行分析,然后根据所确定的特性选择合适的掩码。
可选地,可以分析识别过程的结果,并根据这些结果进行掩码选择和自适应。对于某个掩码,如果识别结果令人满意,则该掩码被确定。否则,选择一个不太广义的掩码。如果掩蔽效果令人满意,则保留该掩码,或者用一个更加广义的掩码来替换。换句话说,即保持识别成功的效果在一个所期望的水平,同时掩蔽尽可能多的向量分量。
对于一个熟练的人来说,在附加权利要求的范围之内显然可对上述实施例的进行多种修改和变更。例如,可以应用其它类型的控制信号来优化掩蔽过程。同样可以设想出掩码选择的其它准则和掩码的其它范围。所述失真测度的计算也可以应用在与此处所述不同的模式识别过程中。最后,只要失真测度能够通过偏微分失真值从分量子空间中形成,所述方法能够同样很好地与其他类型的失真测度一起应用。
Claims (21)
1.一种模式识别方法,其中从一个数字化的输入信号(4)形成一个特征向量(5)序列,所述特征向量(5)包括特征向量分量,并且至少一个特征向量通过计算包含失真测度分量(23)的一个失真测度(L)与候选模式的模板(6)进行比较,所述方法的特征在于:
基于识别过程的至少一个时间相关的变量形成(S10)一个控制信号(12),并且
对所述至少一个特征向量,应用所述至少一个特征向量的向量分量仅计算(S14)所述失真测度(L)分量(23)的一个子集(22),所述子集(22)根据所述控制信号(12)选定。
2.如权利要求1所述的方法,其中所述时间相关变量属于处理器负荷和输入信号(4)特性的组。
3.如权利要求1所述的方法,其中所述至少一个特征向量的向量分量通过应用一个掩码(21)被掩蔽,从而减少该子集(22)中计算出的失真测度分量的数目。
4.如权利要求3所述的方法,其中所述掩码根据所述控制信号(12)动态计算出来(S11)。
5.如权利要求3所述的方法,其中所述掩码(21)根据所述控制信号(12)从预定义的一组掩码中选定(S11)。
6.如权利要求5所述的方法,其中所述预定义的掩码表示该子集(22)中计算出的失真测度分量数目的不同减少。
7.如权利要求3所述的方法,其中在给定时刻的所述掩码包括特征向量中的所有向量分量,导致对该特征向量序列的十中抽一的抽选。
8.如权利要求1所述的方法,其中连续特征向量的特定向量分量以依赖于其短时特性的一个比率应用。
9.如权利要求1所述的方法,其中失真测度(L)分量(23)的所述子集(22)与来自先前计算出的失真测度的分量(25)相结合。
10.如权利要求1所述的方法,其中所述信号(4)表示语音,该候选模式表示所说的话。
11.如权利要求1所述的方法,其中所述模板(6)是隐含马尔可夫模型(HMM)的高斯混合密度。
12.如权利要求11所述的方法,其中所述失真测度是基于一个对数似然度(L)。
13.用于模式识别的设备(1),包括从一个数字化的输入信号形成一个特征向量(5)序列的装置(2),其特征在于:
基于识别过程的至少一个时间相关变量形成一个控制信号(12)的装置(11),并且
通过计算包含失真测度分量(23)的一个失真测度(L)对至少一个特征向量和候选模式的模板(6)进行比较的装置(3),
其中所述比较装置被用来仅计算失真测度分量(23)的一个子集(22),所述子集是根据所述控制信号(12)选定。
14.如权利要求13所述的设备,其中形成一个控制信号(12)的所述装置(11)被用来检测该设备(1)的处理器负荷。
15.如权利要求13所述的设备,进一步包括将一个掩码(21)应用于所述至少一个特征向量的分量的装置(3),从而减少该子集(22)中失真测度分量的数目。
16.如权利要求13所述的设备,进一步包括根据所述控制信号(12)从一组预定义的掩码中选择所述掩码的装置(3)。
17.如权利要求13所述的设备,进一步包括根据所述控制信号(12)动态计算所述掩码的装置(3)。
18.如权利要求13所述的设备,其实现为嵌入式处理设备,包括
用来形成所述特征向量序列的前端部分(2),和
用来提供所述一组失真测度(L)的后端部分(3)。
19.包含如权利要求13-18中任何一个所述设备的语音识别器(1)。
20.包含如权利要求19所述语音识别器的通信设备。
21.用于模式识别的系统,包含从数字化的输入信号形成一个特征向量(5)序列的装置(2),其特征在于:
基于识别过程的至少一个时间相关变量形成一个控制信号(12)的装置(11),和
通过计算包含失真测度分量(23)的一个失真测度(L),对至少一个特征向量和候选模式的模板(6)进行比较的装置(3),
其中,所述用于比较的装置被用来仅计算失真测度分量(23)的一个子集(22),所述子集根据所述控制信号(12)选定。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2002/000954 WO2003081574A1 (en) | 2002-03-27 | 2002-03-27 | Pattern recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1623183A CN1623183A (zh) | 2005-06-01 |
CN1295672C true CN1295672C (zh) | 2007-01-17 |
Family
ID=28053150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028286480A Expired - Fee Related CN1295672C (zh) | 2002-03-27 | 2002-03-27 | 模式识别 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7269556B2 (zh) |
EP (1) | EP1488408A1 (zh) |
JP (1) | JP4295118B2 (zh) |
KR (1) | KR100760666B1 (zh) |
CN (1) | CN1295672C (zh) |
AU (1) | AU2002253416A1 (zh) |
WO (1) | WO2003081574A1 (zh) |
Families Citing this family (141)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6834308B1 (en) | 2000-02-17 | 2004-12-21 | Audible Magic Corporation | Method and apparatus for identifying media content presented on a media playing device |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7562012B1 (en) | 2000-11-03 | 2009-07-14 | Audible Magic Corporation | Method and apparatus for creating a unique audio signature |
WO2002082271A1 (en) | 2001-04-05 | 2002-10-17 | Audible Magic Corporation | Copyright detection and protection system and method |
US7529659B2 (en) * | 2005-09-28 | 2009-05-05 | Audible Magic Corporation | Method and apparatus for identifying an unknown work |
US7877438B2 (en) * | 2001-07-20 | 2011-01-25 | Audible Magic Corporation | Method and apparatus for identifying new media content |
US8972481B2 (en) | 2001-07-20 | 2015-03-03 | Audible Magic, Inc. | Playlist generation method and apparatus |
EP1488410B1 (en) * | 2002-03-27 | 2010-06-02 | Nokia Corporation | Distortion measure determination in speech recognition |
US8332326B2 (en) * | 2003-02-01 | 2012-12-11 | Audible Magic Corporation | Method and apparatus to identify a work received by a processing system |
US8130746B2 (en) * | 2004-07-28 | 2012-03-06 | Audible Magic Corporation | System for distributing decoy content in a peer to peer network |
US20060142972A1 (en) * | 2004-12-29 | 2006-06-29 | Snap-On Incorporated | System and method of using sensors to emulate human senses for diagnosing an assembly |
JP4298672B2 (ja) * | 2005-04-11 | 2009-07-22 | キヤノン株式会社 | 混合分布hmmの状態の出力確率計算方法および装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8355913B2 (en) * | 2006-11-03 | 2013-01-15 | Nokia Corporation | Speech recognition with adjustable timeout period |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8006314B2 (en) | 2007-07-27 | 2011-08-23 | Audible Magic Corporation | System for identifying content of digital data |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8200489B1 (en) * | 2009-01-29 | 2012-06-12 | The United States Of America As Represented By The Secretary Of The Navy | Multi-resolution hidden markov model using class specific features |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8199651B1 (en) | 2009-03-16 | 2012-06-12 | Audible Magic Corporation | Method and system for modifying communication flows at a port level |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
EP2306457B1 (en) * | 2009-08-24 | 2016-10-12 | Oticon A/S | Automatic sound recognition based on binary time frequency units |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
KR101300247B1 (ko) * | 2011-11-11 | 2013-08-26 | 경희대학교 산학협력단 | 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9081778B2 (en) | 2012-09-25 | 2015-07-14 | Audible Magic Corporation | Using digital fingerprints to associate data with a work |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN109308896B (zh) * | 2017-07-28 | 2022-04-15 | 江苏汇通金科数据股份有限公司 | 语音处理方法及装置、存储介质及处理器 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0125422A1 (en) * | 1983-04-13 | 1984-11-21 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US6009199A (en) * | 1996-07-12 | 1999-12-28 | Lucent Technologies Inc. | Classification technique using random decision forests |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5274714A (en) * | 1990-06-04 | 1993-12-28 | Neuristics, Inc. | Method and apparatus for determining and organizing feature vectors for neural network recognition |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5751905A (en) * | 1995-03-15 | 1998-05-12 | International Business Machines Corporation | Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system |
US6009390A (en) | 1997-09-11 | 1999-12-28 | Lucent Technologies Inc. | Technique for selective use of Gaussian kernels and mixture component weights of tied-mixture hidden Markov models for speech recognition |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
US6178401B1 (en) | 1998-08-28 | 2001-01-23 | International Business Machines Corporation | Method for reducing search complexity in a speech recognition system |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
KR100362853B1 (ko) * | 2000-05-17 | 2002-12-11 | 엘지전자 주식회사 | 압축기의 진동저감장치 |
KR100408524B1 (ko) * | 2001-08-22 | 2003-12-06 | 삼성전자주식회사 | 음성인식방법 및 그 장치 |
EP1488410B1 (en) * | 2002-03-27 | 2010-06-02 | Nokia Corporation | Distortion measure determination in speech recognition |
JP4292837B2 (ja) * | 2002-07-16 | 2009-07-08 | 日本電気株式会社 | パターン特徴抽出方法及びその装置 |
KR100476103B1 (ko) * | 2002-08-09 | 2005-03-10 | 한국과학기술원 | 특징벡터의 필터링을 이용한 음성인식방법 |
-
2002
- 2002-03-27 KR KR1020047015018A patent/KR100760666B1/ko not_active IP Right Cessation
- 2002-03-27 JP JP2003579211A patent/JP4295118B2/ja not_active Expired - Fee Related
- 2002-03-27 AU AU2002253416A patent/AU2002253416A1/en not_active Abandoned
- 2002-03-27 WO PCT/IB2002/000954 patent/WO2003081574A1/en active Application Filing
- 2002-03-27 EP EP02722529A patent/EP1488408A1/en not_active Withdrawn
- 2002-03-27 CN CNB028286480A patent/CN1295672C/zh not_active Expired - Fee Related
-
2003
- 2003-03-26 US US10/402,367 patent/US7269556B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0125422A1 (en) * | 1983-04-13 | 1984-11-21 | Texas Instruments Incorporated | Speaker-independent word recognizer |
US6009199A (en) * | 1996-07-12 | 1999-12-28 | Lucent Technologies Inc. | Classification technique using random decision forests |
Also Published As
Publication number | Publication date |
---|---|
AU2002253416A1 (en) | 2003-10-08 |
US7269556B2 (en) | 2007-09-11 |
JP2005521106A (ja) | 2005-07-14 |
JP4295118B2 (ja) | 2009-07-15 |
EP1488408A1 (en) | 2004-12-22 |
KR100760666B1 (ko) | 2007-09-20 |
KR20040111428A (ko) | 2004-12-31 |
US20040039572A1 (en) | 2004-02-26 |
WO2003081574A1 (en) | 2003-10-02 |
CN1623183A (zh) | 2005-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1295672C (zh) | 模式识别 | |
CN1139911C (zh) | 语音识别系统的动态可配置声模型 | |
CN1303582C (zh) | 自动语音归类方法 | |
CN1856820A (zh) | 语音识别方法和通信设备 | |
US8019594B2 (en) | Method and apparatus for progressively selecting features from a large feature space in statistical modeling | |
CN1741132A (zh) | 口头发音检索所用的基于格点搜索的系统和方法 | |
KR100904049B1 (ko) | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 | |
CN1650349A (zh) | 用于抗噪声语音识别的在线参数直方图正态化 | |
CN1141696C (zh) | 基于语音识别专用芯片的非特定人语音识别、语音提示方法 | |
CN108228732A (zh) | 语言存储方法和语言对话系统 | |
Chenchah et al. | Speech emotion recognition in acted and spontaneous context | |
CN110634476B (zh) | 一种快速搭建鲁棒性声学模型的方法及系统 | |
CN1150852A (zh) | 采用神经网络的语音识别系统和方法 | |
CN1588535A (zh) | 嵌入式语音识别系统的自动语音识别处理方法 | |
CN1214362C (zh) | 用于确定信号间相关系数和信号音高的设备和方法 | |
CN116644339A (zh) | 一种信息归类方法及系统 | |
CN1295674C (zh) | 模式识别 | |
CN1455388A (zh) | 语音识别系统及用于语音识别系统的特征矢量集的压缩方法 | |
CN1284134C (zh) | 一种语音识别系统 | |
CN1190773C (zh) | 语音识别系统及用于语音识别系统的特征矢量集的压缩方法 | |
Zuo et al. | Robot-directed speech detection using multimodal semantic confidence based on speech, image, and motion | |
CN109602333B (zh) | 一种基于清洁机器人的语音去噪方法和芯片 | |
Kaur et al. | Maximum likelihood based estimation with quasi oppositional chemical reaction optimization algorithm for speech signal enhancement | |
WO2020250220A1 (en) | Sound analysis for determination of sound sources and sound isolation | |
CN1259648C (zh) | 语音识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070117 Termination date: 20110327 |