CN101042870A - 用于评估声音间相似度的方法和设备 - Google Patents
用于评估声音间相似度的方法和设备 Download PDFInfo
- Publication number
- CN101042870A CN101042870A CNA2007100880853A CN200710088085A CN101042870A CN 101042870 A CN101042870 A CN 101042870A CN A2007100880853 A CNA2007100880853 A CN A2007100880853A CN 200710088085 A CN200710088085 A CN 200710088085A CN 101042870 A CN101042870 A CN 101042870A
- Authority
- CN
- China
- Prior art keywords
- correlation matrix
- wave
- sound
- intersegmental
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Abstract
本发明提供了一种用于评估声音间相似度的方法和设备,该相似度评估方法由两个处理来执行。在第一处理中,从输入声音的谱数据来生成波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述波段间相关矩阵的元素是输入声音的各个包络成分间的相关值。在第二处理中通过使用由所述波段间相关矩阵生成处理针对一对要互相比较的输入声音而获得的各自的波段间相关矩阵来对这对输入声音间的相似度进行计算。
Description
技术领域
本发明涉及一种使用所谓的波段间相关矩阵来评估声音间相似度的技术,并涉及一种使用该评估技术来验证和识别说话者的技术。
背景技术
为了验证或识别说话者,必须对该说话者产生的声音和先前从特定说话者获得的声音之间的相似度进行评估。在用于评估声音间相似度的一般方法中,要比较的声音的各自的特征被量化为特征量,并通过比较从声音获得的特征量来评估声音间的相似度。非专利参考文献1描述了这样的技术,其中波段间相关矩阵被用作声音的特征量来执行说话者识别。从声音中获得的波段间相关矩阵是一种特殊矩阵,该矩阵的元素是在多个波段中声音的包络成分间的相关值,所述的多个波段是将声音的谱数据分割成的多个波段。分别从说话者所发出声音获得的波段间相关矩阵并不大大受到所发出声音的内容的影响,而是极大地取决于说话者。具有相似内容的波段间相关矩阵是从相同说话者所发出的声音获得的,而与所发出声音的内容无关。因此,可以使用波段间相关矩阵作为说话者的声音的特征量来验证或识别说话者。
[非专利参考文献1]2002年3月由KAZAMA MICHIKO、HIGASHIYAMA MIKIO、和YAMAZAKI YOSHIO在电子信息和通信工程师协会中发表的文章“使用窄波段包络相关矩阵而进行的讲话者的识别”。
[非专利参考文献2]1974年4月由K.-P.Li和G.W.Hughes发表在J.Acoust.Soc.Am.,Vol.55,No.4上的文章“在连续语音谱的相关矩阵中显现的讲话者差异”。
在非专利参考文献1所描述的技术中使用的波段间相关矩阵包括作为其元素的大量相关值,这些值是在沿频率轴彼此相邻或连续(非离散)的多个波段中的声音的各包络成分之间的相关值。然而,沿频率轴彼此相邻的频率波段中的声音包络成分之间的相关性对于发出声音的任何一个说话者来说都是高的。非专利参考文献1中使用的波段间相关矩阵所包括的元素不能表示个体间的差异,这引起了声音间相似度评估的准确性的降低。
发明内容
因此,考虑以上情况而作出了本发明,并且本发明的一个目的是提供了用来以声音的特征量有力地反映在发出声音的说话者之间的个体差异的技术方法,从而来增加对声音间相似度的评估的精确性。
本发明的相似度评估方法是通过波段间相关矩阵生成处理和相似度计算处理来实现的,其中所述的波段间相关矩阵生成处理是从输入声音的谱数据来生成波段间相关矩阵的处理,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从这多个离散波段中获得谱数据的多个包络成分,并且波段间相关矩阵的元素是输入声音的各个包络成分间的相关值,所述的相似度计算处理是通过使用由波段间相关矩阵生成处理针对一对要互相比较的输入声音而获得的各自的波段间相关矩阵来对这对输入声音间的相似度进行计算的处理。
另一种选择是本发明的相似度评估方法是通过波段间相关矩阵生成处理和相似度计算处理来实现的,其中所述的波段间相关矩阵生成处理是从输入声音的谱数据来生成波段间相关矩阵的处理,从而将谱数据分割成沿频率轴布置的多个波段,从这多个波段中获得谱数据的多个包络成分,并且波段间相关矩阵的元素是输入声音的各个包络成分间的相关值,所述的相似度计算处理是由一对波段间相关矩阵来构造一对小矩阵并使用各个小矩阵来计算一对要相互比较的输入声音间的相似度的处理,其中所述这对波段间相关矩阵是由预定行数和列数的元素组成的并与这对要相互比较的输入声音相对应,从而通过从波段间相关矩阵中提取以给定间隔布置的减少了行数和列数的元素来构造这对小矩阵。
根据本发明,用于计算相似度的两个波段间相关矩阵的内容没有包括不表现个体间差异的元素。因此,使用这些波段间相关矩阵可以增加对声音间相似度进行评估的精确性。
根据本发明用来对声音间相似度进行评估的技术的典型执行实例为说话者验证和说话者识别。通过以下描述的“具体实施方式”将更加清楚地说明该技术的详情。
附图说明
图1是根据本发明第一实施例的说话者验证设备的框图。
图2是在第一实施例中用作特征量提取器的波段间相关矩阵生成器的框图。
图3示出了在第一实施例中对其中的声音成分进行提取的N个波段。
图4是在第一实施例中执行的验证处理的流程图。
图5示出了根据本发明第二实施例用于比较波段间相关矩阵的方法。
图6是根据本发明第三实施例的说话者识别设备的框图。
图7是在第三实施例中执行的识别处理的流程图。
图8示出了在本发明第四实施例中由特征量比较器执行的相似度计算处理的示例图。
图9示出了本发明实施例的优点。
图10示出了本发明实施例的优点。
具体实施方式
下面将参考附图描述本发明的实施例。
<第一实施例>
图1是根据本发明实施例的说话者验证设备的框图。该说话者验证设备主要包括登记部分10、模板数据库(DB)20、和验证部分30。
登记部分10包括ID输入单元11、声音输入单元12、发声间隔检测器13、特征量提取器14、以及登记信息生成器15。ID输入单元11是接收用户ID并包括键盘等的装置,该用户具有接受服务的合法权利。声音输入单元12是对具有合法权利的用户的声音进行接收的装置。该声音输入单元12例如包括麦克风和A/D转换器,该A/D转换器把从麦克风输出的模拟声音信号转换为数字声音信号。发声间隔检测器13是一个对从声音输入单元12输出的声音数据水平进行监视并使相隔某一具有等于或高于一个阈值水平的发声间隔的声音数据通过这样的装置。
特征量提取器14是从相隔某一发声间隔已经通过发声间隔检测器13的声音数据中提取特征量的装置。在本实施例中,每个用户说出多个句子并且特征量提取器14从用户所说句子的声音中提取特征量。登记信息生成器15把通过对所提取特征量求平均而获得的特征量与ID输入单元11接收到的用户ID关联起来并将其作为登记信息登记到模板DB 20中。
验证部分30包括ID输入单元31、声音输入单元32、发声间隔检测器33、特征量提取器34、登记信息选择器35、特征量比较器36、和验证结果输出单元37。ID输入单元31是一个用来接收要被验证的用户的ID的装置,并且其包括键盘等。声音输入单元32是用来接收要被验证的用户的声音的装置。与声音输入单元12类似,声音输入单元32包括麦克风和A/D转换器。与发声间隔检测器13类似的发声间隔检测器33被提供在声音输入单元32的下游。
特征量提取器34是使用与特征量提取器14相同的提取方法来从通过了发声间隔检测器33的声音数据中提取特征量的装置。登记信息选择器35是用来从模板DB 20中读取与ID输入单元31接收的用户ID相关联的特征量并将该特征量与预定阈值一起输出的装置。
特征量比较器36是用来将特征量提取器34提取的特征量与登记信息选择器35读取的特征量进行比较并将这两个特征量所代表的声音间的相似度作为比较结果而输出的装置。验证结果输出单元37是这样的装置,其通过对特征量比较器36输出的相似度与登记信息选择器35输出的阈值进行比较来执行验证,从而确定产生了声音输入单元32所接收的声音的用户是否与ID输入单元31所接收的ID相对应,并且随后输出该验证结果。
本实施例的特征在于以下内容:特征量提取器14和34每一个的配置、作为由提取器14和34所提取的特征量的波段间相关矩阵的内容、以及由特征量比较器36执行的特征量比较方法。
特征量提取器14和34的任意一个都包括图2示出的波段间相关矩阵生成器。波段间相关矩阵生成器包括频率分析器51、波段包络生成器52、和相关值计算器53。频率分析器51在逐帧的基础上对通过了发声间隔检测器13或33的声音数据执行快速傅立叶变换(FFT),并输出通过FFT获得的振幅谱,其中所述的每个帧都具有恒定时间长度。
波段包络生成器52是这样的装置,其从由频率分析器51进行了FFT变换的数据中提取以相互间隔排布在频率轴上的多个波段中声音的各个成分,并随后生成波段中各个声音成分的包络。更具体地,该波段包络生成器52执行以下处理。首先,波段包络生成器52从由频率分析器51获得的振幅谱中提取如图3所示以相互间隔排布在频率轴上的从第1到第N波段中的声音成分,并随后将所提取的成分转换成dB值。之后,波段包络生成器52获得了以dB值表示的振幅谱中的改变,其中dB值是在针对第1到第N波段每一个的帧中分别获得的,并且波段包络生成器52输出在第1到第N波段中各个声音成分的包络E-i(i=1~N)。还可通过使用包括不同通频带的多个带通滤波器的滤波器组来将输入声音分割成不同波段,并随后对通过该滤波器组的各个波段的信号执行如半波整流和平滑之类的处理,从而获得波段中声音成分的包络E-i(i=1~N)。
相关值计算器53计算第j波段包络E-j与第k波段包络E-k之间针对j和k范围内每个(j,k)组合的相关值ajk,其中j和k的范围都是从1到N(即,j=1~N并且k=1~N),并且其输出一个矩阵元素为相关值ajk(j=1~N并且k=1~N)的N行N列的波段间相关矩阵。
以上描述是对特征量提取器14和34每一个的详细配置以及由该提取器14和34提取的波段间相关矩阵的内容的描述。
关于相关值计算的详细具体的描述在之前提到的非专利参考文献2,即1974年4月由K.-P.Li和G.W.Hughes发表在J.Acoust.Soc.Am.,Vol.55,No.4上的文章“在连续语音谱的相关矩阵中显现的讲话者差异”中给出。该文章的全部内容以引用的方式并入本说明书。
特征量比较器36将上述波段间相关矩阵进行比较并计算从中提取波段间相关矩阵的声音之间的相似度。在一个优选实施例中,特征量比较器36获得例如要针对矩阵的每一列进行比较的两个波段间相关矩阵的元素之间的相关值,并把针对所有列获得的相关值的平均值作为相似度输出。在另一个优选实施例中,当用“A”和“B”来表示要进行比较的两个波段间相关矩阵时,特征量比较器36根据以下等式(1)来计算相似度D。
D=(trace(AB-1)·trace(BA-1)), ...(1)
在等式(1)中,“trace()”表示括号中方矩阵的对角线元素的和。
图4是在该实施例中执行的验证处理的流程图。在验证用户的处理中,首先,通过ID输入单元31获得用户ID,同时通过声音输入单元32和发声间隔检测器33获得用户的具有一定发声间隔的声音数据(步骤S11)。
之后,通过特征量提取器34,从在步骤S11获得的声音数据中生成一个波段间相关矩阵A(步骤S12)并且通过登记信息选择器35从模板DB 20中读取一个与在步骤S11获得的ID相关联的波段间相关矩阵B(步骤S13)。
之后特征量比较器36根据波段间相关矩阵A和B来计算相似度D(步骤S14),并且验证结果输出单元37将计算出的相似度D与一个阈值进行比较(S15)。如果相似度D等于或大于该阈值,则验证结果输出单元37判定发出声音的用户是与用户ID对应的人(步骤S16)。否则,验证结果输出单元37判定该用户是一个顶替者(步骤S17)。之后,验证结果输出单元37将判定结果输出。
在上述实施例中,要由特征量比较器36进行比较的两个波段间相关矩阵的每一个都具有以相互间隔排布在频率轴上的多个波段中声音成分的各个包络间的相关值来作为其元素。在传统的技术中,针对每个说话者获得一个波段间相关矩阵并将该波段间相关矩阵用作该说话者声音的特征量,其中该波段间相关矩阵的元素是在无间隔地排布在频率轴上的波段中对应声音成分的包络间的相关值。然而,对于任何发出声音的说话者来说,相邻波段中声音成分的包络间的相关度高。这就指示了在传统技术中所使用的波段间相关矩阵还包括了不表示个体间差异的元素。然而,在本实施例中要进行比较的波段间相关矩阵的内容不包括那些不表示个体间差异的元素。因此,在本实施例中,当对波段间相关矩阵进行比较时强调了个体间的差异,从而增加了验证的精确性。
<第二实施例>
与第一实施例类似,本实施例涉及一种说话者验证设备。本实施例的说话者验证设备具有与第一实施例基本相同的配置。本实施例与第一实施例的不同之处在于用于在特征量提取器14和34中生成波段间相关矩阵的方法和用于在特征量比较器36中比较波段间相关矩阵的方法。
在本实施例中,特征量提取器14和34的每一个从通过该特征量提取器14或34的声音数据中生成在相互无间隔地排布在频率轴上的从第1到第2N波段中的各个成分的包络Ei(i=1~2N),而不是在如图3所示的以相互间隔排布的从第1到第N波段中的成分的包络,之后根据所生成的包络Ei(i=1~2N)来生成一个2N×2N的波段间相关矩阵。
特征量比较器36通过从要被比较的两个波段间相关矩阵中去除以预定行间距和预定列间距排布的元素来构造这两个波段间相关矩阵的各自的小矩阵,并且特征量比较器36还通过比较这两个小矩阵来计算声音的相似度。图5示出了一个示例。在该示例中,通过从两个要被比较的2N×2N波段间相关矩阵中去除偶数行和偶数列的元素可构造两个小的N×N矩阵,并且通过比较这两个小的N×N矩阵可计算出声音的相似度。
这两个要被比较的小的N×N矩阵每一个的元素都是在以相互间隔排布在频率轴上的N的波段中声音成分的各个包络间的相关值。
因此,本实施例具有与第一实施例相同的优点。
<第三实施例>
图6是根据本发明实施例的说话者识别设备的框图。该说话者识别设备包括与图1中所示第一实施例相类似的登记部分10和模板DB 20,并且进一步包括代替验证部分30的识别部分40。
识别部分40包括声音输入单元41、发声间隔检测器42、特征量提取器43、特征量比较器44、和识别结果输出单元45。声音输入单元41是用来从要被识别的用户接收声音并输出其声音数据的装置。发声间隔检测器42是一个对与包括在从声音输入单元41输出的声音数据中的发声间隔相对应的数据进行检测和输出的装置。特征量提取器43是从通过发声间隔检测器42的声音数据中提取特征量的装置。特征量比较器44是用来把由特征量提取器43所提取的特征量与登记到模板DB 20中的用户特征量进行比较并输出指示了比较结果的相似度的装置。识别结果输出单元45是用来从登记到模板DB 20中的用户特征量中选出与由特征量提取器43所提取的特征量相似度最高的特征量并将与所选出的特征量相关联的用户ID进行输出的装置。
特征量提取器14和43每一个的配置、作为由特征量提取器14和43提取的特征量的波段间相关矩阵的内容、以及由特征量比较器44执行的特征量比较方法都与上述第一和第二实施例中的相似。
图7是在该实施例中执行的验证处理的流程图。在用于识别一个用户的处理中,首先通过声音输入单元41和发声间隔检测器42来获得要被识别的用户以一定发声间隔的声音数据(步骤S21)。
之后,通过特征量提取器43,由在步骤S21获得的声音数据来生成波段间相关矩阵A(步骤S22)。这里,识别结果输出单元45将最高相似度Dmax初始化为0。
在本实施例中,当“M”表示登记到模板DB 20中的波段间相关矩阵的数量时,针对每一个i重复执行从步骤S23到S28的循环处理,其中i=1~M。
首先,特征量比较器44从模板DB 20中读取第i个用户的波段间相关矩阵Bi(步骤S24)。之后,特征量比较器44计算在步骤S22获得的波段间相关矩阵A与在步骤S24获得的波段间相关矩阵Bi之间的相似度D(步骤S25)。这里,如果作为特征量的波段间相关矩阵A和Bi每一个都具有如上在第一实施例中所述在以相互间隔排布在频率轴上的多个波段中声音成分的各个包络间相关值的对应元素的话,则特征量比较器44将在步骤S25中使用未进行变化的波段间相关矩阵A和Bi来计算相似度D。另一方面,如果波段间相关矩阵A和Bi每一个都具有在无间隔地排布在频率轴上的多个波段中声音成分的各个包络间相关值的对应元素的话,则在步骤S25中,特征量比较器44将对每个波段间相关矩阵A和Bi执行行去除和列去除,以构造波段间相关矩阵A和Bi各自的小矩阵,并且如上在第二实施例中所述那样使用该小矩阵来计算相似度D。识别结果输出单元45将以此方法获得的相似度D与最高相似度Dmax进行比较(步骤S26)。只有当D高于Dmax(即,D>Dmax)时,将Dmax设置为D(即,Dmax=D)并将imax设置为i(即,imax=i)(步骤S27)。
对每个i(i=1~M)重复进行该处理必然会获得波段间相关矩阵Bimax的指数imax,其中该波段间相关矩阵Bimax与包括在模板DB 20中的M个波段间相关矩阵Bi(i=1~M)中的那个由输入声音获得的波段间相关矩阵具有最高的相关性。识别结果输出单元45输出与指数imax相关联的用户ID IDimax来作为识别结果(步骤S29)。
本实施例以上述方式工作。因此本实施例也具有与第一实施例相同的优点。
<第四实施例>
第二实施例中的特征量比较器36通过用一种提取方法(例如,通过从波段间相关矩阵中去除奇数行和奇数列或者提取偶数行和偶数列的元素)从要比较的两个波段间相关矩阵中提取一种类型的各自的小矩阵并随后比较这两个小矩阵来计算声音的相似度。然而,可使用多种方法来从两个波段间相关矩阵中提取各自的小矩阵。以下是使用多种提取方法的一个示例。本实施例中的特征量比较器36使用多种不同的提取方法从针对两个要比较的声音而获得的两个波段间相关矩阵的每一个中提取多种类型的小矩阵。之后,针对多种不同类型提取方法的每一个,特征量比较器36执行处理来计算使用相同提取方法分别从要比较的两个声音的波段间相关矩阵中提取的两个小矩阵间的相似度。随后该特征量比较器36通过对使用该提取方法获得的两个小矩阵间的各个相似度执行全面评估(例如,取平均)来计算要比较的两个声音间的相似度。本实施例中的相似度评估方法可被用于第一实施例和第二实施例中例举的说话者验证系统,并且也可被用于第三实施例中例举的说话者识别系统。
图8示出了在本第四实施例中由特征量比较器36执行的相似度计算处理的示例图。在本实施例中,特征量比较器36使用以下四种提取方法分别从输入声音的波段间相关矩阵和读取自模板DB 20的波段间相关矩阵中提取两个小矩阵。
(a)奇数列和奇数行元素的提取
(b)偶数列和偶数行元素的提取
(c)偶数列和奇数行元素的提取
(d)奇数列和偶数行元素的提取
特征量比较器36对使用以上四种提取方法从两个波段间相关矩阵提取出的小矩阵当中的使用相同提取方法所提取的每对小矩阵的两个小矩阵进行比较,并且计算每对两个小矩阵间的相似度。由此,特征量比较器36获得4个相似度。特征量比较器36获得了例如4个相似度的平均值并将该平均值确定为两个要比较的声音间最终的相似度。期望本方法可以提供比第二实施例更精确的对相似度的评估。
虽然在以上示例中,通过从原始波段间相关矩阵两个连续行和两个连续列的每组元素中提取一个元素来构造4种小矩阵,但是也可通过从大于2的m(m>2)个连续行和m个连续列的每组元素中提取一个元素来构造小矩阵。例如,当从3个连续行和3个连续列的每组元素中提取一个元素时,可从原始波段间相关矩阵种提取9种小矩阵。在此情况下,对于从输入声音的波段间相关矩阵中提取的9种小矩阵和从模板DB 20的波段间相关矩阵中提取的9种小矩阵来说,对使用相同提取方法而获得的每对小矩阵的两个进行相互比较,并且将9对小矩阵的所述两个小矩阵间的相似度的平均值确定为声音的相似度。
<实施例优点的证明>
为证明以上实施例的优点,本发明人构建了一个如图6所示第三实施例的说话者识别系统并使用该系统执行了说话者识别测试。在每个测试中,用从一组25个男性和一组28个女性的每个人收集到的声音来生成波段间相关矩阵。预先创建了模板DB 20。为了生成波段间相关矩阵,特征量提取器14使用包括多个BPF和LPF的滤波器组而不是执行FFT来获得波段中声音信号的各个包络。特征量提取器43使用相同的方法来生成输入声音的波段间相关矩阵。在该测试中,对于每个男性组和女性组,通过向声音输入单元41提供组中一个人的声音来执行说话者识别,并且随后获得作为识别成功率的识别率。这里,通过改变提取间隔可以获得识别率对间隔的相关性,所述间隔指的是用于获得在计算要由特征量比较器44进行比较的两个波段间相关矩阵间相似度的过程中所使用的小矩阵而提取的元素间的间隔。
图9图示出了对于25个男性来说识别率与提取间隔的相关性,并且图10图示出了对于28个女性来说识别率与提取间隔的相关性。在图9和10中,对于提取间隔“0”的识别率指的是当特征量比较器44输出在输入声音的波段间相关矩阵与模板DB 20的波段间相关矩阵间的相似度而未对这两个波段间相关矩阵进行元素提取的时候每个说话者的识别率。对于提取间隔“1”的识别率指的是当特征量比较器44通过以1行和1列间隔从两个波段间相关矩阵中提取元素来输出要被比较的两个波段间相关矩阵间的相似度的时候所获得的每个说话者的识别率。如上在第四实施例中所述,有4种方法可以从原始波段间相关矩阵中通过以1行和1列间隔来从原始波段间相关矩阵中提取元素。因此,特征量比较器34使用方法(a)和(b)从两个波段间相关矩阵中获得小矩阵并且获得这两个小矩阵之间的相似度,随后把这些相似度的平均值确定为声音间的最终相似度。类似地,对于提取间隔“k”的识别率指的是当特征量比较器44通过以k行和k列间隔从两个波段间相关矩阵中提取元素来计算要被比较的两个声音间的相似度的时候所获得的每个说话者的识别率。
如图9和10所示,测试结果显示出与使用未改变的波段间相关矩阵计算相似度时相比,通过从声音的波段间相关矩阵中提取行和列来计算要被比较的声音间的相似度提高了说话者识别率。
虽然本发明实施例的各种变化已在上面作出了描述,但是其他的实施例仍是可能的。以下是一些示例。
(1)在第一实施例中,第1到第N波段每一个的宽度以及相邻波段间的间隔可以彼此相同和不同。
(2)在第二实施例中,在无间隔地排布在频率轴上的多个波段中的输入声音成分的各个包络是从输入声音获得的,并且其元素为这多个波段中各个包络间的相关值的波段间相关矩阵被用作特征量。然而,生成了该波段间相关矩阵的声音成分的包络并非必须是无间隔地排布在频率轴上的这多个波段中声音成分的包络,而也可能是以相互间隔排布的多个波段中声音成分的包络。
(3)虽然在第一和第二实施例中把登记部分10提供为与说话者验证设备中的验证部分30彼此分开的装置,但是也可将登记部分10的功能合并到验证部分30中,以使得用户通过验证部分30就可将用于验证的其声音的波段间相关矩阵登记到模板DB 20中。类似地,登记部分10的功能也可被合并到第三实施例的说话者识别设备中的识别部分40中。
Claims (9)
1.一种相似度评估方法,该方法包括:
波段间相关矩阵生成处理,该处理从输入声音的谱数据来生成波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述波段间相关矩阵的元素是输入声音的各个包络成分间的相关值;以及
相似度计算处理,该处理通过使用由所述波段间相关矩阵生成处理针对一对要互相比较的输入声音而获得的各自的波段间相关矩阵来对这对输入声音间的相似度进行计算。
2.一种相似度评估方法,该方法包括:
波段间相关矩阵生成处理,该处理从输入声音的谱数据来生成波段间相关矩阵,从而将谱数据分割成沿频率轴排布的多个波段,从所述多个波段中获得谱数据的多个包络成分,并且所述波段间相关矩阵的元素是输入声音的各个包络成分间的相关值;以及
相似度计算处理,该处理由一对波段间相关矩阵来构造一对小矩阵并使用各个小矩阵来计算这对输入声音间的相似度,其中所述一对波段间相关矩阵是由预定行数和列数的元素组成的并对应于要彼此进行比较的一对输入声音,从而通过从所述波段间相关矩阵中提取以给定间距排布的减少了行数和列数的元素来构造所述小矩阵。
3.一种相似度评估设备,该设备包括:
波段间相关矩阵生成装置,该装置用于从输入声音的谱数据来生成波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述波段间相关矩阵的元素是输入声音的各个包络成分间的相关值;以及
相似度计算装置,该装置用于通过使用由所述波段间相关矩阵生成装置针对一对要互相比较的输入声音而获得的各自的波段间相关矩阵来对这对输入声音间的相似度进行计算。
4.一种相似度评估设备,该设备包括:
波段间相关矩阵生成装置,该装置用于从输入声音的谱数据来生成波段间相关矩阵,从而将谱数据分割成沿频率轴排布的多个离散波段,从所述多个波段中获得谱数据的多个包络成分,并且所述波段间相关矩阵的元素是输入声音的各个包络成分间的相关值;以及
相似度计算装置,该装置由一对波段间相关矩阵来构造一对小矩阵并使用各个小矩阵来计算这对输入声音间的相似度,其中所述一对波段间相关矩阵是由预定行数和列数的元素组成的并对应于要彼此进行比较的一对输入声音,从而通过从所述波段间相关矩阵中提取以给定间距排布的减少了行数和列数的元素来构造所述小矩阵。
5.根据权利要求4所述的相似度评估设备,其中所述相似度计算装置通过从波段间相关矩阵的不同位置提取减少了行数和列数的元素来从所述波段间相关矩阵获得不同类型的小矩阵,并且所述相似度计算装置执行针对每个不同类型的小矩阵来计算所述小矩阵对之间的每一个相似度的处理,并随后执行对不同类型小矩阵所获得的各个相似度的全面评估。
6.一种说话者验证设备,该设备包括:
数据库,其存储基准波段间相关矩阵来作为对应于每个用户ID的一个或多个用户的声音特征量,从每个用户声音的谱数据来获得所述基准波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述基准波段间相关矩阵的元素是每个用户声音的各个包络成分间的相关值;
ID输入单元,其接收要被验证的目标用户的ID;
声音输入单元,其接收要被验证的目标用户的声音;
特征量提取器,其从所述接收到的目标用户的声音的谱数据来生成目标波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述目标波段间相关矩阵的元素是所述接收到的目标用户声音的各个包络成分间的相关值;
登记信息选择器,其从数据库中取得与通过所述ID输入单元所接收到的目标用户ID相对应的基准波段间相关矩阵;
特征量比较器,其计算从所述特征量提取器生成的目标波段间相关矩阵与由所述登记信息选择器取得的基准波段间相关矩阵间的相似度;以及
验证结果输出单元,其执行验证,从而根据由所述特征量比较器计算出的相似度来判定其发出的声音被所述声音输入单元接收到的目标用户是否与所述ID输入单元所接收到的ID相对应,并且所述验证结果输出单元输出验证结果。
7.一种说话者验证设备,该设备包括:
数据库,其存储基准波段间相关矩阵来作为对应于每个用户ID的一个或多个用户的声音特征量,从每个用户声音的谱数据来生成基准波段间相关矩阵,从而将谱数据分割成沿频率轴排布的多个波段,之后从所述多个波段中获得谱数据的多个包络成分,并且所述基准波段间相关矩阵的元素是每个用户声音的各个包络成分间的相关值;
ID输入单元,其接收要被验证的目标用户的ID;
声音输入单元,其接收要被验证的目标用户的声音;
特征量提取器,其从所述接收到的目标用户的声音的谱数据中提取目标波段间相关矩阵,从而将谱数据分割成沿频率轴排布的多个波段,从所述多个波段中获得谱数据的多个包络成分,并且所述目标波段间相关矩阵的元素是所接收到的声音的各个包络成分间的相关值;
登记信息选择器,其从数据库中取得与通过所述ID输入单元所接收到的目标用户ID相对应的基准波段间相关矩阵;
特征量比较器,其由一对目标和基准波段间相关矩阵来构造一对小矩阵并计算这对小矩阵间的相似度,其中所述一对目标和基准波段间相关矩阵是由预定行数和列数的元素组成的,从而通过从所述波段间相关矩阵中提取以给定间距排布的减少了行数和列数的元素来构造所述小矩阵;以及
验证结果输出单元,其执行验证,从而根据由所述特征量比较器计算出的相似度来判定其发出的声音被所述声音输入单元接收到的目标用户是否与所述ID输入单元所接收到的ID相对应,并且所述验证结果输出单元随后输出验证结果。
8.一种说话者识别设备,该设备包括:
数据库,其存储基准波段间相关矩阵来作为对应于每个用户ID的一个或多个用户的声音特征量,从每个用户声音的谱数据来获得所述基准波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述基准波段间相关矩阵的元素是每个用户声音的各个包络成分间的相关值;
声音输入单元,其接收要被识别的目标用户的声音;
特征量提取器,其从所述接收到的目标用户的声音的谱数据来生成目标波段间相关矩阵,从而将谱数据分割成沿频率轴彼此以间隔分开的多个离散波段,从所述多个离散波段中获得谱数据的多个包络成分,并且所述目标波段间相关矩阵的元素是所述接收到的目标用户声音的各个包络成分间的相关值;
特征量比较器,其计算由所述特征量提取器生成的目标波段间相关矩阵与存储在所述数据库中的每个用户的每个基准波段间相关矩阵间的每个相似度;以及
识别结果输出单元,其根据由所述特征量比较器计算出的每个相似度来从存储在所述数据库中的基准波段间相关矩阵中选出一个理想基准波段间相关矩阵,该理想基准波段间相关矩阵与所述特征量提取器生成的目标波段间相关矩阵间的相似度最高,并且所述识别结果输出单元还输出与所选基准波段间相关矩阵对应的ID。
9.一种说话者识别设备,该设备包括:
数据库,其存储基准波段间相关矩阵来作为对应于每个用户ID的一个或多个用户的声音特征量,从每个用户声音的谱数据来生成基准波段间相关矩阵,从而将谱数据分割成沿频率轴的多个波段,从所述多个波段中获得谱数据的多个包络成分,并且所述基准波段间相关矩阵的元素是每个用户声音的各个包络成分间的相关值;
声音输入单元,其接收要被识别的目标用户的声音;
特征量提取器,其从所述接收到的目标用户的声音的谱数据中生成目标波段间相关矩阵,从而将谱数据分割成沿频率轴的多个波段,从所述多个波段中获得谱数据的多个包络成分,并且所述目标波段间相关矩阵的元素是所述接收到的目标用户声音的各个包络成分间的相关值;
特征量比较器,其从每对目标波段间相关矩阵和每个基准波段间相关矩阵来构造每对小矩阵并计算每对小矩阵间的每个相似度,其中所述每对目标波段间相关矩阵和每个基准波段间相关矩阵是由预定行数和列数的元素组成的,从而通过从所述波段间相关矩阵中提取以给定间距排布的减少了行数和列数的元素来构造所述每个小矩阵;以及
识别结果输出单元,其根据由所述特征量比较器计算出的每个相似度来从存储在所述数据库中的基准波段间相关矩阵中选出一个理想基准波段间相关矩阵,该理想基准波段间相关矩阵与所述特征量提取器生成的目标波段间相关矩阵间的相似度最高,并且所述识别结果输出单元还输出与所选基准波段间相关矩阵对应的ID。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006-081853 | 2006-03-24 | ||
JP2006081853 | 2006-03-24 | ||
JP2006081853A JP4527679B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101042870A true CN101042870A (zh) | 2007-09-26 |
CN101042870B CN101042870B (zh) | 2010-12-29 |
Family
ID=38191379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100880853A Expired - Fee Related CN101042870B (zh) | 2006-03-24 | 2007-03-26 | 用于评估声音间相似度的方法和设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7996213B2 (zh) |
EP (1) | EP1837863B1 (zh) |
JP (1) | JP4527679B2 (zh) |
KR (1) | KR100919546B1 (zh) |
CN (1) | CN101042870B (zh) |
TW (1) | TWI328798B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221760B (zh) * | 2008-01-30 | 2010-12-22 | 中国科学院计算技术研究所 | 一种音频匹配方法及系统 |
CN102956238A (zh) * | 2011-08-19 | 2013-03-06 | 杜比实验室特许公司 | 用于在音频帧序列中检测重复模式的方法及设备 |
CN104580754A (zh) * | 2014-12-03 | 2015-04-29 | 贵阳朗玛信息技术股份有限公司 | Ivr系统及基于ivr的聊天速配方法 |
CN105679324A (zh) * | 2015-12-29 | 2016-06-15 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
CN105590632B (zh) * | 2015-12-16 | 2019-01-29 | 广东德诚科教有限公司 | 一种基于语音相似性识别的s-t教学过程分析方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4720863A (en) | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS60158498A (ja) | 1984-01-27 | 1985-08-19 | 株式会社リコー | パターン照合装置 |
JPH01103759A (ja) * | 1987-10-16 | 1989-04-20 | Nec Corp | パスワード検出装置 |
JPH03266898A (ja) * | 1990-03-16 | 1991-11-27 | Fujitsu Ltd | 大語彙音声認識処理方式 |
US5583961A (en) | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
KR100484210B1 (ko) * | 1996-05-03 | 2006-07-25 | 위니베르시떼 피에르 에 마리 퀴리 | 예측모델을사용한,특히억세스제어응용을위한발성자음성인식방법 |
JP2000330590A (ja) * | 1999-05-21 | 2000-11-30 | Ricoh Co Ltd | 話者照合方法および話者照合システム |
WO2001016935A1 (fr) * | 1999-08-26 | 2001-03-08 | Sony Corporation | Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage |
US7024359B2 (en) | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
JP3699912B2 (ja) * | 2001-07-26 | 2005-09-28 | 株式会社東芝 | 音声特徴量抽出方法と装置及びプログラム |
JP3969079B2 (ja) | 2001-12-12 | 2007-08-29 | ソニー株式会社 | 音声認識装置および方法、記録媒体、並びにプログラム |
JP4314016B2 (ja) * | 2002-11-01 | 2009-08-12 | 株式会社東芝 | 人物認識装置および通行制御装置 |
JP4510539B2 (ja) * | 2004-07-26 | 2010-07-28 | 日本放送協会 | 特定話者音声出力装置及び特定話者判定プログラム |
-
2006
- 2006-03-24 JP JP2006081853A patent/JP4527679B2/ja not_active Expired - Fee Related
-
2007
- 2007-03-20 US US11/726,077 patent/US7996213B2/en not_active Expired - Fee Related
- 2007-03-20 TW TW096109552A patent/TWI328798B/zh not_active IP Right Cessation
- 2007-03-21 EP EP07104554A patent/EP1837863B1/en not_active Not-in-force
- 2007-03-23 KR KR1020070028801A patent/KR100919546B1/ko not_active IP Right Cessation
- 2007-03-26 CN CN2007100880853A patent/CN101042870B/zh not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221760B (zh) * | 2008-01-30 | 2010-12-22 | 中国科学院计算技术研究所 | 一种音频匹配方法及系统 |
CN102956238A (zh) * | 2011-08-19 | 2013-03-06 | 杜比实验室特许公司 | 用于在音频帧序列中检测重复模式的方法及设备 |
CN102956238B (zh) * | 2011-08-19 | 2016-02-10 | 杜比实验室特许公司 | 用于在音频帧序列中检测重复模式的方法及设备 |
US9547715B2 (en) | 2011-08-19 | 2017-01-17 | Dolby Laboratories Licensing Corporation | Methods and apparatus for detecting a repetitive pattern in a sequence of audio frames |
CN104580754A (zh) * | 2014-12-03 | 2015-04-29 | 贵阳朗玛信息技术股份有限公司 | Ivr系统及基于ivr的聊天速配方法 |
CN104580754B (zh) * | 2014-12-03 | 2018-08-17 | 贵阳朗玛信息技术股份有限公司 | Ivr系统及基于ivr的聊天速配方法 |
CN105679324A (zh) * | 2015-12-29 | 2016-06-15 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
CN105679324B (zh) * | 2015-12-29 | 2019-03-22 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1837863A3 (en) | 2011-11-16 |
TWI328798B (en) | 2010-08-11 |
KR100919546B1 (ko) | 2009-10-01 |
US7996213B2 (en) | 2011-08-09 |
JP2007256689A (ja) | 2007-10-04 |
EP1837863A2 (en) | 2007-09-26 |
KR20070096913A (ko) | 2007-10-02 |
EP1837863B1 (en) | 2013-02-27 |
CN101042870B (zh) | 2010-12-29 |
TW200805252A (en) | 2008-01-16 |
JP4527679B2 (ja) | 2010-08-18 |
US20070225979A1 (en) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101042870A (zh) | 用于评估声音间相似度的方法和设备 | |
EP2659480B1 (en) | Repetition detection in media data | |
CN1235408C (zh) | 生成和匹配多媒体内容的散列 | |
US9093120B2 (en) | Audio fingerprint extraction by scaling in time and resampling | |
CN1121681C (zh) | 语言处理 | |
JP5901790B2 (ja) | メディアデータにおける低計算量反復検出 | |
KR100862616B1 (ko) | 인덱스 정보를 이용한 오디오 핑거프린트 검색 시스템 및방법 | |
Seo et al. | Audio fingerprinting based on normalized spectral subband moments | |
CN101051464A (zh) | 说话人认证的注册和验证方法及装置 | |
WO2010066435A1 (en) | Cut and paste spoofing detection using dynamic time wraping | |
WO2008083571A1 (fr) | Système de certification de cryptage aléatoire d'empreinte vocale, verrou de cryptage aléatoire d'empreinte vocale, et procédé de création associé à ceux-ci | |
CN1909060A (zh) | 提取浊音/清音分类信息的方法和设备 | |
US8108452B2 (en) | Keyword based audio comparison | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
CN113221673A (zh) | 基于多尺度特征聚集的说话人认证方法及系统 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
CN116013362A (zh) | 故障类型的确定方法、装置、计算机设备及可读存储介质 | |
US9215350B2 (en) | Sound processing method, sound processing system, video processing method, video processing system, sound processing device, and method and program for controlling same | |
Ghouti et al. | A robust perceptual audio hashing using balanced multiwavelets | |
CN1729508A (zh) | 跟踪音调信号的方法 | |
Mapelli et al. | Audio hashing technique for automatic song identification | |
Zhang et al. | Improving robustness of speech anti-spoofing system using resnext with neighbor filters | |
Li et al. | Robust Audio Anti-Spoofing System Based on Low-Frequency Sub-Band Information | |
Mapelli et al. | Robust audio fingerprinting for song identification | |
Yin et al. | Robust online music identification using spectral entropy in the compressed domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101229 Termination date: 20170326 |
|
CF01 | Termination of patent right due to non-payment of annual fee |