CN1910651A - 特定音响信号含有区间检测系统及其方法以及程序 - Google Patents

特定音响信号含有区间检测系统及其方法以及程序 Download PDF

Info

Publication number
CN1910651A
CN1910651A CNA2005800024965A CN200580002496A CN1910651A CN 1910651 A CN1910651 A CN 1910651A CN A2005800024965 A CNA2005800024965 A CN A2005800024965A CN 200580002496 A CN200580002496 A CN 200580002496A CN 1910651 A CN1910651 A CN 1910651A
Authority
CN
China
Prior art keywords
zonule
spectrogram
storage assembly
reference signal
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800024965A
Other languages
English (en)
Other versions
CN100592386C (zh
Inventor
永野秀尚
黑住隆行
柏野邦夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN1910651A publication Critical patent/CN1910651A/zh
Application granted granted Critical
Publication of CN100592386C publication Critical patent/CN100592386C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing

Abstract

本发明是在储存信号中检测包含与参考信号相似的区间的特定音响信号含有区间检测系统。具有:参考信号频谱图分割部,将参考信号频谱图分割成小区域参考信号频谱图;小区域参考信号频谱图代码化部,对小区域参考信号频谱图进行代码化,作为参考信号小区域代码;小区域储存信号频谱图代码化部,对小区域储存信号频谱图进行代码化,作为储存信号小区域代码;相似小区域频谱图检测部,通过代码相似度求出和小区域参考信号频谱图相似的小区域频谱图;区间相似度计算部,用小区域相似度,求出储存信号的区间和参考信号的相似度。

Description

特定音响信号含有区间检测系统及其方法以及程序
                      技术领域
本发明涉及从作为参考信号的参考音响信号和比该参考音响信号长的储存音响信号中探测相似的信号的位置的信号检测,例如,将音乐CD(Compact Disc:压缩盘)的曲目的一部分作为参考信号用于音响信号检测的特定音响信号含有区间检测系统。
即:本发明将记录在音乐CD上的特定音乐的一部分作为参考信号,检测包含储存音响信号中的参考信号的区间,由此,从庞大的数据库例如从录制有电视播放的曲目中检索出将该音乐作为BGM(BackGround Music:背景音乐)而使用的区间。
本申请以在2004年7月1日申请的专利申请2004-195995号为优先权,在此引用其内容。
                      背景技术
如图6所示,包含特定音响信号的区间检测,通过在比称为储存信号的参考信号长的音响信号(储存音响信号)中,检测出包含与称为参考信号的特定音响信号(参考音响信号)相似的声音的相似区间。
此外,在本说明书中,检测上述相似区间定义为检测该相似区间开始的区间的起始时刻。
以往,作为检测储存信号中的与参考信号相似的区间的高速方法,有时序主动搜索法等(例如:专利第3065314号“高速信号搜索方法、装置及其记录介质”)。
但是,如上所述的储存信号中的参考信号的检测方法多数是以储存信号中的与参考信号相似的区间和参考信号几乎相同为前提的。
因此,当检索信号中要检测的音乐中叠加有解说等其他声音的情况下(附加有相加噪声的情况下),该区间的音响信号与参考信号显著不同,因而无法进行检测。
并且,包含作为BGM而使用的以音乐的检测等为目的的特定音响信号的区间检测方法,以往几乎没有例子,唯一有自优化频谱相关法(例如:M.Abe and M.Nishiguchi:Self-optimized Spectral Correlation Method for Background Music Indentification,Proc.IEEE ICME’02,Lausanne,Vol.1,333/336(2002))。
但是,上述自优化频谱相关法存在因其计算量的大进行检测非常花时间的问题。
因此,作为更高速地进行包含特定音响信号的区间的检测的方法,提出了分割一致搜索法(例如:特开2004-102023“特定音响信号检测方法、信号检测装置、信号检测程序及记录介质”)。
<分割一致搜索法的概要>
其次,图7表示上述分割一致搜索法的概要,以下对分割一致搜索法的处理步骤进行说明。
首先,如图7的步骤(a),从参考信号及储存信号的各声音波形信号中抽出功率频谱,得到各自的频谱图(spectrogram)。
接着,从参考信号的频谱图中等间隔地切出固定尺寸的小区域的频谱图。
在频率轴方向以及时间轴方向,从原来的频谱图上切出各个的固定个数的频谱图上的点,由此,得到该小区域的频谱图。这些小区域频谱图也可以重叠。
将这样切出的小区域的频谱图称为小区域频谱图(small-region spectrogram)。
并且,将起始时刻记为ti、频带为ωm的参考信号中的小区域频谱图记为Fti,ωm
另外,在储存信号的频谱图中,将起始时刻记为t、将与频带为ωm的Fti,ωm相同尺寸的小区域频谱图记为Gt,ωm
另外,在参考信号的频谱图中,设切出小区域频谱图Fti,ωm后的参考信号中的全部时刻ti的集合为TR(TR={t1,t2,…}),设全部频带ωm的集合为W(W={ω1,ω2,…})。
此外,为了吸收音量的变动,各小区域频谱图的功率值按各小区域频谱图进行标准化。
其次,如图7的步骤(b),对于参考信号中的各Fti,ωm,在频带ωm从储存信号中搜索与Fti,ωm相似的时刻。
使用时序主动搜索法(TAS:专利第3065314号“高速信号搜索方法、装置及其记录介质”)进行该搜索。
此外,在此与Fti,ωm相似的时刻是Fti,ωm和Gt,ωm的小区域相似度s’P(Fti,ωm,Gt,ωm)超过小区域用搜索阈值s’P th那样的时刻t。
此外,在分割一致搜索法中,由于在具有该相似的小区域频谱图的时刻的搜索上使用TAS,因此,作为小区域相似度s’P th(Fti,ωm,Gt, ωm),使用Fti,ωm和Gt,ωm之间的直方图重叠率。
将根据该直方图重叠率的小区域相似度特别地称为小区域直方图相似度。
在此,简单地说明上述时序主动搜索法。时序主动搜索法(TAS)的概要如图8所示。
对于时序主动搜索法来说,根据与参考信号的频谱图的直方图重叠率的相似度,从储存信号的频谱图中搜索与具有比阈值θ大的频谱图的参考信号相同长度的区域。
首先,说明频谱图X和频谱图Y中的直方图重叠率。
在此,X和Y是在时间轴方向和频率轴方向上相同尺寸的频谱图。
首先,在将频谱图上的各时刻的频谱特征进行标准化的基础上,根据矢量量子化进行代码化,对各频谱图作成代码(根据矢量量子化的代码化而得到的代码。矢量量子化代码)序列(代码串)。
其次,作为直方图重叠率的计算,对各频谱图,作成对上述矢量量子化代码的出现次数进行了计数的直方图(直方图特征)。
并且,设hX和hY为X和Y的直方图特征,则X和Y的直方图重叠率Sh(hX,hY)根据以下所示的式(1)进行运算。
[式1]
sh ( h X , h Y ) = 1 D &Sigma; r = 1 L min ( h&gamma; X , h&gamma; Y ) - - - ( 1 )
此外,在此hγX和hγY是分别包含在hX和hY中的第γ个维值(bin)的次数(矢量量子化代码的出现次数),L是直方图的维值的数目,D是一个直方图的总次数。
并且,在时序主动搜索法中,将上述直方图重叠率用于直方图的相似度上。
在此,当参考信号的频谱图和储存信号中的区间t的频谱图的直方图重叠率为S”(t)时,在时刻t比对后,如(2)式用S”(t)对到下一比对位置的跳跃宽度(skip width)进行计算,使比对位置只移动z,并重新计算跳跃宽度。
[式2]
z = floor ( D ( &theta; - S &prime; &prime; ( T ) ) + 1 &CenterDot; &CenterDot; &CenterDot; if S &prime; &prime; ( t ) < &theta; 1 &CenterDot; &CenterDot; &CenterDot; otherwise - - - ( 2 )
在(2)式中,floor(x)是不超过x的最大整数。
时序主动搜索法通过重复上述处理,进行搜索处理。
并且,在比对后的区间的直方图重叠率当比θ大时,检测出该区域作为与参考信号相似的区间。
另外,在时序主动搜索法中,这样通过跳跃减少比对次数,同时可不遗漏直方图重叠率比阈值θ大的区域而进行搜索。
其次,返回图7,如图7(c),基于上述各小区域频谱图Fti,ωm的搜索结果,对于储存信号中的各时刻t,统一小区域相似度,用以下的(3)式运算求出t时刻的与参考信号的相似度(区间相似度)S’(t)。
[式3]
S &prime; ( t ) = 1 | TR | &Sigma; ti &Element; TR ( max &omega;m &Element; W ( s &prime; P ( Fti , &omega;m , Gt + ti , &omega;m ) ) ) - - - ( 3 )
在(3)式中,|TR|表示TR的要素数。此外,对于Fti,ωm的搜索结果来说,在储存信号的时刻t,当Gt+ti,ωm没有作为与Fti,ωm相似的小区域频谱图而被检测出的情况下,即以下所示(4)式的情况下,该小区域频谱图间的相似度(小区域相似度)如(5)式。
[式4]
s′P(Fti,ωm,Gt+ti,ωm)≤s′Pth                …(4)
[式5]
s′P(Fti,ωm,Gt+ti,ωm)=0                     …(5)
因此,在实际的搜索中,仅在当Gt+ti,ωm没有作为与Fti,ωm相似的小区域频谱图而被检测出的情况下,在(3)式中累加s’P(Fti,ωm,Gt+ti,ωm)。
另外,在(3)式中,作为以下所示的(6)式,对于s’P(Fti,ωm,Gt+ti,ωm),从全频带的集合W中选择其值为最大的频带ωm。
[式6]
max &omega;m &Element; W ( s &prime; P ( Fti , &omega;m , Gt + ti , &omega;m ) ) - - - ( 6 )
执行上述处理的理由在于:对于参考信号中的相同时刻的多个不同频带的小区域频谱图,储存信号中的相同时刻的不同的多个频带的小区域频谱图作为与这些相似的小区域频谱图而被检测出的情况下,小区域直方图相似度最高的频带即所叠加的声音与静音最接近,选择可考虑为与参考信号的叠加最少的频带。
基于上述得到的区间相似度,在以区间相似度S’(t)比搜索阈值S’th大的时刻t为起始的区域检测出参考信号。
但是,在上述的分割一致搜索法中,在某频带ωm,当检测出相似的小区域频谱图时,为计算Fti,ωm和Gt+ti,ωm的直方图重叠率,该直方图叠加率的计算需要时间,并且对于不相似的Fti,ωm和Gt+ti,ωm的组合,也要计算直方图叠加率,因此,包含特定音响信号的区间的检测需要很长时间。
                      发明内容
本发明的目的在于提供一种特定音响信号的区域的检测系统,在通过上述公知方法中需要长时间进行相似的小区域频谱图的检测中,高速进行参考信号及储存信号的2个小区域频谱图是否相似的判断,省略了无相似可能性的小区域频谱图的组合的相似性判断,由此,与以往进行比较,可高速进行包含特定音响信号的区间的检测。本发明的特定音响信号含有区间检测系统,在作为比参考信号长的音响信号的储存信号中检测包含与特定音响信号即参考信号相似的声音的区间,其特征在于,具有:参考信号频谱图分割部,将作为参考信号的时间频率频谱图的参考信号频谱图分割成称为小区域参考信号频谱图的小区域的频谱图;小区域参考信号频谱图代码化部,对小区域参考信号频谱图进行代码化,作为参考信号小区域代码;小区域储存信号频谱图代码化部,将作为储存信号的时间频谱图的储存信号频谱图中的、作为小区域的频谱图的小区域储存信号频谱图进行代码化,作为储存信号小区域代码;相似小区域频谱图检测部,根据代码的相似度,从小区域储存信号频谱图中检测出与各小区域参考信号频谱图相似的小区域频谱图;区间相似度计算部,使用与小区域参考信号频谱图和与其相似的小区域储存信号频谱图之间的小区域相似度,计算包含该小区域储存信号频谱图的储存信号的区间和参考信号的相似度;根据区间相似度,检测储存信号中包含的与参考信号相似的声音的区间。
因此,相对于以往技术根据直方图重叠率来判断两个小区域频谱图的相似性,本发明对2个小区域频谱图进行代码化,仅检测相似性,因此,与以往例相比,能够大幅度地削减运算量,可高速地进行特定音响信号含有区间的检测。
在本发明的第1、2及3方面,小区域参考信号频谱图代码化部以及小区域储存信号频谱图代码化部,对各小区域频谱图分配代码(称为小区域代码),相似小区域频谱图检测部根据上述小区域代码的相似度,检测与所述各区域参考信号频谱图相似的小区域储存信号频谱图。即,仅根据小区域代码的相似性来判断两个小区域频谱图的相似性。
由此,本发明的特定音响信号含有区间检测系统与计算直方图重叠率的以往例相比较,无需进行直方图的计数处理等,从而能够大幅度地削减运算量,可更高速地进行两个小区域频谱图的相似性判断,缩短特定音响信号含有区间检测的时间。
在本发明的第4方面,小区域参考信号频谱图代码化部和小区域储存信号频谱图代码化部,作成各小区域频谱图的小区域代码,相似小区域频谱图检测部,根据小区域代码的相似度,按顺序对所述各小区域参考信号频谱图与各小区域储存信号频谱图进行比较,仅检测相似的小区域储存信号频谱图,该各小区域储存信号频谱图是将对应频带的小区域储存信号频谱图按时间顺序排列的列表。
由此,本发明的特定音响信号含有区间检测系统与计算直方图重叠率的以往例相比较,无需进行直方图的计数处理等,从而能够大幅度地削减运算量,可更高速地进行两个小区域频谱图的相似性判断,缩短特定音响信号含有区间检测的时间。
在本发明的第5及6方面,小区域参考信号频谱图代码化部和小区域储存信号频谱图代码化部,作成各小区域频谱图的小区域代码,相似小区域频谱图检测部,对所述各小区域参考信号频谱图,按每个对应频带的小区域储存信号频谱图的各小区域代码,准备索引,该索引是表示了具有该小区域代码的小区域储存信号频谱图在储存信号中出现的时刻的列表。另外,事先计算全部的小区域代码间的相似度并作成表,对其进行参考,由此,取出与小区域参考频谱图的小区域代码相似的小区域符号,进而通过参考所述索引,检测出与该小区域参考信号频谱图相似的小区域储存信号频谱图。
由此,本发明的特定音响信号含有区间检测系统与计算直方图重叠率的相比较,可更高速地进行两个小区域频谱图的相似性判断,并且,如以往例那样,由于对于不相似的两个小区域频谱图不进行比对,能够省略无相似的可能性的小区域频谱图间的相似性判断,可更高速地进行特定音响信号含有区间检测。
                      附图说明
图1是表示本发明的一实施例的特定音响信号含有区间检测系统的一个构成例的框图。
图2是说明图1的特定声音含有区间检测系统的处理的概念图。
图3是表示按每个小区域代码对使其相似度对应的小区域代码间相似度表的结构的概念图。
图4是表示按每个小区域代码将储存信号小区域频谱图的出现时刻一览化的索引的概念图。
图5是表示图1所示的特定音响信号含有区间检测系统的动作例的流程图。
图6是说明特定音响信号含有区间检测的概要的概念图。
图7是说明以往例中的分割一致搜索法的概要的概念图。
图8是用于说明TAS(时序主动搜索法)的概念图。
                    具体实施方式
以下,参考附图说明本发明的优选实施例。但是,本发明并不限定于以下的各实施例,例如也可以使这些实施例的构成要素间的适当组合。
图1是表示本发明的特定音响信号含有区间检测系统的一实施例的框图。图1所示的特定音响信号含有区间检测系统,是在比称为储存信号的参考信号长的音响信号中检测包含与称为参考信号的某个特定的音响信号相似的声音的区间的系统,具体地说,是在具有CPU(Central Processing Unit:中央处理器)或储存器的普通的计算机上实现。
在该图中,小区域储存信号频谱图代码化部101对作为上述储存信号的时间频率频谱图的储存信号频谱图中的、作为小区域频谱图的小区域储存信号频谱图进行代码化,并作为储存信号小区域代码进行输出。
相似小区域频谱图检测部102具有如下功能:在内部对小区域储存信号频谱图的出现时刻进行索引化;通过参考索引,检测与小区域参考信号频谱图相似的小区域储存信号频谱图。即:前者通过从小区域储存信号频谱图代码化部101输入的储存信号小区域代码,取代进行区间检测,详细地检测出小区域的频谱图的相似性,是抽出进行区间检测的时刻用的前处理,具体地说,生成图4所示的索引。
后者用事先作成的小区域代码相似度表(图3)抽出与参考信号小区域代码相似的小区域代码,通过索引检测出具有该小区域代码的小区域参考信号频谱图,并输出该出现时刻和小区域相似度。
参考信号频谱图分割部103将作为上述参考信号(被检测信号)的时间频率频谱图的参考信号频谱图分割成称为小区域参考信号频谱图的小区域的频谱图。
小区域参考信号频谱图代码化部104对上述小区域参考信号频谱图进行代码化,并作为参考信号小区域代码进行输出。
区间相似度计算部105使用在相似小区域频谱图检测部102中所检测出的小区域参考信号频谱图和与其相似的小区域储存信号频谱图间的相似度(小区域相似度),计算包含该相似的小区域储存信号频谱图的储存信号的区间信号和参考信号的相似度(区间相似度)。
相似区域检测部106根据上述区间相似度检测包含与储存信号中的参考信号相似的区域。
其次,参考图1及图2,对本发明的一实施方式的特定音响信号含有区间检测系统的处理进行说明。图2是说明本发明的特定声音含有区间检测的处理过程的概念图。
未图示的储存信号频谱图抽出部及参考信号频谱图抽出部读入各自的储存信号、参考信号的各声音波形信号,分别抽出功率频谱,作为储存信号频谱图、参考信号频谱图进行输出。
并且,如图2的步骤(a)所示,参考信号频谱图分割部103从参考信号频谱图中等间隔地切出固定尺寸(固定时间宽度)的小区域频谱图,作为小区域参考信号频谱图进行输出。
此外,切出小区域参考信号频谱图时,也可以在小区域参考信号频谱图间有叠加。
在此,参考信号频谱图分割部103,通过在频率轴方向以及时间轴方向上从原来的频谱图上切出各个固定个数的频谱图上的点,由此,得到所述小区域参考信号频谱图。
将上述的小区域频谱图称为小区域频谱(small-region spectrogram)。
另外,以下将起始时刻为ti、频带为ωm的参考信号中的小区域频谱图表示为Fti,ωm
同样,在储存信号的频谱图中,将起始时刻为t、频带为ωm的与上述Fti,ωm尺寸相同的小区域频谱图表示为Gt,ωm
另外,在参考信号的频谱图中,设切出小区域频谱图Fti,ωm后的全部时刻ti的集合为TR(TR={t1,t2,…}),设全部频带ωm的集合为W(W={ω1,ω2,…})。此外,在此的W要素和TR的要素数也可以分别为1。
此外,为了吸收音量的变动,按各小区域频谱图将各小区域频谱图(小区域储存信号频谱图及小区域参考信号频谱图)的功率频谱进行标准化。
即,根据小区域频带内的该时刻的功率频谱值的平均值,对小区域内的各时刻的功率频谱值进行标准化。
其次,与在以往例的说明中所说明的分割一致搜索法相同,小区域参考信号频谱图代码化部104从小区域参考信号频谱图Fti,ωm中抽出直方图特征(虽然已经在以往例的说明中进行了叙述,但是,在对频谱图上的各时刻的频谱特征进行标准化的基础上,通过矢量量子化进行代码化,对与代码对应的维值对各代码的出现数进行计数,得到直方图)。
该直方图特征是以直方图的各维值的值(各矢量量子化代码的小区域频谱内的出现次数)为成分的特征矢量。
并且,小区域参考信号频谱图代码化部104,通过矢量量子化按每个频带对该直方图特征进行代码化,进行各小区域参考信号频谱图的代码化。
此外,在本发明中,矢量量子化是指将一个代码分配给被给予的矢量的步骤。
与根据小区域参考信号频谱图代码化部104的小区域参考信号频谱图的代码化相同,小区域储存信号频谱图代码化部101按各频带对各小区域储存信号频谱图进行代码化。
在各频带中对小区域频谱图进行代码化时,小区域储存信号频谱图代码化部101和小区域参考信号频谱图代码化部104使用相同的代码薄。
将在此得到的小区域频谱图的直方图特征进行代码化后得到的代码称为小区域代码(参考信号小区域代码,储存信号小区域代码;这些按频带单位对直方图进行矢量量子化后的矢量量子化代码),将小区域参考信号频谱图Fti,ωm的参考信号小区域代码表示为c(Fti,ωm),将小区域储存信号频谱图Gt,ωm的储存信号小区域代码表示为c(Gt,ωm)。
并且,这些小区域频谱图的代码化也可以是:不使用直方图,分别将小区域参考信号频谱图以及小区域储存信号频谱图上的各时刻的功率谱值作为特征矢量,通过矢量量子化对这些特征矢量进行代码化,作为各个参考小区域代码以及储存信号小区域代码(与方案2中记载的结构对应)。
此外,相似小区域频谱图检测部102,将参考信号小区域代码及储存信号小区域代码间的相似度作为小区域参考信号频谱图和小区域储存信号频谱之间的相似度,如图2的步骤(b),对于各小区域参考信号频谱图Fti,ωm,从储存信号频谱图中检测出相似的小区域储存信号频谱图。
此外,如图3所示,相似小区域频谱图检测部102,按每个小区域代码对,在表上定义其相似度(小区域代码间相似度)(相似小区域频谱图检测部102使内部的存储部进行存储),通过参考该表(称为小区域代码间相似度表),可以得知参考信号小区域代码和储存信号小区域代码间的相似度。
图3表示上述小区域代码间相似度表的结构。在该表中,υ(ωm,j,k)表示频带ωm中的小区域代码q(ωm,j)以及小区域代码q(ωm,k)之间的小区域代码间相似度。
此外,在此,频带ωm中的小区域代码表示为q(ωm,1),q(ωm,2),…。
并且,相似小区域频谱图检测部102计算小区域代码q(ωm,j)和q(ωm,k)的代表矢量间的距离,当所计算出的距离较小时将较大的值设为υ(ωm,j,k),当距离较大时设为较小的值为υ(ωm,j,k)。例如有使用欧几里德距离(Euclidean distance)计算代表矢量间的距离的方法。
此外,在本实施例中,将υ(ωm,j,k)定义为从0到1的实数值。即,在各频带ωm,进行运算使得距离最大时υ(ωm,j,k)为0、距离最小时υ(ωm,j,k)为1。
并且,Fti,ωm和Gt,ωm的小区域相似度sP(Fti,ωm,Gt,ωm)定义为υ(ωm,c(Fti,ωm),c(Gt+ti,ωm))。
在此,与Fti,ωm相似的小区域储存信号频谱图是Fti,ωm和Gt,ωm的小区域相似度sP(Fti,ωm,Gt,ωm)超过所设定的小区域搜索阈值sP th那样的小区域频谱图Gt,ωm
在此,例如为了阈值设定,事先在多个参考信号以及储存信号中实验性地进行测定,没有相似区间的检索遗漏,或者求出较少值,设定小区域搜索阈值sP th
此外,该sP th也可以在W的所有频带设定相同的值,还可以按频带设定不同的值。在本实施例中设定相同的值。
即,如图4所示,在相似小区域频谱图检测部102中,按每个储存信号频谱图的小区域代码,使用对小区域储存信号频谱图进行分类后的索引,参考图3所示的小区域代码间相似度表,由此,检测小区域储存信号频谱图,该小区域储存信号频谱图具有与参考信号小区域代码c(Fti,ωm)相似的储存信号小区域代码,即与c(Fti,ωm)的小区域代码间相似度超过小区域用搜索阈值sP th的小区域代码。这是通过从图4的索引参照具有小区域代码的小区域储存信号频谱图的出现位置(时刻)的列表来执行的,所有该小区域代码相对于各Fti,ωm,具有比小区域用搜索阈值sP th大的与c(Fti,ωm)间的小区域代码间相似度。
并且,在图4的索引中,在储存信号小区域代码上具有q(ωm,j)的全部的小区域储存信号频谱图的时刻作为按时序进行排列的排列而存储在q(ωm,j)指向的列表(时刻排列;横向排列)上。
此外,该相似小区域频谱图检测部102,对于各小区域参考信号频谱图,根据小区域代码的相似度,将相似的小区域储存信号频谱图、对应的频带的小区域储存信号频谱图按时间顺序排列的列表的各小区域储存信号频谱图和该储存信号频谱图按顺序进行比较,可仅检测相似的小区域储存信号频谱图(方案4记载的结构)。
即,相似小区域频谱图检测部102,对于上述各小区域参考信号频谱图,也可以根据小区域代码的相似度,按顺序和将对应频带的小区域储存信号频谱图按时间顺序排列的列表的各小区域储存信号频谱图进行比较,仅检测相似小区域储存信号频谱图。
区间相似度计算部105,根据小区域参考信号频谱图的参考信号中的出现时刻和与其相似的小区域储存信号频谱图的储存信号中的出现时刻的位置关系,求出对包含参考信号和该小区域储存信号频谱图的储存信号中的区间的相似度(区间相似度)进行计算的区间开始时刻t。并且,如图2(c)所示,统一上述各小区域相似度,根据以下的(7)式求出t时刻的与参考信号频谱图的相似度(区间相似度)S(t)。
[式7]
S ( t ) = 1 | TR | | W | &Sigma; &omega;m &Element; W &Sigma; ti &Element; TR ( s p ( Fti , &omega;m , Gt + ti , &omega;m ) ) - - - ( 7 )
在此,|TR|表示时刻的集合TR的要素数。|W|表示频谱频带的集合W的要素数。
此外,计算区间相似度时,在储存信号的时刻t,当Gt+ti,ωm没有作为与Fti,ωm相似的小区域频谱图而被检测出的情况下,即,如以下的(8)式所示,小区域相似度sP(Fti,ωm,Gt+ti,ωm)在小区域用搜索阈值sP th以下时,将小区域相似度sP(Fti,ωm,Gt+ti,ωm)设为以下的(9)式。
[式8]
sP(Fti,ωm,Gt+ti,ωm)≤sPth                  …(8)
[式9]
sP(Fti,ωm,Gt+ti,ωm)=0                     …(9)
在实际的搜索中,区间相似度计算部105在使用图3和图4的索引检索中,当Gt+ti,ωm作为与Fti,ωm相似的小区域频谱图而被检测出的情况下,即,在图3中的小区域相似度sP(Fti,ωm,Gt+ti,ωm)超出了所设定的小区域用搜索阈值sP th时,如图(7)式所示,将sP(Fti,ω m,Gt+ti,ωm)累加到时刻t时的区间相似度S(t)上。并且,对于全部的小区域参考信号频谱图,当与相似的小区域储存信号频谱图的小区域相似度的累加结束时,在各时刻t,将在t累加的结果用|TR|和|W|进行除法运算并进行标准化,进行求出t时刻的区间相似度S(t)。
并且,相似区域检测部106,根据如上所述得到的区间相似度S(t),在储存信号频谱图中,将以区间相似度S(t)比搜索阈值Sth大的时刻t为起始的区间作为与参考信号频谱图相似的区间而检测出。
此时,在相似区域检测部106,上述搜索阈值Sth可以设定实验上或经验上得到的值,另外,除此之外,能够取得所得到的多个区间相似度S(t)的分布,进行标准偏差的运算,对于所得到的区间相似度S(t)的最大值,将-3σ的值作为搜索阈值Sth,来选择相似的区间。
该-3可变更为其他实验测定得到的值。
其次,参考图1及图5,对本发明的特定音响信号含有区间检测系统的动作进行说明。该图5是表示图1所示的特定音响信号含有区间检测系统的动作例的流程图。
图1的小区域储存信号频谱图代码化部101从未图示的储存信号频谱图抽出部读出储存信号频谱图。
并且,小区域储存信号频谱图代码化部101依次对储存信号频谱图的小区域频谱图进行代码化。
从小区域储存信号频谱图代码化部101向相似小区域频谱图检测部102提供通过上述处理得到的储存信号小区域代码(步骤S1)。
其次,相似小区域频谱图检测部102将所供给的上述储存信号小区域代码进行分类,生成图4所示的索引(步骤S2)。
并且,参考信号频谱图分割部103,例如从文件(记录有由未图示的参考信号频谱图抽出部生成的参考信号频谱图的文件)中读入参考信号频谱图。
其次,参考信号频谱图分割部103,将这些分割成小区域参考信号频谱图,将分割后的小区域参考信号频谱图依次提供给小区域参考信号频谱图代码化部104(步骤S3)。
并且,小区域参考信号频谱图代码化部104依次对小区域参考信号频谱图进行代码化,将得到的参考信号小区域代码c(Fti,ωm)和在该参考信号上的时刻ti提供给相似小区域频谱图检测部102(步骤S4)。
其次,相似小区域频谱图检测部102,对于小区域参考信号频谱图,参考存储在内部的图3的小区域代码间相似度表,将对应的小区域代码间相似度(小区域相似度)和小区域用搜索阈值进行比较,取出超过该小区域用搜索阈值的小区域代码。并且,用图4的索引检索该小区域代码在储存信号中出现的时刻t+ti。
进而,基于具有相似的小区域代码的小区域储存信号频谱图的出现位置t+ti,求出与参考信号相似的储存信号的区间开始时刻t,使该小区域代码间相似度(即小区域相似度)对应于t并提供给区间相似度计算部105(步骤S5)。
并且,区间相似度计算部105,将小区域参考信号频谱图(Fti,ωm)和与其相似的小区域储存信号频谱图(Gt+ti,ωm)间的小区域相似度sP累加到时刻t的区间相似度上(步骤S6)。
此时,区间相似度计算部105判断是否从小区域参考信号频谱图代码化部104对于全部的小区域参考信号频谱图供给参考信号小区域代码、步骤S5及S6的处理是否已经结束(步骤S7)。
并且,区间相似度计算部105判断为对于全部的小区域参考信号频谱图已经结束时,处理进入步骤S8,当判断为没有结束时,处理进行步骤S5。
其次,区间相似度计算部105,用(7)式将累加后的各时刻的区间相似度以所提供的小区域参考信号频谱图的数目相除并进行标准化(步骤S8)。
并且,相似区域区间检测部106,使得在标准化后的区间相似度比搜索阈值Sth大的、以时刻t为起始的区间存在参考信号,输出该时刻t,结束处理(步骤S9)。
另外,相似区域区间检测部106也可以不输出超过搜索阈值的多个区间,而仅输出超过搜索阈值、具有最大区间相似度的区间。
其次,对使用上述实施例进行的实验例进行说明。
将上述实施例和作为以往技术的分割一致搜索法安装到以下所示规格的个人计算机上,测量检测速度,将实施例和以往例进行比较。
CPU使用Intel(注册商标)Xeon(注册商标)3.2GHz,OS使用REDHAT(注册商标)Linux(注册商标)9,编译器使用GNU gcc。
在此,执行文件通过编译器最佳化选项“-O3”进行编译。
另外,在本试验中,设频率的频带数|W|为4,在从525Hz到2000Hz的频带上,将在对数轴上等间隔配置的28个带通滤波器的每2毫秒的输出的频谱图,沿频率轴方向分割成4个频带。
此时,作为小区域参考信号频谱图,在上述各频率频带上每隔0.6秒抽出长度100毫秒的频谱。
并且,在实验中,从约30分钟的音响信号(储存信号)中,作为约15秒的音乐断片(参考信号),检测出100个,测量各参考信号的检测所需要的时间的平均值(检测时间)。
实验的结果,作为平均的检测时间,在以往的方法中大约需要0.58秒,在上述本发明的实施例中小于0.01秒,在单纯的计算中,可进行约70倍的高速检测。
此外,此时储存信号是音乐信号和声音信号以功率比(音乐信号的功率/声音信号的功率)为平均5dB进行混合后的信号,此时搜索精度在以往方法为99.9%(参考特开2004-102023“特定音响信号检测方法、信号检测装置、信号检测程序及记录介质”),在本实施例中是99.0%,判断为搜索精度相同。
此外,也可以通过将用于实现图1中特定音响信号含有区间检测系统的功能的程序记录到计算机可读取的记录介质上,计算机系统读入并执行记录在该记录介质上的程序,从而进行特定音响信号含有区间检测的处理。在此所说的“计算机系统”是包含OS或外围设备等硬件的总称。另外,“计算机系统”也包含具备主页提供环境(或者显示环境)的WWW系统。另外,“计算机可读取的记录介质”是指软盘、磁光盘、ROM、CD-ROM等可移动介质、内置于计算机系统的硬盘等存储装置。进而,“计算机可读取的记录介质”还包括如经因特网等网络或电话线等通信线路发送程序的情况下成为服务器或客户端的计算机系统内部的非易失性存储器(RAM)那样将程序保持固定时间的介质。
另外,上述程序也可以从在存储装置等中存储该程序的计算机系统经传送介质或者传送介质中的传送波,传送到其他的计算机系统。在此,传送程序的“传送介质”是指如因特网等网络(通信网)或电话线等通信线路(通信线)那样,具有传送信息的功能的介质。另外,上述程序也可以是实现上述功能的一部分的程序。进而,也可以是将上述功能与已经记录在计算机系统上的程序进行组合来实现的文件即所谓的差分文件(差分程序)。
工业上的可适用性
相对以往技术根据直方图重叠率判断两个小区域频谱图的相似性,本发明对两个小区域频谱图进行代码化,通过索引仅检测相似性,从而与以往例比较,可以大幅度地削减运算量,高速地进行特定音响信号含有区间的检测。

Claims (14)

1.一种特定音响信号含有区间检测系统,在储存信号中检测包含与作为特定音响信号的参考信号相似的声音的区间,其特征在于,
具有:
参考信号频谱图分割部,将作为所述参考信号的时间频率频谱图的参考信号频谱图分割成称为小区域参考信号频谱图的小区域的频谱图;
小区域参考信号频谱图代码化部,对所述小区域参考信号频谱图进行代码化,作为参考信号小区域代码;
小区域储存信号频谱图代码化部,将作为所述储存信号的时间频率频谱图的储存信号频谱图中的、作为小区域的频谱图的小区域储存信号频谱图进行代码化,作为储存信号小区域代码;
相似小区域频谱图检测部,根据代码的相似度,从所述小区域储存信号频谱图中检测与所述各小区域参考信号频谱图相似的小区域频谱图;
区间相似度计算部,在检测出的储存信号频谱图中,使用与小区域参考信号频谱图相似的小区域储存信号频谱图的小区域相似度,计算包含该小区域储存信号频谱图的储存信号的区间和参考信号的相似度,
根据所述区间相似度,检测储存信号中包含的与参考信号相似的声音的区间。
2.根据权利要求1记载的特定音响信号含有区间检测系统,其特征在于:
小区域参考信号频谱图代码化部以及小区域储存信号频谱图代码化部,将小区域频谱图上的各点的功率频谱值设为特征矢量,根据矢量量子化,分别对这些特征矢量进行代码化,分别作为参考信号小区域代码、储存信号小区域代码。
3.根据权利要求1记载的特定音响信号含有区间检测系统,其特征在于:
小区域参考信号频谱图代码化部以及小区域储存信号频谱图代码化部,根据矢量量子化,对小区域频谱图上的各时刻的频谱特征进行代码化,作成按每个代码对这些代码的小区域频谱图内的出现次数进行计数的直方图,生成以该直方图的各维值的值为成分的作为特征矢量的直方图特征,进而根据矢量量子化对该直方图特征进行代码化,分别作为参考信号小区域代码、储存信号小区域代码。
4.根据权利要求1至3任意一项记载的特定音响信号含有区间检测系统,其特征在于:
相似小区域频谱图检测部,根据小区域代码的相似度,按顺序对所述各小区域参考信号频谱图与各小区域储存信号频谱图进行比较,仅检测相似的小区域储存信号频谱图,该各小区域储存信号频谱图是将对应频带的小区域储存信号频谱图按时间顺序排列的列表。
5.根据权利要求1至3任意一项记载的特定音响信号含有区间检测系统,其特征在于:
还具有小区域代码间相似度表作成功能,对于所述小区域频谱图代码化而得到的小区域代码,事先计算全部的小区域代码间的相似度,作成小区域代码间相似度表,
所述相似小区域频谱图检测部,通过参考该小区域代码间相似度表,判断所述小区域参考信号频谱图和所述小区域储存信号频谱图的相似性。
6.根据权利要求5所述的特定音响信号含有区间检测系统,其特征在于:
还具有索引作成功能,对于各频带的所述小区域储存信号频谱图,使用所述小区域代码作成对储存信号中的出现时刻进行分类的索引,
所述相似小区域频谱图检测部,使用与参考信号小区域代码相似的小区域代码,参考所述索引,将具有所选择的小区域代码的小区域储存信号频谱图作为与小区域参考信号频谱图相似的小区域储存信号频谱图进行检测,该参考信号小区域代码是通过参考所述小区域代码间相似度表而选择的。
7.一种特定音响信号含有区间检测方法,在储存信号中检测包含与作为特定音响信号的参考信号相似的声音的区间,其特征在于,
具有如下步骤:
参考信号频谱图分割步骤,将作为所述参考信号的时间频率频谱图的参考信号频谱图分割成称为小区域参考信号频谱图的小区域的频谱图;
小区域参考信号频谱图代码化步骤,对所述小区域参考信号频谱图进行代码化,作为参考信号小区域代码;
小区域储存信号频谱图代码化步骤,将作为所述储存信号的时间频率频谱图的储存信号频谱图中的、作为小区域的频谱图的小区域储存信号频谱图进行代码化,作为储存信号小区域代码;
相似小区域频谱图检测步骤,根据代码的相似度,从所述小区域储存信号频谱图中检测出与所述各小区域参考信号频谱图相似的小区域频谱图;
区间相似度计算步骤,在所检测出的储存信号频谱图中,使用与小区域参考信号频谱图相似的小区域频谱图的小区域相似度,计算包含该小区域频谱图的储存信号的区间与参考信号之间的相似度,
根据所述区间相似度,检测储存信号中包含的与参考信号相似的声音的区间。
8.根据权利要求7记载的特定音响信号含有区间检测方法,其特征在于:
在小区域参考信号频谱图代码化步骤以及小区域储存信号频谱图代码化步骤中,设小区域频谱图上的各点的功率值为特征矢量,根据矢量量子化,分别对这些特征矢量进行代码化,分别作为参考信号小区域代码、储存信号小区域代码。
9.根据权利要求7记载的特定音响信号含有区间检测方法,其特征在于:
在小区域参考信号频谱图代码化步骤以及小区域储存信号频谱图代码化步骤中,根据矢量量子化,对小区域频谱图上的各时刻的频谱特征进行代码化,作成按每个代码对这些代码的小区域频谱图内的出现次数进行计数的直方图,生成以该直方图的各维值的值为成分的作为特征矢量的直方图特征,进而根据矢量量子化对该直方图特征进行代码化,分别作为参考信号小区域代码、储存信号小区域代码。
10.根据权利要求7至9任意一项记载的特定音响信号含有区间检测方法,其特征在于:
在相似小区域频谱图检测步骤中,根据小区域代码的相似度,按顺序对所述各小区域参考信号频谱图与各小区域储存信号频谱图进行比较,仅检测相似的小区域储存信号频谱图,该各小区域储存信号频谱图是将对应频带的小区域储存信号频谱图按时间顺序排列的列表。
11.根据权利要求7至9任意一项记载的特定音响信号含有区间检测方法,其特征在于:
还具有如下步骤,对于所述小区域频谱图代码化而得到的小区域代码,事先计算全部的小区域代码间的相似度,作成小区域代码间相似度表,
在所述相似小区域频谱图检测步骤中,通过参考该小区域代码间相似度表,判断所述小区域参考信号频谱图与所述小区域储存信号频谱图之间的相似性。
12.根据权利要求11记载的特定音响信号含有区间检测方法,其特征在于:
还具有索引作成步骤,对于各频带的所述小区域储存信号频谱图,使用所述小区域代码作成对储存信号中的出现时刻进行分类后的索引,
在所述相似小区域频谱图检测步骤中,使用与参考信号小区域代码相似的小区域代码,参考所述索引,将具有所选择的小区域代码的小区域储存信号频谱图作为与小区域参考信号频谱图相似的小区域储存信号频谱图进行检测,该参考信号小区域代码是通过参考所述小区域代码间相似度表而选择的。
13.一种特定音响信号含有区间检测处理程序,该程序使计算机作为权利要求1至6的任意一项记载的特定音响信号含有区间检测系统而起作用。
14.一种计算机可读取的记录介质,其记录了权利要求13记载的特定音响信号含有区间检测处理程序。
CN200580002496A 2004-07-01 2005-07-01 特定音响信号含有区间检测系统及其方法 Active CN100592386C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004195995 2004-07-01
JP195995/2004 2004-07-01

Publications (2)

Publication Number Publication Date
CN1910651A true CN1910651A (zh) 2007-02-07
CN100592386C CN100592386C (zh) 2010-02-24

Family

ID=35782854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580002496A Active CN100592386C (zh) 2004-07-01 2005-07-01 特定音响信号含有区间检测系统及其方法

Country Status (6)

Country Link
US (1) US7860714B2 (zh)
EP (1) EP1763018B1 (zh)
JP (1) JP4327202B2 (zh)
CN (1) CN100592386C (zh)
DE (1) DE602005018776D1 (zh)
WO (1) WO2006004050A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462553A (zh) * 2020-04-17 2020-07-28 杭州菲助科技有限公司 一种基于视频配音和纠音训练的语言学习方法及系统
CN113744765A (zh) * 2021-08-19 2021-12-03 深圳市新国都股份有限公司 Pos机语音播报检测方法、装置及存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
JP4893624B2 (ja) * 2005-09-02 2012-03-07 日本電気株式会社 データのクラスタリング装置、クラスタリング方法及びクラスタリング用プログラム
JP4735398B2 (ja) * 2006-04-28 2011-07-27 日本ビクター株式会社 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US7908275B2 (en) * 2006-07-03 2011-03-15 Intel Corporation Method and apparatus for fast audio search
JP2008065393A (ja) * 2006-09-04 2008-03-21 Research Organization Of Information & Systems グループ判別装置及びグループ判別方法
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム
CN101887720A (zh) * 2009-05-13 2010-11-17 鸿富锦精密工业(深圳)有限公司 声讯语义辨识系统及方法
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
JP5273080B2 (ja) * 2010-03-30 2013-08-28 ブラザー工業株式会社 歌声分離装置、及びプログラム
JP5267495B2 (ja) * 2010-03-30 2013-08-21 ブラザー工業株式会社 楽器音分離装置、及びプログラム
TWI403304B (zh) 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
EP2643832A4 (en) * 2010-11-22 2016-10-12 Listening Methods Llc SYSTEM AND METHOD FOR RECOGNITION PATTERN ANALYSIS
JP5462827B2 (ja) * 2011-03-28 2014-04-02 日本電信電話株式会社 特定音響信号含有区間検出装置、方法、及びプログラム
JP5210440B2 (ja) * 2012-01-04 2013-06-12 インテル・コーポレーション 高速音声検索のための方法、プログラムおよび装置
JP5851455B2 (ja) * 2013-08-06 2016-02-03 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
JP5976029B2 (ja) * 2014-04-10 2016-08-23 日本電信電話株式会社 系列信号特定方法、装置、及びプログラム
CN110622155A (zh) 2017-10-03 2019-12-27 谷歌有限责任公司 将音乐识别为特定歌曲
CN111524536B (zh) 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
WO1997008685A2 (en) 1995-08-28 1997-03-06 Philips Electronics N.V. Method and system for pattern recognition based on dynamically constructing a subset of reference vectors
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
JP3065314B1 (ja) 1998-06-01 2000-07-17 日本電信電話株式会社 高速信号探索方法、装置およびその記録媒体
US6263311B1 (en) * 1999-01-11 2001-07-17 Advanced Micro Devices, Inc. Method and system for providing security using voice recognition
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
EP1161098B1 (en) * 2000-04-27 2011-06-22 Nippon Telegraph And Telephone Corporation Signal detection method and apparatus
JP3408800B2 (ja) 2000-04-27 2003-05-19 日本電信電話株式会社 信号検出方法、装置及びそのプログラム、記録媒体
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
JP3574075B2 (ja) 2001-02-07 2004-10-06 日本電信電話株式会社 信号検出方法、信号検出装置、記録媒体及びプログラム
TW582022B (en) * 2001-03-14 2004-04-01 Ibm A method and system for the automatic detection of similar or identical segments in audio recordings
JP3746690B2 (ja) 2001-07-10 2006-02-15 日本電信電話株式会社 信号検出方法及び装置、プログラムならびに記録媒体
JP3730179B2 (ja) 2002-02-13 2005-12-21 日本電信電話株式会社 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体
JP4047109B2 (ja) 2002-09-11 2008-02-13 日本電信電話株式会社 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462553A (zh) * 2020-04-17 2020-07-28 杭州菲助科技有限公司 一种基于视频配音和纠音训练的语言学习方法及系统
CN113744765A (zh) * 2021-08-19 2021-12-03 深圳市新国都股份有限公司 Pos机语音播报检测方法、装置及存储介质
CN113744765B (zh) * 2021-08-19 2023-12-29 深圳市新国都股份有限公司 Pos机语音播报检测方法、装置及存储介质

Also Published As

Publication number Publication date
EP1763018B1 (en) 2010-01-06
US20070156401A1 (en) 2007-07-05
US7860714B2 (en) 2010-12-28
EP1763018A4 (en) 2008-08-27
CN100592386C (zh) 2010-02-24
EP1763018A1 (en) 2007-03-14
DE602005018776D1 (de) 2010-02-25
JP4327202B2 (ja) 2009-09-09
JPWO2006004050A1 (ja) 2007-08-16
WO2006004050A1 (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
CN1910651A (zh) 特定音响信号含有区间检测系统及其方法以及程序
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1158648C (zh) 语音可变速率编码方法与设备
CN1236420C (zh) 量化线谱对参数特征提取器及其特征提取方法
CN1265351C (zh) 用于估计语音信号的音调频率的方法和装置
CN1209744C (zh) 编码装置和解码装置
CN1282155C (zh) 噪声抑制装置和方法
Kiranyaz et al. A generic audio classification and segmentation approach for multimedia indexing and retrieval
KR101637282B1 (ko) 음악 플레이리스트 생성방법, 및 음악 플레이리스트 생성장치
CN1977311A (zh) 语音编码装置、语音解码装置及其方法
CN1703734A (zh) 从声音确定音符的方法和装置
CN1801135A (zh) 音乐内容再现装置、其方法和记录装置
CN1622195A (zh) 语音合成方法和语音合成系统
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1658226A (zh) 用于检测新闻主持人镜头的方法和装置
CN1151491C (zh) 音频编码装置和音频编码译码装置
CN1174457A (zh) 语音信号传输方法及语音编码和解码系统
CN1787075A (zh) 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN1967657A (zh) 节目制作中的说话人声音自动跟踪变调系统和方法
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
CN1249669C (zh) 使用时间频率相关编码和/或解码数字音频的方法及装置
CN1692402A (zh) 声音合成方法以及声音合成装置
CN1291375C (zh) 声信号编码方法和设备、解码方法和设备
CN1877566A (zh) 基于现有本体产生新概念的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant