WO2006004050A1 - 特定音響信号含有区間検出システム及びその方法並びにプログラム - Google Patents

特定音響信号含有区間検出システム及びその方法並びにプログラム Download PDF

Info

Publication number
WO2006004050A1
WO2006004050A1 PCT/JP2005/012223 JP2005012223W WO2006004050A1 WO 2006004050 A1 WO2006004050 A1 WO 2006004050A1 JP 2005012223 W JP2005012223 W JP 2005012223W WO 2006004050 A1 WO2006004050 A1 WO 2006004050A1
Authority
WO
WIPO (PCT)
Prior art keywords
small region
spectrogram
signal
reference signal
small
Prior art date
Application number
PCT/JP2005/012223
Other languages
English (en)
French (fr)
Inventor
Hidehisa Nagano
Takayuki Kurozumi
Kunio Kashino
Original Assignee
Nippon Telegraph And Telephone Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph And Telephone Corporation filed Critical Nippon Telegraph And Telephone Corporation
Priority to US10/586,192 priority Critical patent/US7860714B2/en
Priority to DE602005018776T priority patent/DE602005018776D1/de
Priority to JP2006523770A priority patent/JP4327202B2/ja
Priority to EP05765265A priority patent/EP1763018B1/en
Publication of WO2006004050A1 publication Critical patent/WO2006004050A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing

Definitions

  • the present invention relates to signal detection for finding a position of a similar signal from a reference sound signal that is a reference signal and a force of a stored sound signal that is longer than the reference sound signal.
  • This is a specific acoustic signal containing section detection system that is used for acoustic signal detection using a part of the music on the Compact Disc) as a reference signal.
  • the present invention uses a part of specific music recorded on a music CD as a reference signal, and detects the section including the reference signal in the stored signal.
  • the section used as Music is searched from the power of a huge database, for example, a recorded TV broadcast.
  • the section detection including a specific acoustic signal is performed by referring to a similar section including a sound similar to a specific acoustic signal (reference acoustic signal) called a reference signal. Detecting in longer acoustic signals (accumulated acoustic signals).
  • detecting the similar section is defined as detecting the beginning time of the section where the similar section starts.
  • the section detection method containing a specific acoustic signal for the purpose of detecting music used as BGM has been rarely used in the past, and there has been a self-optimized spectrum correlation method (for example, M. Abe and M. Nishiguchi: Self—optimized Spectral Correlation Method for Background Music Identification, Proc. IEEE ICME '02, Lausanne, vol. 1, 333,336 (2002)).
  • the self-optimized spectral correlation method has a problem in that it takes a very long time to detect because of the amount of calculation.
  • a division match search method has been proposed as a method for detecting a section containing a specific acoustic signal at a higher speed (for example, JP 2004-102023 “Specific acoustic signal detection method, signal detection apparatus, signal Detection program and recording medium ").
  • Fig. 7 shows an overview of the above-described division match search method, and the processing procedure of the division match search method is described below.
  • step (a) of Fig. 7 the power spectrum is extracted from each acoustic waveform signal of the reference signal and accumulated signal, and each spectrogram is obtained.
  • a spectrogram of a small area of a certain size is cut out from the spectrogram of the reference signal at equal intervals.
  • the spectrogram of this small region is obtained by cutting out a certain number of points on the spectrogram in the frequency axis direction and the time axis direction, respectively, also by the original spectrogram force. There may be overlap in these small area spectrograms.
  • the spectrogram of the small region cut out in this way is called a small region spectrogram (smal 1—region spectrogram).
  • the small region spectrogram F is cut off in the spectrogram of the reference signal.
  • each small region spectrogram is normalized for each small region spectrogram in order to absorb fluctuations in volume.
  • step (b) of FIG. 7 for each F in the reference signal, a search is made in the frequency band com for a time point similar to F from the accumulated signal.
  • TAS time-series active search method
  • G is a time point t such that the small region search threshold S ′ P is exceeded.
  • the histogram overlap rate between F and G is used as the small region similarity P (F, G). Use.
  • This small region similarity based on the histogram overlap rate is called the small region histogram similarity.
  • FIG 8 shows an overview of the time-series active search method (TAS).
  • the similarity of the histogram overlap with the spectrogram of the reference signal is the same length as the reference signal having the extragram larger than the threshold ⁇ , and the extragram power of the accumulated signal Explore.
  • X and Y are spectrograms of the same size in the time axis direction and the frequency axis direction.
  • the spectral features at each time point on the spectrogram are normalized, and then encoded by vector quantization.
  • a code a code obtained by code quantization by vector quantization
  • a histogram overlap rate calculation a histogram (histogram feature) is created for each spectrogram by counting the number of appearances of the vector quantization code. If h x and h Y are the histogram features of X and Y, the histogram overlap ratio S (h x , h Y ) of X and Y is calculated by the following equation (1).
  • h ⁇ x and h ⁇ ⁇ are the frequencies contained in the ⁇ -th bin of h x and h Y , respectively, and L is the number of histogram bins.
  • the number, D is the total frequency of one histogram.
  • the histogram overlap rate is used as the similarity of the spectrum program.
  • floor (X) is the largest integer that does not exceed X.
  • the time-series active search method performs search processing by repeating the above processing. If the histogram overlap rate in the checked section is larger than ⁇ , the section is detected as a section similar to the reference signal.
  • step (c) of FIG. 7 based on the search result of each small region spectrogram F, the small region similarity is calculated for each time point t in the accumulated signal.
  • I TR I represents the number of elements of TR.
  • G is a small region spectrogram similar to F.
  • Equation 5 Therefore, in an actual search, G is a small region spectrum similar to F.
  • the frequency band ⁇ m that maximizes the value is selected from the set W of all frequency bands.
  • the section similarity (t) is the search threshold.
  • a reference signal is detected in a section beginning at a time t greater than th.
  • the histogram overlap rate Since the histogram overlap rate is calculated, it takes time to calculate the histogram overlap rate, and the histogram overlap rate may also be calculated for combinations of F and G that are not similar. com
  • the present invention determines whether two small region spectrograms of a reference signal and an accumulated signal are similar in detection of a similar small region spectrogram that takes a long time by the above-described known method.
  • Specified sound that can be detected at high speed compared to the conventional method by detecting the section containing a specific sound signal by omitting the similarity determination in the combination of small area spectrograms, with no possibility of similarities.
  • the purpose is to provide a signal content detection system.
  • the specific acoustic signal-containing section detection system of the present invention detects a section including a sound similar to a reference signal that is a specific acoustic signal in an accumulated signal that is a longer acoustic signal than the reference signal.
  • a reference signal spectrogram dividing unit that divides a reference signal spectrogram, which is a content interval detection system and is a temporal frequency spectrum of a reference signal, into a small region spectrogram called a small region reference signal spectrogram, and a small region reference signal
  • a small region accumulated signal spectrogram Detects small region stored signal spectrogram force based on the similarity of the small region stored signal spectrogram code that is encoded into the stored signal small region code and the small region spectrogram similar to each small region reference signal spectrogram.
  • the present invention encodes two small region spectrograms to detect only the similarity.
  • the amount of calculation can be greatly reduced compared to the conventional example, and the specific acoustic signal containing section can be detected at high speed.
  • the small region reference signal spectrogram encoding unit and the small region stored signal extra program code encoding unit encode each small region extra program. (Referred to as a small region code) and the similar small region spectrogram detecting unit detects a small region accumulated signal extragram similar to each small region reference signal spectrogram based on the similarity of the small region codes. . That is, the similarity determination of two small region spectra is determined only by the similarity of the small region codes.
  • the specific acoustic signal containing section detection system significantly reduces the amount of computation that does not require the histogram counting process and the like, compared to the conventional example in which the histogram overlap ratio is calculated.
  • the small region reference signal spectrogram code part and the small region accumulated signal spectrogram code part create a small region code for each small region extragram
  • a similar small region spectrogram detection unit for each of the small region reference signal spectrograms, lists each small region stored signal spectrogram of the corresponding band in the order of time and the small region code in order. Based on the degree of similarity, only the similar small region accumulated signal spectrograms are detected.
  • the specific acoustic signal containing section detection system according to the present invention significantly reduces the amount of computation that does not require the histogram counting process and the like, compared to the conventional example in which the histogram overlap ratio is calculated.
  • the small region reference signal spectrogram code portion and the small region accumulated signal spectrogram code portion generate a small region code for each small region spectrogram and are similar.
  • the similarity between all the small region codes is calculated in advance, a table is created, and by referring to this, a small region code similar to the small region code of the small region reference spectrogram is extracted, and the index is further added. By referencing, a small region accumulated signal spectrogram similar to the small region reference signal extragram is detected.
  • the specific acoustic signal containing section detection system of the present invention can perform similarity determination of two small area spectrograms at a higher speed than the calculation of the histogram overlap rate, and is not similar to the conventional example. Since two small region spectrograms cannot be collated, there is no possibility of similarity, and determination of similarity between the small region spectrograms can be omitted, and detection of a specific acoustic signal containing section can be performed at higher speed.
  • FIG. 1 is a block diagram showing a configuration example of a specific acoustic signal containing section detection system according to an embodiment of the present invention.
  • FIG. 2 is a conceptual diagram illustrating the processing of the specific acoustic signal containing section detection system of FIG.
  • FIG. 3 is a conceptual diagram showing the configuration of a small area code similarity table in which the similarity is associated with each small area code pair.
  • FIG. 4 is a conceptual diagram showing an index listing the present time of the accumulated signal small region spectrogram for each small region code.
  • FIG. 5 is a flowchart showing an operation example of the specific acoustic signal containing section detection system shown in FIG. 1.
  • FIG. 6 is a conceptual diagram for explaining the outline of the specific acoustic signal containing section detection.
  • FIG. 7 is a conceptual diagram illustrating an outline of a division match search method in a conventional example.
  • FIG. 8 is a conceptual diagram for explaining TAS (Time Series Active Search Method).
  • FIG. 1 is a block diagram showing an embodiment of a specific acoustic signal containing section detection system according to the present invention.
  • the specific acoustic signal containing section detection system shown in Fig. 1 is a system that detects a section containing a sound similar to a specific acoustic signal called a reference signal in an acoustic signal longer than the reference signal called a stored signal.
  • a general computer having a CPU (Central Process Unit) and a memory.
  • CPU Central Process Unit
  • a small region accumulated signal spectrogram code part 101 encodes a small region accumulated signal extragram which is a small region spectrogram in the accumulated signal spectrogram which is a time-frequency spectrogram of the accumulated signal.
  • the accumulated signal is output as a small area code.
  • the similar small region spectrogram detection unit 102 has a function of indexing the current output of the small region accumulated signal spectrogram and a small region accumulated signal similar to the small region reference signal spectrogram by referring to the index.
  • the former uses the accumulated signal small region code input from the small region accumulated signal outer program code unit 101, and instead of performing detailed section detection, the small region space is detected. This is pre-processing for detecting the similarity of the tatrograms and extracting the time point for detecting the section. Specifically, an index as shown in Fig. 4 is generated.
  • a small region code similar to the reference signal small region code is extracted using a previously created small region code similarity table (Fig. 3), and the small region reference having the small region code is searched by index search.
  • the signal spectrogram is detected and the current output time and the small area similarity are output.
  • the reference signal spectrogram dividing unit 103 divides the reference signal spectrogram, which is a time frequency spectrogram of the reference signal (detected signal), into a small region spectrogram called a small region reference signal spectrogram.
  • the small region reference signal spectrogram encoding unit 104 encodes the small region reference signal spectrogram and outputs it as a reference signal small region code.
  • the interval similarity calculation unit 105 calculates the similarity between the small region reference signal extragram detected by the similar small region spectrogram detection unit 102 and the similar small region accumulated signal spout outergram (small region similarity). ) Is used to calculate the similarity (section similarity) between the section signal of the stored signal including the similar small area stored signal spectrogram and the reference signal.
  • the similar section detection unit 106 detects a section including a sound similar to the reference signal in the accumulated signal based on the section similarity.
  • FIG. 2 is a conceptual diagram for explaining the process of detecting a specific acoustic signal containing section according to the present invention.
  • a storage signal spectrogram extraction unit and a reference signal spectrogram extraction unit read the acoustic waveform signals of the storage signal and the reference signal, respectively, extract the power spectrum, and output them as the storage signal spectrogram and the reference signal spectrogram.
  • the reference signal spectrogram dividing unit 103 cuts out a spectrogram of a small region of a certain size (constant time width) from the reference signal spectrogram at equal intervals. And output as a small region reference signal spectrogram.
  • the reference signal spectrogram dividing unit 103 performs the small area reference signal spectral logging.
  • the ram is obtained by cutting out the original spectrogram force from a certain number of points on the spectrum drum in the frequency axis direction and the time axis direction.
  • the spectrogram of a small region as described above is called a small-region spectrogram.
  • a small region reference signal spectrogram in a reference signal having a leading time point ti and a frequency band com is denoted as F below.
  • the first time point is t and the small area accumulated signal spectrogram of the same size as F above in the frequency band com is denoted as G.
  • the number of elements W and the number of elements TR may each be 1.
  • each small region spectrogram small region accumulated signal spectrogram and small region reference signal spectrogram
  • the power spectrum of each small region spectrogram is normalized for each small region spectrogram in order to absorb volume fluctuation.
  • the power spectrum value at each time point in the small region is normalized by the average value of the power spectrum values at that point in the small region frequency band.
  • the small region reference signal spectrogram encoding unit 104 extracts histogram features from the small region reference signal spectrogram F in the same manner as the division matching search method described in the description of the conventional example. (After normalizing the spectral characteristics at each time point on the force spectrogram described in the description of the conventional example, the vector quantization is used to encode the number of occurrences of each code in the bin corresponding to the code. Count to get histogram features).
  • This histogram feature is a feature vector whose component is the value of each bin of the histogram (the number of occurrences of each vector quantization code in the small region spectrogram).
  • the small region reference signal spectrogram coding unit 104 performs coding of each small region reference signal spectrum by coding this histogram feature by vector quantization for each band.
  • vector quantization means that one code is assigned to a given vector. It is a procedure to hit.
  • the small region accumulated signal spectrogram code unit 101 Encode for each band.
  • the small area accumulated signal outer spectrum code code unit 101 and the small area reference signal spectrum code unit 104 use the same codebook when encoding the small area spectrogram in each band.
  • the code obtained by signing the histogram characteristics of the small region spectrogram obtained here is referred to as a small region code (reference signal small region code, accumulated signal small region code; these are histograms in band units.
  • Vector quantization code the reference signal small region code of the small region reference signal spectrogram F is c (F), and the small region stored signal spectrum
  • c (G) denote the accumulated signal small region code of the trogram G.
  • the sign ⁇ of these small region spectrograms is a power vector value at each time point on the small region reference signal spectrogram and the small region accumulated signal spectrogram as a feature vector without using a histogram. It is also possible to encode the feature vector by vector quantization and use it as a reference signal small region code and a stored signal small region code (corresponding to the configuration of claim 2).
  • the similar small region spectrogram detecting unit 102 uses the similarity between the reference signal small region code and the accumulated signal small region code as the similarity between the small region reference signal spectrogram and the small region accumulated signal spectrum. As shown in step (b) of Fig. 2, for each small region reference signal spectrogram F, a similar small region accumulated signal spectrogram is stored.
  • Spectrogram force is detected.
  • the similar small region spectrogram detecting unit 102 defines the similarity (similarity between small region codes) on the table for each small region code pair (similar small region spectrogram).
  • the detection unit 102 stores it in the internal storage unit), and knows the similarity between the reference signal small region code and the stored signal small region code by referring to this table (called the small region code similarity table). Can do.
  • FIG. 3 shows the configuration of the above-mentioned small area code similarity table.
  • V (co m, j, k) Indicates the similarity between the small area codes q (com, j) and the small area code q (com, k) in the band com.
  • the small region codes in the band com are indicated as q (com, 1), q (com, 2),...
  • the similar small region spectrogram detecting unit 102 uses V (com, j, k) Is calculated as a large value when the calculated distance is small and a small value when the distance is large. To do. For example, there is a method using the Euclidean distance as the distance between the representative vectors.
  • V (com, j, k) is defined as a real value from 0 to 1. That is, in each band com, calculation is performed so that V (com, j, k) is 0 when the distance is maximum, and v (com, j, k) is 1 when the distance is minimum.
  • the small region accumulated signal spectrogram similar to F is the difference between F and G.
  • Such a small region accumulation signal spectrogram G Such a small region accumulation signal spectrogram G.
  • th is set for a threshold value by experimentally measuring a plurality of reference signals and accumulated signals in advance, and obtaining a value with no or little search omission in a similar section.
  • this may be set to the same value for all bands in w, or a different value for each band.
  • the similar small region spectrogram detecting unit 102 uses an index obtained by classifying the small region accumulated signal spectrogram for each small region code of the accumulated signal spectrogram as shown in FIG.
  • the list of the appearance positions (time points) of the small region accumulated signal spectrogram having the small region code is also referred to by referring to the index force in FIG.
  • the list pointed to by q (com m, j) (sequence of time points; horizontal column) is the small number of all small signals having q (com, j) in the accumulated signal small region code.
  • the time points of the region accumulation signal spectrum program are stored as an array arranged in time series.
  • the similar small region spectrogram detecting unit 102 arranges similar small region accumulated signal spectrograms for each small region reference signal spectrogram, and arranges the small region accumulated signal spectrograms of the corresponding bands in time order.
  • Each of the small region accumulated signal extraspectrum programs in the list and the accumulated signal spectrogram are compared in order based on the similarity of the small region codes, and only similar small region accumulated signal spectrograms are detected. Is also possible (configuration according to claim 4).
  • the similar small region spectrogram detecting unit 102 for each of the small region reference signal spectrograms described above, each small region accumulated signal spectrogram in a list in which the small region accumulated signal spectrograms of the corresponding bands are arranged in time order, and the small region in order
  • the comparison may be made based on the similarity of the codes, and only the similar small region accumulated signal spectrograms may be detected.
  • the interval similarity calculation unit 105 calculates the position of the appearance of the small region reference signal spectrogram in the reference signal from the position relationship between the appearance time in the accumulated signal of the small region accumulated signal extragram similar to this.
  • the section start time t for calculating the similarity (section similarity) of the section in the stored signal including the reference signal and the small area stored signal spectrogram is obtained.
  • the above-mentioned small region similarities are integrated, and the similarity (interval similarity) S (t) with the reference signal spectrogram at t is expressed by the following equation (7).
  • ITRI represents the number of elements in the set TR at the time
  • IWI represents the number of elements in the set W of frequency bands.
  • the G force is In the case where it is not detected as a similar small region spectrogram, that is, as shown in the following equation (8), the small region similarity s P (F, G) is less than or equal to the small region search threshold s P
  • the interval similarity calculation unit 105 detected G as a small region spectrogram similar to F in the index search using FIG. 3 and FIG.
  • interval similarity s (t) at time t is expressed as I TR I. Divide by I w I to obtain the normality and calculate the interval similarity s (t) at t.
  • the similar section detection unit 106 calculates the section similarity S (t) as a search threshold in the stored signal spectrum.
  • a section starting from time t greater than th is detected as a section similar to the reference signal extragram.
  • the similar section detector 106 determines the search threshold S experimentally or empirically.
  • the obtained value can be set, and separately, the distribution of the obtained multiple interval similarity s (t) is taken, the standard deviation is calculated, and the obtained interval similarity S (t) A similar interval can be selected with the search threshold S being the value of 3 ⁇ for the maximum value.
  • FIG. 5 is a flowchart showing an operation example of the specific acoustic signal containing section detection system shown in FIG.
  • the small region accumulated signal outer program code encoder unit 101 in FIG. 1 reads an accumulated signal spectrogram from an unillustrated accumulated signal spectrogram extracting unit.
  • the small region accumulated signal extraneous program code encoding unit 101 sequentially encodes the small region spectrogram of the accumulated signal extraneous program.
  • the accumulated signal small region code obtained by the above-described processing is supplied from the small region accumulated signal extra-speech code encoding unit 101 to the similar small region spectrogram detecting unit 102 (step Sl).
  • the similar small region spectrogram detecting unit 102 classifies the supplied accumulated signal small region codes, and generates an index shown in FIG. 4 (step S 2).
  • the reference signal spectrogram dividing unit 103 reads the reference signal spectrogram from, for example, a file (a file in which a reference signal spectrogram generated by a reference signal spectrogram extracting unit (not shown) is recorded).
  • the reference signal spectrogram dividing unit 103 divides this into a small region reference signal spectrum program, and sequentially divides the divided small region reference signal spectrum program into the small region reference signal spectrogram code part. Supply to 104 (step S3).
  • the small region reference signal extragram code encoding unit 104 sequentially encodes the small region reference signal spectrogram, and obtains the obtained reference signal small region code c (F) and its reference.
  • the time point ti on the signal is supplied to the similar small region spectrogram detection unit 102 (step S4).
  • the similar small region spectrogram detecting unit 102 refers to the small region inter-code similarity table in FIG. 3 stored internally for the small region reference signal spectrogram, and corresponds to the corresponding small region inter-code similarity (small region similarity). Degree) and the small region search threshold value are compared, and a small region code exceeding the small region search threshold value is extracted. Then, the time point t + ti at which the small area code appears in the accumulated signal is searched using the index of FIG.
  • an interval start time t of the accumulated signal similar to the reference signal is obtained, and the small region code class is obtained.
  • the similarity (that is, the small area similarity) is supplied to the interval similarity calculation unit 105 in association with t (step S5).
  • the interval similarity calculation unit 105 generates a small region reference signal spectrogram (F) and
  • the interval similarity calculation unit 105 is supplied with the reference signal small region codes for all the small region reference signal extra programs from the small region reference signal extra program code unit 104, and steps S5 and S6 are performed. It is determined whether or not the above process has been completed (step S7).
  • step S8 determines that it has not ended, the process proceeds to step S8. Proceed to S5.
  • the interval similarity calculation unit 105 divides and normalizes the accumulated interval similarity at each time point by the number of supplied small region reference signal spectrograms using the equation (7) (step S8) and The similar interval detection unit 106 has a normalized interval similarity greater than the search threshold S.
  • step S9 Assuming that the reference signal is in the section starting at time t, the time t is output, and the process is terminated (step S9).
  • the similar section detection unit 106 may output only the section having the largest section similarity that exceeds the search threshold instead of outputting a plurality of sections exceeding the search threshold.
  • the above embodiment and the conventional split matching search method were mounted on a personal computer having the following specifications, the detection speed was measured, and the embodiment and the conventional example were compared.
  • HAT registered trademark
  • Linux registered trademark
  • GNU gcc was used as a compiler.
  • the executable file was compiled using the compiler optimization option “1 03”.
  • the frequency band number IWI was set to 4, and 525Hz force and 2000Hz.
  • the spectrogram of the output of every 2 milliseconds of 28 bandpass filters arranged at equal intervals on the logarithmic axis was divided into four frequency bands in the frequency axis direction.
  • the average detection time required about 0.58 seconds in the conventional method, and less than 0.01 seconds in the above-described embodiment of the present invention, and about 70 times faster detection in simple calculation. I did it.
  • the stored signal was a mixture of music signal and audio signal with a power ratio (music signal power / audio signal power) average of 5 dB, but the search accuracy at this time was 99. 9% (refer to Japanese Unexamined Patent Application Publication No. 2004-102023 “Specific Acoustic Signal Detection Method, Signal Detection Device, Signal Detection Program and Recording Medium”). In this example, it is 99.0%, and the search accuracy is determined to be equivalent. .
  • the program for realizing the function of the specific acoustic signal containing section detection system in FIG. 1 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into the computer system. By executing this, processing for detecting a specific sound signal containing section may be performed.
  • the “computer system” here includes the OS and hardware such as peripheral devices.
  • “Computer system” includes a WWW system equipped with a homepage provision environment (or display environment).
  • the “computer-readable recording medium” means a portable medium such as a flexible disk, a magneto-optical disk, a ROM, a CD-ROM, or a storage device such as a hard disk built in the computer system.
  • the “computer-readable recording medium” means a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. ), Etc. that hold the program for a certain period of time [0062] Further, the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium.
  • the “transmission medium” for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
  • the program may be for realizing a part of the functions described above. Furthermore, what can realize the above-mentioned functions in combination with a program already recorded in the computer system, that is, a so-called differential file (differential program) may be used.
  • a so-called differential file differential program
  • the present invention encodes two small region spectrograms and uses similarity to index them. Therefore, the amount of calculation can be greatly reduced compared to the conventional example, and the specific acoustic signal containing section can be detected at high speed.

Abstract

 本発明は、参照信号と類似な音を含む区間を、蓄積信号中で検出する特定音響信号含有区間検出システムであり、参照信号スペクトログラムを、小領域参照信号スペクトログラムに分割する参照信号スペクトログラム分割部と、小領域参照信号スペクトログラムを符号化し、参照信号小領域符号とする小領域参照信号スペクトログラム符号化部と、小領域蓄積信号スペクトログラムを符号化し、蓄積信号小領域符号とする小領域蓄積信号スペクトログラム符号化部と、小領域参照信号スペクトログラムと類似する小領域スペクトログラムを符号の類似度で検出する類似小領域スペクトログラム検出部と、小領域類似度を用い、蓄積信号の区間と参照信号との類似度を求める区間類似度計算部とを有する。  

Description

明 細 書
特定音響信号含有区間検出システム及びその方法並びにプログラム 技術分野
[0001] 本発明は、参照信号である参照音響信号と、この参照音響信号よりも長い蓄積音 響信号のな力から類似した信号の位置を探し出す信号検出に関するものであり、例 えば音楽 CD (Compact Disc)の曲の一部分を参照信号として音響信号検出に用 いられる特定音響信号含有区間検出システムである。
すなわち、本発明は、音楽 CDに記録された特定音楽の一部を参照信号とし、蓄積 信号中の参照信号を含む区間を検出することで、その音楽力 ¾GM (Back Ground
Music)として使われた区間を、膨大なデータベース、例えばテレビ放送を録音し たもののな力から検索するものである。
本願は、 2004年 7月 1日に出願された特願 2004— 195995号に対し優先権を主 張し、その内容をここに援用する。 背景技術
[0002] 特定音響信号を含有する区間検出は、図 6に示すように、参照信号と呼ぶある特定 の音響信号 (参照音響信号)と類似する音を含む類似区間を、蓄積信号と呼ぶ参照 信号より長い音響信号 (蓄積音響信号)中で検出することである.
なお、本明細書において、上記類似区間を検出するとは、この類似区間が始まる区 間の先頭の時点を検出することと定義する。
[0003] 従来、蓄積信号中の参照信号に類似する区間を検出する高速な手法としては、時 系列アクティブ探索法等がある (例えば、特許第 3065314号「高速信号探索方法、 装置およびその記録媒体」)。
しかしながら、上述したような蓄積信号中の参照信号の検出手法の多くは、蓄積信 号中の参照信号と類似する区間が、参照信号とほぼ同一であることが前提である。 このため、蓄積信号中で検出したい音楽にナレーション等の他の音が重なった場 合 (加法性雑音が付加される場合)などには、該区間の音響信号が参照信号と著しく 異なってしまうために検出することができな力つた。
[0004] そして、 BGMとして使われた音楽の検出なども目的とした特定音響信号を含有す る区間検出方法は、従来、ほとんど例が無ぐ唯一、自己最適化スペクトル相関法が あった (例えば、 M. Abe and M . Nishiguchi: Self— optimized Spectral Co rrelation Method for Background Music Identification, Proc. IEEE ICME '02, Lausanne, vol. 1, 333,336 (2002) )。
しかし、上記自己最適化スペクトル相関法は、その計算量の大きさから検出に非常 に時間が力かるという問題点があった。
そこで、より高速に特定音響信号を含有する区間の検出を行う手法として、分割一 致探索法が提案されている (例えば、特開 2004— 102023「特定音響信号検出方 法、信号検出装置、信号検出プログラム及び記録媒体」)。
[0005] <分割一致探索法の概要 >
次に、図 7に上記分割一致探索法の概要を示し、以下に分割一致探索法の処理 手順の説明を行う。
まず,図 7のステップ (a)にあるように,参照信号及び蓄積信号の各音響波形信号か らパワースペクトルを抽出し、各々のスペクトログラム(spectrogram)を得る。
そして、参照信号のスペクトログラムから一定のサイズの小領域のスペクトログラムを 等間隔に切り出す。
[0006] この小領域のスペクトログラムは、周波数軸方向及び時間軸方向において、各々一 定の個数のスペクトログラム上の点を、もとのスペクトログラム力も切り出すことにより得 る。これらの小領域スペクトログラムには重なりがあってもよい。
このようにして切り出した小領域のスペクトログラムを、小領域スペクトログラム(smal 1— region spectrogram)と呼ふ。
そして、先頭の時点が ti、周波数帯が co mの参照信号中の小領域スペクトログラム を F と書く。
[0007] また、蓄積信号のスペクトログラム中において、先頭の時点が t、周波数帯が co mの F と同じサイズの小領域スペクトログラムを G と書く。
また、参照信号のスペクトログラム中において、小領域スペクトログラム F を切り 出した参照信号中の全ての時点 tiの集合を TR(TR= {tl,t2 })とし、全ての周波数帯 ω mの集合をW(W={ω l, ω 2 · · ·})とする。
なお、各小領域スぺクトロトログラムのパワー値は、音量の変動を吸収するために各 小領域スペクトログラムごとに正規化する。
[0008] 次に、図 7のステップ (b)にあるように、参照信号中の各 F について、蓄積信号か ら F に類似する時点を、周波数帯 co mにおいて探索する。
この探索は時系列アクティブ探索法 (TAS:特許第 3065314号「高速信号探索方 法、装置およびその記録媒体」 )を用いて行われる。
なお、ここで、 F に類似する時点とは、 F と G の小領域類似度 P(F
, G )が小領域用探索閾値 S'P を超えるような時点 tである。
なお、分割一致探索法においては、この類似する小領域スペクトログラムを持つ時 点の探索に TASを用いるため、小領域類似度 P(F , G )としては F と G との間のヒストグラム重なり率を用いる。
このヒストグラム重なり率による小領域類似度を、特に小領域ヒストグラム類似度と呼
[0009] ここで、上記時系列アクティブ探索法を簡単に説明する。時系列アクティブ探索法( TAS)の概要を図 8に示す。
時系列アクティブ探索法は、参照信号のスペクトログラムとのヒストグラム重なり率に よる類似度が、閾値 Θより大きいスぺ外ログラムを持つ参照信号と同じ長さの区間を 、蓄積信号のスぺ外ログラム力 探索する.
まず、スペクトログラム Xとスペクトログラム Yとにおけるヒストグラム重なり率を説明す る。
ここで、 Xと Yとは、時間軸方向と周波数軸方向とにおいて、同じサイズのスぺクトロ グラムである。
[0010] はじめに、スペクトログラム上における各時点のスぺクトノレ特徴を正規ィ匕した上で、 ベクトル量子化により符号ィ匕し、各スペクトログラムについて、符号 (ベクトル量子化に よる符号ィ匕により得られる符号。ベクトル量子化符号)の系列(code string)を作成 しておく。 次に、ヒストグラム重なり率の計算として、各スペクトログラムについて、上記ベクトル 量子化符号の出現回数を数え上げたヒストグラム (ヒストグラム特徴)を作成する。 そして、 hxと hYとを、 Xと Yとのヒストグラム特徴とすると、 Xと Yとのヒストグラム重なり 率 S (hx, hY)は、以下に示す(1)式により演算される。
h
[0011] [数 1]
1 し
Sh(hx,hY ) = -— ∑ min(hrx ,hrY)
D =)
[0012] なお、ここで、 h γ xと h γ Υはそれぞれ hxと hYの γ番目のビンに含まれる度数 (ベタト ル量子化符号の出現回数)であり、 Lはヒストグラムのビンの数、 Dは一つのヒストグラ ムの総度数である。
そして、時系列アクティブ探索法においては、上記ヒストグラム重なり率を、スぺタト ログラムの類似度に用いて 、る。
[0013] ここで、参照信号のスペクトログラムと蓄積信号中の区間 tのスペクトログラムとのヒス トグラム重なり率を S"(t)とした時、時点 tで照合の後、 S"(t)を用いて次の照合位置ま でのスキップ幅(skip width) zを(2)式のように計算し、照合位置を zだけずらして 照合を行い、新たにスキップ幅を計算する。
[0014] [数 2]
(2)式にぉ ヽて、 floor (X)は Xを超えな ヽ最大の整数である。
時系列アクティブ探索法は、上記処理を繰り返していくことにより、探索処理を行う。 そして、照合した区間においてのヒストグラム重なり率が、 Θより大きい場合、その区 間を、参照信号に類似した区間として検出する。
また、時系列アクティブ探索法においては、このようにしてスキップにより照合回数 を削減しながらも、ヒストグラム重なり率が閾値 Θより大きい区間をもらさず探索できる [0015] 次に、図 7に戻り、図 7のステップ (c)にあるように、上記の各小領域スペクトログラム F の探索結果に基づいて、蓄積信号中の各時点 tについて、小領域類似度を統 ti, com
合し、 tにおける参照信号との類似度 (区間類似度) S'(t)を、以下の(3)式を用いて演 算して求める。
[0016] [数 3]
1
S'(t)= -γ ∑ ( max (s'p(Ri,wm,G ti, m))) ---(3)
[0017] この(3)式において、 I TR Iは TRの要素数を表す。なお、 F の探索の結果、
ti, com
蓄積信号の時点 tにおいて、 G が F に類似する小領域スペクトログラムとし
t+ti, com ti, com
て検出されなかった場合、すなわち、以下に示す (4)式の場合、当該小領域スぺタト ログラム間の類似度 (小領域類似度)は (5)式のようになる。
[0018] [数 4]
S p(Fti,wm,Gt+ti,t(jm)< s'pth •C4)
[0019] [数 5] したがって、実際の探索においては、 G が F に類似する小領域スぺクトロ
t+ti, com ti, com
グラムとして検出された場合にのみ、(3)式において^ P(F , G )を積算する
ti, com t+ti, com また、(3)式においては、以下に示す(6)式として、 s (F , G )について、
ti, com t+ti, com
その値が最大となるような周波数帯 ω mを全周波数帯の集合 Wから選んで 、る。
[0021] [数 6] max s'p(.Fti,wni,Gt+tj,wm)) •C6) [0022] 上述した処理を実行する理由は、参照信号中の同じ時点における複数の異なる周 波数帯の小領域スペクトログラムについて、これらに類似する小領域スペクトログラム として、蓄積信号中の同じ時点の異なる複数の周波数帯の小領域スペクトログラムが 検出された場合、最も小領域ヒストグラム類似度が高い周波数帯、すなわち、重畳す る音声が最も無音に近ぐ参照信号への重畳が少ないと考えられる周波数帯を選択 するためである。
[0023] 以上のようにして得られた区間類似度に基づき、区間類似度 (t)が探索閾値
th よりも大きい時点 tを先頭とする区間に参照信号が検出される。
[0024] し力しながら、上述した分割一致探索法にお!、ては、ある周波数帯 ω mにお 、て、 類似する小領域スペクトログラムを検出する際、 F と G とのヒストグラム重な
ti, com t+ti, com
り率を計算しているため、このヒストグラム重なり率の計算に時間を要し、かつ類似し ない F と G との組みについてもヒストグラム重なり率を計算することがあるた ti, com t+ti, com
め、特定音響信号を含有する区間の検出に長い時間を要していた。
[0025] 本発明は、上記公知の手法で長時間を要していた、類似する小領域スぺクトロダラ ムの検出において、参照信号及び蓄積信号の 2つの小領域スペクトログラムが類似 するかの判定を高速に行え、類似する可能性の無 、小領域スペクトログラムの組み 合わせでの類似性判定を省略することにより、特定音響信号を含有する区間の検出 を、従来に比較してより高速に行う特定音響信号含有区間検出システムの提供を目 的としている。
発明の開示
[0026] 本発明の特定音響信号含有区間検出システムは、特定の音響信号である参照信 号と類似する音を含む区間を、参照信号より長い音響信号である蓄積信号中で検出 する特定音響信号含有区間検出システムであり、参照信号の時間周波数スぺ外口 グラムである参照信号スペクトログラムを、小領域参照信号スペクトログラムと呼ぶ小 領域のスペクトログラムに分割する参照信号スペクトログラム分割部と、小領域参照信 号スペクトログラムを符号ィ匕し、参照信号小領域符号とする小領域参照信号スぺタト ログラム符号化部と、蓄積信号の時間周波数スぺ外ログラムである蓄積信号スぺ外 ログラムにおける小領域のスペクトログラムである小領域蓄積信号スペクトログラムを 符号化し、蓄積信号小領域符号とする小領域蓄積信号スペクトログラム符号ィ匕部と、 各小領域参照信号スペクトログラムと類似する小領域スペクトログラムを、符号の類似 度に基づいて、小領域蓄積信号スペクトログラム力 検出する類似小領域スぺクトロ グラム検出部と、小領域参照信号スペクトログラムとこれに類似した小領域蓄積信号 スペクトログラム間の小領域類似度を用いて、当該小領域蓄積信号スペクトログラム を含む蓄積信号の区間と参照信号との類似度を計算する区間類似度計算部とを有 し、区間類似度により蓄積信号中の参照信号と類似する音を含む区間を検出するこ とを特徴とする。
このため、従来の技術がヒストグラム重なり率に基づき二つの小領域スぺクトロダラ ムの類似性を判定しているのに対し、本発明は 2つの小領域スペクトログラムを符号 化して、類似性のみを検出するので、演算量を従来例に比較して大幅に削減するこ とができ、高速に特定音響信号含有区間の検出が行える。
[0027] 本発明の第 1, 2及び 3の側面においては、小領域参照信号スペクトログラム符号 化部と小領域蓄積信号スぺ外ログラム符号ィ匕部が、各小領域スぺ外ログラムに符 号 (小領域符号と呼ぶ)を割り当て、類似小領域スペクトログラム検出部が前記各小 領域参照信号スペクトログラムと類似する小領域蓄積信号スぺ外ログラムを上記小 領域符号の類似度に基づいて検出している。すなわち、二つの小領域スぺクトロダラ ムの類似性判定を小領域符号の類似性のみにより判定するものである。
これにより、本発明の特定音響信号含有区間検出システムは、ヒストグラム重なり率 を計算する従来例に比較し、ヒストグラムの計数処理等を行う必要が無ぐ演算量を 大幅に削減することとなり、より高速に二つの小領域スペクトログラムの類似性判定を 行うことが可能となり、特定音響信号含有区間検出の時間を短縮することができる。
[0028] 本発明の第 4の側面においては、小領域参照信号スペクトログラム符号ィ匕部と小領 域蓄積信号スペクトログラム符号ィ匕部が、各小領域スぺ外ログラムの小領域符号を 作成し、類似小領域スペクトログラム検出部が、前記各小領域参照信号スぺタトログ ラムについて、対応する帯域の小領域蓄積信号スペクトログラムを時間順に並べたリ ストの各小領域蓄積信号スペクトログラムと、順番に小領域符号の類似度に基づいて 比較し、類似する小領域蓄積信号スペクトログラムのみを検出する。 これにより、本発明の特定音響信号含有区間検出システムは、ヒストグラム重なり率 を計算する従来例に比較し、ヒストグラムの計数処理等を行う必要が無ぐ演算量を 大幅に削減することとなり、より高速に二つの小領域スペクトログラムの類似性判定を 行うことが可能となり、特定音響信号含有区間検出の時間を短縮することができる。
[0029] 本発明の第 5および 6の側面においては、小領域参照信号スペクトログラム符号ィ匕 部と小領域蓄積信号スペクトログラム符号ィ匕部が、各小領域スペクトログラムの小領 域符号を作成し、類似小領域スペクトログラム検出部は、前記各小領域参照信号ス ぺクトログラムについて、対応する帯域毎の小領域蓄積信号スペクトログラムの各小 領域符号毎に、その小領域符号をもつ小領域蓄積信号スペクトログラムが蓄積信号 中に出現する時点を示したリストであるインデックスを用意する。また、予め全ての小 領域符号間の類似度を計算して表を作成し、これを参照することで小領域参照スぺ タトログラムの小領域符号と類似する小領域符号を取り出し、更に前記インデックスを 参照することにより、該小領域参照信号スぺ外ログラムと類似する小領域蓄積信号 スペクトログラムを検出する。
これにより、本発明の特定音響信号含有区間検出システムは、ヒストグラム重なり率 を計算するのに比べ、より高速に二つの小領域スペクトログラムの類似性判定を行え るとともに、従来例の様に、類似しない二つの小領域スペクトログラムについても照合 することがな 、ため、類似する可能性の無 、小領域スペクトログラム間の類似性判定 を省略でき、特定音響信号含有区間検出をさらに高速に行うことができる。
図面の簡単な説明
[0030] [図 1]図 1は、本発明の一実施例による特定音響信号含有区間検出システムの一構 成例を示すブロック図である。
[図 2]図 2は、図 1の特定音響信号含有区間検出システムの処理を説明する概念図 である。
[図 3]図 3は、小領域符号対毎に、その類似度を対応させた小領域符号間類似度表 の構成を示す概念図である。
[図 4]図 4は、蓄積信号小領域スペクトログラムの出現時点を、小領域符号毎に一覧 化したインデックスを表す概念図である。 [図 5]図 5は、図 1に示す特定音響信号含有区間検出システムの動作例を示すフロー チャートである。
[図 6]図 6は、特定音響信号含有区間検出の概要を説明する概念図である。
[図 7]図 7は、従来例における分割一致探索法の概要を説明する概念図である。
[図 8]図 8は、 TAS (時系列アクティブ探索法)を説明するための概念図である。
符号の説明
[0031] 101…小領域蓄積信号スペクトログラム符号ィ匕部、 102…類似小領域スぺクトロダラ ム検出部、 103…参照信号スペクトログラム分割部、 104· ··小領域参照信号スぺタト ログラム符号ィ匕部、 105…区間類似度計算部、 106…類似区間検出部
発明を実施するための最良の形態
[0032] 以下、図面を参照しつつ、本発明の好適な実施例について説明する。ただし、本 発明は以下の各実施例に限定されるものではなぐ例えばこれら実施例の構成要素 同士を適宜組み合わせてもよ 、。
[0033] 図 1は、本発明による特定音響信号含有区間検出システムの一実施例を示すプロ ック図である。図 1に示す特定音響信号含有区間検出システムシステムは、参照信号 と呼ぶある特定の音響信号と類似する音を含む区間を、蓄積信号と呼ぶ参照信号よ り長い音響信号中で検出するシステムであり、具体的には CPU (Central Process! ng Unit)やメモリを有する一般的な計算機上に実現される。
この図において、小領域蓄積信号スペクトログラム符号ィ匕部 101は、上記蓄積信号 の時間周波数スペクトログラムである蓄積信号スペクトログラムにおける、小領域のス ぺクトログラムである小領域蓄積信号スぺ外ログラムを符号ィ匕し、蓄積信号小領域 符号として出力する。
[0034] 類似小領域スペクトログラム検出部 102は、内部に小領域蓄積信号スぺクトロダラ ムの出現時点をインデックス化する機能と、インデックスを参照することにより小領域 参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムを検出する機 能を有する。すなわち、前者は小領域蓄積信号スぺ外ログラム符号ィ匕部 101から入 力される蓄積信号小領域符号により、詳細に区間検出を行う代わりに小領域のスぺ タトログラムの類似性を検出して、区間検出を行う時点を抽出するための前処理であ り、具体的には図 4に示すようなインデックスが生成される。
後者は、参照信号小領域符号と類似する小領域符号を、予め作成された小領域符 号間類似度表 (図 3)を用いて抽出し、インデックス検索により該小領域符号を持つ小 領域参照信号スペクトログラムを検出してその出現時点と小領域類似度を出力する。
[0035] 参照信号スペクトログラム分割部 103は、上記参照信号 (被検出信号)の時間周波 数スペクトログラムである参照信号スペクトログラムを、小領域参照信号スぺクトロダラ ムと呼ぶ小領域のスペクトログラムに分割する。
小領域参照信号スペクトログラム符号化部 104は、上記小領域参照信号スぺクトロ グラムを符号ィ匕し、参照信号小領域符号として出力する。
区間類似度計算部 105は、類似小領域スペクトログラム検出部 102において検出 された小領域参照信号スぺ外ログラムとこれに類似する小領域蓄積信号スぺ外口 グラム間の類似度 (小領域類似度)を用いて、該類似する小領域蓄積信号スぺクトロ グラムを含む蓄積信号の区間信号と参照信号との類似度 (区間類似度)を計算する。 類似区間検出部 106は、上記区間類似度により蓄積信号中の参照信号と類似す る音を含む区間を検出する。
[0036] 次に、図 1及び図 2を参照して、本発明の一実施形態による特定音響信号含有区 間検出システムの処理について説明する。図 2は、本発明の特定音響信号含有区間 検出の処理過程を説明するための概念図である。
図示しない蓄積信号スペクトログラム抽出部及び参照信号スペクトログラム抽出部 は、各々蓄積信号,参照信号の各音響波形信号を読み込み、それぞれパワースぺク トルを抽出し、蓄積信号スペクトログラム,参照信号スペクトログラムとして出力する。
[0037] そして、参照信号スペクトログラム分割部 103は、図 2のステップ (a)に示すように、 参照信号スペクトログラムから一定のサイズ (一定時間幅)の小領域のスぺクトロダラ ムを等間隔に切り出し、小領域参照信号スペクトログラムとして出力する。
なお、小領域参照信号スペクトログラムを切り出す際は、小領域参照信号スぺクトロ グラム間に重なりがあってもよい。
ここで、参照信号スペクトログラム分割部 103は、上記小領域参照信号スぺタトログ ラムを、周波数軸方向及び時間軸方向において、各々一定の個数のスぺクトロダラ ム上の点をもとのスペクトログラム力も切り出すことにより得て 、る。
上述したような小領域のスペクトログラムを小領域スペクトログラム(small— region spectrogram)と呼ふ。
[0038] また、先頭の時点が tiであり、周波数帯が co mである参照信号中の小領域参照信 号スペクトログラムを、以下 F と示す。
同様に、蓄積信号のスペクトログラム中において、先頭の時点が tであり、周波数帯 が co mの上記 F と同じサイズの小領域蓄積信号スぺクドグラムを G と示す。 また、参照信号スぺクドグラム中にお 、て、小領域スペクトログラム F を切り出し た全ての時点 tiの集合を TR (TR={tl,t2,..J)とし、全ての周波数帯 co mの集合を W ( W= { ω 1, ω 2,· · ·})とする。尚、ここで Wの要素と TRの要素数とは、各々、 1であって も良い。
なお、各小領域スペクトログラム (小領域蓄積信号スペクトログラム及び小領域参照 信号スペクトログラム)のパワースペクトルは、音量の変動を吸収するため各小領域ス ぺクトログラム毎に正規ィ匕される。
つまり、小領域内の各時点におけるパワースペクトル値を、小領域周波数帯内のそ の時点のパワースペクトル値の平均値により正規化する。
[0039] 次に、小領域参照信号スペクトログラム符号化部 104は、小領域参照信号スぺタト ログラム F から、従来例の説明にお 、て述べた分割一致探索法と同様にヒストグ ラム特徴を抽出する(すでに従来例の説明において述べた力 スペクトログラム上に おける各時点のスペクトル特徴を正規ィ匕した上で、ベクトル量子化により符号ィ匕して 、符号に対応するビンに各符号の出現数を計数してヒストグラム特徴を得る)。
このヒストグラム特徴は、ヒストグラムの各ビンの値 (各ベクトル量子化符号の小領域 スペクトログラム内での出現回数)を成分とする特徴ベクトルである。
そして、小領域参照信号スペクトログラム符号ィ匕部 104は、このヒストグラム特徴を 帯域毎にベクトル量子化により符号ィヒすることにより、各小領域参照信号スぺタトログ ラムの符号ィ匕を行う。
尚、本発明において、ベクトル量子化とは、与えられたベクトルに一つの符号を割り 当てる手続きのことである。
[0040] 小領域蓄積信号スペクトログラム符号ィ匕部 101は、小領域参照信号スぺクトロダラ ム符号ィ匕部 104による小領域参照信号スペクトログラムの符号化と同様に、各小領 域蓄積信号スペクトログラムを、各帯域毎に符号化する。
小領域蓄積信号スぺ外ログラム符号ィ匕部 101及び小領域参照信号スぺクトロダラ ム符号ィ匕部 104は、各帯域で小領域スペクトログラムを符号ィ匕する際、同じ符号帳を 用いて行う。
[0041] ここで得られた小領域スペクトログラムのヒストグラム特徴が符号ィ匕されて得られた 符号を、小領域符号 (参照信号小領域符号,蓄積信号小領域符号;これらは帯域単 位にヒストグラムがベクトル量子化されたベクトル量子化符号)と呼び、小領域参照信 号スペクトログラム F の参照信号小領域符号を c(F )、小領域蓄積信号スぺク
ti, com ti, com
トログラム G の蓄積信号小領域符号を c(G )で表すこととする。
t, com t, com
なお、これらの小領域スペクトログラムの符号ィ匕は、小領域参照信号スぺクトロダラ ム及び小領域蓄積信号スペクトログラム上の各時点におけるパワースペクトル値を、 ヒストグラムを用いずに、それぞれ特徴ベクトルとし、これらの特徴ベクトルをベクトル 量子化により符号化し、各々参照信号小領域符号及び蓄積信号小領域符号とする ことでも可能である(請求項 2に記載の構成に対応)。
[0042] そして、類似小領域スペクトログラム検出部 102は、参照信号小領域符号及び蓄積 信号小領域符号間の類似度を、小領域参照信号スペクトログラムと小領域蓄積信号 スペクトルとの間の類似度として、図 2のステップ (b)のように、各小領域参照信号ス ぺクトログラム F に対して、類似する小領域蓄積信号スペクトログラムを、蓄積信
ti, com
号スペクトログラム力 検出する。
なお、類似小領域スペクトログラム検出部 102は、図 3に示すように、小領域符号対 毎にその類似度 (小領域符号間類似度)を表の上で定義し (類似小領域スぺタトログ ラム検出部 102が内部の記憶部に記憶させる)、この表 (小領域符号間類似度表と呼 ぶ)を参照することにより参照信号小領域符号と蓄積信号小領域符号間の類似度を 知ることができる。
[0043] 図 3に上記小領域符号間類似度表の構成を示す。この表において、 V (co m, j, k) は、帯域 comにおける小領域符号 q( com, j)及び小領域符号 q( com, k)の間の小領域 符号間類似度を示している。
なお、ここで、帯域 comにおける小領域符号は、 q(com, 1), q(com, 2),……と示す そして、類似小領域スペクトログラム検出部 102は、 V (com, j, k)を、小領域符号 q( com, j)と q(com, k)との代表ベクトル間の距離を計算し、計算された距離が小さい場 合に大きな値を、距離が大きい場合に小さな値とする。代表ベクトル間の距離は、例 えばユークリッド距離を用いる方法がある。
なお、本実施例においては、 V (com, j, k)を、 0から 1までの実数値として定義して いる。すなわち、各帯域 comにおいて、距離が最大の場合、 V (com, j, k)が 0、最小 の場合、 v(com, j, k)が 1となるように演算する。
[0044] そして、 F と G との小領域類似度 sP(F , G )は、 v(com, c(F ),
ti, com t, ωτ ti, com t, com ti, com c(G 》とする。
t+ti, com
ここで、 F に類似する小領域蓄積信号スペクトログラムとは、 F と G との
ti, com ti, com t, com 小領域類似度 sP(F , G )が、設定されている小領域用探索閾値 sP を超える
ti, com t, com th
ような小領域蓄積信号スペクトログラム G である。
t, com
ここで、小領域用探索閾値 sP
thは、例えば、閾値設定のため、予め複数の参照信号 及び蓄積信号において実験的に測定し、類似した区間の検索漏れがない、もしくは 少な!、値を求めて設定される。
なお、この は wにおける全帯域で同じ値を設定してもよいし、異なる値を帯域ご
th
とに設定してもよい。本実施例では同じ値を設定することとした。
[0045] つまり、類似小領域スペクトログラム検出部 102においては、図 4に示すように、蓄 積信号スペクトログラムの小領域符号毎に、小領域蓄積信号スペクトログラムを分類 したインデックスを用い、図 3に示す小領域符号間類似度表を参照することにより、参 照信号小領域符号 c(F )と類似する蓄積信号小領域符号、すなわち、 c(F )と
ti, com ti, com の小領域符号間類似度が、小領域用探索閾値 sP
thを超える小領域符号を持つ小領 域蓄積信号スペクトログラムを検出する。これは各 F , につ 、て、 c(F , )との小
ti com ti com 領域符号間類似度が、小領域用探索閾値 sP よりも大きい全ての小領域符号につい て、その小領域符号をもつ小領域蓄積信号スペクトログラムの出現位置(時点)のリス トを図 4のインデックス力も参照することで行う。
そして、図 4のインデックスにおいて、 q( co m, j)が指すリスト (時点の配列;横方向の 列)〖こは、蓄積信号小領域符号に q( co m, j)を有する全ての小領域蓄積信号スぺタト ログラムの時点が時系列に並べられた配列として格納されている。
[0046] なお、この類似小領域スペクトログラム検出部 102は、各小領域参照信号スぺクトロ グラムについて、類似する小領域蓄積信号スペクトログラムを、対応する帯域の小領 域蓄積信号スペクトログラムを時間順に並べたリストの各小領域蓄積信号スぺ外ログ ラムと該蓄積信号スペクトログラムを、順番に小領域符号の類似度に基づ ヽて比較し 、類似する小領域蓄積信号スペクトログラムのみを検出させるようにすることも可能で ある (請求項 4記載の構成)。
すなわち、類似小領域スペクトログラム検出部 102は、上記各小領域参照信号スぺ タトログラムについて、対応する帯域の小領域蓄積信号スペクトログラムを時間順に 並べたリストの各小領域蓄積信号スペクトログラムと、順番に小領域符号の類似度に 基づいて比較し、類似する小領域蓄積信号スペクトログラムのみを検出する様にして も良い。
[0047] 区間類似度計算部 105は、小領域参照信号スペクトログラムの参照信号中の出現 時点と、これに類似する小領域蓄積信号スぺ外ログラムの蓄積信号中の出現時点と の位置関係から、参照信号と該小領域蓄積信号スペクトログラムを含む蓄積信号中 の区間の類似度 (区間類似度)を計算する区間開始時点 tを求める。そして、図 2(c)に あるように,上記の各小領域類似度を統合し、 tにおける参照信号スペクトログラムと の類似度(区間類似度) S(t)を、以下の(7)式により求める。
[数 7]
S( = (sp (R jm, …い)
[0048] ここで, I TR Iは時点の集合 TRの要素数を、 I W Iは周波数帯域の集合 Wの要 素数を表している。
なお、区間類似度を計算する際、蓄積信号の時点 tにおいて、 G 力 に 類似する小領域スペクトログラムとして検出されな力つた場合、すなわち、以下の(8) 式に示すように、小領域類似度 sP (F , G )が、小領域用探索閾値 sP 以下
ti, co m t+ti, co m th である場合、小領域類似度 sP (F , G )を以下の(9)式とする。
ti, com t+ti, com
[0049] [数 8]
S p (Fti,wm,Gt+ti,wm)≤S pl:h · * ·(8) [0050] [数 9] s p (Fti,wm,Gt+ti,wm) = 0 · ' « ( 9 )
[0051] 実際の探索において、区間類似度計算部 105は、図 3と図 4とを用いたインデックス 検索において、 G が F に類似する小領域スペクトログラムとして検出された
t+ti, com ti, com
場合、すなわち、図 3における小領域類似度 sP (F , G )が、設定されてい
ti, com t+ti, com
る小領域用探索閾値/ を超えた場合に、(7)式のようにして sP (F , G )を
th ti, com t+ti, com 時点 tにおける区間類似度 s(t)に積算する。そして、全ての小領域参照信号スぺタト ログラムについて、類似する小領域蓄積信号スペクトログラムとの小領域類似度の積 算が完了すると、各時点 tにおいて、 tで積算された結果を I TR Iと I w Iで除算す ることにより正規ィ匕し、 tにおける区間類似度 s(t)を求める演算を行う。
[0052] そして、類似区間検出部 106は、以上のようにして得られた区間類似度 S(t)をもと に、蓄積信号スぺ外ログラムにおいて、区間類似度 S(t)が探索閾値 S
thよりも大きい 時点 tを先頭とする区間を、参照信号スぺ外ログラムに類似した区間として検出する このとき、類似区間検出部 106では、上記探索閾値 S は実験的にまたは経験的に
th
得られた値を設定することが出来、また別に、得られた複数の区間類似度 s(t)の分 布をとり、標準偏差の演算を行い、得られた区間類似度 S (t)の最大値に対して、 3 σの値を探索閾値 S として、類似した区間を選択することもできる。
th
この 3も、もちろん他の実験的に測定した値に変更可能である。
[0053] 次に、図 1及び図 5を参照して、本発明の特定音響信号含有区間検出システムの 動作説明を行う。この図 5は図 1に示す特定音響信号含有区間検出システムの動作 例を示すフローチャートである。
図 1の小領域蓄積信号スぺ外ログラム符号ィ匕部 101は、図示しない蓄積信号スぺ タトログラム抽出部から蓄積信号スペクトログラムを読み込む。
そして、小領域蓄積信号スぺ外ログラム符号ィ匕部 101は、蓄積信号スぺ外ログラ ムの小領域スペクトログラムを順次符号ィ匕する。
上述した処理により得られた蓄積信号小領域符号は、小領域蓄積信号スぺ外ログ ラム符号ィ匕部 101から類似小領域スペクトログラム検出部 102に供給される (ステップ Sl)。
[0054] 次に、類似小領域スペクトログラム検出部 102は、供給された上記蓄積信号小領域 符号を分類し、図 4に示すインデックスを生成する (ステップ S 2)。
そして、参照信号スペクトログラム分割部 103は、例えば、ファイル(図示しない参照 信号スペクトログラム抽出部により生成された参照信号スペクトログラムを記録したフ アイル)から、参照信号スペクトログラムを読み込む。
次に、参照信号スペクトログラム分割部 103は、これを小領域参照信号スぺタトログ ラムに分割し、分割された小領域参照信号スぺ外ログラムを、順次、小領域参照信 号スペクトログラム符号ィ匕部 104へ供給する (ステップ S3)。
[0055] そして、小領域参照信号スぺ外ログラム符号ィ匕部 104は、順次小領域参照信号ス ぺクトログラムを符号ィ匕し、得られた参照信号小領域符号 c(F )と、その参照信号 上における時点 tiとを、類似小領域スペクトログラム検出部 102に供給する (ステップ S4)。
次に、類似小領域スペクトログラム検出部 102は、小領域参照信号スペクトログラム について内部記憶させておいた図 3の小領域符号間類似度表を参照し、対応する 小領域符号間類似度 (小領域類似度)と小領域用探索閾値とを比較し、この小領域 用探索閾値を超える小領域符号を取り出す。そして、該小領域符号が蓄積信号中で 出現する時点 t + tiを、図 4のインデックスを用 、て検索する。
更に、類似する小領域符号を持つ小領域蓄積信号スぺ外ログラムの出現位置 t+ から、参照信号に類似する蓄積信号の区間開始時点 tを求め、該小領域符号間類 似度 (すなわち小領域類似度)を tに対応させて区間類似度計算部 105に供給する( ステップ S 5)。
[0056] そして、区間類似度計算部 105は、小領域参照信号スペクトログラム (F )とこれ
ti, com に類似する小領域蓄積信号スぺ外ログラム (G )間の小領域類似度 sPを、時点
t+ti, com
tにおける区間類似度に積算する (ステップ S6)。
このとき、区間類似度計算部 105は、小領域参照信号スぺ外ログラム符号ィ匕部 10 4から全ての小領域参照信号スぺ外ログラムについて参照信号小領域符号が供給 されステップ S5及び S6との処理が終了したか否かを判定する(ステップ S7)。
[0057] そして、区間類似度計算部 105は、全ての小領域参照信号スペクトログラムについ て終了したと判定すると、処理をステップ S8へ処理を進め、終了していないと判定す ると、処理をステップ S 5へ進める。
次に、区間類似度計算部 105は、積算した各時点の区間類似度を、(7)式を用い て、供給された小領域参照信号スペクトログラムの数で割り正規ィ匕する (ステップ S8) そして、類似区間検出部 106は、正規化された区間類似度が探索閾値 S よりも大
th きい、時点 tを先頭とする区間に参照信号があつたとして、この時点 tを出力し、処理 を終了する (ステップ S9)。
また、類似区間検出部 106は、探索閾値を超えた複数の区間を出力するのではな ぐ探索閾値を超え、最も大きな区間類似度を有する区間のみを出力するようにして も良い。
[0058] 次に、上述した実施例を用いて行った実験例を説明する。
上記実施例と従来技術である分割一致探索法とを、以下に示すスペックのパーソ ナルコンピュータに実装して、検出速度を計測し、実施例と従来例とを比較した。
CPUに Intel (登録商標) Xeon (登録商標) 3. 2GHz、 OSに RED
HAT (登録商標) Linux (登録商標) 9、コンパイラに GNU gccを用いた。 ここで、実行ファイルはコンパイラ最適化オプション「一 03」によりコンパイルを行つ た。
[0059] また、本実験においては、周波数の帯域数 I W Iを 4とし、 525Hz力ら 2000Hzの 帯域に、対数軸上で等間隔に配置された 28のバンドパスフィルタの 2ミリ秒毎の出力 によるスペクトログラムを周波数軸方向に対して 4つの周波数帯域に分割した。
このとき、小領域参照信号スペクトログラムとして、上記各周波数帯域において長さ 100ミリ秒のものを、 0.6秒ごとに抽出した。
そして、実験においては、約 30分の音響信号 (蓄積信号)から、約 15秒の音楽の断 片 (参照信号)として 100個を検出し、各参照信号の検出に要した時間 (検出時間)の 平均を計測した。
[0060] 実験の結果、平均の検出時間として、従来法においては約 0.58秒を要し、上記本 発明の実施例においては 0.01秒未満であり、単純計算において約 70倍の高速な検 出が行えた。
なお、このとき、蓄積信号は音楽信号と音声信号を電力比 (音楽信号の電力/音声 信号の電力)が平均 5dBで混合したものであつたが、この時の探索精度は従来法で 99. 9% (特開 2004— 102023「特定音響信号検出方法、信号検出装置、信号検出 プログラム及び記録媒体」参照)であり、本実施例においては 99.0%であり、探索精 度は同等と判定される。
[0061] なお、図 1における特定音響信号含有区間検出システムの機能を実現するための プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録 されたプログラムをコンピュータシステムに読み込ませ、実行することにより、特定音 響信号含有区間検出の処理を行ってもよい。なお、ここでいう「コンピュータシステム」 とは、 OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステ ム」は、ホームページ提供環境 (あるいは表示環境)を備えた WWWシステムも含むも のとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、 光磁気ディスク、 ROM、 CD— ROM等の可搬媒体、コンピュータシステムに内蔵さ れるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記 録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプロ グラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮 発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする [0062] また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシス テムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータ システムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インター ネット等のネットワーク (通信網)や電話回線等の通信回線 (通信線)のように情報を 伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一 部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステ ムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差 分ファイル (差分プログラム)であっても良 、。
産業上の利用可能性
[0063] 従来の技術がヒストグラム重なり率に基づき、二つの小領域スペクトログラムの類似 性を判定しているのに対し、本発明は 2つの小領域スペクトログラムを符号ィ匕して、ィ ンデキシングにより類似性のみを検出するので、演算量を従来例に比較して大幅に 削減することができ、高速に特定音響信号含有区間の検出が行える。

Claims

請求の範囲
[1] 特定の音響信号である参照信号と類似する音を含む区間を、蓄積信号中で検出 する特定音響信号含有区間検出システムにおいて、
前記参照信号の時間周波数スペクトログラムである参照信号スペクトログラムを、小 領域参照信号スペクトログラムと呼ぶ小領域のスペクトログラムに分割する参照信号 スペクトログラム分割部と、
前記小領域参照信号スぺ外ログラムを符号ィ匕し、参照信号小領域符号とする小領 域参照信号スペクトログラム符号ィ匕部と、
前記蓄積信号の時間周波数スペクトログラムである蓄積信号スペクトログラムにお ける、小領域のスペクトログラムである小領域蓄積信号スペクトログラムを符号ィ匕し、 蓄積信号小領域符号とする小領域蓄積信号スペクトログラム符号ィ匕部と、
前記各小領域参照信号スペクトログラムと類似する小領域スペクトログラムを、符号 の類似度に基づいて、前記小領域蓄積信号スペクトログラム力も検出する類似小領 域スペクトログラム検出部と、
検出された蓄積信号スペクトログラム中にお 、て、小領域参照信号スペクトログラム に類似した小領域蓄積信号スぺ外ログラムの小領域類似度を用いて、該小領域蓄 積信号スペクトログラムを含む蓄積信号の区間と参照信号との類似度を計算する区 間類似度計算部と
を有し、
前記区間類似度により蓄積信号中の参照信号と類似する音を含む区間を検出す ることを特徴とする特定音響信号含有区間検出システム。
[2] 小領域参照信号スぺ外ログラム符号ィ匕部および小領域蓄積信号スぺ外ログラム 符号ィヒ部は、小領域スペクトログラム上の各点におけるパワースペクトル値を特徴べ タトルとし、これらの特徴ベクトルをベクトル量子化により各々符号ィ匕し、それぞれ参 照信号小領域符号,蓄積信号小領域符号とすることを特徴とする請求項 1に記載の 特定音響信号含有区間検出システム。
[3] 小領域参照信号スぺ外ログラム符号ィ匕部および小領域蓄積信号スぺ外ログラム 符号ィ匕部は、小領域スペクトログラム上の各時点におけるスペクトル特徴をベクトル 量子化により符号化し、これらの符号の小領域スペクトログラム内における出現回数 を符号毎に計数したヒストグラムを作成し、このヒストグラムの各ビンの値を成分とする 特徴ベクトルであるヒストグラム特徴を生成し、このヒストグラム特徴をさらにベクトル量 子化により符号化し、それぞれ参照信号小領域符号,蓄積信号小領域符号とするこ とを特徴とする請求項 1に記載の特定音響信号含有区間検出システム。
[4] 類似小領域スペクトログラム検出部は、前記各小領域参照信号スペクトログラムに っ 、て、対応する帯域の小領域蓄積信号スペクトログラムを時間順に並べたリストの 各小領域蓄積信号スペクトログラムと、順番に小領域符号の類似度に基づ ヽて比較 し、類似する小領域蓄積信号スペクトログラムのみを検出することを特徴とする請求 項 1から請求項 3のいずれかに記載の特定音響信号含有区間検出システム。
[5] 前記小領域スペクトログラムを符号ィ匕して得られる小領域符号について、全ての小 領域符号間の類似度を予め計算して小領域符号間類似度表を作成する小領域符 号間類似度表作成機能を更に有し、
前記類似小領域スペクトログラム検出部が、前記小領域参照信号スペクトログラムと 前記小領域蓄積信号スペクトログラムとの類似性を該小領域符号間類似度表を参照 することにより判定することを特徴とする請求項 1から請求項 3のいずれかに記載の特 定音響信号含有区間検出システム。
[6] 各周波数帯における前記小領域蓄積信号スペクトログラムについて、蓄積信号中 の出現時点を前記小領域符号を用いて分類したインデックスを作成するインデックス 作成機能を更に有し、
前記類似小領域スペクトログラム検出部が、前記小領域符号間類似度表を参照す ることにより選択された参照信号小領域符号に類似する小領域符号を用いて前記ィ ンデッタスを参照し、選択された小領域符号をもつ小領域蓄積信号スペクトログラム を、小領域参照信号スペクトログラムに類似する小領域蓄積信号スペクトログラムとし て検出することを特徴とする請求項 5に記載の特定音響信号含有区間検出システム
[7] 特定の音響信号である参照信号と類似する音を含む区間を、蓄積信号中で検出 する特定音響信号含有区間検出方法において、 前記参照信号の時間周波数スペクトログラムである参照信号スペクトログラムを、小 領域参照信号スペクトログラムと呼ぶ小領域のスペクトログラムに分割する参照信号 スペクトログラム分割過程と、
前記小領域参照信号スぺ外ログラムが符号化され、参照信号小領域符号とされる 小領域参照信号スペクトログラム符号ィ匕過程と、
前記蓄積信号の時間周波数スペクトログラムである蓄積信号スペクトログラムにお ける、小領域のスペクトログラムである小領域蓄積信号スペクトログラムが符号化され 、蓄積信号小領域符号とされる小領域蓄積信号スペクトログラム符号ィ匕過程と、 前記各小領域参照信号スペクトログラムと類似する小領域スペクトログラムが、符号 の類似度に基づいて、前記小領域蓄積信号スペクトログラム力も検出される類似小 領域スペクトログラム検出過程と、
検出された蓄積信号スペクトログラム中にお 、て、小領域参照信号スペクトログラム に類似した小領域スペクトログラムの小領域類似度を用いて、該小領域スぺタトログ ラムを含む蓄積信号の区間と参照信号との類似度が計算される区間類似度計算過 程と
を有し、
前記区間類似度により蓄積信号中の参照信号と類似する音を含む区間を検出す ることを特徴とする特定音響信号含有区間検出方法。
[8] 小領域参照信号スぺ外ログラム符号ィ匕過程および小領域蓄積信号スぺ外ログラ ム符号ィ匕過程において、小領域スペクトログラム上の各点におけるパワー値が特徴 ベクトルとされ、これらの特徴ベクトルがベクトル量子化により各々符号ィ匕され、それ ぞれ参照信号小領域符号,蓄積信号小領域符号とされることを特徴とする請求項 7 に記載の特定音響信号含有区間検出方法。
[9] 小領域参照信号スぺ外ログラム符号ィ匕過程および小領域蓄積信号スぺ外ログラ ム符号ィ匕過程にぉ 、て、小領域スペクトログラム上の各時点におけるスペクトル特徴 がベクトル量子化により符号ィヒされ、これらの符号の小領域スペクトログラム内におけ る出現回数を符号毎に計数したヒストグラムが作成され、このヒストグラムの各ビンの 値を成分とする特徴ベクトルであるヒストグラム特徴が生成され、このヒストグラム特徴 力 Sさらにベクトル量子化により符号化され、それぞれ参照信号小領域符号,蓄積信 号小領域符号とされることを特徴とする請求項 7に記載の特定音響信号含有区間検 出方法。
[10] 類似小領域スペクトログラム検出過程において、前記各小領域参照信号スぺクトロ グラムについて、対応する帯域の小領域蓄積信号スペクトログラムを時間順に並べた リストの各小領域蓄積信号スぺ外ログラムと、順番に小領域符号の類似度に基づい て比較し、類似する小領域蓄積信号スペクトログラムのみが検出されることを特徴と する請求項 7から請求項 9のいずれかに記載の特定音響信号含有区間検出方法。
[11] 前記小領域スペクトログラムを符号ィ匕して得られる小領域符号について、全ての小 領域符号間の類似度を予め計算して小領域符号間類似度表を作成する過程を更に 有し、
前記類似小領域スペクトログラム検出過程にぉ ヽて、前記小領域参照信号スぺタト ログラムと前記小領域蓄積信号スペクトログラムとの類似性を該小領域符号間類似度 表を参照することにより判定することを特徴とする請求項 7から請求項 9のいずれかに 記載の特定音響信号含有区間検出方法。
[12] 各周波数帯における前記小領域蓄積信号スペクトログラムについて、蓄積信号中 の出現時点を前記小領域符号を用いて分類したインデックスを作成するインデックス 作成過程を更に有し、
前記類似小領域スペクトログラム検出過程にぉ ヽて、前記小領域符号間類似度表 を参照することにより選択された参照信号小領域符号に類似する小領域符号を用い て前記インデックスを参照し、選択された小領域符号をもつ小領域蓄積信号スぺタト ログラムを、小領域参照信号スペクトログラムに類似する小領域蓄積信号スぺタトログ ラムとして検出することを特徴とする請求項 11に記載の特定音響信号含有区間検出 方法。
[13] 請求項 1から 6のいずれ力 1つに記載の特定音響信号含有区間検出システムとして コンピュータを機能させるための特定音響信号含有区間検出処理プログラム。
[14] 請求項 13に記載の特定音響信号含有区間検出処理プログラムが記録されたコン ピュータ読み取り可能な記録媒体。
PCT/JP2005/012223 2004-07-01 2005-07-01 特定音響信号含有区間検出システム及びその方法並びにプログラム WO2006004050A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US10/586,192 US7860714B2 (en) 2004-07-01 2005-07-01 Detection system for segment including specific sound signal, method and program for the same
DE602005018776T DE602005018776D1 (de) 2004-07-01 2005-07-01 System für detektionssektion mit einem bestimmten akustischen signal, verfahren und programm dafür
JP2006523770A JP4327202B2 (ja) 2004-07-01 2005-07-01 特定音響信号含有区間検出システム及びその方法並びにプログラム
EP05765265A EP1763018B1 (en) 2004-07-01 2005-07-01 System for detection section including particular acoustic signal, method and program thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-195995 2004-07-01
JP2004195995 2004-07-01

Publications (1)

Publication Number Publication Date
WO2006004050A1 true WO2006004050A1 (ja) 2006-01-12

Family

ID=35782854

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012223 WO2006004050A1 (ja) 2004-07-01 2005-07-01 特定音響信号含有区間検出システム及びその方法並びにプログラム

Country Status (6)

Country Link
US (1) US7860714B2 (ja)
EP (1) EP1763018B1 (ja)
JP (1) JP4327202B2 (ja)
CN (1) CN100592386C (ja)
DE (1) DE602005018776D1 (ja)
WO (1) WO2006004050A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
JP2008065393A (ja) * 2006-09-04 2008-03-21 Research Organization Of Information & Systems グループ判別装置及びグループ判別方法
JP2009541869A (ja) * 2006-07-03 2009-11-26 インテル・コーポレーション 高速音声検索の方法および装置
JP2011209592A (ja) * 2010-03-30 2011-10-20 Brother Industries Ltd 楽器音分離装置、及びプログラム
JP2011209593A (ja) * 2010-03-30 2011-10-20 Brother Industries Ltd 歌声分離装置、及びプログラム
JP2012133371A (ja) * 2012-01-04 2012-07-12 Intel Corp 高速音声検索の方法および装置
JP2012203382A (ja) * 2011-03-28 2012-10-22 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号含有区間検出装置、方法、及びプログラム
JP2015031927A (ja) * 2013-08-06 2015-02-16 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
JP2015200857A (ja) * 2014-04-10 2015-11-12 日本電信電話株式会社 系列信号特定方法、装置、及びプログラム
JP7143327B2 (ja) 2017-10-03 2022-09-28 グーグル エルエルシー コンピューティング装置によって実施される方法、コンピュータシステム、コンピューティングシステム、およびプログラム
JP7283375B2 (ja) 2019-02-01 2023-05-30 富士通株式会社 信号処理方法及び情報処理装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8271279B2 (en) * 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7827179B2 (en) * 2005-09-02 2010-11-02 Nec Corporation Data clustering system, data clustering method, and data clustering program
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム
CN101887720A (zh) * 2009-05-13 2010-11-17 鸿富锦精密工业(深圳)有限公司 声讯语义辨识系统及方法
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
TWI403304B (zh) 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
WO2012071442A1 (en) * 2010-11-22 2012-05-31 Listening Methods, Llc System and method for pattern recognition and analysis
CN111462553B (zh) * 2020-04-17 2021-03-30 杭州菲助科技有限公司 一种基于视频配音和纠音训练的语言学习方法及系统
CN113744765B (zh) * 2021-08-19 2023-12-29 深圳市新国都股份有限公司 Pos机语音播报检测方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10508391A (ja) * 1995-08-28 1998-08-18 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 基準ベクトルの部分集合の動的な形成に基づくパターン認識の方法及びシステム
JP2002236496A (ja) * 2001-02-07 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号検出装置、記録媒体及びプログラム
JP2003242510A (ja) * 2002-02-13 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体
JP2004102023A (ja) * 2002-09-11 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
JP3065314B1 (ja) 1998-06-01 2000-07-17 日本電信電話株式会社 高速信号探索方法、装置およびその記録媒体
US6263311B1 (en) * 1999-01-11 2001-07-17 Advanced Micro Devices, Inc. Method and system for providing security using voice recognition
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
JP3408800B2 (ja) 2000-04-27 2003-05-19 日本電信電話株式会社 信号検出方法、装置及びそのプログラム、記録媒体
EP1161098B1 (en) * 2000-04-27 2011-06-22 Nippon Telegraph And Telephone Corporation Signal detection method and apparatus
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
TW582022B (en) 2001-03-14 2004-04-01 Ibm A method and system for the automatic detection of similar or identical segments in audio recordings
JP3746690B2 (ja) 2001-07-10 2006-02-15 日本電信電話株式会社 信号検出方法及び装置、プログラムならびに記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10508391A (ja) * 1995-08-28 1998-08-18 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 基準ベクトルの部分集合の動的な形成に基づくパターン認識の方法及びシステム
JP2002236496A (ja) * 2001-02-07 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 信号検出方法、信号検出装置、記録媒体及びプログラム
JP2003242510A (ja) * 2002-02-13 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 信号検索装置、信号検索方法、信号検索プログラム及び信号検索プログラムを記録した記録媒体
JP2004102023A (ja) * 2002-09-11 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AKISATO KIMURA ET AL: "Global na edakari o donyu shita chojikan on kyo shingo no tansaku jikeiretsu active tansaku no koritsuka.(Quick searching of long audio signals using global pruning accelerating time series active search)", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU, vol. 100, no. 634, 16 February 2001 (2001-02-16), pages 53 - 60, XP002998252 *
NAGANO H ET AL: "Tasu no shoryoiki spectrogram no kensaku ni motozuku haikei ongaku no kosku tansakuho. (A Fast Search Algorithm for Background Music Signals Based on the Searches for Numerous Small-Region Spectograms)", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS D-II, vol. 87, no. 5, 1 May 2004 (2004-05-01), pages 1179 - 1188, XP002998251 *
See also references of EP1763018A4 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
JP2009541869A (ja) * 2006-07-03 2009-11-26 インテル・コーポレーション 高速音声検索の方法および装置
JP2008065393A (ja) * 2006-09-04 2008-03-21 Research Organization Of Information & Systems グループ判別装置及びグループ判別方法
JP2011209592A (ja) * 2010-03-30 2011-10-20 Brother Industries Ltd 楽器音分離装置、及びプログラム
JP2011209593A (ja) * 2010-03-30 2011-10-20 Brother Industries Ltd 歌声分離装置、及びプログラム
JP2012203382A (ja) * 2011-03-28 2012-10-22 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号含有区間検出装置、方法、及びプログラム
JP2012133371A (ja) * 2012-01-04 2012-07-12 Intel Corp 高速音声検索の方法および装置
JP2015031927A (ja) * 2013-08-06 2015-02-16 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
JP2015200857A (ja) * 2014-04-10 2015-11-12 日本電信電話株式会社 系列信号特定方法、装置、及びプログラム
JP7143327B2 (ja) 2017-10-03 2022-09-28 グーグル エルエルシー コンピューティング装置によって実施される方法、コンピュータシステム、コンピューティングシステム、およびプログラム
JP7283375B2 (ja) 2019-02-01 2023-05-30 富士通株式会社 信号処理方法及び情報処理装置

Also Published As

Publication number Publication date
CN100592386C (zh) 2010-02-24
EP1763018A1 (en) 2007-03-14
DE602005018776D1 (de) 2010-02-25
JP4327202B2 (ja) 2009-09-09
US7860714B2 (en) 2010-12-28
CN1910651A (zh) 2007-02-07
US20070156401A1 (en) 2007-07-05
JPWO2006004050A1 (ja) 2007-08-16
EP1763018A4 (en) 2008-08-27
EP1763018B1 (en) 2010-01-06

Similar Documents

Publication Publication Date Title
WO2006004050A1 (ja) 特定音響信号含有区間検出システム及びその方法並びにプログラム
US9589283B2 (en) Device, method, and medium for generating audio fingerprint and retrieving audio data
US9313593B2 (en) Ranking representative segments in media data
EP2791935B1 (en) Low complexity repetition detection in media data
KR100717387B1 (ko) 유사곡 검색 방법 및 그 장치
KR100749045B1 (ko) 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
US7081581B2 (en) Method and device for characterizing a signal and method and device for producing an indexed signal
KR100725018B1 (ko) 음악 내용 자동 요약 방법 및 그 장치
US8073684B2 (en) Apparatus and method for automatic classification/identification of similar compressed audio files
US20070107584A1 (en) Method and apparatus for classifying mood of music at high speed
US20060155399A1 (en) Method and system for generating acoustic fingerprints
KR100888804B1 (ko) 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
US8301284B2 (en) Feature extraction apparatus, feature extraction method, and program thereof
JP5462827B2 (ja) 特定音響信号含有区間検出装置、方法、及びプログラム
Htun Analytical approach to MFCC based space-saving audio fingerprinting system

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2006523770

Country of ref document: JP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005765265

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200580002496.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 10586192

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2005765265

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10586192

Country of ref document: US