WO2010136722A1 - Method for detecting words in a voice and use thereof in a karaoke game - Google Patents

Method for detecting words in a voice and use thereof in a karaoke game Download PDF

Info

Publication number
WO2010136722A1
WO2010136722A1 PCT/FR2010/051013 FR2010051013W WO2010136722A1 WO 2010136722 A1 WO2010136722 A1 WO 2010136722A1 FR 2010051013 W FR2010051013 W FR 2010051013W WO 2010136722 A1 WO2010136722 A1 WO 2010136722A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
voice
instantaneous
signal
voicing
Prior art date
Application number
PCT/FR2010/051013
Other languages
French (fr)
Inventor
Nicolas Delorme
Damien Henry
Aymeric Zils
Original Assignee
Voxler
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voxler filed Critical Voxler
Priority to ES10728822.7T priority Critical patent/ES2477198T3/en
Priority to EP10728822.7A priority patent/EP2436004B1/en
Publication of WO2010136722A1 publication Critical patent/WO2010136722A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

The invention essentially relates to a method for detecting the presence of words in a voice signal (S), characterized in that it comprises: a step consisting in measuring, at the moment of analysis (ti), a phonemic alternation (Vi) in the voice signal (S) over a reference period (TRi); and, if no phonemic alternation is detected over the reference period (TRi), deducing that no words are pronounced in the voice signal (S) at the analysis moment (ti), otherwise deducing that words are pronounced in the voice signal (S) at the analysis moment (ti). The invention can be advantageously used for a karaoke-type game.

Description

PROCEDE POUR DETECTER DES PAROLES DANS LA VOIX ET UTILISATION DE CE PROCEDE DANS UN JEU DE KARAOKE METHOD FOR DETECTING VOICE WORDS AND USE THEREOF IN A KARAOKE GAME
[001]. La présente invention concerne un procédé pour détecter des paroles chantées dans la voix. L'invention a notamment pour but de proposer un procédé simple à mettre en œuvre et peu consommateur en ressources pour détecter des paroles dans la voix.[001]. The present invention relates to a method for detecting lyrics sung in the voice. The invention aims in particular to provide a simple method to implement and little consumer resources to detect speech in the voice.
[002]. L'invention trouve une application particulièrement avantageuse, mais non exclusive, pour des applications de type « Karaoké ». On rappelle que le Karaoké est un jeu dans lequel le joueur chante une chanson connue sur un accompagnement généralement à la place du chanteur original, en suivant généralement les paroles sur un écran. En variante, l'invention pourrait également être utilisée dans des applications interactives vocales, par exemple dans tout jeu vidéo au sein duquel on souhaite détecter si le joueur parle.[002]. The invention finds a particularly advantageous, but not exclusive, application for "karaoke" type applications. Recall that Karaoke is a game in which the player sings a known song on an accompaniment usually in place of the original singer, usually following the lyrics on a screen. Alternatively, the invention could also be used in voice interactive applications, for example in any video game in which it is desired to detect if the player speaks.
[003]. Des jeux vidéos de Karaoké comme « SingStar » (marque déposée) évaluent uniquement la justesse du chant d'un joueur par rapport à une mélodie de référence. En conséquence, un joueur qui fredonne en rythme la mélodie (sans chanter les paroles) obtiendra le même score voire un meilleur score qu'un joueur qui chante effectivement les paroles. En effet, en fredonnant, le joueur peut se concentrer uniquement sur la justesse de la mélodie et/ou la précision rythmique, ce qui est beaucoup plus facile que s'il devait faire l'effort de placer les bonnes paroles de la chanson sur la bonne mélodie et/ou sur le bon rythme.[003]. Karaoke video games such as "SingStar" (registered trademark) only evaluate the accuracy of a player's song in relation to a reference melody. As a result, a player who hums in rhythm the melody (without singing the lyrics) will get the same score or a better score than a player who actually sings the lyrics. Indeed, by humming, the player can focus only on the accuracy of the melody and / or the rhythmic precision, which is much easier than if he had to make the effort to place the good lyrics of the song on the good melody and / or on the right rhythm.
[004]. En particulier dans certaines chansons de rap, il n'y a pas de mélodie et le rythme est trop rapide pour être évalué de manière fiable. Dans ce cas, la détection des paroles dans la chanson est un critère pertinent pour évaluer le joueur.[004]. Especially in some rap songs, there is no melody and the rhythm is too fast to be reliably evaluated. In this case, the detection of the lyrics in the song is a relevant criterion to evaluate the player.
[005]. Pour tenir compte des paroles dans le score du joueur, certains jeux récents essayent d'intégrer de la reconnaissance de paroles, avec des performances discutables, ces mécanismes de reconnaissance de parole étant très difficiles à réaliser et très coûteux algorithmiquement. En effet, ils nécessitent des calculs complexes (utilisation de modèles HMM) afin de reconnaître des mots complets, ce qui est difficile à mettre en œuvre et entraîne des erreurs fréquentes ainsi qu'une importante latence.[005]. To account for the words in the player's score, some recent games try to incorporate speech recognition, with questionable performances, these speech recognition mechanisms being very difficult to produce and very expensive algorithmically. Indeed, they require complex calculations (use of HMM models) to recognize complete words, which is difficult to implement and leads to frequent errors and significant latency.
[006]. La présente invention permet de vérifier si le joueur chante les paroles de manière beaucoup plus simple que la reconnaissance vocale traditionnelle, en abordant le problème de manière originale : on ne cherche pas à « reconnaître » les mots chantés par le joueur, ce qui n'a pas vraiment de sens puisque ceux-ci sont déjà connus (ils sont affichés sur l'écran), mais à « vérifier » si le joueur chante des paroles, au lieu de par exemple simplement fredonner la mélodie.[006]. The present invention makes it possible to check whether the player sings the lyrics in a much simpler way than the traditional voice recognition, by tackling the problem in an original way: one does not seek to "recognize" the words sung by the player, which does not does not really make sense since these are already known (they are displayed on the screen), but to "check" if the player sings words, instead of for example simply humming the melody.
[007]. L'invention part ainsi du constat que tout langage parlé et a fortiori chanté est caractérisé par une alternance de sons variés (différents phonèmes) appelée dans ce document « alternance phonémique ». On entend par phonémique ce qui se rapporte aux phonèmes, c'est-à-dire à chacun des sons composant une langue. Cette alternance phonémique peut par exemple être définie par une alternance entre des voyelles et des consonnes, ou entre des sons voisés et des sons non-voisés, ou entre diverses voyelles, ou entre diverses consonnes etc ..[007]. The invention thus starts from the observation that all spoken and a fortiori sung language is characterized by an alternation of varied sounds (different phonemes) called in this document "phonemic alternation". Phonemic means what relates to phonemes, that is to say to each of the sounds composing a language. This phonemic alternation can for example be defined by an alternation between vowels and consonants, or between voiced sounds and voiceless sounds, or between various vowels, or between various consonants etc.
[008]. On entend par fredonnement l'absence d'alternance phonémique. Par exemple, lorsque l'on fredonne, on émet uniquement des sons voisés de type « la la la », « mmmm », « ah ah ah » caractérisés par une absence d'alternance entre sons voisés et sons non-voisés et donc une absence d'alternance phonémique si on choisit de la définir par une alternance de sons voisés et de sons non voisés. A contrario, une personne qui chante les paroles d'une chanson alterne, sauf exception, l'émission de sons voisés et de sons non voisés.[008]. Hum is understood to be the absence of phonemic alternation. For example, when we hum, we only emit voiced sounds such as "la la la", "mmmm", "ah ah ah" characterized by an absence of alternation between voiced sounds and voiceless sounds and therefore a absence of phonemic alternation if one chooses to define it by an alternation of voiced sounds and unvoiced sounds. Conversely, a person who sings the lyrics of a song alternates, except exception, the emission of voiced sounds and unvoiced sounds.
[009]. L'invention propose de distinguer l'alternance phonémique, c'est-à- dire la prononciation de paroles par rapport à l'absence d'alternance phonémique (fredonnement). [010]. On rappelle qu'un son est dit « voisé » si sa production s'accompagne d'une vibration des cordes vocales, et « non-voisé » sinon. Etant donné que le langage parlé est un assemblage de voyelles et de consonnes voisées qui font vibrer les cordes vocales et de consonnes non voisées qui ne font pas vibrer les cordes vocales, on observe naturellement cette alternance entre sons voisés et non voisés. Ce constat vaut pour les principales langues parlées dans le monde. En revanche, lorsque l'on fredonne, le son émis correspond à une émission continue de sons voisés de type « IaIaIa » ou « aaaaaaa » ou « mmmmmmm ».[009]. The invention proposes to distinguish the phonemic alternation, that is to say the pronunciation of words in relation to the absence of phonemic alternation (humming). [010]. Remember that a sound is said "voiced" if its production is accompanied by a vibration of the vocal chords, and "voiceless" otherwise. Since the spoken language is a collection of voices and voiced consonants that vibrate the vocal chords and unvoiced consonants that do not vibrate the vocal chords, we naturally observe this alternation between voiced and unvoiced sounds. This is true for the main languages spoken in the world. On the other hand, when humming, the sound emitted corresponds to a continuous emission of voiced sounds of the type "IaIaIa" or "aaaaaaa" or "mmmmmmm".
[011]. Dans l'invention on observe si, pendant une période de référence, la voix du joueur présente des variations de voisement ou non. Si c'est le cas, alors on en déduit que le joueur est en train de chanter des paroles sur cette période de référence ; alors que si ce n'est pas le cas, on en déduit que le joueur est en train de fredonner sur cette période de référence. On s'est aperçu qu'une période de référence d'une seconde environ permettait d'obtenir de bons résultats. Toutefois toute autre période de référence est envisageable.[011]. In the invention it is observed whether, during a reference period, the voice of the player has variations of voicing or not. If this is the case, then we deduce that the player is singing lyrics over this reference period; while if this is not the case, we deduce that the player is humming on this reference period. It was found that a reference period of about one second provided good results. However any other reference period is possible.
[012]. Dans une mise en oeuvre, on mesure l'alternance phonémique liée au caractère voisé et non voisé de la voix. A cet effet on calcule un coefficient de voisement de la voix qui présente des valeurs élevées lorsque le son de la voix est voisé et des valeurs basses lorsque le son de la voix n'est pas voisé. Dans un exemple, ce coefficient de voisement correspond à la mesure de la qualité de l'extraction de la fréquence fondamentale du signal de voix. Lorsque ce coefficient de voisement est supérieur à une valeur seuil pendant toute la période de référence alors on en déduit que le joueur est en train de fredonner ; en revanche lorsque le coefficient de voisement n'est pas supérieur à la valeur seuil pendant toute la période de référence, on en déduit que le joueur est en train de chanter.[012]. In one implementation, the phonemic alternation related to the voiced and unvoiced character of the voice is measured. For this purpose, a voicing coefficient of the voice is calculated which has high values when the sound of the voice is voiced and low values when the sound of the voice is not voiced. In one example, this voicing coefficient corresponds to the measurement of the quality of the extraction of the fundamental frequency of the voice signal. When this coefficient of voicing is greater than a threshold value throughout the reference period, it is deduced that the player is humming; on the other hand, when the voicing coefficient is not greater than the threshold value during the whole reference period, it is deduced that the player is singing.
[013]. L'invention consiste ainsi à vérifier uniquement si le joueur prononce de véritables paroles et n'est pas en train de fredonner, sans s'assurer que les paroles correspondent effectivement aux paroles de la chanson. Il n'est donc pas utile de vérifier si « les » paroles chantées sont les vraies paroles de la chanson, mais uniquement si « des » paroles sont chantées. En effet, si le fredonnement est une aide importante dans ce genre de jeux, le fait de chanter d'autres paroles sur une chanson est plutôt une difficulté supplémentaire pour le joueur.[013]. The invention thus consists in verifying only if the player utters real words and is not humming, without ensuring that the lyrics actually correspond to the lyrics of the song. It is therefore not useful to check if "the" sung words are the true lyrics of the song, but only if "lyrics" are sung. Indeed, if the humming is an important help in this kind of games, singing other lyrics on a song is rather an additional difficulty for the player.
[014]. Plus généralement, la mesure de voisement/non-voisement n'est qu'une façon de mesurer l'alternance phonémique. Toute autre méthode permettant de mesurer une variation, par exemple variation des consonnes prononcées (mesure de la présence de certaines consonnes par d'autres méthodes que la mesure du taux de voisement) ou variation des voyelles prononcées (dans le triangle vocalique), produirait le même type de résultat.[014]. More generally, the measure of voicing / non-voicing is only one way of measuring phonemic alternation. Any other method of measuring a variation, such as variation in pronounced consonants (measuring the presence of certain consonants by other methods than measuring the rate of voicing) or variation of pronounced vowels (in the vowel triangle), would produce the same type of result.
[015]. Ainsi, alternativement, si on choisit de caractériser l'alternance phonémique par l'alternance de voyelles différentes, on mesure une variation de timbre dans le triangle vocalique. Car un joueur qui fredonne ne fait pas varier le timbre de sa voix tandis que le joueur qui chante des paroles fait varier naturellement le timbre de sa voix. Dans le cas où on ne détecte pas de variation du timbre de la voix dans le triangle vocalique sur la période de référence, on en déduit que le joueur est en train de fredonner ; alors que dans le cas où on détecte une variation du timbre de la voix dans le triangle vocalique sur la période de référence, on en déduit que le joueur est en train de chanter des paroles.[015]. Thus, alternatively, if we choose to characterize the phonemic alternation by the alternation of different vowels, we measure a variation of timbre in the vowel triangle. For a player who hums does not vary the tone of his voice while the player who sings words naturally varies the tone of his voice. In the case where we do not detect a variation of the timbre of the voice in the vowel triangle over the reference period, we deduce that the player is humming; while in the case where we detect a variation of the timbre of the voice in the vowel triangle over the reference period, we deduce that the player is singing lyrics.
[016]. Alternativement, on sépare les consonnes et ou les voyelles en plusieurs groupes, par exemple quatre groupes de consonnes et de voyelles. Si toutes les consonnes et toutes les voyelles appartiennent au même groupe, alors on peut considérer que la personne fredonne. A contrario si le groupe auquel appartiennent les consonnes et ou les voyelles varie, la personne est en train de dire des paroles c'est-à-dire un texte dont le contenu varie en termes de consonnes et/ou de voyelles.[016]. Alternatively, the consonants and / or vowels are separated into several groups, for example four groups of consonants and vowels. If all consonants and vowels belong to the same group, then the person can be considered to be humming. On the other hand, if the group to which the consonants and or vowels belong varies, the person is saying words, that is to say a text whose content varies in terms of consonants and / or vowels.
[017]. L'invention concerne donc un procédé pour distinguer la prononciation de paroles par rapport au fredonnement dans un signal de voix d'un utilisateur caractérisé en ce qu'il comporte les étapes suivantes :[017]. The invention thus relates to a method for distinguishing the pronunciation of words with respect to the humming in a voice signal of a user, characterized in that it comprises the following steps:
- mesurer un coefficient de voisement à différents instants d'une période de référence,- measure a voicing coefficient at different times of a period of reference,
- comparer les coefficients de voisement ainsi mesurés sur la période de référence à une valeur seuil, etcompare the voicing coefficients thus measured over the reference period with a threshold value, and
- en fonction des résultats des ces comparaisons sur la période de référence, déduire si l'utilisateur est en train de prononcer des paroles ou est en train de fredonner à un instant d'analyse.- based on the results of these comparisons over the reference period, deduce if the user is saying words or is humming at a time of analysis.
[018]. Selon une mise en œuvre, la période de référence précède l'instant d'analyse.[018]. According to one implementation, the reference period precedes the instant of analysis.
[019]. Selon une mise en oeuvre : - si le coefficient de voisement est supérieur à la valeur seuil pendant la période de référence, alors[019]. According to one implementation: - if the voicing coefficient is greater than the threshold value during the reference period, then
- on en déduit qu'il y a aucun instant non voisé dans la voix pendant cette durée seuil et que l'utilisateur fredonne à l'instant d'analyse,- we deduce that there is no unvoiced moment in the voice during this threshold time and that the user hums at the instant of analysis,
- sinon on en déduit que l'utilisateur prononce des paroles à l'instant d'analyse.- otherwise we deduce that the user utters words at the moment of analysis.
[020]. Selon une mise en œuvre, le coefficient de voisement est le paramètre de qualité dans l'extraction de la fréquence fondamentale du signal de voix.[020]. According to one implementation, the voicing coefficient is the quality parameter in the extraction of the fundamental frequency of the voice signal.
[021]. Selon une mise en œuvre, la période de référence est de l'ordre de 1 seconde.[021]. According to one implementation, the reference period is of the order of 1 second.
[022]. Selon une mise en œuvre, l'étape de comparaison du paramètre de voisement avec la valeur seuil est effectuée uniquement si l'énergie du signal de voix est supérieure à une valeur seuil.[022]. According to one implementation, the step of comparing the voicing parameter with the threshold value is performed only if the energy of the voice signal is greater than a threshold value.
[023]. Selon une mise en œuvre, le signal de voix étant échantillonné, il comporte les étapes suivantes :[023]. According to one implementation, the voice signal being sampled, it comprises the following steps:
- calculer une intensité instantanée et un coefficient de voisement instantané pour des points du signal de voix à des instants d'analyse espacés entre eux par une période d'analyse sur la période de référence,calculating an instantaneous intensity and an instantaneous voicing coefficient for points of the voice signal at times of analysis spaced apart by a period of analysis over the reference period,
- déterminer les états instantanés du signal de voix à chaque instant d'analyse à partir des mesures de l'énergie instantanée et du coefficient de voisement du signal de voix, ces états instantanés pouvant être l'état « voisé » correspondant à l'émission d'un son de nature voisée, ou l'état « non voisé » correspondant à l'émission d'un son de nature non voisée, - si tous les états instantanés sont de type « voisés » sur la période de référence alors on en déduit qu'il n'y a pas prononciation de paroles dans le signal de voix à l'instant d'analyse,determine the instantaneous states of the voice signal at each instant analysis from the instantaneous energy measurements and voicing coefficient of the voice signal, these instantaneous states being able to be the "voiced" state corresponding to the emission of a sound of voiced nature, or the state "Unvoiced" corresponding to the emission of a sound of unvoiced nature, - if all the instantaneous states are of type "voiced" over the period of reference then one deduces that there is no pronunciation of words in the voice signal at the instant of analysis,
- sinon on en déduit qu'il y a prononciation de paroles dans le signal de voix à l'instant d'analyse.- otherwise we deduce that there is pronunciation of words in the voice signal at the moment of analysis.
[024]. Selon une mise en œuvre, pour déterminer l'état instantané du signal de voix à l'instant d'analyse,[024]. According to one implementation, to determine the instantaneous state of the voice signal at the instant of analysis,
- on compare le coefficient de voisement avec un seuil,the voicing coefficient is compared with a threshold,
- si le coefficient de voisement est inférieur au seuil alors l'état instantané est « non voisé », - sinon on en déduit que l'état instantané est « voisé ».- if the voicing coefficient is lower than the threshold then the instantaneous state is "unvoiced", - otherwise we deduce that the instantaneous state is "voiced".
[025]. Selon une mise en œuvre, l'état instantané peut prendre en outre l'état « silence » correspondant à l'absence d'un son de puissance suffisante,[025]. According to one implementation, the instantaneous state can also take the "silence" state corresponding to the absence of a sound of sufficient power,
- si les N derniers états instantanés sur la période de référence sont de type « silence » alors on en déduit que le signal ne contient pas de voix à l'instant, sinon- if the last N instantaneous states on the reference period are of type "silence" then we deduce that the signal does not contain voice at the moment, otherwise
- on conserve, sur la période de référence, uniquement les états instantanés de type « voisés » ou « non voisés » à l'exclusion des états instantanés de type « silence ».- only "instantaneous" or "voiceless" instantaneous states, excluding instant "silence" type states, are retained over the reference period.
[026]. Selon une mise en œuvre, pour déterminer l'état instantané du signal de voix,[026]. According to one implementation, to determine the instantaneous state of the voice signal,
- on compare l'énergie instantanée du signal de voix à un premier seuil,the instantaneous energy of the voice signal is compared with a first threshold,
- si l'énergie du signal est inférieure au seuil, alors on en déduit que l'état instantané vaut « silence »,if the energy of the signal is below the threshold, then we deduce that the instantaneous state is "silence",
- sinon on compare le coefficient de voisement avec un deuxième seuil, - si le coefficient de voisement est inférieur au deuxième seuil alors l'état instantané vaut « non voisé »,- if we compare the coefficient of voicing with a second threshold, - if the voicing coefficient is lower than the second threshold then the instantaneous state is "unvoiced",
- sinon on en déduit que l'état instantané « State_Pi » vaut « voisé ». [027]. Selon une mise en œuvre, la période d'analyse vaut 20ms et la durée de la période de référence 1 s.- otherwise we deduce that the instantaneous state "State_Pi" is "voiced". [027]. According to one implementation, the analysis period is 20ms and the duration of the reference period 1 s.
[028]. Selon une mise en œuvre, le signal de voix est échantillonné à 16kHz.[028]. According to one implementation, the voice signal is sampled at 16kHz.
[029]. L'invention concerne en outre l'utilisation du procédé selon l'invention dans une application de type jeu de Karaoké.[029]. The invention further relates to the use of the method according to the invention in a Karaoke game type application.
[030]. Selon une utilisation, on inhibe la mise en œuvre du procédé selon l'invention pour les passages voisés de chanson ayant une durée supérieure à la durée de la période de référence ou sur des passages de chansons arbitrairement choisis.[030]. According to one use, the implementation of the method according to the invention is inhibited for voiced passages of song having a duration greater than the duration of the reference period or on passages of songs arbitrarily chosen.
[031]. L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Ces figures ne sont données qu'à titre illustratif mais nullement limitatif de l'invention. Elles montrent :[031]. The invention will be better understood on reading the description which follows and on examining the figures which accompany it. These figures are given for illustrative but not limiting of the invention. They show :
[032]. Figure 1 : une représentation graphique en fonction du temps de l'amplitude d'un signal de voix et de la fréquence fondamentale qui en a été extrait à l'aide d'un algorithme de détection de la fréquence fondamentale ainsi que le signal de qualité de l'extraction de la fréquence fondamentale ;[032]. Figure 1: a graphical representation as a function of time of the amplitude of a voice signal and of the fundamental frequency which has been extracted using a fundamental frequency detection algorithm and the quality signal the extraction of the fundamental frequency;
[033]. Figure 2 : une représentation schématique des étapes du procédé selon l'invention permettant de calculer des états instantanés du signal de voix ;[033]. Figure 2: a schematic representation of the steps of the method according to the invention for calculating instantaneous states of the voice signal;
[034]. Figure 3 : une représentation schématique des étapes du procédé selon l'invention permettant de détecter si le joueur chante des paroles ou fredonne à partir des états instantanés du signal de voix ;[034]. Figure 3: a schematic representation of the steps of the method according to the invention for detecting whether the player sings words or hums from the instantaneous states of the voice signal;
[035]. Figure 4 : une représentation graphique de l'amplitude du signal de voix correspondant à des paroles chantées ainsi que l'état activé ou désactivé de la fonction de détection de paroles selon l'invention au cours de la chanson.[035]. FIG. 4: a graphical representation of the amplitude of the voice signal corresponding to sung words as well as the activated or deactivated state of the speech detection function according to the invention during the course of the song.
[036]. Les éléments identiques conservent la même référence d'une figure à l'autre.[036]. Identical elements retain the same reference from one figure to another.
[037]. La Figure 1 montre une représentation schématique de l'amplitude d'un signal S de voix en fonction du temps t.[037]. Figure 1 shows a schematic representation of the amplitude of a voice signal S as a function of time t.
[038]. Dans une première étape 10 du procédé selon l'invention montrée sur la Figure 2, on mesure l'énergie Ei instantanée et le coefficient Vi de voisement représentatif du voisement de la voix pour tous les points Pi du signal S de voix analysés aux instants d'analyse ti espacés entre eux dans le temps par une période TA d'analyse. Plus le coefficient Vi est élevé, plus le son de la voix à l'instant ti est voisé ; tandis que plus ce coefficient Vi est faible, moins le son de la voix à l'instant ti est voisé.[038]. In a first step 10 of the method according to the invention shown in FIG. 2, the instantaneous energy E.sub.i and the voicing coefficient V.sub.re of the voicing of the voice are measured for all the points Pi of the signal S of the voices analyzed at the instants of Analysis ti spaced apart over time by a period of analysis TA. The higher the coefficient Vi, the more the sound of the voice at instant ti is voiced; while the lower this coefficient Vi, the less the sound of the voice at the instant ti is voiced.
[039]. A partir de ces mesures, on en déduit l'état instantané « State_Pi » du signal S de voix en chaque point Pi, cet état « State_Pi » pouvant être l'état « silence » correspondant à l'absence d'un signal de voix de puissance suffisante, l'état « voisé » correspondant à l'émission d'un son de nature voisée, et l'état « non voisé » correspondant à l'émission d'un son de nature non voisée.[039]. From these measurements, we deduce the instantaneous state "State_Pi" of the signal S of voice at each point Pi, this state "State_Pi" can be the state "silence" corresponding to the absence of a voice signal of sufficient power, the "voiced" state corresponding to the emission of a sound of voiced nature, and the "unvoiced" state corresponding to the emission of a sound of unvoiced nature.
[040]. A cet effet, on compare dans une étape 13 l'énergie Ei instantanée du signal S de voix à un seuil A. Dans un exemple ce seuil vaut 0.02 pour un signal normalisé. Si l'énergie Ei du signal est inférieure au seuil A, alors on en déduit dans une étape 15 que l'état instantané « State_Pi » du point Pi est[040]. For this purpose, the instantaneous energy Ei of the voice signal S is compared in a step 13 with a threshold A. In an example, this threshold is equal to 0.02 for a normalized signal. If the energy Ei of the signal is lower than the threshold A, then it is deduced in a step 15 that the instantaneous state "State_Pi" of the point Pi is
« silence ». En revanche si l'énergie Ei du signal de voix est supérieure au seuil A, alors on en déduit qu'un son de puissance suffisante sort effectivement de la bouche du joueur et on détermine ensuite si le son est voisé ou non voisé."Silence" On the other hand, if the energy Ei of the voice signal is greater than the threshold A, then we deduce that a sound of sufficient power actually leaves the mouth of the player and then determines whether the sound is voiced or unvoiced.
[041]. A cet effet, on compare dans une étape 17 le coefficient de voisement Vi avec un seuil B. Dans un exemple, B vaut 0.3 pour un signal normalisé. Si le coefficient Vi de voisement est inférieur au seuil B alors on en déduit que le son est non-voisé dans une étape 18 (l'état instantané « State_Pi » vaut alors « non voisé »). Cela signifie que le joueur est vraisemblablement en train de prononcer un son notamment de type P, T, K, B1 D1 G1 CH1 F1 S.[041]. For this purpose, the voicing coefficient Vi with a threshold B is compared in a step 17. In one example, B is equal to 0.3 for a normalized signal. If the voicing coefficient Vi is lower than the threshold B then deduces that the sound is unvoiced in a step 18 (the instantaneous state "State_Pi" is then "unvoiced"). This means that the player is probably pronouncing a sound including P, T, K, B 1 D 1 G 1 CH 1 F 1 S.
[042]. Tandis que si le coefficient Vi de voisement est supérieur au seuil B alors on en déduit que le son est voisé dans une étape 19 (l'état instantané « State_Pi » vaut alors « voisé »). Cela signifie que le joueur est vraisemblablement en train de prononcer une voyelle ou une consonne voisée.[042]. Whereas if the voicing coefficient Vi is greater than the threshold B then it is deduced that the sound is voiced in a step 19 (the instantaneous state "State_Pi" is then "voiced"). This means that the player is probably pronouncing a vowel or a voiceless consonant.
[043]. Dans un exemple, pour calculer l'énergie instantanée Ei et le coefficient Vi de voisement, on applique au signal S de voix un algorithme qui permet d'extraire les fréquences fondamentales de ce signal S représentées en fonction du temps par la courbe S' sur la Figure 1.[043]. In one example, in order to calculate the instantaneous energy Ei and the voicing coefficient Vi, an algorithm is applied to the voice signal S which makes it possible to extract the fundamental frequencies of this signal S represented as a function of time by the curve S 'on Figure 1.
[044]. Le coefficient Vi de voisement correspond au coefficient Q de la mesure de la qualité de la détection de la fréquence fondamentale par l'algorithme de détection de la fréquence représenté en fonction du temps par la courbe S". La qualité d'extraction correspond à la fiabilité de la détection de la fréquence fondamentale. La qualité Q de l'extraction de la fréquence fondamentale du signal de voix S, qui est en relation très étroite avec le voisement de la voix, sera très élevée pour les parties voisées de la voix au cours desquelles les cordes vocales vibrent, ce qui permet d'extraire facilement la fréquence fondamentale du signal S de voix. Tandis que la qualité Q de l'extraction de la fréquence fondamentale du signal S de voix sera peu élevée pour les parties non voisées au cours desquelles les cordes vocales ne vibrent pas ou très peu, ce qui rend difficile l'extraction de la fréquence fondamentale du signal S de voix.[044]. The voicing coefficient Vi corresponds to the Q coefficient of the measurement of the fundamental frequency detection quality by the frequency detection algorithm represented as a function of time by the curve S. The extraction quality corresponds to the reliability of the detection of the fundamental frequency The quality Q of the extraction of the fundamental frequency of the voice signal S, which is in very close relation with the voicing of the voice, will be very high for the voiced parts of the voice at during which the vocal chords vibrate, which makes it possible to easily extract the fundamental frequency of the signal S of voice While the quality Q of the extraction of the fundamental frequency of the signal S of voice will be low for the parts not voiced at during which the vocal chords do not vibrate or very little, which makes it difficult to extract the fundamental frequency of the signal S of voice.
[045]. Dans un exemple, l'algorithme de détection de la fréquence fondamentale est l'algorithme YIN. Cet algorithme, connu de l'homme du métier, est précisément décrit dans le document de brevet de France Télécom ayant le numéro d'enregistrement national français 0107284. La qualité de détection de la hauteur est la valeur (1-d1), d' étant la fonction différence moyennée et normalisée de l'algorithme de YIN telle que décrite au sein du document de brevet de France Télécom ayant le numéro d'enregistrement national français 0107284, et représentée en fonction du temps par la courbe S".[045]. In one example, the fundamental frequency detection algorithm is the YIN algorithm. This algorithm, known to those skilled in the art, is precisely described in the France Telecom patent document having the French national registration number 0107284. The quality of detection of the height is the value (1-d 1 ), d 'being the function the averaged and standardized difference of the YIN algorithm as described in the France Telecom patent document having the French national registration number 0107284, and represented as a function of time by the curve S ".
[046]. En variante, le coefficient de voisement est par exemple une mesure du bruit non-harmonique contenu dans le signal audio, mesuré par exemple par le zero-crossing rate (ZCR), une valeur faible de ZCR étant caractéristique d'un son voisé tandis qu'une valeur élevée de ZCR est caractéristique d'un son non voisé. L'utilisation du ZCR est particulièrement avantageuse dans le cas où l'on souhaite réduire au maximum la consommation CPU du système.[046]. As a variant, the voicing coefficient is for example a measure of the non-harmonic noise contained in the audio signal, measured for example by the zero-crossing rate (ZCR), a low value of ZCR being characteristic of a voiced sound while a high value of ZCR is characteristic of an unvoiced sound. The use of the ZCR is particularly advantageous in the case where it is desired to minimize the CPU consumption of the system.
[047]. Dans un exemple, le signal de voix S étant échantillonné à 16kHz, l'énergie instantanée Ei et la qualité Qi sont calculés tous les TA=20 ms en appliquant l'algorithme de détection de la fréquence fondamentale sur les derniers 1024 points échantillonnés du signal S de manière à effectuer un recoupement entre les différents morceaux du signal S analysé (les derniers 1024 points correspondant à environ 3 périodes TA de 20ms). En variante, il n'y a pas de recoupement entre les différents morceaux du signal analysés.[047]. In one example, the voice signal S being sampled at 16 kHz, the instantaneous energy E i and the quality Q i are calculated every TA = 20 ms by applying the fundamental frequency detection algorithm to the last 1024 sampled points of the signal. S so as to cross-check between the different pieces of the analyzed signal S (the last 1024 points corresponding to approximately 3 TA periods of 20 ms). Alternatively, there is no overlap between the different pieces of the analyzed signal.
[048]. Ensuite, comme représenté sur la Figure 3, dans une étape 25, on effectue une analyse du signal S de voix sur une période de référence TRi de durée de référence TR (environ une seconde) avant l'instant ti, ce qui revient à conserver les 50 derniers états instantanés State_Pj pour TA=20 ms. En variante, le nombre d'états instantanés State_Pj conservés pourrait être différent pour effectuer une analyse sur une période de référence TRi plus ou moins longue. En variante la période de référence TRi peut être remplacée par un ensemble de points autour de l'instant ti, que ces points soient avant ou après l'instant ti.[048]. Then, as shown in FIG. 3, in a step 25, an analysis of the voice signal S is carried out over a reference period TRi of reference duration TR (approximately one second) before the instant ti, which amounts to conserving the last 50 state_Pj instantaneous states for TA = 20 ms. As a variant, the number of stored state_Pj instantaneous states could be different to perform analysis over a shorter or longer reference period TRi. As a variant, the reference period TRi may be replaced by a set of points around the instant ti, whether these points are before or after the instant ti.
[049]. Dans une étape 27, on analyse si les N derniers états[049]. In a step 27, it is analyzed whether the last N states
(typiquement N=5 soit 100ms) instantanés State_Pj du signal S sont des silences. Si c'est le cas, on en déduit que l'instant ti d'analyse est un instant de silence. Sinon on en déduit que ti n'est pas un instant de silence et on détermine alors si il s'agit d'un instant ti chanté ou fredonné.(typically N = 5 or 100ms) State_Pj instantaneous of the signal S are silences. If this is the case, we deduce that the instant ti of analysis is a moment of silence. Otherwise we deduce that ti is not a moment of silence and we then determines whether it is a moment ti sung or hummed.
[050]. A cet effet, dans une étape 30, on conserve parmi les 50 derniers états instantanés du signal uniquement les états instantanés « State_Pj » de type « voisé » ou « non voisé » à l'exclusion des états de silence. Puis on analyse dans une étape 33 si tous les états instantanés « State_Pj » conservés sont des états « voisés ». Si c'est le cas, alors on en déduit à l'étape 34 que le signal S de voix correspond à un fredonnement à l'instant ti puisqu'il est a priori impossible de ne pas observer au moins un passage non voisé au cours de la période de référence TRi dans un langage chanté. En revanche, si il n'y a pas uniquement des états voisés, alors on en déduit à l'étape 35 que le signal S de voix correspond à un chant de paroles à l'instant ti puisqu'il est a priori naturel d'observer au moins un passage non voisé au cours de la période de référence TRi dans un langage chanté avec des paroles.[050]. For this purpose, in a step 30, one keeps among the last 50 instantaneous states of the signal only the instantaneous states "State_Pj" of type "voiced" or "unvoiced" excluding the states of silence. Then, in a step 33, it is analyzed whether all the stored "State_Pj" instantaneous states are "voiced" states. If this is the case, then it is deduced in step 34 that the signal S of voice corresponds to a hum at time ti since it is a priori impossible to not observe at least one unvoiced passage during of the TRi reference period in a sung language. On the other hand, if there are not only voiced states, then it is deduced in step 35 that the voice signal S corresponds to a song of words at the instant ti since it is a priori natural to observe at least one unvoiced passage during the TRi reference period in a language sung with words.
[051]. Lors de l'utilisation de l'invention dans un Karaoké, le joueur pourra être pénalisé pour chaque instant ti pendant lequel il a fredonné au lieu de chanter les paroles de la chanson à interpréter, ou au contraire récompensé pour chaque instant ti où il a chanté avec les paroles.[051]. When using the invention in a Karaoke, the player may be penalized for each moment ti during which he hummed instead of singing the lyrics of the song to be interpreted, or otherwise rewarded for each moment ti where he has sung with the words.
[052]. Il est possible que certaines chansons présentent des passages voisés ayant une durée supérieure à la durée TR de la période de référence. Ainsi la Figure 4 montre l'amplitude 41 du signal S de voix correspondant aux paroles 42 d'une chanson dans laquelle le passage 42.1 entièrement voisé « la lune mon ami » (en grisé) a une durée TD supérieure à la durée TR de la période de référence.[052]. Some songs may have voiced passages longer than the TR period of the reference period. Thus, FIG. 4 shows the amplitude 41 of the voice signal S corresponding to the words 42 of a song in which the entirely voiced passage 42.1 "the moon my friend" (in gray) has a duration TD greater than the duration TR of the reference period.
[053]. Afin d'éviter de fausses détections de fredonnement sur ces paroles particulières, il peut être utile d'inhiber la fonction de détection des paroles sur toute la durée TD du passage voisé 42.1. Ainsi comme montré dans le bandeau 43 de la Figure 4, la fonction de détection de paroles selon l'invention est inhibée sur la période TD (mise sur OFF) mais activée pour le reste de la chanson (mise sur ON). [054]. On peut aussi activer cette fonction de détection des paroles pendant une partie seulement de la chanson (par exemple le refrain) pour laquelle il faut connaître les paroles et pas pendant d'autres (par exemple les couplets) pendant lesquelles la connaissance des paroles devient facultative.[053]. In order to avoid false hum detections on these particular words, it may be useful to inhibit the speech detection function for the entire duration TD of the voiced passage 42.1. Thus, as shown in the strip 43 of FIG. 4, the speech detection function according to the invention is inhibited over the period TD (turned OFF) but activated for the rest of the song (turned ON). [054]. One can also activate this function of detection of the lyrics during only part of the song (for example the refrain) for which it is necessary to know the words and not during others (for example the couplets) during which the knowledge of the lyrics becomes optional .
[055]. On note que la détection des silences dans le signal S de voix optimise le fonctionnement du procédé selon l'invention car il évite que certains bruits blancs parasites ne soient arbitrairement considérés comme des sons de type voisé ou non voisé. Toutefois en variante, dans un fonctionnement dégradé, on supprime les étapes 13, 15, 27 et 29 de détection des silences et on analyse simplement si l'état instantané « State_Pi » du signal S est « voisé » ou « non voisé », puis on analyse les états instantanés du signal S de voix sur la période de référence TRi. On en déduit que le joueur fredonne si tous ces états instantanés sont de type voisés et qu'il chante dans le cas contraire. [055]. It should be noted that the detection of silences in the voice signal S optimizes the operation of the method according to the invention as it prevents certain parasitic white noise from being arbitrarily considered as voiced or unvoiced type sounds. However, alternatively, in a degraded operation, the steps 13, 15, 27 and 29 for silence detection are suppressed and the instantaneous state "State_Pi" of the signal S is "voiced" or "unvoiced", and then simply analyzed. the instantaneous states of the voice signal S are analyzed over the reference period TRi. We deduce that the player hums if all these instantaneous states are of type voiced and that he sings in the opposite case.

Claims

REVENDICATIONS
1. Procédé pour distinguer la prononciation de paroles par rapport au fredonnement dans un signal (S) de voix d'un utilisateur caractérisé en ce qu'il comporte les étapes suivantes :1. A method for distinguishing the pronunciation of words with respect to the humming in a voice signal (S) of a user, characterized in that it comprises the following steps:
- mesurer un coefficient de voisement (Vi) à différents instants d'une période de référence (TRi),measuring a voicing coefficient (Vi) at different times of a reference period (TRi),
- comparer les coefficients de voisement (Vi) ainsi mesurés sur la période de référence (TRi) à une valeur seuil (B), et - en fonction des résultats des ces comparaisons (State_Pj) sur la période de référence (TRi), déduire si l'utilisateur est en train de prononcer des paroles ou est en train de fredonner à un instant d'analyse (ti).- compare the voicing coefficients (Vi) thus measured over the reference period (TRi) with a threshold value (B), and - according to the results of these comparisons (State_Pj) over the reference period (TRi), deduce if the user is pronouncing words or is humming at a time of analysis (ti).
2. Procédé selon la revendication 1 , caractérisé en ce que la période de référence (TRi) précède l'instant d'analyse (ti).2. Method according to claim 1, characterized in that the reference period (TRi) precedes the analysis time (ti).
3. Procédé selon la revendication 1 ou 2, caractérisé en ce que :3. Method according to claim 1 or 2, characterized in that:
- si le coefficient (Vi) de voisement est supérieur à la valeur seuil (B) pendant la période (TRi) de référence, alors - on en déduit qu'il y a aucun instant non voisé dans la voix pendant cette durée seuil et que l'utilisateur fredonne à l'instant d'analyse (ti),if the voicing coefficient (Vi) is greater than the threshold value (B) during the reference period (TRi), then it is deduced that there is no unvoiced instant in the voice during this threshold duration and that the user hums at the instant of analysis (ti),
- sinon on en déduit que l'utilisateur prononce des paroles à l'instant d'analyse (ti).- otherwise we deduce that the user pronounces words at the time of analysis (ti).
4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que le coefficient (Vi) de voisement est le paramètre de qualité (Q) dans l'extraction de la fréquence fondamentale (f) du signal (S) de voix.4. Method according to one of claims 1 to 3, characterized in that the coefficient (Vi) of voicing is the quality parameter (Q) in the extraction of the fundamental frequency (f) of the signal (S) of voice .
5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que la période (TRi) de référence est de l'ordre de 1 seconde.5. Method according to one of claims 1 to 4, characterized in that the reference period (TRi) is of the order of 1 second.
6. Procédé selon l'une des revendications 3 à 5, caractérisé en ce que l'étape de comparaison du paramètre (Vi) de voisement avec la valeur seuil (B) est effectuée uniquement si l'énergie (Ei) du signal (S) de voix est supérieure à une valeur seuil (A). 6. Method according to one of claims 3 to 5, characterized in that the step of comparing the parameter (Vi) of voicing with the threshold value (B) is performed only if the energy (Ei) of the signal (S ) voice is greater than a threshold value (A).
7. Procédé selon la revendication 1 ou 2, caractérisé en ce que le signal de voix (S) étant échantillonné, il comporte les étapes suivantes :7. Method according to claim 1 or 2, characterized in that the voice signal (S) being sampled, it comprises the following steps:
- calculer une intensité instantanée (Ei) et un coefficient (Vi) de voisement instantané pour des points (Pi) du signal de voix à des instants (ti) d'analyse espacés entre eux par une période d'analyse (TA) sur la période de référence (TRi),calculating an instantaneous intensity (Ei) and an instant voicing coefficient (Vi) for points (Pi) of the voice signal at times (ti) of analysis spaced apart by a period of analysis (TA) on the reference period (TRi),
- déterminer les états instantanés « State_Pi » du signal (S) de voix à chaque instant ti à partir des mesures de l'énergie Ei instantanée et du voisement (Vi) du signal (S) de voix, ces états instantanés pouvant être l'état « voisé » correspondant à l'émission d'un son de nature voisée, ou l'état « non voisé » correspondant à l'émission d'un son de nature non voisée,determining the instantaneous states "State_Pi" of the signal (S) of the voice at each instant ti from the measurements of the instantaneous energy Ei and the voicing (Vi) of the signal (S) of the voice, these instantaneous states being able to be "voiced" state corresponding to the emission of a sound of voiced nature, or the "unvoiced" state corresponding to the emission of a sound of unvoiced nature,
- si tous les états instantanés « State_Pj » sont de type « voisés » sur la période (TRi) de référence alors on en déduit qu'il n'y a pas prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti),if all the instant states "State_Pj" are of type "voiced" on the period (TRi) of reference then one deduces that there is no pronunciation of words in the signal (S) of voice at the moment analysis (ti),
- sinon on en déduit qu'il y a prononciation de paroles dans le signal (S) de voix à l'instant d'analyse (ti).- otherwise we deduce that there is pronunciation of words in the signal (S) of voice at the instant of analysis (ti).
8. Procédé selon la revendication 7, caractérisé en ce que pour déterminer l'état instantané « State_Pi » du signal S de voix à l'instant d'analyse (ti),8. Method according to claim 7, characterized in that for determining the instantaneous state "State_Pi" of the signal S of voice at the instant of analysis (ti),
- on compare le coefficient de voisement Vi avec un seuil (B),the voicing coefficient Vi is compared with a threshold (B),
- si le coefficient (Vi) de voisement est inférieur au seuil (B) alors l'état instantané « State_Pi » vaut « non voisé », - sinon on en déduit que l'état instantané State_Pi vaut « voisé ».if the voicing coefficient (Vi) is lower than the threshold (B) then the instantaneous state "State_Pi" is "unvoiced", otherwise it is deduced that the instantaneous state State_Pi is "voiced".
9. Procédé selon la revendication 7, caractérisé en ce que l'état instantané « State_Pi » peut prendre en outre l'état « silence » correspondant à l'absence d'un son de puissance suffisante, - si les N derniers états instantanés « State_Pj » sur la période (TRi) de référence sont de type « silence » alors on en déduit que le signal ne contient pas de voix à l'instant (ti), sinon9. Method according to claim 7, characterized in that the instantaneous state "State_Pi" can furthermore take the state "silence" corresponding to the absence of a sound of sufficient power, - if the last N instantaneous states " State_Pj "on the period (TRi) of reference are of type" silence "then one deduces that the signal does not contain voice at the moment (ti), otherwise
- on conserve, sur la période de référence (TRi), uniquement les états instantanés de type « voisés » ou « non voisés » à l'exclusion des états instantanés « State_Pj » de type « silence ». - It retains, over the reference period (TRi), only the instantaneous states of type "voiced" or "voiceless" excluding instantaneous states "State_Pj" type "silence".
10. Procédé selon la revendication 9, caractérisé en ce que pour déterminer l'état instantané « State_Pi » du signal (S) de voix,10. Method according to claim 9, characterized in that for determining the instantaneous state "State_Pi" of the signal (S) of voice,
- on compare l'énergie (Ei) instantanée du signal S de voix à un premier seuil (A),the instantaneous energy (Ei) of the voice signal S is compared with a first threshold (A),
- si l'énergie (Ei) du signal est inférieure au seuil (A), alors on en déduit que l'état instantané « State_Pi » vaut « silence »,if the energy (Ei) of the signal is lower than the threshold (A), then it can be deduced that the instantaneous state "State_Pi" is "silent",
- sinon on compare le coefficient de voisement (Vi) avec un deuxième seuil (B), si le coefficient (Vi) de voisement est inférieur au deuxième seuil (B) alors l'état instantané « State Pi » vaut « non voisé », sinon on en déduit que l'état instantané « State_Pi » vaut « voisé ».- If we compare the voicing coefficient (Vi) with a second threshold (B), if the voicing coefficient (Vi) is lower than the second threshold (B) then the instantaneous state "State Pi" is "unvoiced", otherwise we deduce that the instantaneous state "State_Pi" is "voiced".
11. Procédé selon l'une des revendications 7 à 10, caractérisé en ce que la période (TA) d'analyse vaut 20ms et la durée (TR) de la période de référence 1 s.11. Method according to one of claims 7 to 10, characterized in that the analysis period (TA) is 20ms and the duration (TR) of the reference period 1 s.
12. Procédé selon la revendication 7 à 11 , caractérisé en ce que le signal de voix (S) est échantillonné à 16kHz.Method according to claim 7 to 11, characterized in that the voice signal (S) is sampled at 16 kHz.
13. Utilisation du procédé selon l'une des revendications 1 à 12 dans une application de type jeu de Karaoké.13. Use of the method according to one of claims 1 to 12 in a Karaoke game type application.
14. Utilisation selon la revendication 13, caractérisée en ce que on inhibe la mise en œuvre du procédé selon l'une des revendications 1 à 12 pour les passages voisés (42.1 ) de chanson ayant une durée (TD) supérieure à la durée (TR) de la période de référence ou sur des passages de chansons arbitrairement choisis. 14. Use according to claim 13, characterized in that the implementation of the method according to one of claims 1 to 12 is inhibited for voiced passages (42.1) of song having a duration (TD) greater than the duration (TR ) of the reference period or on passages of songs arbitrarily chosen.
PCT/FR2010/051013 2009-05-29 2010-05-27 Method for detecting words in a voice and use thereof in a karaoke game WO2010136722A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
ES10728822.7T ES2477198T3 (en) 2009-05-29 2010-05-27 Procedure to detect sung words and use this procedure in a Karaoke game
EP10728822.7A EP2436004B1 (en) 2009-05-29 2010-05-27 Method for detecting singing words and use thereof in a karaoke game

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0953603 2009-05-29
FR0953603A FR2946175B1 (en) 2009-05-29 2009-05-29 PROCESS FOR DETECTING WORDS IN THE VOICE AND USE OF THIS PROCESS IN A KARAOKE GAME

Publications (1)

Publication Number Publication Date
WO2010136722A1 true WO2010136722A1 (en) 2010-12-02

Family

ID=41227263

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2010/051013 WO2010136722A1 (en) 2009-05-29 2010-05-27 Method for detecting words in a voice and use thereof in a karaoke game

Country Status (4)

Country Link
EP (1) EP2436004B1 (en)
ES (1) ES2477198T3 (en)
FR (1) FR2946175B1 (en)
WO (1) WO2010136722A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930873A (en) * 2012-09-29 2013-02-13 福州大学 Information entropy based music humming detecting method
US9202520B1 (en) * 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user
CN109147783A (en) * 2018-09-05 2019-01-04 厦门轻唱科技有限公司 Audio recognition method, medium and system based on K song system

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2988894B1 (en) * 2012-03-30 2014-03-21 Adeunis R F METHOD OF DETECTING THE VOICE

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US20070059670A1 (en) * 2005-08-31 2007-03-15 Mark Yates Game processing
WO2008077281A1 (en) * 2006-12-27 2008-07-03 Intel Corporation Method and apparatus for speech segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6023674A (en) * 1998-01-23 2000-02-08 Telefonaktiebolaget L M Ericsson Non-parametric voice activity detection
US20070059670A1 (en) * 2005-08-31 2007-03-15 Mark Yates Game processing
WO2008077281A1 (en) * 2006-12-27 2008-07-03 Intel Corporation Method and apparatus for speech segmentation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DE CHEVEIGNÉ ALAIN ET AL: "YIN, a fundamental frequency estimator for speech and musica)", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AIP / ACOUSTICAL SOCIETY OF AMERICA, MELVILLE, NY, US, vol. 111, no. 4, 1 April 2002 (2002-04-01), pages 1917 - 1930, XP012002854, ISSN: 0001-4966 *
P. PRADEEP KUMAR ET AL: "Note Onset Detection in Natural Humming", PROCEEDINGS INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND MULTIMEDIA APPLICATIONS (ICCIMA 2007), vol. 4, 13 December 2007 (2007-12-13), pages 176 - 180, XP002554181, ISBN: 978-0-7695-3050-5 *
WU CHOU ET AL: "Robust singing detection in speech/music discriminator design", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). SALT LAKE CITY, UT, MAY 7 - 11, 2001; [IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP)], NEW YORK, NY : IEEE, US, vol. 2, 7 May 2001 (2001-05-07), pages 865 - 868, XP010803742, ISBN: 978-0-7803-7041-8 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930873A (en) * 2012-09-29 2013-02-13 福州大学 Information entropy based music humming detecting method
CN102930873B (en) * 2012-09-29 2014-04-09 福州大学 Information entropy based music humming detecting method
US9202520B1 (en) * 2012-10-17 2015-12-01 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user
US9928835B1 (en) 2012-10-17 2018-03-27 Amazon Technologies, Inc. Systems and methods for determining content preferences based on vocal utterances and/or movement by a user
CN109147783A (en) * 2018-09-05 2019-01-04 厦门轻唱科技有限公司 Audio recognition method, medium and system based on K song system
CN109147783B (en) * 2018-09-05 2022-04-01 厦门巨嗨科技有限公司 Voice recognition method, medium and system based on Karaoke system

Also Published As

Publication number Publication date
ES2477198T3 (en) 2014-07-16
FR2946175B1 (en) 2021-06-04
EP2436004B1 (en) 2014-04-02
EP2436004A1 (en) 2012-04-04
FR2946175A1 (en) 2010-12-03

Similar Documents

Publication Publication Date Title
Marolt A connectionist approach to automatic transcription of polyphonic piano music
US8005666B2 (en) Automatic system for temporal alignment of music audio signal with lyrics
Li et al. Separation of singing voice from music accompaniment for monaural recordings
US8880409B2 (en) System and method for automatic temporal alignment between music audio signal and lyrics
US8158871B2 (en) Audio recording analysis and rating
EP2436004B1 (en) Method for detecting singing words and use thereof in a karaoke game
Mertens Polytonia: a system for the automatic transcription of tonal aspects in speech corpora
Sonnleitner et al. A simple and effective spectral feature for speech detection in mixed audio signals
JP2015068897A (en) Evaluation method and device for utterance and computer program for evaluating utterance
JP5598516B2 (en) Voice synthesis system for karaoke and parameter extraction device
Sharma et al. Automatic evaluation of song intelligibility using singing adapted STOI and vocal-specific features
CN105895079B (en) Voice data processing method and device
Ohishi et al. Discrimination between singing and speaking voices.
Barbancho et al. Transcription and expressiveness detection system for violin music
Kochanski et al. What marks the beat of speech?
EP2186315A1 (en) Method for automatically composing a personalized ring tone from a hummed voice recording and portable telephone implementing this method
US8013231B2 (en) Sound signal expression mode determining apparatus method and program
TWI299855B (en) Detection method for voice activity endpoint
Cen et al. Segmentation of speech signals in template-based speech to singing conversion
Baek et al. A study on voice sobriety test algorithm in a time-frequency domain
CN113129923A (en) Multi-dimensional singing playing analysis evaluation method and system in art evaluation
JP2011022489A (en) Pitch recognition method, pitch recognition program, recording medium and pitch recognition system
JP4367436B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
Rao et al. Vocal melody detection in the presence of pitched accompaniment using harmonic matching methods
Kalayar Khine et al. Exploring perceptual based timbre feature for singer identification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10728822

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010728822

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE