DE102004048707B3 - Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal - Google Patents
Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal Download PDFInfo
- Publication number
- DE102004048707B3 DE102004048707B3 DE200410048707 DE102004048707A DE102004048707B3 DE 102004048707 B3 DE102004048707 B3 DE 102004048707B3 DE 200410048707 DE200410048707 DE 200410048707 DE 102004048707 A DE102004048707 A DE 102004048707A DE 102004048707 B3 DE102004048707 B3 DE 102004048707B3
- Authority
- DE
- Germany
- Prior art keywords
- distortion
- segments
- speech
- function
- time signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Abstract
Description
Die vorliegende Erfindung betrifft ein Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem.The The present invention relates to a voice conversion method for a Speech synthesis system.
Als Stimmenkonversion bezeichnet man die Manipulation einer Stimme, so dass entweder eine bestimmte andere Stimme daraus entsteht oder die Eigenschaften der Stimme gezielt geändert werden. In der Sprachsynthese ist diese Technik von Interesse, um gezielt die Stimmcharakteristik eines gewünschten Sprechers zu imitieren. Die Stimmenkonversion kann auch eine interessante Funktion eines Mobilfunktelefons darstellen, mit dem man eine Stimme derart verändern kann, dass beispielsweise eine männliche Stimme wie eine weibliche Stimme klingt oder eine Stimme jünger oder erwachsener wirkt.When Voice conversion is the manipulation of a voice, so that either a certain other voice arises from it or the properties of the voice can be changed in a targeted manner. In speech synthesis This technique is of interest to target the tuning characteristics a desired one To imitate the speaker. The voice conversion can also be an interesting one Represent the function of a mobile phone with which you have a voice change that way can be that, for example, a male Voice like a female voice sounds or a voice younger or looks adult.
Aus der Spracherkennung ist das Verfahren der Vocal Tract Lenght Normalization (VTLN) bekannt, welches in E. Eide und H. Gish, "A Parametric Approach to Vocal Tract Length Normalization", in Proc. of the ICASSP'96, Atlanta, USA, 1996 beschrieben ist. Hierbei wird durch eine Normalisierung der individuellen Stimmcharakteristik eine Angleichung von unterschiedlichen sprecherabhängigen Sprachsignalen erreicht, um die Spracherkennungsleistung zu verbessern. Das gleiche Verfahren wurde für die Stimmenkonversion umgesetzt und in D. Sündermann, H. Ney und H. Höge, "VTLN-Based Cross-Language Voice Conversion", in Proc. of the ASRU'03, St. Thomas, USA, 2003 beschrieben. Dabei kann eine Standardsynthesestimme in unterschiedliche Synthesestimmen transformiert werden. Hierzu wird das digitale Sprachzeitsignal einer Äußerung eines Quellsprechers mittels eines Pitch-Tracking Algorithmus in quasi-periodische Segmente unterteilt, die nun als Grundlage für die weitere Signalverarbeitung dienen. Mittels der diskreten Fourier-Transformation (DFT) wird das komplexwertige Spektrum jedes quasi-periodischen Segments berechnet. Durch Multiplikation mit einer Verzerrungsfunktion wird das Spektrum unter Verwendung der Spline-Interpolation in der gewünschten Weise verzerrt. Das resultierende Spektrum wird mit Hilfe der inversen diskreten Fourier-Transformation (IDFT) in den Zeitbereich transformiert. Das verzerrte Sprachzeitsignal wird dann durch Verkettung der transformierten quasi-periodischen Segmente erhalten.Out Speech recognition is the process of Vocal Tract Lenght Normalization (VTLN), which is described in E. Eide and H. Gish, "A Parametric Approach to Vocal Tract Length Normalization ", in proc. of the ICASSP'96, Atlanta, USA, 1996. This is done by normalizing the individual voice characteristics an approximation of different ones speaker-dependent speech signals achieved to improve the speech recognition performance. The same Procedure was for converted the voice conversion and in D. Sündermann, H. Ney and H. Höge, "VTLN-Based Cross-Language Voice Conversion ", in proc. of the ASRU'03, St. Thomas, USA, 2003. This can be a standard synthesis voice be transformed into different synthesis votes. For this becomes the digital voice time signal of an utterance of a source speaker divided into quasi-periodic segments by means of a pitch-tracking algorithm, which is now the basis for serve the further signal processing. By means of the discrete Fourier transformation (DFT) becomes the complex valued spectrum of each quasi-periodic Segments calculated. By multiplication with a distortion function is the spectrum using the spline interpolation in the desired Way distorted. The resulting spectrum is using the inverse discrete Fourier transform (IDFT) transformed into the time domain. The distorted speech time signal is then concatenated by the transformed obtained quasi-periodic segments.
Im Gegensatz zu Spracherkennungssystemen arbeiten konkatenative (verkettende) Sprachsynthesesysteme üblicherweise im Zeitbereich. Die Anwendung des oben beschriebenen Verfahrens zur Stimmenkonversion in einem Sprachsynthesesystem erfordert daher zusätzliche Hin- und Rücktransformationsoperationen in den Frequenzbereich. Dies erschwert einen breiten Einsatz dieses Verfahrens zur Stimmenkonversion in Sprachsynthesesystemen im Bereich integrierter Technologien, da hierbei jede vermeidbare zusätzliche Operation aufgrund der limitierten Prozessorressourcen vermieden werden muss.in the Unlike speech recognition systems, concatenative (concatenating) work Speech synthesis systems usually in the time domain. The application of the method described above for voice conversion in a speech synthesis system therefore requires additional Back and forth transformation operations in the frequency domain. This makes a wide use of this difficult Method for voice conversion in speech synthesis systems in the field integrated technologies, as any avoidable additional Operation avoided due to limited processor resources must become.
Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren zur Stimmenkonversion anzugeben, mit dem der erforderliche Speicherplatz und die benötigte Rechenleistung verringert werden.task The present invention is therefore a method for voice conversion specify the space required and the required processing power be reduced.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den in Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention this Task by a method having the features specified in claim 1 solved. Advantageous developments of the present invention are in the dependent claims specified.
Gemäß der vorliegenden Erfindung wird in einem Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem ein erstes Sprachzeitsignal in zeitlich aufeinander folgende Segmente aufgeteilt. Die Segmente werden mit einer Verzerrungszeitfunktion gefaltet. Durch Zusammensetzen der gefalteten Segmente wird ein zweites Sprachzeitsignal erzeugt. Durch die Manipulation der Segmente zur Stimmenkonversion im Zeitbereich, entfallen die Hin- und Rücktransformationen in den Frequenzbereich. Dadurch kann die Rechenkomplexität und der benötigte Speicherplatz erheblich reduziert werden, wodurch eine schnellere Verarbeitung ermöglicht wird.According to the present The invention is in a method for voice conversion for a speech synthesis system a first speech time signal in temporally successive segments divided up. The segments are provided with a distortion time function folded. By assembling the folded segments becomes one second speech time signal generated. By manipulating the segments for voice conversion in the time domain, eliminates the back and forth transformations in the frequency domain. As a result, the computational complexity and the needed storage space be significantly reduced, resulting in faster processing allows becomes.
Erstes und/oder zweites Sprachzeitsignal können dabei als analoge und/oder digitale Sprachzeitsignale ausgeführt sein.first and / or second voice time signal can be used as analog and / or be carried out digital voice time signals.
Gemäß einer vorteilhaften Ausführungsvariante der vorliegenden Erfindung wird das erste Sprachzeitsignal in quasiperiodische Segmente aufgeteilt. Die quasiperiodischen Segmente können beispielsweise mit Hilfe eines Pitch-Tracking Algorithmus ermittelt werden. Dieser ermittelt periodische Strukturen innerhalb eines Sprachzeitsignals mit einer speziellen Autokorrelationsfunktion.According to one advantageous embodiment According to the present invention, the first speech time signal is in quasi-periodic Segments split. The quasi-periodic segments may be, for example be determined using a pitch tracking algorithm. This determines periodic structures within a speech time signal with a special autocorrelation function.
Nach einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung ist mindestens ein Parameter der Verzerrungszeitfunktion vorgebbar. Dadurch wird auf schnelle und effiziente Weise eine Verfremdung der Stimme ermöglicht.To a further advantageous embodiment of the present invention At least one parameter of the distortion time function can be specified. Thereby becomes an alienation of the voice in a fast and efficient way allows.
Entsprechend einer weiteren vorteilhaften Weiterbildung der vorliegenden Erfindung wird die Verzerrungszeitfunktion durch Transformation einer Verzerrungsfrequenzfunktion in den Zeitbereich ermittelt. Hierdurch ist es möglich, die Stimme gemäß einer gewünschten Frequenzcharakteristik gezielt zu verändern. Die Ermittlung der Verzerrungszeitfunktion nach dieser Methode kann dabei vorab oder während der Ausführung des erfindungsgemäßen Verfahrens erfolgen.According to a further advantageous development of the present invention, the distortion time function is determined by transformation of a distortion frequency function into the time domain. This makes it possible to selectively change the voice according to a desired frequency characteristic. The determination of the distortion time function on by this method can be carried out in advance or during the execution of the method according to the invention.
Entsprechend einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung wird mindestens ein Parameter der Verzerrungsfrequenzfunktion durch Minimierung des euklidischen Abstandes zwischen einem Sprachfrequenzsignal eines Zielsprechers und einem mit dem mindestens einen Parameter der Verzerrungsfrequenzfunktion transformierten Sprachfrequenzsignal eines Quellsprechers ermittelt. Durch die so ermittelte Ver zerrungsfrequenzfunktion kann die Stimme eines Quellsprechers an die Stimme eines Zielsprechers adaptiert werden.Corresponding a further advantageous embodiment of the present invention At least one parameter of the distortion frequency function is passed through Minimizing the Euclidean distance between a speech frequency signal a target speaker and one with the at least one parameter the distortion frequency function transformed voice frequency signal a source speaker determined. By thus determined Ver distortion frequency function The voice of a source speaker may be the voice of a target speaker be adapted.
Die Verzerrungsfrequenzfunktion kann beispielsweise als lineare Verzerrungsfrequenzfunktion mit einem Parameter ausgeführt sein. Dies hat den Vorteil, dass die Rechenkomplexität für die Stimmenkonversion mit der linearen Verzerrungsfrequenzfunktion erheblich reduziert wird (siehe Ausführungsbeispiel).The Distortion frequency function, for example, as a linear distortion frequency function with a parameter is executed be. This has the advantage that the computational complexity for voice conversion significantly reduced with the linear distortion frequency function is (see embodiment).
Nach weiteren vorteilhaften Ausführungsvarianten der vorliegenden Erfindung wird die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfunktion mit einem Parameter oder als nichtlineare Verzerrungsfunktion mit einem Parameter ausgeführt. Außerdem ist die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfunktion mit mehreren Parametern oder als nichtlineare Verzerrungsfunktion mit mehreren Parametern ausführbar. Die Flexibilität bei der Auswahl einer geeigneten Verzerrungsfunktion zur Stimmenkonversion hat die vorteilhafte Wirkung, dass je nach qualitativer Anforderung die Stimmenkonversion durch eine daran angepasste Verzerrungsfunktion erfolgen kann.To further advantageous embodiments The present invention uses the distortion frequency function as piecewise, linear distortion function with one parameter or as non-linear Distortion function performed with a parameter. In addition, the distortion frequency function is as piecewise, linear distortion function with multiple parameters or as non-linear Distortion function with several parameters executable. The flexibility in the Selection of a suitable distortion function for voice conversion has the beneficial effect that depending on the quality requirement the voice conversion through a customized distortion function can be done.
Gemäß einer weiteren Ausbildung der vorliegenden Erfindung werden durch die Faltung der Segmente mit der Verzerrungszeitfunktion entstandene Werte, welche außerhalb eines darstellbaren Wertebereichs liegen, interpoliert. Hierzu kann beispielsweise eine Spline-Interpolation oder eine lineare Interpolation eingesetzt werden.According to one further embodiment of the present invention are characterized by the Convolution of the segments with the distortion time function resulting values, which outside a displayable value range, interpolated. For this purpose can For example, a spline interpolation or a linear interpolation be used.
Gemäß einer
weiteren Ausbildungsform der vorliegenden Erfindung wird das Zusammensetzen der
gefalteten Segmente mit einem TD-PSOLA Algorithmus ausgeführt. Dieser
Algorithmus ermöglicht eine
weitgehend artefakt- und verzerrungsfreie Verkettung von Segmenten,
wobei gleichzeitig die Tonhöhe
und Sprechgeschwindigkeit manipulierbar ist. Dieses Verfahren wurde
1988 bzw. 1989 unter verschiedenen Namen durch die France Telecom
angemeldet und später
patentiert (
In vorteilhafter Weise sind die Segmente des ersten Sprachzeitsignals durch Multiplikation mit einem vorgebbaren Verzerrungsfaktor im Zeit- und/oder Amplitudenbereich stauchbar bzw. streckbar. Somit wird eine erhebliche Reduzierung der benötigten Speicher- und Rechenkapazitäten erreicht.In Advantageously, the segments of the first speech time signal by multiplication with a predeterminable distortion factor in Time and / or amplitude range compressible or stretchable. Consequently a significant reduction of the required storage and computing capacity is achieved.
Die vorliegende Erfindung wird nachfolgend an einem Ausführungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigtThe The present invention will become more apparent from an embodiment closer to the drawings explained. It shows
In
Gemäß der vorliegenden Erfindung wird in diesem Ausführungsbeispiel in einem ersten Schritt ein erstes digitales Sprach zeitsignal mit Hilfe eines Pitch-Tracking Algorithmus in zeitlich aufeinander folgende quasi-periodische Segmente aufgeteilt. Die quasi-periodischen Segmente entsprechen weitestgehend den Phonemen des ersten Sprachzeitsignals.According to the present Invention is in this embodiment in a first step, a first digital voice time signal Help of a pitch tracking algorithm in temporal succession divided into quasi-periodic segments. The quasi-periodic segments largely correspond to the phoneme of the first speech time signal.
In
einem zweiten Schritt werden die quasi-periodischen Segmente mit
einer Verzerrungszeitfunktion gefaltet. Entsprechend der vorliegenden
Erfindung soll die Manipulation des ersten Sprachzeitsignals durch
die Verzerrungszeitfunktion im Zeitbereich stattfinden. Eine Multiplikation
eines quasi-periodischen Segments eines Sprachfrequenzsignals mit einer
Verzerrungsfrequenzfunktion im Frequenzbereich (
In einem dritten Schritt werden die neu ermittelten quasi-periodischen Segmente mit dem TD-PSOLA Algorithmus zusammengesetzt. Dieser basiert im Wesentlichen auf einem Overlap-and-Add Verfahren im Zeitbereich, wobei man beispielsweise die quasi-periodischen Segmente zeitversetzt zusammensetzt und die überlappenden Abtastwerte addiert.In a third step is the newly determined quasi-periodic Segments composed with the TD-PSOLA algorithm. This is based essentially on an overlap-and-add method in the time domain, wherein For example, the time-displaced quasi-periodic segments composed and the overlapping Added samples.
Claims (19)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200410048707 DE102004048707B3 (en) | 2004-10-06 | 2004-10-06 | Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal |
CH12872005A CH698155B1 (en) | 2004-10-06 | 2005-08-04 | A process for converting voices for a speech synthesis system. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE200410048707 DE102004048707B3 (en) | 2004-10-06 | 2004-10-06 | Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102004048707B3 true DE102004048707B3 (en) | 2005-12-29 |
Family
ID=35455243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE200410048707 Expired - Fee Related DE102004048707B3 (en) | 2004-10-06 | 2004-10-06 | Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal |
Country Status (2)
Country | Link |
---|---|
CH (1) | CH698155B1 (en) |
DE (1) | DE102004048707B3 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327521A (en) * | 1992-03-02 | 1994-07-05 | The Walt Disney Company | Speech transformation system |
US6463412B1 (en) * | 1999-12-16 | 2002-10-08 | International Business Machines Corporation | High performance voice transformation apparatus and method |
US6615174B1 (en) * | 1997-01-27 | 2003-09-02 | Microsoft Corporation | Voice conversion system and methodology |
DE69811656T2 (en) * | 1997-04-28 | 2003-10-16 | Ivl Technologies Ltd | VOICE TRANSFER AFTER A TARGET VOICE |
-
2004
- 2004-10-06 DE DE200410048707 patent/DE102004048707B3/en not_active Expired - Fee Related
-
2005
- 2005-08-04 CH CH12872005A patent/CH698155B1/en not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5327521A (en) * | 1992-03-02 | 1994-07-05 | The Walt Disney Company | Speech transformation system |
US6615174B1 (en) * | 1997-01-27 | 2003-09-02 | Microsoft Corporation | Voice conversion system and methodology |
DE69811656T2 (en) * | 1997-04-28 | 2003-10-16 | Ivl Technologies Ltd | VOICE TRANSFER AFTER A TARGET VOICE |
US6463412B1 (en) * | 1999-12-16 | 2002-10-08 | International Business Machines Corporation | High performance voice transformation apparatus and method |
Non-Patent Citations (2)
Title |
---|
D. Sündermann, H. Ney und H. Höge: "VTLN-Based Cross-Language Voice Conversion", in Proc. of the ASRU'03, St. Thomas, USA, 2003 * |
E. Eide und H. Gish: "A Parametric Approach to Vocal Tract Length Normalization", in Proc. of the ICASSP '96, Atlanta, USA, 1996 * |
Also Published As
Publication number | Publication date |
---|---|
CH698155B1 (en) | 2009-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102006047197B3 (en) | Device for processing realistic sub-band signal of multiple realistic sub-band signals, has weigher for weighing sub-band signal with weighing factor that is specified for sub-band signal around subband-signal to hold weight | |
EP1388147B1 (en) | Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance | |
EP0624866A2 (en) | Method for frequency analysis | |
DE102006020832A1 (en) | Method for suppressing feedback and spectral expansion in hearing aids | |
DE19720651C2 (en) | Hearing aid with various assemblies for recording, processing and adapting a sound signal to the hearing ability of a hearing impaired person | |
DE602005005396T2 (en) | Filter for eliminating the overshoots | |
EP1023777B1 (en) | Method and device for limiting a stream of audio data with a scaleable bit rate | |
DE2805478A1 (en) | DISCRIMINATOR ARRANGEMENT FOR VOICE SIGNALS | |
DE102004048707B3 (en) | Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal | |
EP0865026A2 (en) | Method for modifying speech speed | |
DE60305944T2 (en) | METHOD FOR SYNTHESIS OF A STATIONARY SOUND SIGNAL | |
DE2649540A1 (en) | Speech synthesis system using time quantised signals - has discrete sets of amplitudes and phases Fourier transform processed | |
AT408286B (en) | METHOD FOR SUPPRESSING NOISE IN A SIGNAL FIELD | |
DE10150519B4 (en) | Method and arrangement for speech processing | |
DE2854601A1 (en) | CLAY SYNTHESIZER AND METHOD FOR CLAY PROCESSING | |
EP1130577B1 (en) | Method for the reconstruction of low speech frequencies from mid-range frequencies | |
EP1344211A1 (en) | Device and method for differentiated speech output | |
DE10352537A1 (en) | Method and filter bank for the spectral modification of a digital signal | |
EP0689191B1 (en) | Speech processing apparatus and mobile transceiver | |
EP1142450B1 (en) | Method and device for adaptively modifying the characteristics of one-dimensional signals | |
EP3373601A1 (en) | Method for frequency distortion of an audio signal and a hearing aid carrying out this method | |
DE4425767C2 (en) | Process for the reproduction of signals with changed speed | |
EP1561205A1 (en) | Method for enlarging the bandwidth of a narrow-band filtered speech signal | |
DE10139309A1 (en) | Noise interference suppression method in hearing aid, involves performing non-linear modification of instant amplitude signal to obtain modified signal for linking with instant phase signal to output voice signal | |
DE102009018470A1 (en) | Method for processing acoustic speech signals in hearing aid technology, involves performing phonetic-class-specific processing of speech signal, and temporally extending weak articulated tones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of the examined application without publication of unexamined application | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |