DE102004048707B3 - Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal - Google Patents

Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal Download PDF

Info

Publication number
DE102004048707B3
DE102004048707B3 DE200410048707 DE102004048707A DE102004048707B3 DE 102004048707 B3 DE102004048707 B3 DE 102004048707B3 DE 200410048707 DE200410048707 DE 200410048707 DE 102004048707 A DE102004048707 A DE 102004048707A DE 102004048707 B3 DE102004048707 B3 DE 102004048707B3
Authority
DE
Germany
Prior art keywords
distortion
segments
speech
function
time signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE200410048707
Other languages
German (de)
Inventor
David Sündermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE200410048707 priority Critical patent/DE102004048707B3/en
Priority to CH12872005A priority patent/CH698155B1/en
Application granted granted Critical
Publication of DE102004048707B3 publication Critical patent/DE102004048707B3/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

Voice conversion method comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal by placing the folded segments together. Preferred Features: The first and/or second speech time signal are analogue or digital time signals. The first speech time signal is divided into quasi-periodic segments which are determined using a pitch tracking algorithm.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem.The The present invention relates to a voice conversion method for a Speech synthesis system.

Als Stimmenkonversion bezeichnet man die Manipulation einer Stimme, so dass entweder eine bestimmte andere Stimme daraus entsteht oder die Eigenschaften der Stimme gezielt geändert werden. In der Sprachsynthese ist diese Technik von Interesse, um gezielt die Stimmcharakteristik eines gewünschten Sprechers zu imitieren. Die Stimmenkonversion kann auch eine interessante Funktion eines Mobilfunktelefons darstellen, mit dem man eine Stimme derart verändern kann, dass beispielsweise eine männliche Stimme wie eine weibliche Stimme klingt oder eine Stimme jünger oder erwachsener wirkt.When Voice conversion is the manipulation of a voice, so that either a certain other voice arises from it or the properties of the voice can be changed in a targeted manner. In speech synthesis This technique is of interest to target the tuning characteristics a desired one To imitate the speaker. The voice conversion can also be an interesting one Represent the function of a mobile phone with which you have a voice change that way can be that, for example, a male Voice like a female voice sounds or a voice younger or looks adult.

Aus der Spracherkennung ist das Verfahren der Vocal Tract Lenght Normalization (VTLN) bekannt, welches in E. Eide und H. Gish, "A Parametric Approach to Vocal Tract Length Normalization", in Proc. of the ICASSP'96, Atlanta, USA, 1996 beschrieben ist. Hierbei wird durch eine Normalisierung der individuellen Stimmcharakteristik eine Angleichung von unterschiedlichen sprecherabhängigen Sprachsignalen erreicht, um die Spracherkennungsleistung zu verbessern. Das gleiche Verfahren wurde für die Stimmenkonversion umgesetzt und in D. Sündermann, H. Ney und H. Höge, "VTLN-Based Cross-Language Voice Conversion", in Proc. of the ASRU'03, St. Thomas, USA, 2003 beschrieben. Dabei kann eine Standardsynthesestimme in unterschiedliche Synthesestimmen transformiert werden. Hierzu wird das digitale Sprachzeitsignal einer Äußerung eines Quellsprechers mittels eines Pitch-Tracking Algorithmus in quasi-periodische Segmente unterteilt, die nun als Grundlage für die weitere Signalverarbeitung dienen. Mittels der diskreten Fourier-Transformation (DFT) wird das komplexwertige Spektrum jedes quasi-periodischen Segments berechnet. Durch Multiplikation mit einer Verzerrungsfunktion wird das Spektrum unter Verwendung der Spline-Interpolation in der gewünschten Weise verzerrt. Das resultierende Spektrum wird mit Hilfe der inversen diskreten Fourier-Transformation (IDFT) in den Zeitbereich transformiert. Das verzerrte Sprachzeitsignal wird dann durch Verkettung der transformierten quasi-periodischen Segmente erhalten.Out Speech recognition is the process of Vocal Tract Lenght Normalization (VTLN), which is described in E. Eide and H. Gish, "A Parametric Approach to Vocal Tract Length Normalization ", in proc. of the ICASSP'96, Atlanta, USA, 1996. This is done by normalizing the individual voice characteristics an approximation of different ones speaker-dependent speech signals achieved to improve the speech recognition performance. The same Procedure was for converted the voice conversion and in D. Sündermann, H. Ney and H. Höge, "VTLN-Based Cross-Language Voice Conversion ", in proc. of the ASRU'03, St. Thomas, USA, 2003. This can be a standard synthesis voice be transformed into different synthesis votes. For this becomes the digital voice time signal of an utterance of a source speaker divided into quasi-periodic segments by means of a pitch-tracking algorithm, which is now the basis for serve the further signal processing. By means of the discrete Fourier transformation (DFT) becomes the complex valued spectrum of each quasi-periodic Segments calculated. By multiplication with a distortion function is the spectrum using the spline interpolation in the desired Way distorted. The resulting spectrum is using the inverse discrete Fourier transform (IDFT) transformed into the time domain. The distorted speech time signal is then concatenated by the transformed obtained quasi-periodic segments.

Im Gegensatz zu Spracherkennungssystemen arbeiten konkatenative (verkettende) Sprachsynthesesysteme üblicherweise im Zeitbereich. Die Anwendung des oben beschriebenen Verfahrens zur Stimmenkonversion in einem Sprachsynthesesystem erfordert daher zusätzliche Hin- und Rücktransformationsoperationen in den Frequenzbereich. Dies erschwert einen breiten Einsatz dieses Verfahrens zur Stimmenkonversion in Sprachsynthesesystemen im Bereich integrierter Technologien, da hierbei jede vermeidbare zusätzliche Operation aufgrund der limitierten Prozessorressourcen vermieden werden muss.in the Unlike speech recognition systems, concatenative (concatenating) work Speech synthesis systems usually in the time domain. The application of the method described above for voice conversion in a speech synthesis system therefore requires additional Back and forth transformation operations in the frequency domain. This makes a wide use of this difficult Method for voice conversion in speech synthesis systems in the field integrated technologies, as any avoidable additional Operation avoided due to limited processor resources must become.

Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren zur Stimmenkonversion anzugeben, mit dem der erforderliche Speicherplatz und die benötigte Rechenleistung verringert werden.task The present invention is therefore a method for voice conversion specify the space required and the required processing power be reduced.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den in Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention this Task by a method having the features specified in claim 1 solved. Advantageous developments of the present invention are in the dependent claims specified.

Gemäß der vorliegenden Erfindung wird in einem Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem ein erstes Sprachzeitsignal in zeitlich aufeinander folgende Segmente aufgeteilt. Die Segmente werden mit einer Verzerrungszeitfunktion gefaltet. Durch Zusammensetzen der gefalteten Segmente wird ein zweites Sprachzeitsignal erzeugt. Durch die Manipulation der Segmente zur Stimmenkonversion im Zeitbereich, entfallen die Hin- und Rücktransformationen in den Frequenzbereich. Dadurch kann die Rechenkomplexität und der benötigte Speicherplatz erheblich reduziert werden, wodurch eine schnellere Verarbeitung ermöglicht wird.According to the present The invention is in a method for voice conversion for a speech synthesis system a first speech time signal in temporally successive segments divided up. The segments are provided with a distortion time function folded. By assembling the folded segments becomes one second speech time signal generated. By manipulating the segments for voice conversion in the time domain, eliminates the back and forth transformations in the frequency domain. As a result, the computational complexity and the needed storage space be significantly reduced, resulting in faster processing allows becomes.

Erstes und/oder zweites Sprachzeitsignal können dabei als analoge und/oder digitale Sprachzeitsignale ausgeführt sein.first and / or second voice time signal can be used as analog and / or be carried out digital voice time signals.

Gemäß einer vorteilhaften Ausführungsvariante der vorliegenden Erfindung wird das erste Sprachzeitsignal in quasiperiodische Segmente aufgeteilt. Die quasiperiodischen Segmente können beispielsweise mit Hilfe eines Pitch-Tracking Algorithmus ermittelt werden. Dieser ermittelt periodische Strukturen innerhalb eines Sprachzeitsignals mit einer speziellen Autokorrelationsfunktion.According to one advantageous embodiment According to the present invention, the first speech time signal is in quasi-periodic Segments split. The quasi-periodic segments may be, for example be determined using a pitch tracking algorithm. This determines periodic structures within a speech time signal with a special autocorrelation function.

Nach einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung ist mindestens ein Parameter der Verzerrungszeitfunktion vorgebbar. Dadurch wird auf schnelle und effiziente Weise eine Verfremdung der Stimme ermöglicht.To a further advantageous embodiment of the present invention At least one parameter of the distortion time function can be specified. Thereby becomes an alienation of the voice in a fast and efficient way allows.

Entsprechend einer weiteren vorteilhaften Weiterbildung der vorliegenden Erfindung wird die Verzerrungszeitfunktion durch Transformation einer Verzerrungsfrequenzfunktion in den Zeitbereich ermittelt. Hierdurch ist es möglich, die Stimme gemäß einer gewünschten Frequenzcharakteristik gezielt zu verändern. Die Ermittlung der Verzerrungszeitfunktion nach dieser Methode kann dabei vorab oder während der Ausführung des erfindungsgemäßen Verfahrens erfolgen.According to a further advantageous development of the present invention, the distortion time function is determined by transformation of a distortion frequency function into the time domain. This makes it possible to selectively change the voice according to a desired frequency characteristic. The determination of the distortion time function on by this method can be carried out in advance or during the execution of the method according to the invention.

Entsprechend einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung wird mindestens ein Parameter der Verzerrungsfrequenzfunktion durch Minimierung des euklidischen Abstandes zwischen einem Sprachfrequenzsignal eines Zielsprechers und einem mit dem mindestens einen Parameter der Verzerrungsfrequenzfunktion transformierten Sprachfrequenzsignal eines Quellsprechers ermittelt. Durch die so ermittelte Ver zerrungsfrequenzfunktion kann die Stimme eines Quellsprechers an die Stimme eines Zielsprechers adaptiert werden.Corresponding a further advantageous embodiment of the present invention At least one parameter of the distortion frequency function is passed through Minimizing the Euclidean distance between a speech frequency signal a target speaker and one with the at least one parameter the distortion frequency function transformed voice frequency signal a source speaker determined. By thus determined Ver distortion frequency function The voice of a source speaker may be the voice of a target speaker be adapted.

Die Verzerrungsfrequenzfunktion kann beispielsweise als lineare Verzerrungsfrequenzfunktion mit einem Parameter ausgeführt sein. Dies hat den Vorteil, dass die Rechenkomplexität für die Stimmenkonversion mit der linearen Verzerrungsfrequenzfunktion erheblich reduziert wird (siehe Ausführungsbeispiel).The Distortion frequency function, for example, as a linear distortion frequency function with a parameter is executed be. This has the advantage that the computational complexity for voice conversion significantly reduced with the linear distortion frequency function is (see embodiment).

Nach weiteren vorteilhaften Ausführungsvarianten der vorliegenden Erfindung wird die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfunktion mit einem Parameter oder als nichtlineare Verzerrungsfunktion mit einem Parameter ausgeführt. Außerdem ist die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfunktion mit mehreren Parametern oder als nichtlineare Verzerrungsfunktion mit mehreren Parametern ausführbar. Die Flexibilität bei der Auswahl einer geeigneten Verzerrungsfunktion zur Stimmenkonversion hat die vorteilhafte Wirkung, dass je nach qualitativer Anforderung die Stimmenkonversion durch eine daran angepasste Verzerrungsfunktion erfolgen kann.To further advantageous embodiments The present invention uses the distortion frequency function as piecewise, linear distortion function with one parameter or as non-linear Distortion function performed with a parameter. In addition, the distortion frequency function is as piecewise, linear distortion function with multiple parameters or as non-linear Distortion function with several parameters executable. The flexibility in the Selection of a suitable distortion function for voice conversion has the beneficial effect that depending on the quality requirement the voice conversion through a customized distortion function can be done.

Gemäß einer weiteren Ausbildung der vorliegenden Erfindung werden durch die Faltung der Segmente mit der Verzerrungszeitfunktion entstandene Werte, welche außerhalb eines darstellbaren Wertebereichs liegen, interpoliert. Hierzu kann beispielsweise eine Spline-Interpolation oder eine lineare Interpolation eingesetzt werden.According to one further embodiment of the present invention are characterized by the Convolution of the segments with the distortion time function resulting values, which outside a displayable value range, interpolated. For this purpose can For example, a spline interpolation or a linear interpolation be used.

Gemäß einer weiteren Ausbildungsform der vorliegenden Erfindung wird das Zusammensetzen der gefalteten Segmente mit einem TD-PSOLA Algorithmus ausgeführt. Dieser Algorithmus ermöglicht eine weitgehend artefakt- und verzerrungsfreie Verkettung von Segmenten, wobei gleichzeitig die Tonhöhe und Sprechgeschwindigkeit manipulierbar ist. Dieses Verfahren wurde 1988 bzw. 1989 unter verschiedenen Namen durch die France Telecom angemeldet und später patentiert ( EP 0 363 233 B1 bzw. US 005327498 A ).According to another embodiment of the present invention, the assembly of the folded segments is performed with a TD-PSOLA algorithm. This algorithm allows a largely artifact and distortion-free chaining of segments, while the pitch and speech rate can be manipulated. This process was filed in 1988 and 1989 under different names by France Telecom and later patented ( EP 0 363 233 B1 respectively. US 005327498 A ).

In vorteilhafter Weise sind die Segmente des ersten Sprachzeitsignals durch Multiplikation mit einem vorgebbaren Verzerrungsfaktor im Zeit- und/oder Amplitudenbereich stauchbar bzw. streckbar. Somit wird eine erhebliche Reduzierung der benötigten Speicher- und Rechenkapazitäten erreicht.In Advantageously, the segments of the first speech time signal by multiplication with a predeterminable distortion factor in Time and / or amplitude range compressible or stretchable. Consequently a significant reduction of the required storage and computing capacity is achieved.

Die vorliegende Erfindung wird nachfolgend an einem Ausführungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigtThe The present invention will become more apparent from an embodiment closer to the drawings explained. It shows

1 ein Diagramm mit zwei Beispielen einer Verzerrungsfunktion, 1 a diagram with two examples of a distortion function,

2 ein Beispiel eines Quellspektrums, das mit Hilfe einer Verzerrungsfunktion in ein Zielspektrum transformiert wird. 2 an example of a source spectrum that is transformed into a target spectrum using a distortion function.

In 1 sind zwei Beispiele einer Verzerrungsfrequenzfunktion abgebildet. Auf der Abszissenachse sind die Frequenzen des Quellspektrums und auf der Ordinatenachse die Frequenzen des Zielspektrums aufgelistet. Die durchgezogene Linie zeigt eine stückweise, lineare Verzerrungsfrequenzfunktion 101 mit mehreren Parametern. Die gestrichelte Linie stellt eine lineare Verzerrungsfrequenzfunktion 102 mit einem Parameter dar.In 1 Two examples of a distortion frequency function are shown. The abscissa axis lists the frequencies of the source spectrum and the ordinate axis lists the frequencies of the target spectrum. The solid line shows a piecewise, linear distortion frequency function 101 with several parameters. The dashed line represents a linear distortion frequency function 102 with a parameter.

2 zeigt, wie im Frequenzbereich ein Quellspektrum 201 (dargestellt im rechten unteren Quadranten) mit Hilfe einer Verzerrungsfrequenzfunktion 202 in ein Zielspektrum 203 (dargestellt im linken oberen Quadranten) transformiert wird. Die Frequenzachse des Zielspektrums wird dabei in diesem Beispiel gestaucht bzw. gestreckt. 2 shows how in the frequency domain a source spectrum 201 (shown in the lower right quadrant) using a distortion frequency function 202 into a target spectrum 203 (shown in the upper left quadrant) is transformed. The frequency axis of the target spectrum is compressed or stretched in this example.

Gemäß der vorliegenden Erfindung wird in diesem Ausführungsbeispiel in einem ersten Schritt ein erstes digitales Sprach zeitsignal mit Hilfe eines Pitch-Tracking Algorithmus in zeitlich aufeinander folgende quasi-periodische Segmente aufgeteilt. Die quasi-periodischen Segmente entsprechen weitestgehend den Phonemen des ersten Sprachzeitsignals.According to the present Invention is in this embodiment in a first step, a first digital voice time signal Help of a pitch tracking algorithm in temporal succession divided into quasi-periodic segments. The quasi-periodic segments largely correspond to the phoneme of the first speech time signal.

In einem zweiten Schritt werden die quasi-periodischen Segmente mit einer Verzerrungszeitfunktion gefaltet. Entsprechend der vorliegenden Erfindung soll die Manipulation des ersten Sprachzeitsignals durch die Verzerrungszeitfunktion im Zeitbereich stattfinden. Eine Multiplikation eines quasi-periodischen Segments eines Sprachfrequenzsignals mit einer Verzerrungsfrequenzfunktion im Frequenzbereich (2) entspricht im Zeitbereich einer Faltung eines quasi-periodischen Segments eines Sprachzeitsignals mit einer Verzerrungszeitfunktion. In dem vorliegenden Ausführungsbeispiel soll als Verzerrungsfrequenzfunktion eine im Frequenzbereich lineare Verzerrungsfrequenzfunktion mit einem Parameter angewandt werden. Eine solche Verzerrungsfrequenzfunktion wird durch ihren einen Parameter vollständig bestimmt, der durch einen Anwender frei vorgebbar sein soll. Transformiert man diese Verzerrungsfrequenzfunktion in den Zeitbereich und faltet sie mit den quasi-periodischen Segmenten des ersten Sprachzeitsignals, erhält man die quasi-periodischen Segmente des resultierenden zweiten Sprachzeitsignals. Für diese einfache Verzerrungsfunktion lassen sich die quasi-periodischen Segmente des resultierenden zweiten Sprachzeitsignals auch direkt aus einer Multiplikation eines Verzerrungsfaktors mit den Amplituden- und Zeitwerten der quasi-periodischen Segmente des ersten Sprachzeitsignals ermitteln. Der Verzerrungsfaktor ergibt sich aus einer Transformation der linearen Verzerrungsfrequenzfunktion in den Zeitbereich und entspricht hier dem einen Parameter der Verzerrungsfrequenzfunktion. Die Ergebnisse der Multiplikation, die außerhalb eines darstellbaren Werte-/Definitionsbereichs des digitalen Sprachzeitsignals liegen, werden mit einer Spline-Interpolation ermittelt. Durch die lineare Verzerrungsfunktion mit einem Parameter kann das erste Sprachzeitsignal also im Amplituden- und Zeit bereich skaliert werden. Die geringe Rechenkomplexität gewährleistet eine hohe Reduktion des Speicherbedarfs und der Rechenzeit.In a second step, the quasi-periodic segments are convolved with a distortion time function. According to the present invention, the manipulation of the first speech time signal should take place by the distortion time function in the time domain. Multiplication of a quasi-periodic segment of a speech frequency signal with a distortion frequency function in the frequency domain ( 2 ) corresponds in the time domain to a convolution of a quasi-periodic segment of a speech time signal with a distortion time function. In the present embodiment is intended as a distortion frequency function in the frequency range line are distortion frequency function with a parameter applied. Such a distortion frequency function is completely determined by its one parameter, which should be freely definable by a user. By transforming this distortion frequency function into the time domain and convolving it with the quasi-periodic segments of the first speech time signal, one obtains the quasi-periodic segments of the resulting second speech time signal. For this simple distortion function, the quasi-periodic segments of the resulting second speech time signal can also be determined directly from a multiplication of a distortion factor with the amplitude and time values of the quasi-periodic segments of the first speech time signal. The distortion factor results from a transformation of the linear distortion frequency function into the time domain and here corresponds to the one parameter of the distortion frequency function. The results of the multiplication, which lie outside a displayable value / definition range of the digital speech time signal, are determined with a spline interpolation. Due to the linear distortion function with one parameter, the first speech time signal can thus be scaled in the amplitude and time domain. The low computational complexity ensures a high reduction of the memory requirement and the computing time.

In einem dritten Schritt werden die neu ermittelten quasi-periodischen Segmente mit dem TD-PSOLA Algorithmus zusammengesetzt. Dieser basiert im Wesentlichen auf einem Overlap-and-Add Verfahren im Zeitbereich, wobei man beispielsweise die quasi-periodischen Segmente zeitversetzt zusammensetzt und die überlappenden Abtastwerte addiert.In a third step is the newly determined quasi-periodic Segments composed with the TD-PSOLA algorithm. This is based essentially on an overlap-and-add method in the time domain, wherein For example, the time-displaced quasi-periodic segments composed and the overlapping Added samples.

Claims (19)

Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem bei dem – ein erstes Sprachzeitsignal in zeitlich aufeinander folgende Segmente aufgeteilt wird, – die Segmente mit einer Verzerrungszeitfunktion gefaltet werden, – ein zweites Sprachzeitsignal durch Zusammensetzen der gefalteten Segmente erzeugt wird.Method for voice conversion for a speech synthesis system in which - one first speech time signal in temporally successive segments is split, - the Segments are folded with a distortion time function, - a second Speech time signal generated by assembling the folded segments becomes. Verfahren nach Anspruch 1, wobei das erste und/oder das zweite Sprachzeitsignal als analoge Sprachzeitsignale ausgeführt sind.The method of claim 1, wherein the first and / or the second voice time signal are implemented as analog voice time signals. Verfahren nach Anspruch 1, wobei das erste und/oder das zweite Sprachzeitsignal als digitale Sprachzeitsignale ausgeführt sind.The method of claim 1, wherein the first and / or the second voice time signal are implemented as digital voice time signals. Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei das erste Sprachzeitsignal in quasiperiodische Segmente aufgeteilt wird.Method according to at least one of claims 1 to 3, wherein the first speech time signal in quasi-periodic segments is split. Verfahren nach Anspruch 4, wobei die quasiperiodischen Segmente mit Hilfe eines Pitch-Tracking Algorithmus ermittelt werden.The method of claim 4, wherein the quasiperiodic Segments can be determined using a pitch tracking algorithm. Verfahren nach mindestens einem der Ansprüche 1 bis 5, wobei mindestens ein Parameter der Verzerrungszeitfunktion vorgebbar ist.Method according to at least one of claims 1 to 5, wherein at least one parameter of the distortion time function can be predetermined is. Verfahren nach mindestens einem der Ansprüche 1 bis 6, wobei die Verzerrungszeitfunktion durch Transformation einer Verzerrungsfrequenzfunktion in den Zeitbereich ermittelt wird.Method according to at least one of claims 1 to 6, wherein the distortion time function by transformation of a Distortion frequency function is determined in the time domain. Verfahren nach Anspruch 7, wobei mindestens ein Parameter der Verzerrungsfrequenzfunktion im Frequenzbereich durch Minimierung des euklidischen Abstandes zwischen einem Sprachfrequenzsignal eines Zielsprechers und einem mit dem mindestens einen Parameter der Verzerrungsfrequenzfunktion transformierten Sprachfrequenzsignal eines Quellsprechers ermittelt wird.The method of claim 7, wherein at least one parameter the distortion frequency function in the frequency domain by minimizing the Euclidean distance between a speech frequency signal of a Zielsprechers and one with the at least one parameter of the distortion frequency function transformed speech frequency signal of a source speaker determined becomes. Verfahren nach Anspruch 7, wobei mindestens ein Parameter der Verzerrungsfrequenzfunktion vorgebbar ist.The method of claim 7, wherein at least one parameter the distortion frequency function can be specified. Verfahren nach Anspruch 7, wobei die Verzerrungsfrequenzfunktion als lineare Verzerrungsfrequenzfunktion mit einem Parameter ausgeführt ist.The method of claim 7, wherein the distortion frequency function is performed as a linear distortion frequency function with a parameter. Verfahren nach Anspruch 7, wobei die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfrequenzfunktion mit einem Parameter ausgeführt ist.The method of claim 7, wherein the distortion frequency function as piecewise, linear distortion frequency function is performed with a parameter. Verfahren nach Anspruch 7, wobei die Verzerrungsfrequenzfunktion als nichtlineare Verzerrungsfrequenzfunktion mit einem Parameter ausgeführt ist.The method of claim 7, wherein the distortion frequency function as a non-linear distortion frequency function with one parameter accomplished is. Verfahren nach Anspruch 7, wobei die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfrequenzfunktion mit mehreren Parametern ausgeführt ist.The method of claim 7, wherein the distortion frequency function as piecewise, Linear distortion frequency function is performed with multiple parameters. Verfahren nach Anspruch 7, wobei die Verzerrungsfrequenzfunktion als nichtlineare Verzerrungsfrequenzfunktion mit mehreren Parametern ausgeführt ist.The method of claim 7, wherein the distortion frequency function is performed as a nonlinear distortion frequency function with multiple parameters. Verfahren nach mindestens einem der Ansprüche 1 bis 14, wobei durch die Faltung der Segmente mit der Verzerrungszeitfunktion entstandene Werte, welche außerhalb eines darstellbaren Wertebereichs liegen, interpoliert werden.Method according to at least one of claims 1 to 14, wherein the folding of the segments with the distortion time function resulting values, which outside a displayable range of values are interpolated. Verfahren nach Anspruch 15, wobei für die Interpolation eine Spline-Interpolation eingesetzt wird.The method of claim 15, wherein for the interpolation a spline interpolation is used. Verfahren nach Anspruch 15, wobei für die Interpolation eine lineare Interpolation eingesetzt wird.The method of claim 15, wherein for the In a linear interpolation is used. Verfahren nach mindestens einem der Ansprüche 1 bis 17, wobei das Zusammensetzen der gefalteten Segmente mit einem TD-PSOLA Algorithmus ausgeführt wird.Method according to at least one of claims 1 to 17, wherein assembling the folded segments with a TD-PSOLA Algorithm executed becomes. Verfahren nach mindestens einem der Ansprüche 1 bis 18, wobei die Segmente des ersten Sprachzeitsignals durch Multiplikation mit einem vorgebbaren Faktor im Zeit- und/oder Amplitudenbereich gestaucht bzw. gestreckt werden.Method according to at least one of claims 1 to 18, wherein the segments of the first speech time signal by multiplication with a predeterminable factor in the time and / or amplitude range be compressed or stretched.
DE200410048707 2004-10-06 2004-10-06 Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal Expired - Fee Related DE102004048707B3 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE200410048707 DE102004048707B3 (en) 2004-10-06 2004-10-06 Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal
CH12872005A CH698155B1 (en) 2004-10-06 2005-08-04 A process for converting voices for a speech synthesis system.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410048707 DE102004048707B3 (en) 2004-10-06 2004-10-06 Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal

Publications (1)

Publication Number Publication Date
DE102004048707B3 true DE102004048707B3 (en) 2005-12-29

Family

ID=35455243

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200410048707 Expired - Fee Related DE102004048707B3 (en) 2004-10-06 2004-10-06 Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal

Country Status (2)

Country Link
CH (1) CH698155B1 (en)
DE (1) DE102004048707B3 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327521A (en) * 1992-03-02 1994-07-05 The Walt Disney Company Speech transformation system
US6463412B1 (en) * 1999-12-16 2002-10-08 International Business Machines Corporation High performance voice transformation apparatus and method
US6615174B1 (en) * 1997-01-27 2003-09-02 Microsoft Corporation Voice conversion system and methodology
DE69811656T2 (en) * 1997-04-28 2003-10-16 Ivl Technologies Ltd VOICE TRANSFER AFTER A TARGET VOICE

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327521A (en) * 1992-03-02 1994-07-05 The Walt Disney Company Speech transformation system
US6615174B1 (en) * 1997-01-27 2003-09-02 Microsoft Corporation Voice conversion system and methodology
DE69811656T2 (en) * 1997-04-28 2003-10-16 Ivl Technologies Ltd VOICE TRANSFER AFTER A TARGET VOICE
US6463412B1 (en) * 1999-12-16 2002-10-08 International Business Machines Corporation High performance voice transformation apparatus and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. Sündermann, H. Ney und H. Höge: "VTLN-Based Cross-Language Voice Conversion", in Proc. of the ASRU'03, St. Thomas, USA, 2003 *
E. Eide und H. Gish: "A Parametric Approach to Vocal Tract Length Normalization", in Proc. of the ICASSP '96, Atlanta, USA, 1996 *

Also Published As

Publication number Publication date
CH698155B1 (en) 2009-05-29

Similar Documents

Publication Publication Date Title
DE102006047197B3 (en) Device for processing realistic sub-band signal of multiple realistic sub-band signals, has weigher for weighing sub-band signal with weighing factor that is specified for sub-band signal around subband-signal to hold weight
EP1388147B1 (en) Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance
EP0624866A2 (en) Method for frequency analysis
DE102006020832A1 (en) Method for suppressing feedback and spectral expansion in hearing aids
DE19720651C2 (en) Hearing aid with various assemblies for recording, processing and adapting a sound signal to the hearing ability of a hearing impaired person
DE602005005396T2 (en) Filter for eliminating the overshoots
EP1023777B1 (en) Method and device for limiting a stream of audio data with a scaleable bit rate
DE2805478A1 (en) DISCRIMINATOR ARRANGEMENT FOR VOICE SIGNALS
DE102004048707B3 (en) Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal
EP0865026A2 (en) Method for modifying speech speed
DE60305944T2 (en) METHOD FOR SYNTHESIS OF A STATIONARY SOUND SIGNAL
DE2649540A1 (en) Speech synthesis system using time quantised signals - has discrete sets of amplitudes and phases Fourier transform processed
AT408286B (en) METHOD FOR SUPPRESSING NOISE IN A SIGNAL FIELD
DE10150519B4 (en) Method and arrangement for speech processing
DE2854601A1 (en) CLAY SYNTHESIZER AND METHOD FOR CLAY PROCESSING
EP1130577B1 (en) Method for the reconstruction of low speech frequencies from mid-range frequencies
EP1344211A1 (en) Device and method for differentiated speech output
DE10352537A1 (en) Method and filter bank for the spectral modification of a digital signal
EP0689191B1 (en) Speech processing apparatus and mobile transceiver
EP1142450B1 (en) Method and device for adaptively modifying the characteristics of one-dimensional signals
EP3373601A1 (en) Method for frequency distortion of an audio signal and a hearing aid carrying out this method
DE4425767C2 (en) Process for the reproduction of signals with changed speed
EP1561205A1 (en) Method for enlarging the bandwidth of a narrow-band filtered speech signal
DE10139309A1 (en) Noise interference suppression method in hearing aid, involves performing non-linear modification of instant amplitude signal to obtain modified signal for linking with instant phase signal to output voice signal
DE102009018470A1 (en) Method for processing acoustic speech signals in hearing aid technology, involves performing phonetic-class-specific processing of speech signal, and temporally extending weak articulated tones

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee