DE102004048707B3

DE102004048707B3 - Voice conversion method for a speech synthesis system comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal

Info

Publication number: DE102004048707B3
Application number: DE200410048707
Authority: DE
Inventors: David Sündermann
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-10-06
Filing date: 2004-10-06
Publication date: 2005-12-29
Anticipated expiration: 2024-10-07
Also published as: CH698155B1

Abstract

Voice conversion method comprises dividing a first speech time signal into temporary subsequent segments, folding the segments with a distortion time function and producing a second speech time signal by placing the folded segments together. Preferred Features: The first and/or second speech time signal are analogue or digital time signals. The first speech time signal is divided into quasi-periodic segments which are determined using a pitch tracking algorithm.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem.The The present invention relates to a voice conversion method for a Speech synthesis system.

Als Stimmenkonversion bezeichnet man die Manipulation einer Stimme, so dass entweder eine bestimmte andere Stimme daraus entsteht oder die Eigenschaften der Stimme gezielt geändert werden. In der Sprachsynthese ist diese Technik von Interesse, um gezielt die Stimmcharakteristik eines gewünschten Sprechers zu imitieren. Die Stimmenkonversion kann auch eine interessante Funktion eines Mobilfunktelefons darstellen, mit dem man eine Stimme derart verändern kann, dass beispielsweise eine männliche Stimme wie eine weibliche Stimme klingt oder eine Stimme jünger oder erwachsener wirkt.When Voice conversion is the manipulation of a voice, so that either a certain other voice arises from it or the properties of the voice can be changed in a targeted manner. In speech synthesis This technique is of interest to target the tuning characteristics a desired one To imitate the speaker. The voice conversion can also be an interesting one Represent the function of a mobile phone with which you have a voice change that way can be that, for example, a male Voice like a female voice sounds or a voice younger or looks adult.

Aus der Spracherkennung ist das Verfahren der Vocal Tract Lenght Normalization (VTLN) bekannt, welches in E. Eide und H. Gish, "A Parametric Approach to Vocal Tract Length Normalization", in Proc. of the ICASSP'96, Atlanta, USA, 1996 beschrieben ist. Hierbei wird durch eine Normalisierung der individuellen Stimmcharakteristik eine Angleichung von unterschiedlichen sprecherabhängigen Sprachsignalen erreicht, um die Spracherkennungsleistung zu verbessern. Das gleiche Verfahren wurde für die Stimmenkonversion umgesetzt und in D. Sündermann, H. Ney und H. Höge, "VTLN-Based Cross-Language Voice Conversion", in Proc. of the ASRU'03, St. Thomas, USA, 2003 beschrieben. Dabei kann eine Standardsynthesestimme in unterschiedliche Synthesestimmen transformiert werden. Hierzu wird das digitale Sprachzeitsignal einer Äußerung eines Quellsprechers mittels eines Pitch-Tracking Algorithmus in quasi-periodische Segmente unterteilt, die nun als Grundlage für die weitere Signalverarbeitung dienen. Mittels der diskreten Fourier-Transformation (DFT) wird das komplexwertige Spektrum jedes quasi-periodischen Segments berechnet. Durch Multiplikation mit einer Verzerrungsfunktion wird das Spektrum unter Verwendung der Spline-Interpolation in der gewünschten Weise verzerrt. Das resultierende Spektrum wird mit Hilfe der inversen diskreten Fourier-Transformation (IDFT) in den Zeitbereich transformiert. Das verzerrte Sprachzeitsignal wird dann durch Verkettung der transformierten quasi-periodischen Segmente erhalten.Out Speech recognition is the process of Vocal Tract Lenght Normalization (VTLN), which is described in E. Eide and H. Gish, "A Parametric Approach to Vocal Tract Length Normalization ", in proc. of the ICASSP'96, Atlanta, USA, 1996. This is done by normalizing the individual voice characteristics an approximation of different ones speaker-dependent speech signals achieved to improve the speech recognition performance. The same Procedure was for converted the voice conversion and in D. Sündermann, H. Ney and H. Höge, "VTLN-Based Cross-Language Voice Conversion ", in proc. of the ASRU'03, St. Thomas, USA, 2003. This can be a standard synthesis voice be transformed into different synthesis votes. For this becomes the digital voice time signal of an utterance of a source speaker divided into quasi-periodic segments by means of a pitch-tracking algorithm, which is now the basis for serve the further signal processing. By means of the discrete Fourier transformation (DFT) becomes the complex valued spectrum of each quasi-periodic Segments calculated. By multiplication with a distortion function is the spectrum using the spline interpolation in the desired Way distorted. The resulting spectrum is using the inverse discrete Fourier transform (IDFT) transformed into the time domain. The distorted speech time signal is then concatenated by the transformed obtained quasi-periodic segments.

Im Gegensatz zu Spracherkennungssystemen arbeiten konkatenative (verkettende) Sprachsynthesesysteme üblicherweise im Zeitbereich. Die Anwendung des oben beschriebenen Verfahrens zur Stimmenkonversion in einem Sprachsynthesesystem erfordert daher zusätzliche Hin- und Rücktransformationsoperationen in den Frequenzbereich. Dies erschwert einen breiten Einsatz dieses Verfahrens zur Stimmenkonversion in Sprachsynthesesystemen im Bereich integrierter Technologien, da hierbei jede vermeidbare zusätzliche Operation aufgrund der limitierten Prozessorressourcen vermieden werden muss.in the Unlike speech recognition systems, concatenative (concatenating) work Speech synthesis systems usually in the time domain. The application of the method described above for voice conversion in a speech synthesis system therefore requires additional Back and forth transformation operations in the frequency domain. This makes a wide use of this difficult Method for voice conversion in speech synthesis systems in the field integrated technologies, as any avoidable additional Operation avoided due to limited processor resources must become.

Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren zur Stimmenkonversion anzugeben, mit dem der erforderliche Speicherplatz und die benötigte Rechenleistung verringert werden.task The present invention is therefore a method for voice conversion specify the space required and the required processing power be reduced.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den in Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention this Task by a method having the features specified in claim 1 solved. Advantageous developments of the present invention are in the dependent claims specified.

Gemäß der vorliegenden Erfindung wird in einem Verfahren zur Stimmenkonversion für ein Sprachsynthesesystem ein erstes Sprachzeitsignal in zeitlich aufeinander folgende Segmente aufgeteilt. Die Segmente werden mit einer Verzerrungszeitfunktion gefaltet. Durch Zusammensetzen der gefalteten Segmente wird ein zweites Sprachzeitsignal erzeugt. Durch die Manipulation der Segmente zur Stimmenkonversion im Zeitbereich, entfallen die Hin- und Rücktransformationen in den Frequenzbereich. Dadurch kann die Rechenkomplexität und der benötigte Speicherplatz erheblich reduziert werden, wodurch eine schnellere Verarbeitung ermöglicht wird.According to the present The invention is in a method for voice conversion for a speech synthesis system a first speech time signal in temporally successive segments divided up. The segments are provided with a distortion time function folded. By assembling the folded segments becomes one second speech time signal generated. By manipulating the segments for voice conversion in the time domain, eliminates the back and forth transformations in the frequency domain. As a result, the computational complexity and the needed storage space be significantly reduced, resulting in faster processing allows becomes.

Erstes und/oder zweites Sprachzeitsignal können dabei als analoge und/oder digitale Sprachzeitsignale ausgeführt sein.first and / or second voice time signal can be used as analog and / or be carried out digital voice time signals.

Gemäß einer vorteilhaften Ausführungsvariante der vorliegenden Erfindung wird das erste Sprachzeitsignal in quasiperiodische Segmente aufgeteilt. Die quasiperiodischen Segmente können beispielsweise mit Hilfe eines Pitch-Tracking Algorithmus ermittelt werden. Dieser ermittelt periodische Strukturen innerhalb eines Sprachzeitsignals mit einer speziellen Autokorrelationsfunktion.According to one advantageous embodiment According to the present invention, the first speech time signal is in quasi-periodic Segments split. The quasi-periodic segments may be, for example be determined using a pitch tracking algorithm. This determines periodic structures within a speech time signal with a special autocorrelation function.

Nach einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung ist mindestens ein Parameter der Verzerrungszeitfunktion vorgebbar. Dadurch wird auf schnelle und effiziente Weise eine Verfremdung der Stimme ermöglicht.To a further advantageous embodiment of the present invention At least one parameter of the distortion time function can be specified. Thereby becomes an alienation of the voice in a fast and efficient way allows.

Entsprechend einer weiteren vorteilhaften Weiterbildung der vorliegenden Erfindung wird die Verzerrungszeitfunktion durch Transformation einer Verzerrungsfrequenzfunktion in den Zeitbereich ermittelt. Hierdurch ist es möglich, die Stimme gemäß einer gewünschten Frequenzcharakteristik gezielt zu verändern. Die Ermittlung der Verzerrungszeitfunktion nach dieser Methode kann dabei vorab oder während der Ausführung des erfindungsgemäßen Verfahrens erfolgen.According to a further advantageous development of the present invention, the distortion time function is determined by transformation of a distortion frequency function into the time domain. This makes it possible to selectively change the voice according to a desired frequency characteristic. The determination of the distortion time function on by this method can be carried out in advance or during the execution of the method according to the invention.

Entsprechend einer weiteren vorteilhaften Ausgestaltung der vorliegenden Erfindung wird mindestens ein Parameter der Verzerrungsfrequenzfunktion durch Minimierung des euklidischen Abstandes zwischen einem Sprachfrequenzsignal eines Zielsprechers und einem mit dem mindestens einen Parameter der Verzerrungsfrequenzfunktion transformierten Sprachfrequenzsignal eines Quellsprechers ermittelt. Durch die so ermittelte Ver zerrungsfrequenzfunktion kann die Stimme eines Quellsprechers an die Stimme eines Zielsprechers adaptiert werden.Corresponding a further advantageous embodiment of the present invention At least one parameter of the distortion frequency function is passed through Minimizing the Euclidean distance between a speech frequency signal a target speaker and one with the at least one parameter the distortion frequency function transformed voice frequency signal a source speaker determined. By thus determined Ver distortion frequency function The voice of a source speaker may be the voice of a target speaker be adapted.

Die Verzerrungsfrequenzfunktion kann beispielsweise als lineare Verzerrungsfrequenzfunktion mit einem Parameter ausgeführt sein. Dies hat den Vorteil, dass die Rechenkomplexität für die Stimmenkonversion mit der linearen Verzerrungsfrequenzfunktion erheblich reduziert wird (siehe Ausführungsbeispiel).The Distortion frequency function, for example, as a linear distortion frequency function with a parameter is executed be. This has the advantage that the computational complexity for voice conversion significantly reduced with the linear distortion frequency function is (see embodiment).

Nach weiteren vorteilhaften Ausführungsvarianten der vorliegenden Erfindung wird die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfunktion mit einem Parameter oder als nichtlineare Verzerrungsfunktion mit einem Parameter ausgeführt. Außerdem ist die Verzerrungsfrequenzfunktion als stückweise, lineare Verzerrungsfunktion mit mehreren Parametern oder als nichtlineare Verzerrungsfunktion mit mehreren Parametern ausführbar. Die Flexibilität bei der Auswahl einer geeigneten Verzerrungsfunktion zur Stimmenkonversion hat die vorteilhafte Wirkung, dass je nach qualitativer Anforderung die Stimmenkonversion durch eine daran angepasste Verzerrungsfunktion erfolgen kann.To further advantageous embodiments The present invention uses the distortion frequency function as piecewise, linear distortion function with one parameter or as non-linear Distortion function performed with a parameter. In addition, the distortion frequency function is as piecewise, linear distortion function with multiple parameters or as non-linear Distortion function with several parameters executable. The flexibility in the Selection of a suitable distortion function for voice conversion has the beneficial effect that depending on the quality requirement the voice conversion through a customized distortion function can be done.

Gemäß einer weiteren Ausbildung der vorliegenden Erfindung werden durch die Faltung der Segmente mit der Verzerrungszeitfunktion entstandene Werte, welche außerhalb eines darstellbaren Wertebereichs liegen, interpoliert. Hierzu kann beispielsweise eine Spline-Interpolation oder eine lineare Interpolation eingesetzt werden.According to one further embodiment of the present invention are characterized by the Convolution of the segments with the distortion time function resulting values, which outside a displayable value range, interpolated. For this purpose can For example, a spline interpolation or a linear interpolation be used.

Gemäß einer weiteren Ausbildungsform der vorliegenden Erfindung wird das Zusammensetzen der gefalteten Segmente mit einem TD-PSOLA Algorithmus ausgeführt. Dieser Algorithmus ermöglicht eine weitgehend artefakt- und verzerrungsfreie Verkettung von Segmenten, wobei gleichzeitig die Tonhöhe und Sprechgeschwindigkeit manipulierbar ist. Dieses Verfahren wurde 1988 bzw. 1989 unter verschiedenen Namen durch die France Telecom angemeldet und später patentiert ( EP 0 363 233 B1 bzw. US 005327498 A ).According to another embodiment of the present invention, the assembly of the folded segments is performed with a TD-PSOLA algorithm. This algorithm allows a largely artifact and distortion-free chaining of segments, while the pitch and speech rate can be manipulated. This process was filed in 1988 and 1989 under different names by France Telecom and later patented ( EP 0 363 233 B1 respectively. US 005327498 A ).

In vorteilhafter Weise sind die Segmente des ersten Sprachzeitsignals durch Multiplikation mit einem vorgebbaren Verzerrungsfaktor im Zeit- und/oder Amplitudenbereich stauchbar bzw. streckbar. Somit wird eine erhebliche Reduzierung der benötigten Speicher- und Rechenkapazitäten erreicht.In Advantageously, the segments of the first speech time signal by multiplication with a predeterminable distortion factor in Time and / or amplitude range compressible or stretchable. Consequently a significant reduction of the required storage and computing capacity is achieved.

Die vorliegende Erfindung wird nachfolgend an einem Ausführungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigtThe The present invention will become more apparent from an embodiment closer to the drawings explained. It shows

1 ein Diagramm mit zwei Beispielen einer Verzerrungsfunktion, 1 a diagram with two examples of a distortion function,

2 ein Beispiel eines Quellspektrums, das mit Hilfe einer Verzerrungsfunktion in ein Zielspektrum transformiert wird. 2 an example of a source spectrum that is transformed into a target spectrum using a distortion function.

In 1 sind zwei Beispiele einer Verzerrungsfrequenzfunktion abgebildet. Auf der Abszissenachse sind die Frequenzen des Quellspektrums und auf der Ordinatenachse die Frequenzen des Zielspektrums aufgelistet. Die durchgezogene Linie zeigt eine stückweise, lineare Verzerrungsfrequenzfunktion 101 mit mehreren Parametern. Die gestrichelte Linie stellt eine lineare Verzerrungsfrequenzfunktion 102 mit einem Parameter dar.In 1 Two examples of a distortion frequency function are shown. The abscissa axis lists the frequencies of the source spectrum and the ordinate axis lists the frequencies of the target spectrum. The solid line shows a piecewise, linear distortion frequency function 101 with several parameters. The dashed line represents a linear distortion frequency function 102 with a parameter.

2 zeigt, wie im Frequenzbereich ein Quellspektrum 201 (dargestellt im rechten unteren Quadranten) mit Hilfe einer Verzerrungsfrequenzfunktion 202 in ein Zielspektrum 203 (dargestellt im linken oberen Quadranten) transformiert wird. Die Frequenzachse des Zielspektrums wird dabei in diesem Beispiel gestaucht bzw. gestreckt. 2 shows how in the frequency domain a source spectrum 201 (shown in the lower right quadrant) using a distortion frequency function 202 into a target spectrum 203 (shown in the upper left quadrant) is transformed. The frequency axis of the target spectrum is compressed or stretched in this example.

Gemäß der vorliegenden Erfindung wird in diesem Ausführungsbeispiel in einem ersten Schritt ein erstes digitales Sprach zeitsignal mit Hilfe eines Pitch-Tracking Algorithmus in zeitlich aufeinander folgende quasi-periodische Segmente aufgeteilt. Die quasi-periodischen Segmente entsprechen weitestgehend den Phonemen des ersten Sprachzeitsignals.According to the present Invention is in this embodiment in a first step, a first digital voice time signal Help of a pitch tracking algorithm in temporal succession divided into quasi-periodic segments. The quasi-periodic segments largely correspond to the phoneme of the first speech time signal.

In einem zweiten Schritt werden die quasi-periodischen Segmente mit einer Verzerrungszeitfunktion gefaltet. Entsprechend der vorliegenden Erfindung soll die Manipulation des ersten Sprachzeitsignals durch die Verzerrungszeitfunktion im Zeitbereich stattfinden. Eine Multiplikation eines quasi-periodischen Segments eines Sprachfrequenzsignals mit einer Verzerrungsfrequenzfunktion im Frequenzbereich (2) entspricht im Zeitbereich einer Faltung eines quasi-periodischen Segments eines Sprachzeitsignals mit einer Verzerrungszeitfunktion. In dem vorliegenden Ausführungsbeispiel soll als Verzerrungsfrequenzfunktion eine im Frequenzbereich lineare Verzerrungsfrequenzfunktion mit einem Parameter angewandt werden. Eine solche Verzerrungsfrequenzfunktion wird durch ihren einen Parameter vollständig bestimmt, der durch einen Anwender frei vorgebbar sein soll. Transformiert man diese Verzerrungsfrequenzfunktion in den Zeitbereich und faltet sie mit den quasi-periodischen Segmenten des ersten Sprachzeitsignals, erhält man die quasi-periodischen Segmente des resultierenden zweiten Sprachzeitsignals. Für diese einfache Verzerrungsfunktion lassen sich die quasi-periodischen Segmente des resultierenden zweiten Sprachzeitsignals auch direkt aus einer Multiplikation eines Verzerrungsfaktors mit den Amplituden- und Zeitwerten der quasi-periodischen Segmente des ersten Sprachzeitsignals ermitteln. Der Verzerrungsfaktor ergibt sich aus einer Transformation der linearen Verzerrungsfrequenzfunktion in den Zeitbereich und entspricht hier dem einen Parameter der Verzerrungsfrequenzfunktion. Die Ergebnisse der Multiplikation, die außerhalb eines darstellbaren Werte-/Definitionsbereichs des digitalen Sprachzeitsignals liegen, werden mit einer Spline-Interpolation ermittelt. Durch die lineare Verzerrungsfunktion mit einem Parameter kann das erste Sprachzeitsignal also im Amplituden- und Zeit bereich skaliert werden. Die geringe Rechenkomplexität gewährleistet eine hohe Reduktion des Speicherbedarfs und der Rechenzeit.In a second step, the quasi-periodic segments are convolved with a distortion time function. According to the present invention, the manipulation of the first speech time signal should take place by the distortion time function in the time domain. Multiplication of a quasi-periodic segment of a speech frequency signal with a distortion frequency function in the frequency domain ( 2 ) corresponds in the time domain to a convolution of a quasi-periodic segment of a speech time signal with a distortion time function. In the present embodiment is intended as a distortion frequency function in the frequency range line are distortion frequency function with a parameter applied. Such a distortion frequency function is completely determined by its one parameter, which should be freely definable by a user. By transforming this distortion frequency function into the time domain and convolving it with the quasi-periodic segments of the first speech time signal, one obtains the quasi-periodic segments of the resulting second speech time signal. For this simple distortion function, the quasi-periodic segments of the resulting second speech time signal can also be determined directly from a multiplication of a distortion factor with the amplitude and time values of the quasi-periodic segments of the first speech time signal. The distortion factor results from a transformation of the linear distortion frequency function into the time domain and here corresponds to the one parameter of the distortion frequency function. The results of the multiplication, which lie outside a displayable value / definition range of the digital speech time signal, are determined with a spline interpolation. Due to the linear distortion function with one parameter, the first speech time signal can thus be scaled in the amplitude and time domain. The low computational complexity ensures a high reduction of the memory requirement and the computing time.

In einem dritten Schritt werden die neu ermittelten quasi-periodischen Segmente mit dem TD-PSOLA Algorithmus zusammengesetzt. Dieser basiert im Wesentlichen auf einem Overlap-and-Add Verfahren im Zeitbereich, wobei man beispielsweise die quasi-periodischen Segmente zeitversetzt zusammensetzt und die überlappenden Abtastwerte addiert.In a third step is the newly determined quasi-periodic Segments composed with the TD-PSOLA algorithm. This is based essentially on an overlap-and-add method in the time domain, wherein For example, the time-displaced quasi-periodic segments composed and the overlapping Added samples.

Claims

Method for voice conversion for a speech synthesis system in which - one first speech time signal in temporally successive segments is split, - the Segments are folded with a distortion time function, - a second Speech time signal generated by assembling the folded segments becomes.

The method of claim 1, wherein the first and / or the second voice time signal are implemented as analog voice time signals.

The method of claim 1, wherein the first and / or the second voice time signal are implemented as digital voice time signals.

Method according to at least one of claims 1 to 3, wherein the first speech time signal in quasi-periodic segments is split.

The method of claim 4, wherein the quasiperiodic Segments can be determined using a pitch tracking algorithm.

Method according to at least one of claims 1 to 5, wherein at least one parameter of the distortion time function can be predetermined is.

Method according to at least one of claims 1 to 6, wherein the distortion time function by transformation of a Distortion frequency function is determined in the time domain.

The method of claim 7, wherein at least one parameter the distortion frequency function in the frequency domain by minimizing the Euclidean distance between a speech frequency signal of a Zielsprechers and one with the at least one parameter of the distortion frequency function transformed speech frequency signal of a source speaker determined becomes.

The method of claim 7, wherein at least one parameter the distortion frequency function can be specified.

The method of claim 7, wherein the distortion frequency function is performed as a linear distortion frequency function with a parameter.

The method of claim 7, wherein the distortion frequency function as piecewise, linear distortion frequency function is performed with a parameter.

The method of claim 7, wherein the distortion frequency function as a non-linear distortion frequency function with one parameter accomplished is.

The method of claim 7, wherein the distortion frequency function as piecewise, Linear distortion frequency function is performed with multiple parameters.

The method of claim 7, wherein the distortion frequency function is performed as a nonlinear distortion frequency function with multiple parameters.

Method according to at least one of claims 1 to 14, wherein the folding of the segments with the distortion time function resulting values, which outside a displayable range of values are interpolated.

The method of claim 15, wherein for the interpolation a spline interpolation is used.

The method of claim 15, wherein for the In a linear interpolation is used.

Method according to at least one of claims 1 to 17, wherein assembling the folded segments with a TD-PSOLA Algorithm executed becomes.

Method according to at least one of claims 1 to 18, wherein the segments of the first speech time signal by multiplication with a predeterminable factor in the time and / or amplitude range be compressed or stretched.