DE2115258A1

DE2115258A1 - Sprachsynthese durch Verkettung von in Formant Form codierten Wortern

Info

Publication number: DE2115258A1
Application number: DE19712115258
Authority: DE
Inventors: James Loton Warren Rabmer Lawrence Richard Berkeley Heights Schafer Ronald William New Providence N J Flanagan (V St A) P H04m 3 46
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1970-10-30
Filing date: 1971-03-30
Publication date: 1972-05-10
Also published as: DE2115258B2; CA941968A; DE2115258C3; US3828132A; JPS539041B1

Description

Western Electric Company, Incorporated Flanagan-Rabiner-Schafer

New_York_J__N_LY_J_10007_U_.S_JA. 26-3-2

Sprachsynthese durch Verkettung von in Formant-Form codierten

Wörtern.

Die Erfindung bezieht sich auf ein Verfahren zur Syntheti sie rung von Sprache aus Darstellungen von individuell gesprochenen Wörtern und einer Anordnung zur Durchführung des Verfahrens, bei welcher ein erster Eingang von einem Sprechanalysator Darstellungen von individuell gesprochenen Wörtern empfängt, die zusammengesetzt werden sollen, ein zweiter Eingang Signale empfängt, die eine spezielle, zu synthetisierende Nachricht darstellen, und ein Ausgang zu einem Sprachsynthetisator vorgesehen ist.

Seit kurzem werden viele Anstrengungen zur Erzeugung von künstlicher Sprache aus Daten, die einem digitalen Computer zugeführt oder in diesem gespeichert werden, unternommen. Nachrichten aus künstlich erzeugter Sprache werden beispielsweise in telefonischen automatischen Abhorch- und Informationssystemen, in automatischen Bestandsberichten, für Wettervorhersagen und für die mündliche Wiedergabe der Börsennotierungen. In jeder dieser Anwendungen wird eine Anfragean ein System gestellt, und das System antwortet auf die Anfrage, entwickelt die erforderliche Antwort und

209820/0499

ruft eine Menge von gesprochenen Sprachdaten ab, um eine entsprechende Information zu formulieren, welche einem Sprachsynthetisator zugeführt wird. Die Antwort auf die Frage wird gegebenenfalls in der Form einer vollständig gesprochenen Äußerung wiedergegeben.

Für einen derartigen Dienst muß das System offenbar ein großes und flexibles Vokabular besitzen. Das System muß daher beträchtliche Mengen von Sprachinformationen speichern und es muß die Information in einer solchen Form zur Verfügung haben, daß eine große Vielzahl von Nachrichten erzeugt werden können. Von dem System erzeugte Sprache sollte so verständlich sein, wie natürliche Sprache. Es besteht sogar die Möglichkeit, daß die künstliche Sprache verständlicher ist, als natürliche Sprache. Sie muß jedoch nicht wie die eines besonderen Menschen klingen und es ist sogar " möglich, daß sie einen Maschinenakzent besitzt.

Eine Technik zur Synthese von Nachrichten besteht darin, individuell gesprochene Wörter zu speichern und die Wörter in Übereinstimmung mit der gewünschten Nachricht für einen Ausgang auszuwählen (U.S. -P 3, 209, 014, vom 28, 9. 1965). In dieser Weise zusammengefügte Wörter führen zu verständlicher- aber in hohem

209820/0499

Maße unnatürlich klingender Nachricht. Eine Schwierigkeit besteht darin, daß Wortschwingungen nicht leicht bezüglich ihrer Länge eingestellt werden können. Auch ist es schwierig, gleitende Übergänge von einem Wort zum nächsten durchzuführen. Derartige Systeme sind jedoch relativ einfach gerätemäßig aufzubauen und bieten einen relativ großen Wortschatz mit einfachen Speichermitteln.

Um einige der Schwierigkeiten bei der Speicherung von Wörtern zu vermeiden und um die Speicherkapazität für eine vernünftige Vielfalt von Nachrichtenantworten zu verringern, können individuell gesprochene Laute in der Form von Phonem-Aufzeichnungen gespeichert werden. Derartige Aufzeichnungen können aus dem Speicher in Übereinstimmung mit den Wort- und Nachrichtenzusammenfügungspegeln abberufen werden und zum Betrieb eines Sprechsynthetisators verwendet werden. Leider ist die Sprache auf der akkustischen Ebene nicht besonders verständlich. Artikulationen von benachbarten Phonemen machen sich bemerkbar und die Übergangsvorgänge des Vokaltraktes in der Erzeugung eines Phonems dauern länger als die durchschnittliche Dauer eines Phonems. Dies bedeutet, ■ iui* sich die artikulatorisehen Gesten überschneiden und einander überlagern. Daher sind die Übergangsbewegungen des Vokaltraktes

209820/0499

besonders wichtig. Darüberhinaus ist viel Information über die Identität eines Konsonanten nicht durch die spektrale Gestalt im Dauerzustand des Konsonanten, sondern durch die dynamischen gegenseitigen Beeinflussungen benachbarter Phoneme gegeben.

Die Sprachsynthese ist daher sehr stark mit dynamischen Vorgängen befaßt. Ein Synthetisator muß nicht nur die Charakteristika

P von Lauten wiedergeben, welche dem Ideal jedes Phonems möglichst nähekommen, sondern auch die dynamischen Vorgänge des Vokaltraktes, wenn von einem zum anderen Phonem fortgeschritten wird. Diese Tatsache wirft ein Licht auf den Unterschied zwischen der Sprachsynthese aus gespeicherten Wörtern oder Sätzen und der Synthese aus elementareren Sprecheinheiten. Wenn der Schatz der Sprachelemente eine kleine Anzahl kurzer Einheiten ist, beispielsweise Phoneme, kommen die Verbindungsverfahren der Kompliziertheit des Vokaltraktes nahe. Umgekehrt, wenn der Schatz der Sprachelemente eine wesentlich größere Anzahl von längeren Sperr aus schnitten ist, beispielsweise Worten oder Sätzen, können die Elemente an Nachrichtenstellen zusammengenüpft werden, wobei der Aufwand für die Übergänge minimal ist.

Obwohl die Synthese von Phonemen daher erstrebenswert und man-

209820/0499

chesmal auch passend ist, führen die Zwischenschritte der Zusammenfügung von elementaren Sprachaufzeichnungen in Worte und Worte in Nachrichten entsprechend von vorgeschriebenen Regeln zu einem komplizierten Gerät und es wird bestenfalls mechanisch klingende Sprache erhalten.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Synthetisierung von Sprache zu schaffen, die von der Speicherung individuell gesprochener Worte ausgeht und diese zu möglichst verständlich und natürlich klingenden Sätzen zusammenfügt. Die gestellte Aufgabe wird durch folgende Schritte gelöst:

a) Bildung parametrischer Darstellungen (z. B. Formant-Frequenzen, Amplitude, Tonhöhe, Pol- und Nullfrequenzen von stimmlosen Lauten) jeden Wortes in einer ausgewählten Gruppe von gesprochenen Wörtern, die eine vollständige Nachricht bilden;

b) Entwickeln eines vollständigen Überganges zwischen den Wörtern einer vollständigen Nachricht in Abhängigkeit der parametrischen Darstellungen jedes gesprochenen Wortes;

c) Kombination des Ergebnisses des Schrittes a) und b) in die ausgewählte und an einen Sprachsynthetisator zu übertragende Nachricht.

209820/0499

Weitere Einzelheiten der Erfindung werden anhand eines Ausführungsbeispieles besprochen. Dabei zeigt:

Fig. 1 eine Anordnung gemäß Erfindung zur Synthetisierung von Äußerungen bezüglich Nachrichtenstücken auf Kommando;

Fig. 2 die Art der Überlappung individueller Wortformanten in Übereinstimmung mit der Erfindung für vier verschiedene Wortkombinationen;

Fig. 3 Zeitdaten zur Verwendung bei der Verarbeitung von Formantdaten;

Fig. 4 die Verarbeitung von stimmhaften Formantdaten für individuelle Wörter, um eine zusammengekettete Formant struktur zu erzeugen, die zur Betätigung eines Sprechsynthetisators dient;

Fig. 5 die Verarbeitung von sowohl stimmhaften als auch Reiblautformantdaten für individuelle Worte zur Erzeugung einer zusammengeketteten Formantstruktur, die zur Betätigung eines Sprachsynthetisators dient, und

Fig. 6A, 6B und 6C ein Flußdiagramm der Betätigungen entsprechend der Erfindung zur Verarbeitung parametrischer Daten und zur Verknüpfung dieser Daten zur Erzeugung eines vollständigen Satzes von Steuersignalen zur Betätigung eines Formantsprechsynthetisators.

209820/0499

Bei der vorliegenden Erfindung werden Darstellungen von gesprochenen Worten oder Sätzen in Ausdrucken von individuellen Formanten und anderen sprachdefinierenden Charakteristiken gespeichert, Formanten sind die natürlichen Resonanzen des Vokaltraktes und sie nehmen unterschiedliche Frequenzwerte an, wenn der Vokaltrakt seine Gestlt während des Sprechens ändert. Typischerweise treten drei derartige Resonanzen in dem wichtigsten Frequenzbereich auf, die für die Verständlichkeit wichtig sind, nämlich zwischen 0 und 3 kHz. Die Darstellung der Sprechwelle als einen Satz von sich langsam ändernden Erregungsparametern und Vokaltraktresonanzen ist aus mindestens zwei Gründen vorzüglich geeignet. Erstens ist diese Darstellung für Datenspeicherzwecke geeigneter als beispielsweise eine Darstellung der Sprachwellenform in Impuls codemodulation. Zweitens erlaubt die Formant-Darstellung eine Flexibilität in der Handhabung der Sprachsignale zur Verknüpfung von Wörtern oder Sätzen.

Daher werden in Übereinstimmung mit der Erfindung individuelle, natürlich gesprochene, isolierte Worte analysiert, um einen Wortschatz zu erzeugen, der in Ausdrücken von Formantfrequenzen gespeichert wird. In der Formant-Darstellung einer Äußerung können Formantfrequenzen, Stimmhöhe, Amplitude und Zeitdauer jeweils

209820/0499

unabhängig voneinander gehandhabt werden. Daher kann bei der Synthese einer Äußerung eine künstliche Tonhöhenkontur, d.h. der Zeitverlauf der betreffenden Parameter anstelle der natürlichen Kontur gesetzt werden. Ein andauernder Ton kann gelenkt oder gekürzt werden und selbst eine ganze Äußerung kann beschleunigt oder verlangsamt werden, ohne größeren oder überhaupt keinen Verlust der Verständlichkeit. Formanten können lokal verzerrt * werden und die gesamte Formantkontur kann gleichmäßig gehoben

oder gesenkt werden, um die Stimmqualität zu ändern.

Auf einen Programmbefehl werden Wortlängenformantdaten abberufen und miteinander verknüpft, um die vollständigen Formantfunktionen für die gewünschte Äußerung zu bilden. Die Formant funktionen werden in Übereinstimmung mit spektralen Ableitungen interpoliert, um Konturen aufzustellen, welche sanfte Übergänge ^ zwischen den Wörtern bestimmen. Sprachkontur- und Wortdauerdaten werden entsprechend eingespeicherten Regeln berechnet. Im Anschluß an die notwendige Verarbeitung und Interpolation werden verknüpfte Formantfunktionen zur Synthese einer Wellenform benutzt, welche einer natürlich gesprochenen Nachricht ziemlich nahekommt. Als zusätzlicher Vorteil kommt man mit wenig Speicherraum aus, weil die Formant- und Erregungsparameter sich

209820/0499

relativ langsam ändern und durch weniger Binärzahlen (Bits) pro Sekunde beschrieben werden können, als beispielsweise die Sprach-Wellenform.

Ein System zur Synthetisierung von Sprache durch Verknüpfung von in Formantform codierten Wörtern in Übereinstimmung mit der Erfindung ist schematisch in Fig. 1 dargestellt. Isolierte, von einem menschlichen Wesen gesprochene Worte werden analysiert, um die zur Synthese erforderlichen Parameter abzuschätzen. Diese natürlich gesprochenen, isolierten Wörter können entweder im Studio erzeugt oder aufgezeichnete Worte sein und werden in dem System 10 zur Verfügung gestellt und, falls erwünscht, im Umsetzer 11 in digitale Form gebracht. Die in welcher Form auch immer vorliegenden individuellen Worte werden dem Sprachanalysator 12 zugeführt, worin individuelle Formante, Amplituden, Tonhöhen-Perioden-Bestimmungen und iteiblaut-Pol- und Null-Merkmale gemäß Nyquist-Zahl entwickelt werden. Geeignete Sprechanalysatoren sind im Stand der Technik bekannt. Im wesentlichen weist der Analysator 12 individuelle Kanäle auf, einschließlich eines Analysators 13 zur Identifizierung von Formantfrequenzen F₁, F , F (für stimmhafte Laute) Analysatoren 14 zur Entwicklung eines Tonhöhenperiodensignals P, einen Analysator 15 zur Entwick-

209820/0499

lung von Pegelsteuersignalen für Summen A„ und für Zischen A und einen Analysator 16 zur Entwicklung von Pole und Null-Signalen F und F für Reiblaute bzw. stimmlose Sprachteile.

ir ε*

Diese Werte der Steuerparameter werden an die Speicher einheit 17 für parametrische Beschreibung geliefert, ,welche eine beliebige Form aufweisen kann. Sowohl analog als auch digitale Speicher, zu denen auch Befehlzugriff besteht, sind gemäß dem Stand der Technik bekannt. Wenn der Speicher 17 gefüllt ist, enthält er einen Wortkatalog, zu dem von dem Wortverknüpfungsteil des Systems Zugang besteht. Die in dem Katalog 17 enthaltenem parametrischen Werte können von Zeit zu Zeit durch Zufügung oder Wegfall neuer Wörter revidiert werden.

Eingangsbefehl

Ein von dem Wortfolgeeingang 18 stammender EingangsbefehLweranlaßt die notwendigen Betätigungen zur Synthetisierung einer Nachricht, die aus Wörtern des Katalogs 17 zusammengesetzt wird. Die genaue Form des Einganges 18 hängt von der speziellen Anwendung des Wortsynthesesystems ab. Typischerweise liegt eine Anfrage bestimmter Form an dem durch die Einheit 18 verkörperten System

209820/0499

an, die notwendigen Daten für eine Antwort werden formuliert, und die geeigneten Wortdarstellungen für die Antwort, beispielsweise in der englischen Sprache, werden in Codesprache zusammengesetzt und an das Synthesesystem als Ausgangssignal der Einheit 18 geliefert. Derartige Antworteinheiten gehören dem Stand der Technik an und werden in zahlreichen Patenten und Aufsätzen beschrieben. Das von einer derartigen Antworteinheit gelieferte Ausgangssignal kann daher in der Form von maschinencodierter Sprache, Phonemen oder anderen Sprachsymbolen oder dgl. vorliegen. In welcher Form auch das Ausgangs signal vorliegt, es wird in Übereinstimmung mit der Erfindung dem Wortverarbeitungssystem 20 zugeführt, worin die erforderlichen Wortdaten zusammengefügt, verarbeitet und an einen Sprachsynthetisator 26 geliefert werden.

Die Erzeugung einer aus Wörtern zusammengesetzten Nachricht, wobei die Wörter aus der Speicher einheit 17 stammen, macht die Erzeugung von Zeitkonturen, Tonhöhenkonturen sowie von Formant- und Amplitudenkonturen erforderlich. Der Prozessor 20 wendet gemäß Erfindung unterschiedliche Strategien zur Behandlung der "Ausschnitts"-Merkmale der Nachricht an, beispielsweise Formant frequenzen, Pole und Nullfrequenzen und Amplituden für stimmlose

209820/0499

Laute und die "Silben"-Merkmale, beispielsweise Zeitablauf und Tonhöhe. Die Programmstrategie zur Behandlung der Ausschnittsoder Teilmerkmale ist in dem Prozessor selbst gespeichert. Das Merkmal bezüglich Silbeninformation, welches zur Verarbeitung benötigt wird, wird entweder im Prozessor 20 abgeleitet oder diesem zugeführt. Diese Flexibilität in der Verarbeitung von Sprache, welche formantweise codiert ist, erlaubt die Aufteilung der Syntheseprobleme in zwei Teile.

Zeitablauf-Daten

Zeitablaufinformation kann in einem von unterschiedlichen Wegen abgeleitet werden. Für Anwendungen mit beschränktem Wortschatz, beispielsweise automatischen Abhördiensten, müssen die Zeitablaufregeln nicht komplizierter sein als eine Tabelle mit Wortlängen als Funktion der Lage in einer Reihe von Daten und als Funktion der Anzahl der Phoneme pro Wort. Zeitablauf-Daten für eine siebenanzahlige Digit-Reihe ist in der Tabelle der Fig. 3 dargestellt und wird normalerweise in der Zeitablauf einheit 22 gespeichert. Bei ausgeklügerten Anwendungen wird die Wortdauer durch Regeln bestimmt, welche die Syntax der speziellen zu produzierenden Nachricht berücksichtigen, d.h., Regeln, die beispielsweise auf Modellen der englischen Sprache beruhen. Derartige Daten werden auch

209820/0499

in dem Zeitablaufspeicher 22 gespeichert. Es ist auch möglich, die Dauer jedes zu synthetisierenden Wortes in der Eingangsreihe aus äußeren Zeitablaufdaten von der Einheit 23 festzulegen. In diesem Fall wird die Wortdauer entsprechend beispielsweise einigen äußeren Kriterien oder von einem Meßergebnis einer natürlich gespro chenen Version der zu synthetisierenden Nachricht gewählt und braucht nicht notwendig eine typische Dauer dieses Wortes zu sein, unabhängig vom Zusammenhang. Daher können äußere Zeitablaufdaten von äußeren Speichern zugeführt werden oder von Realzeiteinstellungen, die während der Synthese gemacht werden.

— Tonhöhen-Daten

Die Synthese macht auch die Bestimnaung der geeigneten Tonhöhenkontur, d. h. die Tonhöhenperiode als Funktion der Zeit, für die zusammenzusetzende Nachricht erforderlich. Tonhöheninformation kann auf verschiedenen Wegen erhalten werden. Beispielsweise kann der Tonhöhencharakter der ursprünglichen Folge der gesprochenen Worte gemessen werden. Alternativ kann eine monotone oder willkürlich geformte Kontur verwendet werden. In der Praxis jedoch haben diese beiden Möglichkeiten zu nicht annehmbaren, unnatürlichen Ergebnissen geführt. Deshalb wird gemäß der Erfindung eine Zeitablauf-normalisierte Tonhöhenkontur verwendet, die in der

209820/0499

Einheit 24 gespeichert wird, und diese Tonhöhe wird in Übereinstimmung mit den Wortteilen gemäß Zeitablaufregeln verändert. Daher werden die in der Einheit 24 gespeicherten Tonhöhen-Daten dem Verknüpfungsprozessor 21 zugeführt, wo die Kontur örtlich gedehnt oder verkürzt wird, wie dies durch den speziellen Äußerungsablauf, geliefert durch die Zeitablaufdaten, gefordert wird. Falls gewünscht, können Tonhöhenänderungsdaten von der äußeren Quelle 25 zugeführt werden, entweder in der Form von Hilfsspeicherdaten, oder als Realzeiteingangsdaten. Beispielsweise kann eine Tonhöhenkontur verwendet werden, die von einer natürlich gesprochenen Version der Nachricht stammt. Derartige Daten werden normalerweise dann verwendet, wenn die Dauer der Wörter in ähnlicher Weise gewonnen worden ist, beispielsweise von der äusseren Zeitablauf einheit 23.

^ Tonhöhen- und Zeitinformation, die in dieser Weise von außen zugeführt werden, führen zu der am natürlichsten klingenden künstlichen Sprache. Es ist auch möglich, die Tonhöhenkonturinformation über Regeln zu berechnen. Daher gibt es viele Wege, die Silbeninformation für eine Nachricht zu erhalten, und die Wahl hängt stark von der erwünschten Qualität der künstlichen Sprache und der speziellen vorgesehenen Anwendung ab.

2 098 20/0A99

Wortdauer-Einstellung

Sobald das Zeitablaufmuster der Nachricht aufgestellt ist, können isolierte Wörter aus dem Wortkatalog 17 herausgezogen werden und entsprechend dem jeweiligen Zeitablauf verändert werden. In diesem Sinne können Formantdaten eines Wortes in dem Katalog entweder gestreckt oder verkürzt werden. Die Formantkonturen oder Umrisse für aufeinanderfolgende stimmhafte Worte werden glatt miteinander verbunden und bilden durchgehende Übergänge und kontinuierliche Formantkonturen für die Nachricht. Die Wahl der Stelle in einem Wort zur Änderung der Dauer basiert auf den dynamischen Veränderungen der Formantkonturen. Für jedes Unterintervall eines stimmhaften Lautes, typischerweise 10 msec in der Dauer, wird ein Maß der Änderungsgeschwindigkeit der Formantkontur in dem Prozessor 21 errechnet. Dieses Maß wird als "spektrale Ableitung" bezeichnet. Stellen eines Wortes, wo die spektrale Ableitung klein ist, sind Stellen, an denen das Wort mit der geringsten Einwirkung bezüglich Wortverständlichkeit gekürzt oder gedehnt werden kann. Um daher ein Wort um einen gegebenen Betrag zu verkürzen, wird eine geeignete Anzahl von Intervallen von 10 msec in dem Bereich der kleinsten spektralen Ableitungen abgezogen. Um ein Wort auszudehnen, wird der Bereich der ge-

209820/0499

ringsten spektralen; Ableitung durch Hinzufügung einer geeigneten Anzahl von Intervallen von 10 msec gedehnt. Stimmlose Bereiche von Wörtern werden niemals modifiziert.

In der Praxis wird! das Maß; dter spektralen Ableitung SD. nach folgender Formel berechnet:;

SD. * 2 [wρ - Pjti-

hierbei ist i (1, 2,. „.) das i-te Intervall von 10 ms und F. (£) der Wert des j-ten Formanten in. dem i-ten Zeitintervall» Uni zn bestimmen, wieviele Intervalle von 10 ms zu den isolierten Wortbefehlsignalen hinzugefügt (oder subtrahiert) werden müssen, wird eine Gleichung verwendet, die auf der gewünschten Wortlänge, der isolierten Wortlänge und einigen einfachen Verknüpfungsinformationen bezüglich der Verknüpfung des betreffenden Wortes mit den vor- und nachfolgenden Nachbarworten beruht. Im folgenden werden Symboldefinitionen gegeben;

I * 1, wenn das Ende des vorhergehenden Wortes
stimmhaft ist und der Beginn des laufenden
Wortes ebenfalls stimmhaft ist,
0 im anderen Fall

209820/0499

IL. ■ 1, wenn das Ende des laufenden Wortes betont ist und der Beginn des folgenden Wortes ebenfalls betont ist
0 im anderen IPaU

W * Dauer des laufenden Wortes einzeln gesprochen

W ■ Dauer des laufenden Wortes im Zusammenhang

gesprochen (gemäß Zeitablaufregeln)
W * Anzahl von Intervallen von 10 ms, die addiert

werden müssen, wenn W-, > 0 (oder subtrahiert

werden müssen, wenn W_ < 0)

Es gilt folgende Regel:

^WC " ^WD - ^WI ^{+ 5 X} (^{1 +} W <

Der Grund für den letzten Ausdruck in der obigen Gleichung ist der, daß, wenn immer I_pM " 1 oder I_NM ■ 1, dies bedeutet, daß die beiden Wörter allmählich miteinander vermischt werden müssen und sich um 100 ms überlappen. Dieser Bereich von 100 ms wird von beiden Wörtern eingenommen, daher werden 50 ms (5 Intervalle) jedem Wort getrennt in Ausdrücken des Gesamtzeitablaufes zugeteilt. Die Technik, durch welche die gemäß W„ zusätzlichen Intervalle von 10 ms hinzugefügt oder entfernt werden, beruht ganz auf der

209820/0499

Messung der spaktralen Ableitungen. Wie zuvor angeführt, wird. die spaktrale Ableitung für jedes stimmhafte Intervall von 10 ms eines isolierten Wortes berechnet. Um ein Wort zu verkürzen, werden die W^-Intervalle mit den kleinsten spaktralen Ableitungen entfernt. Um ein Wort auszudehnen, wird der Bereich des Wortes mit den kleinsten spaktralen Ableitungen festgestellt und wie W_,-Intervalle werden in der Mitte dieses Bereiches hinzugefügt. Jeden der W -Intervalle werden die Steuerparameter der Mitte des Intervalls verschließen, d. h. ein gleichbleibender Zustandebereich von W_-Intervallen wird hinzugefügt.

Beschreibung von Wortüberschneidungen

Mit Ausnahme des Falles, wenn das Ende des laufenden Wortes und der Beginn des folgenden Wortes stimmhaft sind, werden die Steuer daten wortweise aneinanderstoßend zusammengestellt. Wenn das Ende eines Wortes stimmhaft ist und der Beginn des nächsten Wortes ebenfalls stimmhaft ist, wird ein allmählicher Übergang derart von den Formanten am Ende des einen Wortes zum Beginn des nächsten Wortes gemacht. Dieser Übergang wird beispielsweise über die letzten 100 ms des ersten Wortes und die ersten 100 ms des zweiten Wortes durchgeführt. Die Übergangsgeschwin-

209820/0*99

digkeit hängt von der relativen Spektrumänderungs geschwindigkeit der beiden Worte in dem Übergangsbereich ab.

Um diese Übergangs aufgäbe zu lösen, wird eine Interpolations funktion benutzt, deren Parameter sehr stark von den durchschnittlichen spaktralen Ableitungen der beiden Worte in dem Übergangsbereich abhängen. Die spaktralen AbleitungsSymbole werden wie folgt definiert:

V⁹

SDl « J] SDL

^1βηο

10

SD2 «

dabei ist: n_ ■ Anfangsintervall des Vermischungsbereichs

des laufenden Wortes

F.(t)" Wert des Formanten j der Nachrichten-3

kontur zur Zeit I während des Vermischungsbereiches
1*0, 1....9.
Es wird folgende Interpolation-Funktion benutzt: F .(*)« F^X.(n_n + €) · (9-f) •'sdT+F².(£)-£ · SD2

3 3 0 J w)

(9-^)SDl + t - SD2

209820/0499

2t 15258

■ k
hierbei ist F . { } * · Wert des j-ten Formamtem zur Zeit für

das Wort, fc pe * 1 bedeutet das laufende Wort, k « 2 das folgende

Formant-IMerpolation

Fig. 2 stellt die Art der Interpolation für mer einfache Fälle im ) tfoereinstimmung mit obigen. Betrachtangen dar. Obwohl alle direi

• Formanten. eines Lautes interpoliert werden, wird zum Zwecke der Vereinfachung der Darstellung nur ein Formant betrachtet. Für die Wörter in Spalte 1 zeigt das Wort 1 (das oberste Spektrum) eine sehr kleine Änderung in den letzten 100 ms auf, während das Wort 2 (mittleres Spektrum) eine große Änderung wiedergibt. Die interpolierte Kurve ist unten in der ersten Spalte dargestellt und beginnt mit den Formanten des Wortes 1, macht einen raschen _k Übergang und folgt den Formanten des Wortes 2. Die Spalte 2 zeigt

eine umgekehrte Situation; das Wort 2 zeigt eine kleine Spektrumänderung, während das Wort 1 eine große Spektrumänderung aufweist. Die interpolierte Kurve folgt daher den Formanten des Wortes 1 im Großteil der Vermischung- oder Überlappungsregion und führt den Übergang zu den Formanten des Wortes 2 am Ende des Bereiches bzw. der Region durch. Die Spalten 3 und 4 zeigen Bei-

509820/0499

bei welchen «flie SpeMarumiaEasrmmgem In ^beiden Worten im gäsaßen mnd .ganzen dl© ^etctoem struL Wenn sie,, «ie in Spalte 3, Id-ein sind, dann ist die laaltorpolaöoiisIkMrve isaa wesentlichen linear. Wenn sie trie im Spalte 4, gr©U sind, irersucM; die Interpolationskarve den Formanten des ersten Wortes in der Hälfte des ÜberlappuBgsbereiehes und den Formalsten des zweiten Wortes für die andere Hälfte des Überlappungsbereiches zu folgen.

Die Interpolationskurve beginnt also immer den Formanten des Wortes 1 {des laufenden Wortes) und endigt mit den Formanten des Wortes 2 (des folgenden Wortes). Die Geschwindigkeit, mit welcher die Interpolationskurve einen Übergang von den. Formanten des ersten Wortes zu denen des zweiten Wortes durchführt, wird durch die durchschnittlichen spektralen Ableitungen SDl und SD2 bestimmt. Im Beispiel der Spalte 1 ist die spaktrale Ableitung des zweiten Wortes viel größer als die des ersten Wortes, so daß der Übergang rasch mit dem Beginn des Überlappungsbereiches durchgeführt wird. Im Beispiel der zweiten Spalte ist die spektrale Ableitung des ersten Wortes größer, so daß der Übergang am Ende des Überlappungsbereiches rasch durchgeführt wird. Wie zuvor angedeutet, sind die spektralen Ableitungen für beide Wörter in den Beispielen der Spalten 3 und 4 im großen und ganzen dieselben,

209020/0491

so daß keine raschen Übergänge in dem Überlappungsbereich stattfinden.

Beispiele der Verkettung

Die Fig. 4 und 5 zeigen die Art und Weise, in welcher die erläuterten Regeln und Betrachtungen in der Praxis der Erfindung durchgeführt werden. Die Fig. 4 stellt die Art und Weise dar, in welcher drei stimmhafte Worte, die englichen Worte "We", "Were" und "Away" zusammengeknüpft werden, um den Satz zu bilden "We were away". Gesprochen haben die Wörter der jeweiligen Dauer W₁, W_, W„ und eine Analyse hat ergeben, daß sie die Formanten F-, F„ und F„ aufweisen. Diese Formantendaten sind in der Speichereinheit 17 (Fig. 1) für jedes individuelle Wort gespeichert, wie bereits erläutert. Wenn ein Eingangsbefehl von der Wortfolgeeinheit 18 vorliegt, die drei Worte in dem Satz "We were away" zusammenzufügen, wird die Formantinformation von der Speichereinheit 17 bezogen und an den Wortverknüpfungsprozessor 21 gegeben. Zeitablaufdaten vom Speicher 22 (oder alternativ von einer äußeren Einheit 23) und Tonhöhenvariations daten vom Speicher 24 (oder alternativ von einer äußeren Quelle 25) werden dem Prozessor ebenfalls zugeführt. Es wird zunächst bestimmt, daß die Worte "We" und "Were" normalerweise beim Sprechen durch einen sanften

203320/04**-

Übergang miteinander verbunden werden und als ein kontinuierlicher Satz "Wewere" ausgesprochen wird. Daher werden die beiden stimmhaften Worte bezüglich ihrer Dauer auf Werte D₁, D₀ in

X Ct

Übereinstimmung mit dem Zusammenhang der Äußerung eingestellt, und die Formanten der Wörter überlappen sich und werden im Sinne eines sanften Überganges interpoliert. In ähnlicher Weise werden die Wörter "were" und"away" normalerweise als "wereaway" mit Betonung auf "away" ausgesprochen. Daher wird die Dauer des "away" auf D„ gedehnt und die Formanten der beiden Wörter überlappen sich und werden interpoliert.

Der sich daraus ergebende, glatt interpolierte Formant wird ferner durch Überlagerung der Kontur der Tonhöhenperiode modifiziert, wie in der Figur dargestellt. Das Ergebnis ist ein fortlaufender Formant über die gesamte Äußerung. Diese modifizierten Formantdaten werden zusammen mit dem Periodenumriß der Tonhöhe und den stimmhaften-stimmlosen Zeichendaten A„ und Addern Sprechsynthetisator 26 (Fig. 1) zugeführt.

Fig. 5 zeigt die Verkettung der englischen Worte "i", "Saw", "This" und "Man" zur Bildung des Satzes "i saw this man". In diesem Fall werden die Wörter "i" und "Saw" nicht überlappt, und zwar wegen

209820/0499

des dazwischenliegenden Reiblautes am Beginn von "Saw", Jedoch werden die Wörter "Saw" und This" im allgemeinen mit einem sanften Übergang gesprochen. Daher werden diese Wörter überlappt und die Formanten interpoliert. Da das Wort "This" mit einem Reiblaut endigt, werden die Wörter "This" und "Man" nicht überlappt. In Übereinstimmung mit dem Zusammenhang des Ausdruckes werden die individuellen Wörtlängen W jeweils zu neun Werten D modifiziert. Schließlich wird eine gespeicherte Perioden.-kontur für die Tonhöhe entsprechend einer gespeicherten. Regel überlagert« Die sich ergebende Darstellung des Satzes ¹¹I saw this man" wird dann zusammen mit den stimmhaften-stimmlosen Zeichendaten A_v und A und den Reiblautpol-Nulldaten F_p und F dem Sprachsynthetisator zugeführt.

Intensität sdaten

Der stimmlose Intensitätsparameter A-, wird direkt von den gespeicherten Steuersignalen im Wortkatalog 17 erhalten, wenn das zu synthetisierende Intervall stimmlos ist. Der stimmhafte Intensitätsparameter A,_r wird in ähnlicher Weise direkt von dem Wortkatalog 17 erhalten, mit der Ausnahme während eines Mischungsbereiches zweier stimmhafter Intervalle, in welchem Fall er durch

209820/0499

Interpolation der jeweiligen stimmhaften Intensitäten der beiden Worte in ähnlicher Weise erhalten wird, wie dies für die Interpolation von Formanten beschrieben worden ist.

Ausführung des Verknüpfungsprozessors

Obwohl die oben beschriebenen Betätigungen zur Verarbeitung von Wortformantdaten zur Bildung von Wortsequenzinformationen durch Verwendung von entsprechend geeigneten Einrichtungen und Techniken durchgeführt werden können, beruht eine in der Praxis verwendbare Einrichtung auf der Fähigkeit eines Digitalcomputers für hohe Verarbeitungsgeschwindigkeit. In der Praxis wurde ein digitaler Allzweckrechner, nämlich der Honeywell DDP-516 oder GE-635 für geeignet gefunden. Diese beiden Datenverarbeitungsanlagen und ihre Programmierungssysteme sind gleicherweise zur Aufstellung eines Programms geeignet, welches diese Anlagen von einem Allzweckrechner in einen Spezialzweckprozessor umwandeln, so daß die Erfindung damit ausführbar wird.

Ein Flußdiagramm der Programmierungsschritte zur Umwandlung einer derartigen Anlage in einen Spezialzweckrechner, um den Erfordernissen gemäß Erfindung zu genügen, ist in den Fig. 6A, 6B und 6C enthalten, die jeweils aneinander zufügen sind. Jeder

209820/0499

in dem Flußdiagramm dargestellte Schritt ist für sich bekannt und kann durch einen Fachmann auf dem Gebiet des Programmierens auf ein geeignetes Programm rückgeführt werden. Die einzelnen Unterprogramme für die Operationen der Wortlängenmodifikationen und der Überlappung sind in der Fortran IV Programmiersprache im Anhang A und B enthalten.

Prozessor-Operationen

Im oberen Teil der Fig. 6A ist die Speichereinheit für parametrische Beschreibung nach Fig. 1 schematisch angedeutet, welche einen Katalog von Formant-Tonhöhe-Amplitude und Reiblautdarstellungen für jedes der Wörter in dem Katalog enthält. Auf einen Befehl des Wortfolgeeinganges 18 werden diese Daten in das Wortverknüpfungsprozessorsystem 20 übertragen, welches durch den Rest des Flußdiagrammes dargestellt wird.

Zunächst wird die Dauer jedes Wortes in der verknüpften Folge bestimmt, wie in Block 61 angedeutet, beispielsweise durch Befragung einer Speichertafel für Zeitablaufdaten 62 derart, wie sie in Fig. 3 und durch die Einheit 22 in Fig. 1 dargestellt sind. Wenn eine Zeitablaufänderung notwendig ist, bestimmen Programmfeststellungen der Einheit 63» ob die im Speicher 62 gespeicherten

20S820/04S9

Daten ausreichen oder ob äußere Zeitablaufdaten von der Einheit 64 (Block 23 der Fig. 1) verwendet werden sollen. In jedem Fall wird die Dauer jedes "kommandierten" Wortes aufgestellt und ein Wortsequenzzähler wird in der Einheit 65 durch Sätze von I » 1 gestartet.

Es ist dann notwendig, die parametrische Beschreibung des ersten Wortes in Übereinstimmung mit Zeitablaufdaten oder anderen gespeicherten Regeln zu modifizieren. Demgemäß wird in Fig. 6B bestimmt, ob das I-te Wort mit dem(I-l)-te Wort vermischt werden soll oder nicht. Diese Bestimmung wird durch den Block 66 dargestellt. Wenn dies nicht zutrifft, wird Information für das I-te Wort von dem Wortkatalog 17 entnommen und die ersten 50 ms des I-ten Wortes werden durch die Einheit 67 synthetisiert. Wenn das I-te Wort vermischt werden soll, wird das I-te Wort verlängert oder gekürzt, damit der Zeitablauf mit den zugeführten Daten bezüglich Dauer übereinstimmen. Diese Operation findet in der Einheit 68 in Übereinstimmung mit dem Unterprogramm CRDELL statt, welches im Anhang A aufgeführt ist.

Es wird dann überprüft, ob das I-te Wort mit dem(I+l)-ten Wort über die Schritte des Blockes 69 vermischt werden soll. Wenn eine Vermischung stattfinden soll, werden die Operationen des

209820/0499

2115253

Blockes 70 ausgeführt, um das Ende des I-ten Wortes mit dem Beginn des (1+1)-ten Wortes durchzuführen. Diese Operation wird in Übereinstimmung mit dem Unterprogramm INTPL durchgeführt, von dem eine Aufzeichnung im Anhang B enthalten ist. Wenn im Block 69 bestimmt wird, daß keine Vermischung stattfinden, soll, führen die Operationen, des Blockes 71 zu einer Synthese dfer letzten 50 ms des I-ten Wortes unter Verwendung der/Daten für dieses Wort aus dem Speicher 17.

In der Einheit 72 wird darat die Wortfolge des Index I auf den. letzten Stand gebracht und in der Operation 73 bestimmt, ob der Wortfolgeindex größer als der Index des letzten Wortes, im der Eingangs:- folge ist. Wenn er es nicht ist, wird die Steuerung auf den Block zurückgeschaltet, und das nächste Wort wird in der bereits beschriebenen Weise zusammengesetzt. Die Operationen werden in dieser Weise iteriert, bis der Index gleich dem Index des letzten Wortes in der Eingangsfolge ist, zu welcher Zeit die Daten des Blockes 73 zum Block 74 übertragen werden.

Gemäß Fig. 6C werden dann die Tonhöhendaten den Pormantdaten überlagert und die Struktur jedes Wortes in der Äußerung in der bereits beschriebenen Weise erhalten. Diese Daten sind in dem

209820/0499

»29—

Datenspeicher 75 für Tonhöhenvariation (Speicher 24 der Fig. 1) verfügbar. Es wird dann durch die im Block 76 angedeuteten Schritte bestimmt, ob äußere Tonhöhendaten Verwendung finden sollen. Wenn dies zutrifft, werden derartige Daten von der Einheit 77 (Einheit 25 in Fig. 1) über den Datenspeicher 75 zu den Operationen der Einheit 74 zugefügt.

Wenn die Tonhöhenkonturoperationen beendet sind, werden die gesamten Daten in dem Wortverknüpfungsprozessor 20, wie diese durch das Programm der Fig. 6 modifiziert worden sind, beispielsweise dem Sprachsynthetisator 26 der Fig. 1 zugeführt.

Formant-Synthese

Wenn alle Steuerparameterkonturen der befohlenen Äußerung erzeugt worden sind, können sie, falls erwünscht, geglättet und die Bandbreite auf ungefähr 16 Hz begrenzt werden. Sie werden dann zur Steuerung eines Formantsynthetisators benutzt, welcher ein kontinuierliches Sprachausgangssignal erzeugt. Zahlreiche Systeme, sowohl analoger sowie digitaler Art, sind zur Synthetisierung von Sprache aus Formantdaten beschrieben worden. Geeignete Synthetisatoren sind in U.S. P 3 330 910 (J. L, Flanagan), U.S. P 3 190 963 (David-Flanagan, insbes. Fig. 5) und in U.S. P 3 158

209820/0499

(Gerstman-Kelly) beschrieben. In vereinfachter Darstellung umfaßt ein Formantsynthetisator ein System zur Erzeugung von Erregungen als eine Folge von Impulsen mit einem Abstand, der proportional der fundamentalen Tonhöhe des gewünschten Signals ist. Die Intensität der Impulserregung wird gesteuert und das Signal wird an eine Kaskade von unterschiedlichen Resonatoren fc angelegt.

Es genügt zu sagen, daß der Sprachsynthetisator 26 eine Wellenform erzeugt, welche der nahekommt_a die für die gewünschte Äußerung benötigt wird. Dieses Signal wird in einer beliebig gewünschten Weise verwendet, beispielsweise zur Erregung der Aus· gangseinheit 27, die in der Form eines Lautsprechers, einer Aufzeichnungseinrichtung oder dgl. vorliegen kann,

- Die folgenden Erläuterungen beziehen sich auf Anhang A und Bj

I Unterprogramm zur Entfernung oder Zufügung von Intervallen von 10 ms Länge, damit die Wortlänge mit der gewünschten Länge übereinstimmt.

II Stelle den Bereich der minimalen Spektralableitung über NEL-Intervalle fest.

209Ö2ö7ö4S*

III Füge NEL-Intervalle in die Mitte des Bereichs der minimalen spektralen Ableitung ein.

IV Suche einen derartigen Pegel der spektralen Ableitungen, daß NEL-Intervalle diesen Pegel einnehmen oder kleiner sind.

V Entferne die Intervalle mit Spektralableitungen kleiner als dieser Pegel.

VI Unterprogramm zur Verschmelzung von Worten und Interpolation der Steuersignale.

VII Berechne die durchschnittlichen spektralen Ableitungen von beiden Wörtern über den Verschmelzungsbereich, der aus IW-Intervallen besteht.

VIII Erhalte Startadressen der Daten für beide Wörter.

IX Verschmelze und interpoliere Steuersignale über diese IW-Intervalle.

209820/0499

Claims

Patentansprüche

Verfahren zur Synthetisierung von Sprache aus Darstellungen van individuell gesprochenen Worten, gekennzeichnet durch folgende Schritte:

a) Bildung parametrischer¹ Darstellungen (z„ B. Foriaaiitfreqittenzen,, , Tonhöhe, Pol)*· und Nullfrequenzeni stimmloser lüaute}

Γ jeden Wortes in einer ausgewählten! Gruppe von gesprochene«

Wörtern, die eine vollständige Nachricht bilden;

b) Entwickeln eines vollständigen Überganges zwischen den Wörtern einer vollständigen Nachricht in Abhängigkeit der parametrischen Darstellungen jeden gesprochenen Wortes;

c) Kombinationen des Ergebnisses des Schrittes a) und b) an die ausgewählte und an ein Spraehsynthesegerät zu übertragende Nachricht.
2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1, bei welcher ein erster Eingang von einem Sprachanalysator Darstellungen von individuell gesprochenen Worten empfängt, die zusammengesetzt werden sollen, ein zweiter Eingang Signale empfängt, die eine spezielle, zu synthetisierende Nachricht darstellen,

209820/0499

und «ein Ausgang zu einem Sprachsynthesegerät vorgesehen ist, dadurch gekennzeichnet, daß der erste Eingang (z.B. von 17) parametrisehe Darstellungen von individuellen Wörtern liefert und die Einrichtung (z.B. 20) ferner einen Prozessor (z.B. 21) aufweist, der mit dem ersten Eingang (z.B. von 17), dem zweiten Eingang {z.B. von 18) und dem Ausgang zu dem Synthesegerät (z.B. 26) zur Kombination der parametrischen Darstellungen entsprechend den Wörtern der zu synthetisierenden Nachricht verbunden ist, und daß der Prozessor zur Bildung geeigneter Übergänge zwischen den Wörtern dient, die in Abhängigkeit von den parametri· sehen Darstellungen der Wörter kombiniert werden.
3. Anordnung nach Anspruch 2, gekennzeichnet durch eine Zeitablauf-Einstelleinrichtung (z.B. 22, 23) zur Modifizierung des Zeitablaufes der zu synthetisierenden Wörter in Übereinstimmung mit der Syntax der Nachricht, in welcher sie vorkommen.
4. Anordnung nach einem der Ansprüche 1-3, gekennzeichnet durch eine Tonhöheneinstelleinrichtung (z.B. 24, 25) zur Änderung der Tonhöhe der zu synthetisierenden Wörter in Übereinstimmung mit einer vorgeschriebenen Kontur der Nachricht, in welcher sie vorkommen.

209820/0499
5. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (z.B. 21) weiterhin zur Änderung der Dauer der parametrischen Darstellungen von einem ersten Eingang (z. B. 17) dient, indem er Unterintervalle jedes gesprochenen Wortes, typischerweise 10 ms, an einer solchen Stelle einfügt oder abzieht, an welcher die Änderungsgeschwindigkeit einer Formantkontur am kleinsten ist.
6. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (z.B. 21) einen phonetisch realistischen Übergang zwischen den miteinander zu kombinierenden Wörtern bildet, indem eine parametrische Darstellung des Übergangs zwischen gesprochenen Wortbereichen entwickelt wird, und zwar für ungefähr die letzten 100 ms des ersten von den beiden miteinander zu verschmelzenden Worten und für ungefähr die ersten 100 ms des zweiten

w der beiden miteinander zu verschmelzenden Worten.
7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß die Geschwindigkeit des Übergangs zwischen den beiden zu verschmelzenden Wörtern proportional dem Durchschnitt der Spaktralablei- _/ tungen der beiden Wörter ist.

20982Ö/04S*
8. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Zeitablaufeinstelleinrichtung (z. B. 22, 23) eine Liste der Dauer von Worten als Funktion der Lage in einer speziellen Nachricht und als Funktion der Anzahl der Phoneme pro Wort enthält.

209820/0499