DE2115258A1 - Sprachsynthese durch Verkettung von in Formant Form codierten Wortern - Google Patents
Sprachsynthese durch Verkettung von in Formant Form codierten WorternInfo
- Publication number
- DE2115258A1 DE2115258A1 DE19712115258 DE2115258A DE2115258A1 DE 2115258 A1 DE2115258 A1 DE 2115258A1 DE 19712115258 DE19712115258 DE 19712115258 DE 2115258 A DE2115258 A DE 2115258A DE 2115258 A1 DE2115258 A1 DE 2115258A1
- Authority
- DE
- Germany
- Prior art keywords
- words
- word
- message
- representations
- spoken
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Description
Western Electric Company, Incorporated Flanagan-Rabiner-Schafer
New_YorkJ__NLYJ_10007_U_.SJA. 26-3-2
Sprachsynthese durch Verkettung von in Formant-Form codierten
Wörtern.
Die Erfindung bezieht sich auf ein Verfahren zur Syntheti sie rung
von Sprache aus Darstellungen von individuell gesprochenen Wörtern und einer Anordnung zur Durchführung des Verfahrens, bei welcher
ein erster Eingang von einem Sprechanalysator Darstellungen von individuell gesprochenen Wörtern empfängt, die zusammengesetzt
werden sollen, ein zweiter Eingang Signale empfängt, die eine spezielle, zu synthetisierende Nachricht darstellen, und ein Ausgang
zu einem Sprachsynthetisator vorgesehen ist.
Seit kurzem werden viele Anstrengungen zur Erzeugung von künstlicher
Sprache aus Daten, die einem digitalen Computer zugeführt oder in diesem gespeichert werden, unternommen. Nachrichten aus
künstlich erzeugter Sprache werden beispielsweise in telefonischen automatischen Abhorch- und Informationssystemen, in automatischen
Bestandsberichten, für Wettervorhersagen und für die mündliche Wiedergabe der Börsennotierungen. In jeder dieser Anwendungen
wird eine Anfragean ein System gestellt, und das System antwortet auf die Anfrage, entwickelt die erforderliche Antwort und
209820/0499
ruft eine Menge von gesprochenen Sprachdaten ab, um eine entsprechende
Information zu formulieren, welche einem Sprachsynthetisator zugeführt wird. Die Antwort auf die Frage wird gegebenenfalls
in der Form einer vollständig gesprochenen Äußerung wiedergegeben.
Für einen derartigen Dienst muß das System offenbar ein großes
und flexibles Vokabular besitzen. Das System muß daher beträchtliche Mengen von Sprachinformationen speichern und es muß die
Information in einer solchen Form zur Verfügung haben, daß eine große Vielzahl von Nachrichten erzeugt werden können. Von dem
System erzeugte Sprache sollte so verständlich sein, wie natürliche Sprache. Es besteht sogar die Möglichkeit, daß die künstliche
Sprache verständlicher ist, als natürliche Sprache. Sie muß jedoch nicht wie die eines besonderen Menschen klingen und es ist sogar
" möglich, daß sie einen Maschinenakzent besitzt.
Eine Technik zur Synthese von Nachrichten besteht darin, individuell
gesprochene Wörter zu speichern und die Wörter in Übereinstimmung mit der gewünschten Nachricht für einen Ausgang auszuwählen
(U.S. -P 3, 209, 014, vom 28, 9. 1965). In dieser Weise zusammengefügte
Wörter führen zu verständlicher- aber in hohem
209820/0499
Maße unnatürlich klingender Nachricht. Eine Schwierigkeit besteht darin, daß Wortschwingungen nicht leicht bezüglich ihrer Länge
eingestellt werden können. Auch ist es schwierig, gleitende Übergänge von einem Wort zum nächsten durchzuführen. Derartige Systeme
sind jedoch relativ einfach gerätemäßig aufzubauen und bieten einen relativ großen Wortschatz mit einfachen Speichermitteln.
Um einige der Schwierigkeiten bei der Speicherung von Wörtern zu vermeiden und um die Speicherkapazität für eine vernünftige Vielfalt
von Nachrichtenantworten zu verringern, können individuell gesprochene Laute in der Form von Phonem-Aufzeichnungen gespeichert
werden. Derartige Aufzeichnungen können aus dem Speicher in Übereinstimmung mit den Wort- und Nachrichtenzusammenfügungspegeln
abberufen werden und zum Betrieb eines Sprechsynthetisators verwendet werden. Leider ist die Sprache auf der akkustischen
Ebene nicht besonders verständlich. Artikulationen von benachbarten Phonemen machen sich bemerkbar und die Übergangsvorgänge des Vokaltraktes in der Erzeugung eines Phonems dauern
länger als die durchschnittliche Dauer eines Phonems. Dies bedeutet, ■ iui* sich die artikulatorisehen Gesten überschneiden und einander
überlagern. Daher sind die Übergangsbewegungen des Vokaltraktes
209820/0499
besonders wichtig. Darüberhinaus ist viel Information über die Identität eines Konsonanten nicht durch die spektrale Gestalt im
Dauerzustand des Konsonanten, sondern durch die dynamischen gegenseitigen Beeinflussungen benachbarter Phoneme gegeben.
Die Sprachsynthese ist daher sehr stark mit dynamischen Vorgängen befaßt. Ein Synthetisator muß nicht nur die Charakteristika
P von Lauten wiedergeben, welche dem Ideal jedes Phonems möglichst
nähekommen, sondern auch die dynamischen Vorgänge des Vokaltraktes, wenn von einem zum anderen Phonem fortgeschritten
wird. Diese Tatsache wirft ein Licht auf den Unterschied zwischen der Sprachsynthese aus gespeicherten Wörtern oder Sätzen und
der Synthese aus elementareren Sprecheinheiten. Wenn der Schatz der Sprachelemente eine kleine Anzahl kurzer Einheiten ist, beispielsweise
Phoneme, kommen die Verbindungsverfahren der Kompliziertheit des Vokaltraktes nahe. Umgekehrt, wenn der Schatz
der Sprachelemente eine wesentlich größere Anzahl von längeren Sperr aus schnitten ist, beispielsweise Worten oder Sätzen, können
die Elemente an Nachrichtenstellen zusammengenüpft werden, wobei der Aufwand für die Übergänge minimal ist.
Obwohl die Synthese von Phonemen daher erstrebenswert und man-
209820/0499
chesmal auch passend ist, führen die Zwischenschritte der Zusammenfügung
von elementaren Sprachaufzeichnungen in Worte und Worte in Nachrichten entsprechend von vorgeschriebenen Regeln
zu einem komplizierten Gerät und es wird bestenfalls mechanisch klingende Sprache erhalten.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Synthetisierung
von Sprache zu schaffen, die von der Speicherung individuell gesprochener Worte ausgeht und diese zu möglichst verständlich
und natürlich klingenden Sätzen zusammenfügt. Die gestellte Aufgabe wird durch folgende Schritte gelöst:
a) Bildung parametrischer Darstellungen (z. B. Formant-Frequenzen,
Amplitude, Tonhöhe, Pol- und Nullfrequenzen von stimmlosen Lauten) jeden Wortes in einer ausgewählten Gruppe von
gesprochenen Wörtern, die eine vollständige Nachricht bilden;
b) Entwickeln eines vollständigen Überganges zwischen den Wörtern einer vollständigen Nachricht in Abhängigkeit der parametrischen
Darstellungen jedes gesprochenen Wortes;
c) Kombination des Ergebnisses des Schrittes a) und b) in die ausgewählte
und an einen Sprachsynthetisator zu übertragende Nachricht.
209820/0499
Weitere Einzelheiten der Erfindung werden anhand eines Ausführungsbeispieles
besprochen. Dabei zeigt:
Fig. 1 eine Anordnung gemäß Erfindung zur Synthetisierung von Äußerungen bezüglich Nachrichtenstücken auf Kommando;
Fig. 2 die Art der Überlappung individueller Wortformanten in Übereinstimmung mit der Erfindung für vier verschiedene
Wortkombinationen;
Fig. 3 Zeitdaten zur Verwendung bei der Verarbeitung von Formantdaten;
Fig. 4 die Verarbeitung von stimmhaften Formantdaten für individuelle
Wörter, um eine zusammengekettete Formant struktur
zu erzeugen, die zur Betätigung eines Sprechsynthetisators
dient;
Fig. 5 die Verarbeitung von sowohl stimmhaften als auch Reiblautformantdaten
für individuelle Worte zur Erzeugung einer zusammengeketteten Formantstruktur, die zur
Betätigung eines Sprachsynthetisators dient, und
Fig. 6A, 6B und 6C ein Flußdiagramm der Betätigungen entsprechend
der Erfindung zur Verarbeitung parametrischer Daten und zur Verknüpfung dieser Daten zur Erzeugung
eines vollständigen Satzes von Steuersignalen zur Betätigung eines Formantsprechsynthetisators.
209820/0499
Bei der vorliegenden Erfindung werden Darstellungen von gesprochenen
Worten oder Sätzen in Ausdrucken von individuellen Formanten
und anderen sprachdefinierenden Charakteristiken gespeichert, Formanten sind die natürlichen Resonanzen des Vokaltraktes
und sie nehmen unterschiedliche Frequenzwerte an, wenn der Vokaltrakt seine Gestlt während des Sprechens ändert. Typischerweise
treten drei derartige Resonanzen in dem wichtigsten Frequenzbereich auf, die für die Verständlichkeit wichtig sind, nämlich zwischen
0 und 3 kHz. Die Darstellung der Sprechwelle als einen Satz von sich langsam ändernden Erregungsparametern und Vokaltraktresonanzen
ist aus mindestens zwei Gründen vorzüglich geeignet. Erstens ist diese Darstellung für Datenspeicherzwecke geeigneter
als beispielsweise eine Darstellung der Sprachwellenform in Impuls codemodulation.
Zweitens erlaubt die Formant-Darstellung eine Flexibilität in der Handhabung der Sprachsignale zur Verknüpfung
von Wörtern oder Sätzen.
Daher werden in Übereinstimmung mit der Erfindung individuelle, natürlich gesprochene, isolierte Worte analysiert, um einen Wortschatz
zu erzeugen, der in Ausdrücken von Formantfrequenzen gespeichert wird. In der Formant-Darstellung einer Äußerung können
Formantfrequenzen, Stimmhöhe, Amplitude und Zeitdauer jeweils
209820/0499
unabhängig voneinander gehandhabt werden. Daher kann bei der Synthese einer Äußerung eine künstliche Tonhöhenkontur, d.h.
der Zeitverlauf der betreffenden Parameter anstelle der natürlichen Kontur gesetzt werden. Ein andauernder Ton kann gelenkt
oder gekürzt werden und selbst eine ganze Äußerung kann beschleunigt oder verlangsamt werden, ohne größeren oder überhaupt keinen
Verlust der Verständlichkeit. Formanten können lokal verzerrt * werden und die gesamte Formantkontur kann gleichmäßig gehoben
oder gesenkt werden, um die Stimmqualität zu ändern.
Auf einen Programmbefehl werden Wortlängenformantdaten abberufen
und miteinander verknüpft, um die vollständigen Formantfunktionen für die gewünschte Äußerung zu bilden. Die Formant funktionen
werden in Übereinstimmung mit spektralen Ableitungen interpoliert, um Konturen aufzustellen, welche sanfte Übergänge
^ zwischen den Wörtern bestimmen. Sprachkontur- und Wortdauerdaten
werden entsprechend eingespeicherten Regeln berechnet. Im Anschluß an die notwendige Verarbeitung und Interpolation werden
verknüpfte Formantfunktionen zur Synthese einer Wellenform benutzt, welche einer natürlich gesprochenen Nachricht ziemlich
nahekommt. Als zusätzlicher Vorteil kommt man mit wenig Speicherraum aus, weil die Formant- und Erregungsparameter sich
209820/0499
relativ langsam ändern und durch weniger Binärzahlen (Bits) pro Sekunde beschrieben werden können, als beispielsweise die Sprach-Wellenform.
Ein System zur Synthetisierung von Sprache durch Verknüpfung von in Formantform codierten Wörtern in Übereinstimmung mit
der Erfindung ist schematisch in Fig. 1 dargestellt. Isolierte, von einem menschlichen Wesen gesprochene Worte werden analysiert,
um die zur Synthese erforderlichen Parameter abzuschätzen. Diese natürlich gesprochenen, isolierten Wörter können entweder
im Studio erzeugt oder aufgezeichnete Worte sein und werden in dem System 10 zur Verfügung gestellt und, falls erwünscht, im
Umsetzer 11 in digitale Form gebracht. Die in welcher Form auch immer vorliegenden individuellen Worte werden dem Sprachanalysator
12 zugeführt, worin individuelle Formante, Amplituden, Tonhöhen-Perioden-Bestimmungen
und iteiblaut-Pol- und Null-Merkmale
gemäß Nyquist-Zahl entwickelt werden. Geeignete Sprechanalysatoren
sind im Stand der Technik bekannt. Im wesentlichen weist der Analysator 12 individuelle Kanäle auf, einschließlich eines
Analysators 13 zur Identifizierung von Formantfrequenzen F1,
F , F (für stimmhafte Laute) Analysatoren 14 zur Entwicklung eines Tonhöhenperiodensignals P, einen Analysator 15 zur Entwick-
209820/0499
lung von Pegelsteuersignalen für Summen A„ und für Zischen A
und einen Analysator 16 zur Entwicklung von Pole und Null-Signalen F und F für Reiblaute bzw. stimmlose Sprachteile.
ir
ε*
Diese Werte der Steuerparameter werden an die Speicher einheit 17 für parametrische Beschreibung geliefert, ,welche eine beliebige
Form aufweisen kann. Sowohl analog als auch digitale Speicher, zu denen auch Befehlzugriff besteht, sind gemäß dem Stand der
Technik bekannt. Wenn der Speicher 17 gefüllt ist, enthält er einen
Wortkatalog, zu dem von dem Wortverknüpfungsteil des Systems Zugang besteht. Die in dem Katalog 17 enthaltenem parametrischen
Werte können von Zeit zu Zeit durch Zufügung oder Wegfall neuer Wörter revidiert werden.
Ein von dem Wortfolgeeingang 18 stammender EingangsbefehLweranlaßt
die notwendigen Betätigungen zur Synthetisierung einer Nachricht, die aus Wörtern des Katalogs 17 zusammengesetzt wird. Die
genaue Form des Einganges 18 hängt von der speziellen Anwendung des Wortsynthesesystems ab. Typischerweise liegt eine Anfrage
bestimmter Form an dem durch die Einheit 18 verkörperten System
209820/0499
an, die notwendigen Daten für eine Antwort werden formuliert, und die geeigneten Wortdarstellungen für die Antwort, beispielsweise
in der englischen Sprache, werden in Codesprache zusammengesetzt und an das Synthesesystem als Ausgangssignal der Einheit
18 geliefert. Derartige Antworteinheiten gehören dem Stand der Technik an und werden in zahlreichen Patenten und Aufsätzen beschrieben.
Das von einer derartigen Antworteinheit gelieferte Ausgangssignal kann daher in der Form von maschinencodierter Sprache,
Phonemen oder anderen Sprachsymbolen oder dgl. vorliegen. In welcher Form auch das Ausgangs signal vorliegt, es wird in
Übereinstimmung mit der Erfindung dem Wortverarbeitungssystem 20 zugeführt, worin die erforderlichen Wortdaten zusammengefügt,
verarbeitet und an einen Sprachsynthetisator 26 geliefert werden.
Die Erzeugung einer aus Wörtern zusammengesetzten Nachricht, wobei die Wörter aus der Speicher einheit 17 stammen, macht die
Erzeugung von Zeitkonturen, Tonhöhenkonturen sowie von Formant- und Amplitudenkonturen erforderlich. Der Prozessor 20 wendet
gemäß Erfindung unterschiedliche Strategien zur Behandlung der "Ausschnitts"-Merkmale der Nachricht an, beispielsweise Formant frequenzen,
Pole und Nullfrequenzen und Amplituden für stimmlose
209820/0499
Laute und die "Silben"-Merkmale, beispielsweise Zeitablauf und Tonhöhe. Die Programmstrategie zur Behandlung der Ausschnittsoder Teilmerkmale ist in dem Prozessor selbst gespeichert. Das
Merkmal bezüglich Silbeninformation, welches zur Verarbeitung benötigt wird, wird entweder im Prozessor 20 abgeleitet oder diesem
zugeführt. Diese Flexibilität in der Verarbeitung von Sprache, welche formantweise codiert ist, erlaubt die Aufteilung der Syntheseprobleme
in zwei Teile.
Zeitablaufinformation kann in einem von unterschiedlichen Wegen abgeleitet werden. Für Anwendungen mit beschränktem Wortschatz,
beispielsweise automatischen Abhördiensten, müssen die Zeitablaufregeln nicht komplizierter sein als eine Tabelle mit Wortlängen als
Funktion der Lage in einer Reihe von Daten und als Funktion der Anzahl der Phoneme pro Wort. Zeitablauf-Daten für eine siebenanzahlige
Digit-Reihe ist in der Tabelle der Fig. 3 dargestellt und wird normalerweise in der Zeitablauf einheit 22 gespeichert. Bei
ausgeklügerten Anwendungen wird die Wortdauer durch Regeln bestimmt, welche die Syntax der speziellen zu produzierenden Nachricht
berücksichtigen, d.h., Regeln, die beispielsweise auf Modellen der englischen Sprache beruhen. Derartige Daten werden auch
209820/0499
in dem Zeitablaufspeicher 22 gespeichert. Es ist auch möglich, die Dauer jedes zu synthetisierenden Wortes in der Eingangsreihe
aus äußeren Zeitablaufdaten von der Einheit 23 festzulegen. In diesem Fall wird die Wortdauer entsprechend beispielsweise einigen
äußeren Kriterien oder von einem Meßergebnis einer natürlich gespro chenen Version der zu synthetisierenden Nachricht gewählt
und braucht nicht notwendig eine typische Dauer dieses Wortes zu sein, unabhängig vom Zusammenhang. Daher können äußere Zeitablaufdaten
von äußeren Speichern zugeführt werden oder von Realzeiteinstellungen, die während der Synthese gemacht werden.
— Tonhöhen-Daten
Die Synthese macht auch die Bestimnaung der geeigneten Tonhöhenkontur,
d. h. die Tonhöhenperiode als Funktion der Zeit, für die zusammenzusetzende Nachricht erforderlich. Tonhöheninformation
kann auf verschiedenen Wegen erhalten werden. Beispielsweise kann der Tonhöhencharakter der ursprünglichen Folge der gesprochenen
Worte gemessen werden. Alternativ kann eine monotone oder willkürlich geformte Kontur verwendet werden. In der Praxis jedoch
haben diese beiden Möglichkeiten zu nicht annehmbaren, unnatürlichen Ergebnissen geführt. Deshalb wird gemäß der Erfindung eine
Zeitablauf-normalisierte Tonhöhenkontur verwendet, die in der
209820/0499
Einheit 24 gespeichert wird, und diese Tonhöhe wird in Übereinstimmung
mit den Wortteilen gemäß Zeitablaufregeln verändert. Daher werden die in der Einheit 24 gespeicherten Tonhöhen-Daten
dem Verknüpfungsprozessor 21 zugeführt, wo die Kontur örtlich gedehnt oder verkürzt wird, wie dies durch den speziellen Äußerungsablauf,
geliefert durch die Zeitablaufdaten, gefordert wird. Falls gewünscht, können Tonhöhenänderungsdaten von der äußeren
Quelle 25 zugeführt werden, entweder in der Form von Hilfsspeicherdaten,
oder als Realzeiteingangsdaten. Beispielsweise kann eine Tonhöhenkontur verwendet werden, die von einer natürlich
gesprochenen Version der Nachricht stammt. Derartige Daten werden normalerweise dann verwendet, wenn die Dauer der Wörter in
ähnlicher Weise gewonnen worden ist, beispielsweise von der äusseren
Zeitablauf einheit 23.
^ Tonhöhen- und Zeitinformation, die in dieser Weise von außen zugeführt
werden, führen zu der am natürlichsten klingenden künstlichen Sprache. Es ist auch möglich, die Tonhöhenkonturinformation
über Regeln zu berechnen. Daher gibt es viele Wege, die Silbeninformation für eine Nachricht zu erhalten, und die Wahl hängt
stark von der erwünschten Qualität der künstlichen Sprache und der speziellen vorgesehenen Anwendung ab.
2 098 20/0A99
Sobald das Zeitablaufmuster der Nachricht aufgestellt ist, können isolierte Wörter aus dem Wortkatalog 17 herausgezogen werden
und entsprechend dem jeweiligen Zeitablauf verändert werden. In diesem Sinne können Formantdaten eines Wortes in dem Katalog
entweder gestreckt oder verkürzt werden. Die Formantkonturen oder Umrisse für aufeinanderfolgende stimmhafte Worte werden
glatt miteinander verbunden und bilden durchgehende Übergänge und kontinuierliche Formantkonturen für die Nachricht. Die Wahl
der Stelle in einem Wort zur Änderung der Dauer basiert auf den dynamischen Veränderungen der Formantkonturen. Für jedes
Unterintervall eines stimmhaften Lautes, typischerweise 10 msec in der Dauer, wird ein Maß der Änderungsgeschwindigkeit der
Formantkontur in dem Prozessor 21 errechnet. Dieses Maß wird als "spektrale Ableitung" bezeichnet. Stellen eines Wortes, wo die
spektrale Ableitung klein ist, sind Stellen, an denen das Wort mit der geringsten Einwirkung bezüglich Wortverständlichkeit gekürzt
oder gedehnt werden kann. Um daher ein Wort um einen gegebenen Betrag zu verkürzen, wird eine geeignete Anzahl von Intervallen
von 10 msec in dem Bereich der kleinsten spektralen Ableitungen abgezogen. Um ein Wort auszudehnen, wird der Bereich der ge-
209820/0499
ringsten spektralen; Ableitung durch Hinzufügung einer geeigneten
Anzahl von Intervallen von 10 msec gedehnt. Stimmlose Bereiche
von Wörtern werden niemals modifiziert.
In der Praxis wird! das Maß; dter spektralen Ableitung SD. nach folgender
Formel berechnet:;
SD. * 2 [wρ - Pjti-
hierbei ist i (1, 2,. „.) das i-te Intervall von 10 ms und F. (£) der
Wert des j-ten Formanten in. dem i-ten Zeitintervall» Uni zn bestimmen,
wieviele Intervalle von 10 ms zu den isolierten Wortbefehlsignalen hinzugefügt (oder subtrahiert) werden müssen, wird
eine Gleichung verwendet, die auf der gewünschten Wortlänge, der
isolierten Wortlänge und einigen einfachen Verknüpfungsinformationen bezüglich der Verknüpfung des betreffenden Wortes mit den
vor- und nachfolgenden Nachbarworten beruht. Im folgenden werden Symboldefinitionen gegeben;
I * 1, wenn das Ende des vorhergehenden Wortes
stimmhaft ist und der Beginn des laufenden
Wortes ebenfalls stimmhaft ist,
0 im anderen Fall
stimmhaft ist und der Beginn des laufenden
Wortes ebenfalls stimmhaft ist,
0 im anderen Fall
209820/0499
IL. ■ 1, wenn das Ende des laufenden Wortes betont ist
und der Beginn des folgenden Wortes ebenfalls betont ist
0 im anderen IPaU
0 im anderen IPaU
W * Dauer des laufenden Wortes einzeln gesprochen
W ■ Dauer des laufenden Wortes im Zusammenhang
gesprochen (gemäß Zeitablaufregeln)
W * Anzahl von Intervallen von 10 ms, die addiert
W * Anzahl von Intervallen von 10 ms, die addiert
werden müssen, wenn W-, > 0 (oder subtrahiert
werden müssen, wenn W_ < 0)
Es gilt folgende Regel:
WC " WD - WI + 5 X (1 + W <
Der Grund für den letzten Ausdruck in der obigen Gleichung ist der,
daß, wenn immer IpM " 1 oder INM ■ 1, dies bedeutet, daß die
beiden Wörter allmählich miteinander vermischt werden müssen und sich um 100 ms überlappen. Dieser Bereich von 100 ms wird
von beiden Wörtern eingenommen, daher werden 50 ms (5 Intervalle) jedem Wort getrennt in Ausdrücken des Gesamtzeitablaufes zugeteilt.
Die Technik, durch welche die gemäß W„ zusätzlichen Intervalle
von 10 ms hinzugefügt oder entfernt werden, beruht ganz auf der
209820/0499
Messung der spaktralen Ableitungen. Wie zuvor angeführt, wird.
die spaktrale Ableitung für jedes stimmhafte Intervall von 10 ms eines isolierten Wortes berechnet. Um ein Wort zu verkürzen,
werden die W^-Intervalle mit den kleinsten spaktralen Ableitungen
entfernt. Um ein Wort auszudehnen, wird der Bereich des Wortes mit den kleinsten spaktralen Ableitungen festgestellt und wie W_,-Intervalle
werden in der Mitte dieses Bereiches hinzugefügt. Jeden der W -Intervalle werden die Steuerparameter der Mitte
des Intervalls verschließen, d. h. ein gleichbleibender Zustandebereich
von W_-Intervallen wird hinzugefügt.
Beschreibung von Wortüberschneidungen
Mit Ausnahme des Falles, wenn das Ende des laufenden Wortes und der Beginn des folgenden Wortes stimmhaft sind, werden die
Steuer daten wortweise aneinanderstoßend zusammengestellt. Wenn das Ende eines Wortes stimmhaft ist und der Beginn des nächsten
Wortes ebenfalls stimmhaft ist, wird ein allmählicher Übergang derart von den Formanten am Ende des einen Wortes zum Beginn
des nächsten Wortes gemacht. Dieser Übergang wird beispielsweise über die letzten 100 ms des ersten Wortes und die ersten
100 ms des zweiten Wortes durchgeführt. Die Übergangsgeschwin-
209820/0*99
digkeit hängt von der relativen Spektrumänderungs geschwindigkeit der beiden Worte in dem Übergangsbereich ab.
Um diese Übergangs aufgäbe zu lösen, wird eine Interpolations funktion
benutzt, deren Parameter sehr stark von den durchschnittlichen spaktralen Ableitungen der beiden Worte in dem Übergangsbereich
abhängen. Die spaktralen AbleitungsSymbole werden wie
folgt definiert:
V9
SDl « J] SDL
1βηο
10
SD2 «
dabei ist: n_ ■ Anfangsintervall des Vermischungsbereichs
des laufenden Wortes
F.(t)" Wert des Formanten j der Nachrichten-3
kontur zur Zeit I während des Vermischungsbereiches
1*0, 1....9.
Es wird folgende Interpolation-Funktion benutzt: F .(*)« FX.(nn + €) · (9-f) •'sdT+F2.(£)-£ · SD2
1*0, 1....9.
Es wird folgende Interpolation-Funktion benutzt: F .(*)« FX.(nn + €) · (9-f) •'sdT+F2.(£)-£ · SD2
3 3 0 J w)
(9-^)SDl + t - SD2
209820/0499
2t 15258
■ k
hierbei ist F . { } * · Wert des j-ten Formamtem zur Zeit für
hierbei ist F . { } * · Wert des j-ten Formamtem zur Zeit für
das Wort, fc pe * 1 bedeutet das laufende
Wort, k « 2 das folgende
Fig. 2 stellt die Art der Interpolation für mer einfache Fälle im
) tfoereinstimmung mit obigen. Betrachtangen dar. Obwohl alle direi
• Formanten. eines Lautes interpoliert werden, wird zum Zwecke
der Vereinfachung der Darstellung nur ein Formant betrachtet. Für die Wörter in Spalte 1 zeigt das Wort 1 (das oberste Spektrum)
eine sehr kleine Änderung in den letzten 100 ms auf, während das Wort 2 (mittleres Spektrum) eine große Änderung wiedergibt. Die
interpolierte Kurve ist unten in der ersten Spalte dargestellt und beginnt mit den Formanten des Wortes 1, macht einen raschen
k Übergang und folgt den Formanten des Wortes 2. Die Spalte 2 zeigt
eine umgekehrte Situation; das Wort 2 zeigt eine kleine Spektrumänderung,
während das Wort 1 eine große Spektrumänderung aufweist. Die interpolierte Kurve folgt daher den Formanten des Wortes
1 im Großteil der Vermischung- oder Überlappungsregion und führt den Übergang zu den Formanten des Wortes 2 am Ende des
Bereiches bzw. der Region durch. Die Spalten 3 und 4 zeigen Bei-
509820/0499
bei welchen «flie SpeMarumiaEasrmmgem In ^beiden Worten
im gäsaßen mnd .ganzen dl© ^etctoem struL Wenn sie,, «ie in Spalte 3,
Id-ein sind, dann ist die laaltorpolaöoiisIkMrve isaa wesentlichen linear.
Wenn sie trie im Spalte 4, gr©U sind, irersucM; die Interpolationskarve
den Formanten des ersten Wortes in der Hälfte des ÜberlappuBgsbereiehes
und den Formalsten des zweiten Wortes für die andere Hälfte des Überlappungsbereiches zu folgen.
Die Interpolationskurve beginnt also immer den Formanten des
Wortes 1 {des laufenden Wortes) und endigt mit den Formanten des Wortes 2 (des folgenden Wortes). Die Geschwindigkeit, mit welcher
die Interpolationskurve einen Übergang von den. Formanten des ersten Wortes zu denen des zweiten Wortes durchführt, wird
durch die durchschnittlichen spektralen Ableitungen SDl und SD2 bestimmt. Im Beispiel der Spalte 1 ist die spaktrale Ableitung
des zweiten Wortes viel größer als die des ersten Wortes, so daß der Übergang rasch mit dem Beginn des Überlappungsbereiches
durchgeführt wird. Im Beispiel der zweiten Spalte ist die spektrale Ableitung des ersten Wortes größer, so daß der Übergang am Ende
des Überlappungsbereiches rasch durchgeführt wird. Wie zuvor angedeutet, sind die spektralen Ableitungen für beide Wörter in
den Beispielen der Spalten 3 und 4 im großen und ganzen dieselben,
209020/0491
so daß keine raschen Übergänge in dem Überlappungsbereich stattfinden.
Die Fig. 4 und 5 zeigen die Art und Weise, in welcher die erläuterten
Regeln und Betrachtungen in der Praxis der Erfindung durchgeführt werden. Die Fig. 4 stellt die Art und Weise dar, in welcher
drei stimmhafte Worte, die englichen Worte "We", "Were" und "Away" zusammengeknüpft werden, um den Satz zu bilden
"We were away". Gesprochen haben die Wörter der jeweiligen Dauer W1, W_, W„ und eine Analyse hat ergeben, daß sie die Formanten
F-, F„ und F„ aufweisen. Diese Formantendaten sind in
der Speichereinheit 17 (Fig. 1) für jedes individuelle Wort gespeichert, wie bereits erläutert. Wenn ein Eingangsbefehl von der Wortfolgeeinheit
18 vorliegt, die drei Worte in dem Satz "We were away" zusammenzufügen, wird die Formantinformation von der Speichereinheit
17 bezogen und an den Wortverknüpfungsprozessor 21 gegeben. Zeitablaufdaten vom Speicher 22 (oder alternativ von einer
äußeren Einheit 23) und Tonhöhenvariations daten vom Speicher 24 (oder alternativ von einer äußeren Quelle 25) werden dem Prozessor
ebenfalls zugeführt. Es wird zunächst bestimmt, daß die Worte "We" und "Were" normalerweise beim Sprechen durch einen sanften
203320/04**-
Übergang miteinander verbunden werden und als ein kontinuierlicher
Satz "Wewere" ausgesprochen wird. Daher werden die beiden
stimmhaften Worte bezüglich ihrer Dauer auf Werte D1, D0 in
X Ct
Übereinstimmung mit dem Zusammenhang der Äußerung eingestellt, und die Formanten der Wörter überlappen sich und werden im Sinne
eines sanften Überganges interpoliert. In ähnlicher Weise werden die Wörter "were" und"away" normalerweise als "wereaway" mit
Betonung auf "away" ausgesprochen. Daher wird die Dauer des
"away" auf D„ gedehnt und die Formanten der beiden Wörter überlappen
sich und werden interpoliert.
Der sich daraus ergebende, glatt interpolierte Formant wird ferner
durch Überlagerung der Kontur der Tonhöhenperiode modifiziert, wie in der Figur dargestellt. Das Ergebnis ist ein fortlaufender
Formant über die gesamte Äußerung. Diese modifizierten Formantdaten werden zusammen mit dem Periodenumriß der Tonhöhe
und den stimmhaften-stimmlosen Zeichendaten A„ und Addern Sprechsynthetisator 26 (Fig. 1) zugeführt.
Fig. 5 zeigt die Verkettung der englischen Worte "i", "Saw", "This"
und "Man" zur Bildung des Satzes "i saw this man". In diesem Fall werden die Wörter "i" und "Saw" nicht überlappt, und zwar wegen
209820/0499
des dazwischenliegenden Reiblautes am Beginn von "Saw", Jedoch
werden die Wörter "Saw" und This" im allgemeinen mit einem sanften Übergang gesprochen. Daher werden diese Wörter überlappt
und die Formanten interpoliert. Da das Wort "This" mit einem
Reiblaut endigt, werden die Wörter "This" und "Man" nicht überlappt. In Übereinstimmung mit dem Zusammenhang des Ausdruckes
werden die individuellen Wörtlängen W jeweils zu neun
Werten D modifiziert. Schließlich wird eine gespeicherte Perioden.-kontur
für die Tonhöhe entsprechend einer gespeicherten. Regel
überlagert« Die sich ergebende Darstellung des Satzes 11I saw this
man" wird dann zusammen mit den stimmhaften-stimmlosen Zeichendaten
Av und A und den Reiblautpol-Nulldaten Fp und F dem
Sprachsynthetisator zugeführt.
Der stimmlose Intensitätsparameter A-, wird direkt von den gespeicherten
Steuersignalen im Wortkatalog 17 erhalten, wenn das zu synthetisierende Intervall stimmlos ist. Der stimmhafte Intensitätsparameter A,r wird in ähnlicher Weise direkt von dem Wortkatalog
17 erhalten, mit der Ausnahme während eines Mischungsbereiches zweier stimmhafter Intervalle, in welchem Fall er durch
209820/0499
Interpolation der jeweiligen stimmhaften Intensitäten der beiden Worte in ähnlicher Weise erhalten wird, wie dies für die Interpolation
von Formanten beschrieben worden ist.
Obwohl die oben beschriebenen Betätigungen zur Verarbeitung von Wortformantdaten zur Bildung von Wortsequenzinformationen durch
Verwendung von entsprechend geeigneten Einrichtungen und Techniken
durchgeführt werden können, beruht eine in der Praxis verwendbare Einrichtung auf der Fähigkeit eines Digitalcomputers für
hohe Verarbeitungsgeschwindigkeit. In der Praxis wurde ein digitaler
Allzweckrechner, nämlich der Honeywell DDP-516 oder GE-635 für geeignet gefunden. Diese beiden Datenverarbeitungsanlagen
und ihre Programmierungssysteme sind gleicherweise zur Aufstellung eines Programms geeignet, welches diese Anlagen von
einem Allzweckrechner in einen Spezialzweckprozessor umwandeln, so daß die Erfindung damit ausführbar wird.
Ein Flußdiagramm der Programmierungsschritte zur Umwandlung
einer derartigen Anlage in einen Spezialzweckrechner, um den Erfordernissen gemäß Erfindung zu genügen, ist in den Fig. 6A,
6B und 6C enthalten, die jeweils aneinander zufügen sind. Jeder
209820/0499
in dem Flußdiagramm dargestellte Schritt ist für sich bekannt
und kann durch einen Fachmann auf dem Gebiet des Programmierens auf ein geeignetes Programm rückgeführt werden. Die einzelnen
Unterprogramme für die Operationen der Wortlängenmodifikationen und der Überlappung sind in der Fortran IV Programmiersprache
im Anhang A und B enthalten.
Im oberen Teil der Fig. 6A ist die Speichereinheit für parametrische
Beschreibung nach Fig. 1 schematisch angedeutet, welche einen Katalog von Formant-Tonhöhe-Amplitude und Reiblautdarstellungen
für jedes der Wörter in dem Katalog enthält. Auf einen Befehl des Wortfolgeeinganges 18 werden diese Daten in das Wortverknüpfungsprozessorsystem
20 übertragen, welches durch den Rest des Flußdiagrammes dargestellt wird.
Zunächst wird die Dauer jedes Wortes in der verknüpften Folge bestimmt, wie in Block 61 angedeutet, beispielsweise durch Befragung
einer Speichertafel für Zeitablaufdaten 62 derart, wie sie in Fig. 3 und durch die Einheit 22 in Fig. 1 dargestellt sind. Wenn
eine Zeitablaufänderung notwendig ist, bestimmen Programmfeststellungen der Einheit 63» ob die im Speicher 62 gespeicherten
20S820/04S9
Daten ausreichen oder ob äußere Zeitablaufdaten von der Einheit 64 (Block 23 der Fig. 1) verwendet werden sollen. In jedem Fall
wird die Dauer jedes "kommandierten" Wortes aufgestellt und ein Wortsequenzzähler wird in der Einheit 65 durch Sätze von I » 1
gestartet.
Es ist dann notwendig, die parametrische Beschreibung des ersten Wortes in Übereinstimmung mit Zeitablaufdaten oder anderen gespeicherten
Regeln zu modifizieren. Demgemäß wird in Fig. 6B bestimmt, ob das I-te Wort mit dem(I-l)-te Wort vermischt werden
soll oder nicht. Diese Bestimmung wird durch den Block 66 dargestellt. Wenn dies nicht zutrifft, wird Information für das
I-te Wort von dem Wortkatalog 17 entnommen und die ersten 50 ms des I-ten Wortes werden durch die Einheit 67 synthetisiert. Wenn
das I-te Wort vermischt werden soll, wird das I-te Wort verlängert oder gekürzt, damit der Zeitablauf mit den zugeführten Daten
bezüglich Dauer übereinstimmen. Diese Operation findet in der Einheit 68 in Übereinstimmung mit dem Unterprogramm CRDELL
statt, welches im Anhang A aufgeführt ist.
Es wird dann überprüft, ob das I-te Wort mit dem(I+l)-ten Wort über die Schritte des Blockes 69 vermischt werden soll. Wenn
eine Vermischung stattfinden soll, werden die Operationen des
209820/0499
2115253
Blockes 70 ausgeführt, um das Ende des I-ten Wortes mit dem
Beginn des (1+1)-ten Wortes durchzuführen. Diese Operation wird in Übereinstimmung mit dem Unterprogramm INTPL durchgeführt, von dem eine Aufzeichnung im Anhang B enthalten ist. Wenn
im Block 69 bestimmt wird, daß keine Vermischung stattfinden,
soll, führen die Operationen, des Blockes 71 zu einer Synthese dfer
letzten 50 ms des I-ten Wortes unter Verwendung der/Daten für
dieses Wort aus dem Speicher 17.
In der Einheit 72 wird darat die Wortfolge des Index I auf den. letzten
Stand gebracht und in der Operation 73 bestimmt, ob der Wortfolgeindex größer als der Index des letzten Wortes, im der Eingangs:-
folge ist. Wenn er es nicht ist, wird die Steuerung auf den Block
zurückgeschaltet, und das nächste Wort wird in der bereits beschriebenen Weise zusammengesetzt. Die Operationen werden in
dieser Weise iteriert, bis der Index gleich dem Index des letzten
Wortes in der Eingangsfolge ist, zu welcher Zeit die Daten des
Blockes 73 zum Block 74 übertragen werden.
Gemäß Fig. 6C werden dann die Tonhöhendaten den Pormantdaten
überlagert und die Struktur jedes Wortes in der Äußerung in der bereits beschriebenen Weise erhalten. Diese Daten sind in dem
209820/0499
»29—
Datenspeicher 75 für Tonhöhenvariation (Speicher 24 der Fig. 1) verfügbar. Es wird dann durch die im Block 76 angedeuteten
Schritte bestimmt, ob äußere Tonhöhendaten Verwendung finden sollen. Wenn dies zutrifft, werden derartige Daten von der Einheit
77 (Einheit 25 in Fig. 1) über den Datenspeicher 75 zu den Operationen der Einheit 74 zugefügt.
Wenn die Tonhöhenkonturoperationen beendet sind, werden die gesamten
Daten in dem Wortverknüpfungsprozessor 20, wie diese durch das Programm der Fig. 6 modifiziert worden sind, beispielsweise
dem Sprachsynthetisator 26 der Fig. 1 zugeführt.
Wenn alle Steuerparameterkonturen der befohlenen Äußerung erzeugt worden sind, können sie, falls erwünscht, geglättet und die
Bandbreite auf ungefähr 16 Hz begrenzt werden. Sie werden dann zur Steuerung eines Formantsynthetisators benutzt, welcher ein
kontinuierliches Sprachausgangssignal erzeugt. Zahlreiche Systeme, sowohl analoger sowie digitaler Art, sind zur Synthetisierung
von Sprache aus Formantdaten beschrieben worden. Geeignete Synthetisatoren sind in U.S. P 3 330 910 (J. L, Flanagan), U.S. P
3 190 963 (David-Flanagan, insbes. Fig. 5) und in U.S. P 3 158
209820/0499
(Gerstman-Kelly) beschrieben. In vereinfachter Darstellung umfaßt
ein Formantsynthetisator ein System zur Erzeugung von Erregungen als eine Folge von Impulsen mit einem Abstand, der
proportional der fundamentalen Tonhöhe des gewünschten Signals ist. Die Intensität der Impulserregung wird gesteuert und das
Signal wird an eine Kaskade von unterschiedlichen Resonatoren fc angelegt.
Es genügt zu sagen, daß der Sprachsynthetisator 26 eine Wellenform
erzeugt, welche der nahekommta die für die gewünschte
Äußerung benötigt wird. Dieses Signal wird in einer beliebig gewünschten Weise verwendet, beispielsweise zur Erregung der Aus·
gangseinheit 27, die in der Form eines Lautsprechers, einer Aufzeichnungseinrichtung
oder dgl. vorliegen kann,
- Die folgenden Erläuterungen beziehen sich auf Anhang A und Bj
I Unterprogramm zur Entfernung oder Zufügung von Intervallen von 10 ms Länge, damit die Wortlänge
mit der gewünschten Länge übereinstimmt.
II Stelle den Bereich der minimalen Spektralableitung über NEL-Intervalle fest.
209Ö2ö7ö4S*
III Füge NEL-Intervalle in die Mitte des Bereichs der
minimalen spektralen Ableitung ein.
IV Suche einen derartigen Pegel der spektralen Ableitungen,
daß NEL-Intervalle diesen Pegel einnehmen oder kleiner sind.
V Entferne die Intervalle mit Spektralableitungen kleiner als dieser Pegel.
VI Unterprogramm zur Verschmelzung von Worten und Interpolation der Steuersignale.
VII Berechne die durchschnittlichen spektralen Ableitungen von beiden Wörtern über den Verschmelzungsbereich,
der aus IW-Intervallen besteht.
VIII Erhalte Startadressen der Daten für beide Wörter.
IX Verschmelze und interpoliere Steuersignale über diese
IW-Intervalle.
209820/0499
Claims (8)
- PatentansprücheVerfahren zur Synthetisierung von Sprache aus Darstellungen van individuell gesprochenen Worten, gekennzeichnet durch folgende Schritte:a) Bildung parametrischer1 Darstellungen (z„ B. Foriaaiitfreqittenzen,, , Tonhöhe, Pol)*· und Nullfrequenzeni stimmloser lüaute}Γ jeden Wortes in einer ausgewählten! Gruppe von gesprochene«Wörtern, die eine vollständige Nachricht bilden;b) Entwickeln eines vollständigen Überganges zwischen den Wörtern einer vollständigen Nachricht in Abhängigkeit der parametrischen Darstellungen jeden gesprochenen Wortes;c) Kombinationen des Ergebnisses des Schrittes a) und b) an die ausgewählte und an ein Spraehsynthesegerät zu übertragende Nachricht.
- 2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1, bei welcher ein erster Eingang von einem Sprachanalysator Darstellungen von individuell gesprochenen Worten empfängt, die zusammengesetzt werden sollen, ein zweiter Eingang Signale empfängt, die eine spezielle, zu synthetisierende Nachricht darstellen,209820/0499und «ein Ausgang zu einem Sprachsynthesegerät vorgesehen ist, dadurch gekennzeichnet, daß der erste Eingang (z.B. von 17) parametrisehe Darstellungen von individuellen Wörtern liefert und die Einrichtung (z.B. 20) ferner einen Prozessor (z.B. 21) aufweist, der mit dem ersten Eingang (z.B. von 17), dem zweiten Eingang {z.B. von 18) und dem Ausgang zu dem Synthesegerät (z.B. 26) zur Kombination der parametrischen Darstellungen entsprechend den Wörtern der zu synthetisierenden Nachricht verbunden ist, und daß der Prozessor zur Bildung geeigneter Übergänge zwischen den Wörtern dient, die in Abhängigkeit von den parametri· sehen Darstellungen der Wörter kombiniert werden.
- 3. Anordnung nach Anspruch 2, gekennzeichnet durch eine Zeitablauf-Einstelleinrichtung (z.B. 22, 23) zur Modifizierung des Zeitablaufes der zu synthetisierenden Wörter in Übereinstimmung mit der Syntax der Nachricht, in welcher sie vorkommen.
- 4. Anordnung nach einem der Ansprüche 1-3, gekennzeichnet durch eine Tonhöheneinstelleinrichtung (z.B. 24, 25) zur Änderung der Tonhöhe der zu synthetisierenden Wörter in Übereinstimmung mit einer vorgeschriebenen Kontur der Nachricht, in welcher sie vorkommen.209820/0499
- 5. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (z.B. 21) weiterhin zur Änderung der Dauer der parametrischen Darstellungen von einem ersten Eingang (z. B. 17) dient, indem er Unterintervalle jedes gesprochenen Wortes, typischerweise 10 ms, an einer solchen Stelle einfügt oder abzieht, an welcher die Änderungsgeschwindigkeit einer Formantkontur am kleinsten ist.
- 6. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (z.B. 21) einen phonetisch realistischen Übergang zwischen den miteinander zu kombinierenden Wörtern bildet, indem eine parametrische Darstellung des Übergangs zwischen gesprochenen Wortbereichen entwickelt wird, und zwar für ungefähr die letzten 100 ms des ersten von den beiden miteinander zu verschmelzenden Worten und für ungefähr die ersten 100 ms des zweitenw der beiden miteinander zu verschmelzenden Worten.
- 7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß die Geschwindigkeit des Übergangs zwischen den beiden zu verschmelzenden Wörtern proportional dem Durchschnitt der Spaktralablei- / tungen der beiden Wörter ist.20982Ö/04S*
- 8. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß die Zeitablaufeinstelleinrichtung (z. B. 22, 23) eine Liste der Dauer von Worten als Funktion der Lage in einer speziellen Nachricht und als Funktion der Anzahl der Phoneme pro Wort enthält.209820/0499
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US00085660A US3828132A (en) | 1970-10-30 | 1970-10-30 | Speech synthesis by concatenation of formant encoded words |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2115258A1 true DE2115258A1 (de) | 1972-05-10 |
DE2115258B2 DE2115258B2 (de) | 1973-06-07 |
DE2115258C3 DE2115258C3 (de) | 1974-01-24 |
Family
ID=22193116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2115258A Expired DE2115258C3 (de) | 1970-10-30 | 1971-03-30 | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern |
Country Status (4)
Country | Link |
---|---|
US (1) | US3828132A (de) |
JP (1) | JPS539041B1 (de) |
CA (1) | CA941968A (de) |
DE (1) | DE2115258C3 (de) |
Families Citing this family (181)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4144582A (en) * | 1970-12-28 | 1979-03-13 | Hyatt Gilbert P | Voice signal processing system |
US4060848A (en) * | 1970-12-28 | 1977-11-29 | Gilbert Peter Hyatt | Electronic calculator system having audio messages for operator interaction |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
GB1541429A (en) * | 1975-12-19 | 1979-02-28 | Int Computers Ltd | Speech synthesising apparatus |
US4384170A (en) * | 1977-01-21 | 1983-05-17 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
US4210781A (en) * | 1977-12-16 | 1980-07-01 | Sanyo Electric Co., Ltd. | Sound synthesizing apparatus |
US4163120A (en) * | 1978-04-06 | 1979-07-31 | Bell Telephone Laboratories, Incorporated | Voice synthesizer |
GB2020077B (en) * | 1978-04-28 | 1983-01-12 | Texas Instruments Inc | Learning aid or game having miniature electronic speech synthesizer chip |
US4304965A (en) * | 1979-05-29 | 1981-12-08 | Texas Instruments Incorporated | Data converter for a speech synthesizer |
US4455551A (en) * | 1980-01-08 | 1984-06-19 | Lemelson Jerome H | Synthetic speech communicating system and method |
US4559602A (en) * | 1983-01-27 | 1985-12-17 | Bates Jr John K | Signal processing and synthesizing method and apparatus |
US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US6792615B1 (en) * | 1999-05-19 | 2004-09-14 | New Horizons Telecasting, Inc. | Encapsulated, streaming media automation and distribution system |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10048069A1 (de) * | 2000-09-28 | 2002-04-25 | Global Language Comm Systems E | Elektronische Textübertragungsvorrichtung |
US20020123130A1 (en) * | 2001-03-01 | 2002-09-05 | Cheung Ling Y. | Methods and compositions for degrading polymeric compounds |
US6915261B2 (en) * | 2001-03-16 | 2005-07-05 | Intel Corporation | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8229086B2 (en) | 2003-04-01 | 2012-07-24 | Silent Communication Ltd | Apparatus, system and method for providing silently selectable audible communication |
US7409347B1 (en) | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
US7643990B1 (en) | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8229409B2 (en) | 2007-02-22 | 2012-07-24 | Silent Communication Ltd. | System and method for telephone communication |
US8494490B2 (en) | 2009-05-11 | 2013-07-23 | Silent Communicatin Ltd. | Method, circuit, system and application for providing messaging services |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7895041B2 (en) * | 2007-04-27 | 2011-02-22 | Dickson Craig B | Text to speech interactive voice response system |
JP4469883B2 (ja) * | 2007-08-17 | 2010-06-02 | 株式会社東芝 | 音声合成方法及びその装置 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
JP2016508007A (ja) | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | デジタルアシスタントのためのボイストリガ |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN112230878A (zh) | 2013-03-15 | 2021-01-15 | 苹果公司 | 对中断进行上下文相关处理 |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9756185B1 (en) * | 2014-11-10 | 2017-09-05 | Teton1, Llc | System for automated call analysis using context specific lexicon |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10915227B1 (en) | 2019-08-07 | 2021-02-09 | Bank Of America Corporation | System for adjustment of resource allocation based on multi-channel inputs |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2860187A (en) * | 1955-12-08 | 1958-11-11 | Bell Telephone Labor Inc | Artificial reconstruction of speech |
US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3319002A (en) * | 1963-05-24 | 1967-05-09 | Clerk Joseph L De | Electronic formant speech synthesizer |
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
GB1225142A (de) * | 1967-11-29 | 1971-03-17 | ||
US3588353A (en) * | 1968-02-26 | 1971-06-28 | Rca Corp | Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition |
-
1970
- 1970-10-30 US US00085660A patent/US3828132A/en not_active Expired - Lifetime
-
1971
- 1971-03-09 CA CA107,266A patent/CA941968A/en not_active Expired
- 1971-03-30 DE DE2115258A patent/DE2115258C3/de not_active Expired
- 1971-04-01 JP JP1928771A patent/JPS539041B1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE2115258B2 (de) | 1973-06-07 |
CA941968A (en) | 1974-02-12 |
DE2115258C3 (de) | 1974-01-24 |
US3828132A (en) | 1974-08-06 |
JPS539041B1 (de) | 1978-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE3244476C2 (de) | ||
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE60216651T2 (de) | Vorrichtung zur Sprachsynthese | |
DE3036680A1 (de) | Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit | |
DE69627865T2 (de) | Sprachsynthesizer mit einer datenbank für akustische elemente | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE3019823C2 (de) | ||
DE60202161T2 (de) | Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache | |
DE60205421T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
DE4033350B4 (de) | Verfahren und Vorrichtung für die Sprachverarbeitung | |
DE69723930T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu | |
DE2513127C2 (de) | Verfahren zum künstlichen Erzeugen eines musikalischen Klangs | |
DE1811040A1 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
EP1110203B1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE60316678T2 (de) | Verfahren zum synthetisieren von sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 |