DE2115258C3 - Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern - Google Patents
Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen WörternInfo
- Publication number
- DE2115258C3 DE2115258C3 DE2115258A DE2115258A DE2115258C3 DE 2115258 C3 DE2115258 C3 DE 2115258C3 DE 2115258 A DE2115258 A DE 2115258A DE 2115258 A DE2115258 A DE 2115258A DE 2115258 C3 DE2115258 C3 DE 2115258C3
- Authority
- DE
- Germany
- Prior art keywords
- word
- words
- message
- data
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Description
Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese aus Darstellungen von individuell
gesprochenen Wörtern, bei dem parametrische Darstellungen (z. B. Forrnantfrequenzen, Amplitude,
Tonhöhe, Pol- und Nullfrequenzen stimmloser Laute) jedes Wortes in einer ausgewählten Gruppe
von eine vollständige Nachricht bildenden Wörtern entwickelt werden. Ferner bezieht sich die Erfindung
auf eine Anordnung zur Durchführung dieses Verfahrens.
Seit kurzem werden viele Anstrengungen zur Erzeugung von künstlicher Sprache aus Daten, die
einem Digitalrechner zugeführt oder in diesem gespeichert werden, unternommen. Nachrichten aus
künstlich erzeugter Sprache werden beispielsweise in telefonischen automatischen Abhör- und Informationssystemen,
in automatischen Bestandsberichten, für Wettervorhersagen und für die mündliche Wiedergabe der Börsennotierungen benutzt. In jeder
dieser Anwendungen wird eine Anfrage an ein System gestellt, das System antwortet auf die Anfrage,
entwickelt die erforderliche Antwort und ruft
6£ eine gespeicherte Anzahl von gesprochenen Sprachdaten
ab, um eine entsprechende Information zu formulieren, welche einem Sprachsynthetisator zugeführt
wird. Die Antwort auf die Frage wird ge-
gebenenfalls in Form einer vollständig Besprochenen Äußerung wiedergegeben.
Für einen derartigen Dienst muH.das System offenbar esn großes und flexibles Vokabular hesitzen
Das System muß daher beträchtliche Mengen von Sprachinformationen speichern, und es muß die Information
in einer solchen Form zur Verfugung haben, daß eine Vielzahl von Nachrichten erzeugt
werden kann. Von dem System erzeugte Sprache sollte so verständlich sein wie natürliche Sprache.
Es besteht sogar die Möglichkeit, daß die künstliche Sprache verständlicher ist als natürliche Sprache. Sie
muß jedoch nicht wie die eines bestimmten Menschen klingen, und es ist sogar möglich, daß sie einen
Maschinenakzent besitzt.
Eine Technik zur Synthese von Nachrichten besteht darin, individuell gesprochene Wörter zu speichern
und die Wörter in Übereinstimmung mit der gewünschten Nachricht für einen Ausgang auszuwählen
(USA.-Patentschrift 3 209014). In dieser Weise zusammengefügte Wörter führen zu verständlicher,
aber in hohem Maße unnatürlich klinsendcr Sprache. Eine Schwierigkeit besteht darin, daßWortschwingungen
nicht leicht bezüglich ihrer Länge eingestellt werden können. Auch ist es schwierig, gleitende
Übergänge von einem Wort zum nächsten durchzuführen. Derartige Systeme sind jedoch
relativ einfach gerätemäßig aufzubauen und bieten einen relativ großen Wortschatz mit einfachen Speichermitteln.
Um einige der. Schwierigkeiten bei der Speicherung
von Wörtern zu vermeiden und um die Speicherkapazität für eine vernünftige Vielfalt von Nachrichtenantworten
zu verringern, können individuell gesprochene Laute in der Form von Phonem-Aufzeichnungen
gespeichert werden. Derartige Aufzeichnungen können aus dem Speicher in Übereinstimmung
m.w den Wort- und Nachrichtenzusammenfügungsregein
abgerufen, werden und zum Betrieb eines Sprachsynthetisators verwendet werden. Leider
ist die Sprache auf der akustischen Ebene nicht besonders verständlich. Artikulationen von benachoarten
Phonemen machen sich bemerkbar, und die Übergangsvorgänge des Voka'lraktes in der Erzeugung
eines Phonems dauern langer als die durchschnittliche Dauer eines Phonems. Dies bedeutet,
daß sich die artikulatorischen Gesten überschneiden und einander überlagern. Daher sind die Übergangsbewegungen des Vokaltraktes besonders wichtig.
Darüber hinaus ist viel Information über die Identität eines Konsonanten nicht durch die spektrale
Gestalt im Dauerzustand des Konsonanten, sondern durch die dynamischen gegenseitigen Beeinflussungen
benachbarter Phoneme gegeben.
Die Sprachsynthese ist daher sehr stark mit dynamischen Vorgängen befaßt. Ein Synthetisator muß
nicht nur die Charakteristika von Lauten wiedergeben,
welche dem Ideal jedes Phonems möglichst nahekommen, sondern auch die dynamischen Vorgänge
des Vokaltraktes, wenn von einem zum anderen Phonem fortgeschritten wird. Diese Tatsache
wirft ein Licht auf den Unterschied zwischen der Sprachsynthese aus gespeicherten Wörtern oder
Sätzen und der Synthese aus elementareren Sprecheinheiten. Wenn der Schatz der Sprachelemente eine
kleine Anzahl kurzer Einheiten ist, beispielsweise Phoneme, kommen die Verbindungsverfahren der
KomDliziertheit des Vokaltraktes nahe. Umgekehrt,
wenn der Schatz der Sprachelemente eine wesentlich größere Anzahl von längeren Sprachausschnitten isi.
beispielsweise Worten oder Sätzen, können die Elemente an Nachrichtenstellen zusammengeknüpft werden,
wo der Aufwand für die Übergänge minimal ist. Obwohl die Synthese von Phonemen daher erstrebenswert
und manches Mal auch passend ist, führen die Zwischenschritte der Zusammenfügung von
elementaren Sprachaufzeichnungen in Worte und
ίο Worte in Nachrichten entsprechend vorgeschriebenen
Regeln zu einem komplizierten Gerät, und es wird bestenfalls mechanisch klingende Sprache erhalten.
Der Erfindung liegt die Aufgabe zugrunde, ein
Verfahren zur Sprachsynthese anzugeben, das von der Speicherung individuell gesprochener Wörter
ausgeht und diese zu möglichst verständlich und natürlich klingenden Sätzen zusammenfügt. Die gestellte
Aufgabe wird, ausgehend von einem Verfahren der eingangs angegebenen '-.rt, erlindungsgemiiß
dadurch gelöst, daß jedes zu synthetisierende Wort in vorgewählte Unterintervalle eines stimmhaften
Lauts zur Entwicklung der die Änderunj.jgeschwindigkeit
einer Formantkontur des Unterintervalls darstellenden Spektralablcitung für jedes Untcrintervall
unterteilt und die Länge eines Worts nur dann geändert wird, wenn der kleinste Spektralableitungswert
in Abhängigkeit von einer abgeleiteten Silben-Zeitkontur für die zu s\nthetisieiendc Nachricht gcfunden
wird, und daß ein geeigneter Übergang zwischen den Wörtern der vollständigen Nachricht dadurch
entwickelt wird, daß eine gleitende Interpolationskurve über den Grenzen benachbarter, zu
synthetisierender Wörter vor deren Übertragung zu einem Synthesegerät aus den zuvor entwickelten
Spektralableitungen abgeleitet wird.
Weitere Einzelheiten der Erfindung werden an Hand eines Ausführungsbeispieles besprochen. Dabei
zeigt
Fig. 1 eine Anordnung gemäß der Erfindung zur
Synthese aus Worten auf Kommando,
Fig. 2 die Art der Überlappung individueller Wortfoimanten in Übereinstimmung mit der Erfindung
für vier verschiedene Wortkombinationen.
F i g. 3 Zeitdaten zur Verwendung bei der Verarbeitung
von Formantdaten,
Fig. 4 die Verarbeitung von stimmhaften Formantdaten für individuelle Wörter, um eine zusammengekettete
Formantstruktur zu erzeugen, die zur Betätigung eines Sprechsynthetisators dient,
F i g. 5 die Verarbeitung von sowohl stimmhaften als auch Reiblautformantdaten für individuelle Wörter
zur Erzeugung einer zusammengekcttcncn Formantstruktur,
die zur Betätigung eines Sprachsynthetisators dient, und
Fig. 6A. 6B und 6C ein Flußdiagramm der Betätigungen
entsprechend der Erfindung zur Verarbeitung parametrischer Daten und zur Verknüpfung
dieser Daten zur Erzeugung eines vollständigen
Satzes von Steuersignalen zur Betätigung eines Formantsprachsynthetisaiors.
Bei dem Verfahren gemäß der Erfindung werden Darstellungen von gesprochenen Wörtern oder Sätzen
in Ausdrücken von individuellen Formanten und anderen sprachdefinierenden Charakteristiken in an
sich bekannter Weise gespeichert. Formanten sind die natürlichen Resonanzen des Vokaitraktes, und
sie nehmen unterschiedliche Frequenzwerte an, wenn
der Vokaltrakt seine Gestalt während des Sprechens
ändert. Typischcnvcisc treten drei derartige Resonanzen in dem Frequenzbereich auf, der für die Verständlichkeit
wichtig ist, nämlich zwischen 0 und 3 kHz. Die Darstellung der Sprachwelle als ein Satz
von sich langsam ändernden Anregungsparametern und Vokaltraklresonanzcn ist aus mindestens zwei
Gründen vorzüglich geeignet. Erstens ist diese Darstellung für Datenspeicherzwecke geeigneter als bei-
dem Stand derTcchnik bekannt. Im wesentlichen weist der Analysator 12 mehrere individuelle Kanäle auf,
nämlich cinin Analysator 13 zur Identifizierung von Formantfrequenzen F1, F2, F3 (für stimmhafte
Laute), einen Analysator 14 zur Ableitung eines Tonhöhcnperiodensignals P, einen Analysator 15 zur
Ableitung von Pegelstcucrsignalen für Summen Av
und für Zischen An und einen Analysator 16 zur Ableitung von Pol- und Null-Signalen F,. und F2
spiclswcise eine Darstellung der Sprachwellenform io für Reiblaule bzw. stimmlose Sprachteile.
in Impulscodemodulation, zweitens erlaubt die Formant-Darstellung
eine Flexibilität in der Handhabung der Sprachsignale zur Verknüpfung von Wörtern oder Sätzen.
erzeugen, der in Ausdrucken von Formantfrequenzen gespeichert wird. In der Formant-Darstellung einer
Äußerung können Formantfrequenzen, Stimmhöhe,
Eingangsbefehl
Ein von dem Worlfolgeeingang 18 stammender Eingangs1, «fehl veranlaßt die notwendigen Betätigungen
zur Synthese einer Nachricht, die aus Wörtern des Katalogs 17 zusammengesetzt wird. Die genaue
Form de* Eingänge* 18 hängt von der speziellen An
ändern.
Auf einen Programmbefehl werden Wortlangenformantdaten
abgerufen und miteinander verknüpft,
Diese Werte der Steuerparameter werden an die Speichereinheit 17 für parametrische Beschreibung
geliefert, welche eine beliebige Form aufweisen kann. Sowohl analoge als auch digitale Speicher, zu denen
Daher werden individuelle, natürlich gesprochene, 15 Befehlszugriff besteht, sind gemäß dem Stand der
isolierte Worte analysiert, um einen Wortschatz zu Technik bekannt. Wenn der Speicher 17 gefüllt ist,
enthält er einen Wurtkatalog, zu dem von dem Wortverknüpfungsteil
des Systems Zugang besteht. Die in dem Katalog 17 enthaltenen parametrischer! Werte
Amplitude und Zeitdauer jeweils unabhängig von- jo können von Zeit zu Zeit durch Zufügung neuer Wöreinander
gehandhabt werden. Daher kann bei der ter oder Wegfall revidiert werden. Synthese einer Äußerung eine künstliche Tonhöhenkontur,
d. h. der Zeitverlauf der betreffenden Parameter an Stelle der natürlichen Kontur, gesetzt werden.
Ein andauernder Ton kann verlängert oder ge- as
kürzt werden, und selbst eine ganze Äußerung kann
beschleunigt oder verlangsamt werden, ohne größeren oder überhaupt ohne Verlust an Verständlichkeit Formanten können lokal verzerrt werden, und
kürzt werden, und selbst eine ganze Äußerung kann
beschleunigt oder verlangsamt werden, ohne größeren oder überhaupt ohne Verlust an Verständlichkeit Formanten können lokal verzerrt werden, und
die gesamte Formantkontur kann gleichmäßig ge- 30 wendung des Wortsynthesesystems ab. Typischerhoben
oder gesenkt werden, um die Stimmqualität zu weise liegt eine Anfrage bestimmter Form an dem
durch die Einheit 18 verkörperten System an, die notwendigen Daten für eine Antwort werden formuliert,
und die geeigneten Wortdarstellungen für die
um die vollständigen Formantfunktionen für die "ge- 35 Antwort, beispielsweise in der englischen Sprache,
wünschte Äußerung zu oilden. Die Formantfunk- werden in Codesprache zusammengesetzt und an das
tionen werden in Übereinstimmung mit spektralen Synthesesystem als Ausgangssignal der Einheit 18
Ableitungen interpoliert, um Konturen aufzustellen, geliefert. Derartige Antworteinheiten gehören dem
welche sanfte Übergänge zwischen den Wörtern be- Stand der Technik an und werden in zahlreichen
stimmen. Sprachkontur- und Wortdauerdaten werden 40 Patenten und Aufsätzen beschrieben. Das von einer
entsprechend eingespeicherten Regeln berechnet. Im derartigen Antworteinheit gelieferte Ausg:angssignal
Anschluß an die notwendige Verarbeitung und Inter- kann daher in der Form von maschinencodierter
polation werden verknüpfte Formantfunktionen zur Sprache, Phonemen oder anderen Sprachsymbolen
Synthese einer Wellenform benutzt, welche einer na- od. dgl. vorliegen. In welcher Form auch das Austürlich
gesprochenen Nachricht ziemlich nahekommt. 45 gangssignal vorliegt, es wird in Übereinstimmung mit
Ah zusätzlicher Vorteil kommt man mit wenig Spei- der Erfindung dem Wortverarbeitungssystern 20 zucherraum
aus, weil die Formant- und Anregungsparameter sicji relativ langsam ändern und durch
weniger Binärzahlen (Bits) pro Sekunde beschrieben
werden können, als beispielsweise die Sprach-Wellen- 50
form.
weniger Binärzahlen (Bits) pro Sekunde beschrieben
werden können, als beispielsweise die Sprach-Wellen- 50
form.
Ein System zur Synthese von Sprache durch Verknüpfung von in Formantform codierten Wörtern in
Übereinstimmung mit der Erfindung ist schematisch
in F i g. 1 dargestellt. Isolierte, von einem mensch- 55 Prozessor 20 wendet gemäß Erfindung un terschied liehen Wesen gesprochene Wörter werden analysiert, liehe Strategien zur Behandlung der »Ausschnitts« um die zur Synthese erforderlichen Parameter ab- Merkmale der Nachricht an, beispielsweise Formant zuschätzen. Diese natürlich gesprochenen, isolierten frequenzen. Pol- und Nullfrequenzen und Ampli Wörter können entweder im Studio erzeugt oder auf- tuden für stimmlose Laute und die »Silben«-Merk gezeichnete Worte sein und werden in dem System 60 male, beispielsweise Zeitablauf und Tonhöhe. Di 10 zur Verfügung gestellt und, falls erwünscht, im Programmstrategie zur Behandlung der Ausschnitts
Übereinstimmung mit der Erfindung ist schematisch
in F i g. 1 dargestellt. Isolierte, von einem mensch- 55 Prozessor 20 wendet gemäß Erfindung un terschied liehen Wesen gesprochene Wörter werden analysiert, liehe Strategien zur Behandlung der »Ausschnitts« um die zur Synthese erforderlichen Parameter ab- Merkmale der Nachricht an, beispielsweise Formant zuschätzen. Diese natürlich gesprochenen, isolierten frequenzen. Pol- und Nullfrequenzen und Ampli Wörter können entweder im Studio erzeugt oder auf- tuden für stimmlose Laute und die »Silben«-Merk gezeichnete Worte sein und werden in dem System 60 male, beispielsweise Zeitablauf und Tonhöhe. Di 10 zur Verfügung gestellt und, falls erwünscht, im Programmstrategie zur Behandlung der Ausschnitts
geführt, worin die erforderlichen Wortdaten zusammengefügt,
verarbeitet und an einen Sprachsynthetisator 26 geliefert werden.
Die Erzeugung einer aus Wörtern zusammengesetzten Nachricht, wobei die Wörter aus dei
Speichereinheit 17 stammen, macht die Erzeugunt von Zeitkonturen, Tonhöhenkonturen sowie vor
Formant- und Amplitudenkonturen erforderlich. De·
Umsetzer 11 in digitale Form gebracht. Die in welcher
Form auch immer vorliegenden individuellen Wörter werden dem Sprachanalysator 12 zugeführt,
worin individuelle Formanten, Amplituden, Tonhöhen-Periode-Bestimmungen
und Reiblaut-Pol- und Null-Merkmale gemäß Nyquist-Zahl abgeleitet
werden. Geeignete Sprachanalysatoren sind gemäß
oder Teilmerkmale ist in dem Prozessor selbst ge speichert. Das Merkmal bezüglich Sübeninibrmatioi
welches zur Verarbeitung benötigt wird, wird en weder im Prozessor 20 abgeleitet oder diesem zi
geführt. Diese Flexibilität in der Verarbeitung ve Sprache, welche.formantweise codiert ist, ertaubt d
Aufteilung der Syntheseprobleme in zwei Teile.
Zeitablaufinformation kann in einem von unterschiedlichen Wegen abgeleitet werden. Für Anwendungen niU beschränktem Wortschatz, beispielsweise
automatischen Abhördiensten, müssen die Zeitablaufregeln nicht komplizierter sein als eine Tabelle
mit Wortlängen als Funktion der Lage in einer Reihe von Daten und als Funktion der Anzahl der Phoneme pro Wort. Zettablauf-Daten für eine sieben-
stellige Digit-Reihe sind in der Tabelle der F i g. 3 dargestellt und werden normalerweise in der Zeitablaufeinheit 22 gespeichert. Bei ausgeklügelten Anwendungen wird die Wortdauer durch Regeln bestimmt, welche die Syntax der speziellen, zu produzierenden Nachricht berücksichtigen, d. h. Regeln,
die beispielsweise auf Modellen der englischen Sprache beruhen. Derartige Daten werden auch ini
dem Zeitablaufspeicher 22 gespeichert. Es ist auch
Es ist auch möglich, die Tonhöhenkonturinformation über Regeln zu berechnen. Daher gibt es viele Wege,
die Silbeninformation für eine Nachricht zu erhalten, und die Wahl hängt stark von der erwünschten
Qualität der künstlichen Sprache und der speziellen vorgesehenen Anwendung ab.
Sobald das Zeitablaufmuster der Nachricht aufgestellt ist, können isolierte Wörter aus dem Wortkatalog 17 herausgezogen werden und entsprechend
dem jeweiligen Zeitablauf verändert werden. In diesem Sinne können Formantdaten eines Wortes in
dem Katalog entweder gestreckt oder verkürzt werden. Die Formantkonturen oder -umrisse für aufeinanderfolgende stimmhafte Worte werden glatt
miteinander verbunden und bilden durchgehende Übergänge und kontinuierliche Formantkonturen für
möglich, die Dauer jedes zu synthetisierenden Wortes! »o die Nachricht. Die Wahl der Stelle in einem Wort
in der Eingangsreihe aus äußeren Zeitablaufdaten zur Änderung der Dauer basiert auf den dynavon der Einheit 23 festzulegen. In diesem Fall wirdl mischen Veränderungen der Formantkonturen. Für
die Wortdauer entsprechend beispielsweise einigen jedes Unterintervall eines stimmhaften Lautes,
äußeren Kriterien oder von einem Meßergebnis einer typischerweise 10 ms in der Dauer, wird ein Maß
natürlich gesprochenen Version der zu synthetisier as der Änderungsgeschwindigkeit der Formantkontur
renden Nachricht gewählt und braucht nicht not- in dem Prozessor 21 errechnet. Dieses Maß wird als
wendig eine typische Dauer dieses Wortes zu sein, »spektrale Ableitung« bezeichnet. Stellen eines Worunabhängig vom Zusammenhang. Daher können tes, wo die spektrale Ableitung klein ist, sind Stellen,
äußere Zeitablaufdaten von äußeren Speichern zu- an denen das Wort mit der geringsten Einwirkung
geführt werden oder von Realzeiteinstellungen, die 30 bezüglich Wortverständlichkeit gekürzt oder gedehnt
während der Synthese gemacht werden. werden kann. Um daher ein Wort um einen ge
gebenen Betrag zu verkürzen, wird eine geeignete
der kleinsten spektralen Ableitungen abgezogen. Um
Die Synthese macht auch die Bestimmung der ge- 35 ein Wort auszudehnen, wird der Bereich der geeigneten Tonhöhenkontur, d. h. die Tonhöhen- ringsten spektralen Ableitung durch Hinzufügung
periode als Funktion der Zeit, für die zusammenzusetzende Nachricht erforderlich. Tonhöheninfoirmation kann auf verschiedenen Wegen erhalten
werden. Beispielsweise kann der Tonhöhencharakter 40
der ursprünglichen Folge der gesprochenen Worte
gemessen werden. Alternativ kann eine monotone
oder willkürlich geformte Kontur verwendet werden.
In der Praxis jedoch haben diese beiden Möglichkeiten zu nicht annehmbaren, unnatürlichen Ergell>- 45
nissen geführt. Deshalb wird gemäß der Erfindung
eine zeitablaufnormalisierte Tonhöhenkontur verwendet, die in der Einheit 24 gespeichert wird, und
diese Tonhöhe wird in Übereinstimmung mit den
Wortteilen gemäß Zeitablaufregeln verändert. Daher 50 Zeitintervall. Um zu bestimmen, wie viele Intervalle
werden die in der Einheit 24 gespeicherten Ton- von 10 ms zu den isolierten Wortbefehlsignalen hinhöhen-Daten dem Verknüpfungsprozessor 21 zu- zugefügt (oder subtrahiert) werden müssen, wird
geführt, wo die Kontur örtlich gedehnt- oder verkürzt e'ne Gleichung verwendet, die auf der gewünschter
wird, wie dies durch den speziellen Äußerungsablauf, Wortlänge, der isolierten Wortlänge und einigen
geliefert durch die Zeitablaufdaten, gefordert wird. 55 einfachen Verknüpfungsinfonnationen bezüglich dei
Falls gewünscht, können Tonhöhenänderungsdaten Verknüpfung des betreffenden Wortes mit den vorvon der äußeren Quelle 25 zugeführt werden, ent- und nachfolgenden Nachbarwörtern beruht. Im folweder in der Form von Hilfsspeicherdaten oder als genden werden Symboldefinitionen gegeben:
Realzeitemgangsdaten. Beispielsweise kann eine
Tonhöhenkontur verwendet werden, die von einer 60
natürlich gesprochenen Version der Nachricht
einer geeigneten Anzahl von Intervallen von 10 ms
gedehnt. Stimmlose Bereiche von Wörtern werden niemals modifiziert.
In der Praxis wird das Maß der spektralen Ableitung SDj nach folgender Formel berechnet:
SD1= 2) IF,(Q -F1(I-I)I,
hierbei ist i (1, 2 ...) das i-te Intervall von 10ms
und Fj(i) der Wert des /-ten Formanten in dem i-ten
lpt1 —
stammt. Derartige Daten werden normalerweise
dann verwendet, wenn die Dauer der Wörter in ähnlicher Weise gewonnen worden ist, beispielsweise
von der äußeren Zeitablauf einhejaf 23.
Tonhöhen- und Zeitinformation, die in diester Weise von außen zugeführt werden, fuhren zu der
am .natürlichsten klingenden künstlichen Sprache.
wenn das Ende des vorhergehender Wortes stimmhaft ist und der Beginn de;
laufenden Wortes ebenfalls stimmhaft ist
JNM
0 im anderen Fall,
l,wena das Ende des laufenden Worte stimmhaft ist und der Beginn des folgen
den Wortes ebenfalls stimmhaft ist,
0 im anderen Fall,
sprochen, . n0 = Anfangsintervall des Vermischungs-
menhang gesprochen (gemäß Zeitablauf- F,(,) = Wert des Formanten / der Nachnchten-
reeeln), kontur zur Zeit / während des Ver-
„ in .· mischungsbereiches I = 0, 1 . .. 9.
W',· — Anzahl von Intervallen von 10 ms, die
addiert werden müssen, wenn Wc
> 0 jjs wird folgende Interpolations-Funktion benutzt:
(oder substrahiert werden müssen, wenn
Wc<0)'
=
F^!a±i):^^:^±F^)±wi
INM)· (2) (3)
[NM — 1, dies bedeutet, daß die beiden Wörter all- ,|as Wort jt (Λ = 1 bedeutet das laufende
mählich miteinander veimischt werden müssen und Wort k = 2 das folgende Wort),
sich um 100 ms überlappen. Dieser Bereich von
100 ms wird von beiden Wörtern eingenommen, da- »°
her werden 50 ms (5 Intervalle) jedem Wort getrennt Formant-Interpolation
in Ausdrücken des Gesamtzeitablaufes zugeteilt. Die .......
Intervalle von 10 ms hinzugefügt oder entfernt wer- fache Fälle in Übereinstimmung mit obigen Betrat.iden beruht ganz auf der Messung der spektralen »5 hingen dar. Obwohl alle drei Formanten eines Lr,-.i-Abl'eituneen Wie zuvor angeführt, wird die spektrale tes interpoliert werden, wird zum Zwecke der Ver-Ableitune für jedes stimmhafte Intervall von 10 ms einfachung der Darstellung nur ein Formant t -eines isolierten Wortes berechnet. Um ein Wort zu trachtet. Für die Wörter in Spalte 1 zeigt das Wort I
verkürzen werden die lfKc-Intervalle mit den klein- (das oberste Spektrum) eine sehr kleine Änderung -m
sten spektralen Ableitungen entfernt. Um ein Wort 30 den letzten 100 ms auf, während das Wort 2 (mmauszudehnen wird der Bereich des Wortes mit den leres Spektrum) eine große Änderung wiedergib;.
kleinsten spektralen Ableitungen festgestellt, und Die interpolierte Kurve ist unten in der ersten Spa>
:e HVIntervalle werden in der Mitte dieses Bereiches dargestellt und beginnt mit den Formanten cks
hinzugefügt Jedem der »^-Intervalle werden die Wortes 1, macht einen raschen Übergang und folgt
Steuerparameter der Mitte des Intervalls, d.h. ein 35 den Formanten des Wortes 2. Die Spalte 2 zeigt eine
gleichbleibender Zustandsbereich von »Vlnter- umgekehrte Situation; das Wort 2 zeigt eine kleine
vallpn hinzueefüet Spektrumänderung, während das Wort 1 eine große
vanen, ninzugCiuKi. Spektrumänderung aufweist. Die interpolierte Kurve
folgt daher den Formanten des Wortes 1 im Groß-
führt den Übergang zu den Formanten des Wortes 2
fenden Wortes und der Beginn des folgenden Wortes Spalten 3 und 4 zeigen Beispiele, bei welchen die
stimmhaft sind werden die Steuerdaten wortweise Spektrumänderungen in beiden Worten im großer
aneinanderstoßend zusammengestellt. Wenn das 45 und ganzen die gleichen sind. Wenn sie, wie ir
nächsten Wortes ebenfalls stimmhaft ist, wird ein im wesentlichen linear. Wenn sie, wie in Spalte A
allmählicher Übergang von den Formanten am Ende groß sind, versucht die Interpolationskurve den For
des einen Wortes zum Beginn des nächsten Wortes manten des ersten Wortes in der einen Hälfte de:
gemacht Dieser Übergang wird beispielsweiseüber 50 Überlappungsbereiches und den Formanten de:
die letzten lÖOna des ersten Wortes und die ersten zweiten Wortes für die andere Hälfte des Über
üiim&ideninesEeschwindigkeit der beiden Worte in den Formanten des Wortes 1 (des laufenden Wortes
demüberaanebereichab- 55 und endigt mit den Formanten des Wortes 2 (de
sehr stark von den durchschnittlichen spektralen Ab- Formanten des ersten Wortes zu denen des zweite
leituneen der beiden Wörter in dem Übergangsbe- Wortes durchführt, wird durch die durchschnitt
rXh ahhäneen Die spektralen Ableitungssymbole 60 liehen spektralen Ableitungen 37JI und SZJZ b«
«»«A»n»£fnTetdefiniert- stimmt. Im Beispiel der Spalte 1 ist die spektral
werden wie folgt definiert. Ableitung des zweiten Wort« viel größer akdie dt
^+9 ersten Wortes, so daß der Übergang rasch mit dei
52JT= V SDl1,
Beginn des Überlappungsbereiches durchgefuh
i~£i*
65 wird. Im Beispiel der zweiten Spalte ist die spektral
_ ^ cn 2 Übergang am Ende des Überlappungsbereichi
^i rasch durchgeführt wird. Wie zuvor angedeutet, sin
11 ° 12
die spektralen Ableitungen für beide Wörter in den sich ergebende Darstellung des Satzes »1 saw this
Beispielen der Spalten 3 und 4 im großen und ganzen man« wird dann zusammen mit den Stimmhaftdieselben, so daß keine raschen Übergänge in dem Stimmlos-Zeichendaten Av und An und den Reib-Uberlappungsbereich stattfinden. laut-Pol-Nulldaten F1, und F1 dem Sprachsynthcti-
5 sator zugeführt.
Die Fig. 4 und 5 zeigen die Art und Weise, in Der stimmlose Intensitätsparameter An wird diwelcher die erläuterten Regeln und Betrachtungen in rekt von den gespeicherten Steuersignalen im Wortder Praxis der Erfindung durchgeführt werden. Die io katalog 17 erhalten, wenn dns zu synthetisierende
F i g. 4 stellt die Art und Weise dar, in welcher drei Intervall stimmlos ist, Der stimmhafte Intensitätsstimmhafte Worte, die englischen Worte »We«, parameter Av wird in ähnlicher Weise direkt von
»Were« und »Away« zusammengeknüpft werden, dem Wortkatalog 17 erhalten, mit der Ausnahme
um den Satz zu bilden »We were away«. Gespro- während eines Mischungsbereiches zweier stimmchen haben die Wörter die jeweilige Dauer W1, W3, 15 hafter Intervalle, in welchem Fall er durch Inter-W3, und eine Analyse hat ergeben, daß sie die For- polation der jeweiligen stimmhaften Intensitäten der
manten F , F2 und F3 aufweisen. Diese Formanten- beiden Worte in ähnlicher Weise erhalten wird, wie
daten sind m der Speichereinheit 17 (Fig. 1) für dies für die Interpolation von Formanten beschricjedes individuelle Wort gespeichert, wie bereits er- ben worden ist.
läutert. Wenn ein Eingangsbefehl von der Wortfolge- a°
einheit 18 vorliegt, die drei Worte in dem Satz »We Ausführung des Verknüpfungsprozesso-s
were away« zusammenzufügen, wird die Formanten-
information von der Speichereinheit 17 bezogen und Obwohl die oben beschriebenen Betätigungen zur
an den Wortverknüpfungsprozessor 21 gegeben. Zeit- Verarbeitung von Wortformantdaten zur Bildung von
ablaufdaten vom Speicher 22 (oder alternativ von as Wortsequenzinformationen durch Verwendung von
einer äußeren Einheit 23) und Tonhöhenvariations- entsprechend geeigneten Einrichtungen und Techdaten vom Speicher 24 (oder alternativ von einer niken durchgeführt werden können, beruht eine in
äußeren Quelle 25) werden dem Prozessor ebenfalls der Praxis verwendbare Einrichtung auf der Fähigzugeführt. Es wird zunächst bestimmt, daß die Worte keit eines Digitalcomputers für hohe Verarbeitungs-
»We« und »Were« normalerweise beim Sprechen 30 geschwindigkeit. In der Praxis wurde ein digitaler
durch einen san.ften Übergang miteinander verbun- Allzweck rechner, nämlich der Honeywell DDP-516
den werden und' als ein kontinuierlicher Satz »We- oder GE-635 für geeignet gefunden. Diese beiden
were« ausgesprochen werden. Daher werden die bei- Datenverarbeitungsanlagen und ihre Programmieden stimmhaften Worte bezüglich ihrer Dauer auf rungssysteme sind gleicherweise zur Aufstellung eines
Werte D1, D2 in Übereinstimmung mit dem Zusam- 35 Programms geeignet, welches diese Anlagen von
menhang der Äußerung eingestellt, und die Forman- einem Allzweckrechner in einen Spezialzweckprozesten der Wörter überlappen sich und werden im Sinne sor umwandeln, so daß die Erfindung damit ausführeines sanften Überganges interpoliert. In ähnlicher bar wird.
malerweise als »wereaway« mit Betonung auf »away« 40 zur Umwandlung einer derartigen Anlage in einen
ausgesprochen. Daher wird die Dauer des »away« Spezialzweckrechner, um den Erfordernissen gemäß
auf D3 gedehnt, und die Formanten der beiden Wör- Erfindung zu genügen, ist in den Fig. 6A, 6B und
ter überlappen sich und werden interpoliert. 6 C enthalten, die jeweils aneinanderzufügen sind.
mant wird ferner durch Überlagerung der Kontur der 45 für sich bekannt und kann durch einen Fachmann
gestellt. Das Ergebnis ist ein fortlaufender Formant tes Programm rückgeführt werden,
über die gesamte Äußerung. Diese modifizierten For-
mantdaten werden zusammen mit dem Periodenum- Prozessor-Operationen
riß der Tonhöhe und den Stimmhaft-Stimmlos-Zei- 50
chendaten Av und An dem Sprachsynthetisator 26 Im oberen Teil der Fig. 6A ist die Speicherein-
(Fig. 1)zugeführt. heit I? für parametrische Beschreibung nach Fig. 1
Fig. 5 zeigt die Verkettung der englischen Worte schematisch angedeutet, welche einen Katalog von
»I«, »Saw«, »This« und »Man« zur Bildung des Sat- Formant-, Tonhöhe-, Amplituden- und Reiblautdarzes »I saw this man«. In diesem Fall werden die 55 Stellungen für jedes der Wörter in dem Katalog entWörter »I« und »Saw« nicht überlappt, und zwar hält. Auf einen Befehl des Wortfolgeeinganges Ii
wegen des dazwischenliegenden Reiblautes am Be- werden diese Daten in das Wortverknüpfungsprozes
ginn von »Saw«. Jedoch werden die Wörter »Saw« sorsystem 20 übertragen, welches durch den Resi
und »This« im allgemeinen mit einem sanften Über- des Flußdiagramms dargestellt wird,
gang gesprochen. Daher werden diese Wörter über- 60 Zunächst wird die Dauer jedes Wortes in der ver
läppt und die Formanten interpoliert. Da das Wort knüpften Folge bestimmt, wie in Block 61 angedeu
»This« mit einem Reiblaut endigt, werden die Wör- tet, beispielsweise durch Befragung einer Speicher
ter »This« und »Man« nicht überlappt. In Überein- tafel für Zeitablaufdaten 62, derart, wie sie in Fig.!
Stimmung mit dem Zusammenhang des Ausdruckes und durch die Einheit 22 in F i g. 1 dargesiJit sind
werden die individuellen WortSingen W jeweils zu 65 Wenn eine Zeitablaufänderung notwendig ist. be
neuen Werten D modifiziert. Schließlich wird eine stimmen Programmfeststellungen der Einheit 63, öl
gespeicherte Periodenkontur für die Tonhöhe ent- die im Speicher 62 gespeicherten Daten ausreiche!
SDrechend einer gespeicherten Regel überlagert. Die oder ob äußere Zeitablaufdaten von der Einheit 6
[Block 23 der Fig. 1) verwendet werden sollen. In
jedem Fall wird die Dauer jedes »kommandierten« Wortes aufgestellt, und ein Wortsequenzzähler wird
in der Einheit 65 durch Setzen von / = 1 gestartet.
Es ist dann notwendig, die parametrische Be-Schreibung
des ersten Wortes in Übereinstimmung mit Zeitablaufdaten oder anderen gespeicherten Regeln
zu modifizieren. Demgemäß wird in Fig. 6B
bestimml, ob das /-te Wort mit dem (/— l)-ten Wort vermischt werden soll oder nicht. Diese Bestimmung m
wird durch den Block 66 dargestellt. Wenn dies nicht zutrifft, wird Information für das /-te Wort von dem
Wortkatalog 17 entnommen, und die ersten 50 ms des /-ten Wortes werden durch die Einheit 67 synthetisiert.
Wenn das /-te Wort vermischt werden soll, wird das I-tz Wort verlängert oder gekürzt, damit
der Zeitablauf mit den zugeführten Daten bezüglich Dauer übereinstimmt. Diese Operation findet in der
Einheit 68 in Übereinstimmung mit dem Unterprogramm CRDELL der Fortran-IV-Programmierspra- ao
ehe statt.
Es wird dann überprüft, ob das /-te Wort mit Cem (/ ·■ 1 )-ten Wort über die Schritte des Blockes 69 vermischt
werden soll. Wenn eine Vermischung stattfinden soll, werden die Operationen des Blockes 70 as
ausgeführt, um das Ende des /-ten Wortes mit dem Beginn des (/+l)-ten Wortes zu überlappen. Diese
Operation wird in Übereinstimmung mit dem Unterprogramm INTPL der Fortran-IV-Programmiersprache
durchgeführt. Wenn im Block 69 bestimmt wird, daß keine Vermischung stattfinden soll, führen die
Operationen des Blockes 71 zu einer Synthese der letzten 50 ms des /-ten Wortes unter Verwendung
der Daten für dieses Wort aus dem Speicher 17.
In der Einheit 72 wird dann die Wortfolge des Index / auf den letzten Stand gebracht, und in der Operation
73 wird bestimmt, ob der Wortfolgeindex größer als der Index des letzten Wortes in der Eingangsfolge
ist. Wenn er es nicht ist, wird die Steuerung auf den Block 66 zurückgeschaltet, und das
nächste Wort wird in der bereits beschriebenen Weise zusammengesetzt. Die Operationen werden in dieser
Weise iteriert, bis der Index gleich dem Index des letzten Wortes in der Eingangsfolge ist, zu welcher
Zeit die Daten des Blockes 73 zum Block 74 übertragen werden.
Gemäß F i g. 6 C werden dann die Tonhöhendaten den Formantdaten überlagert und die Struktur jedes
Wortes in der Äußerung in der bereits beschriebenen Weise erhalten. Diese Daten sind in dem ,Datenspeicher
75 für Tcnhöhenvariation (Speicher 24 der Fig. 1) verfügbar. Es wird dann durch die im Block
76 angedeuteten Schritte bestimmt, ob äußere Tonhöhendaten Verwendung finden sollen. Wenn dies
zutrifft, werden derartige Daten von der Einheit 77 (Einheit 25 in Fig. 1) über den Datea'.peicher 75 zu
den Operationen der Einheit 74 zugefügt.
Wenn die Tonhöhenkonturoperationen beendfit sind, werden die gesamten Daten in dem Wortverknüpfungsprozessor
20, wie diese durch das Programm der F i g. 6 modifiziert woirden sind, beispiels
weise dem Sprachsynthetisator 2i5 der Fig. 1 zugeführt.
Formant-Syn these
Wenn alle Steuerparameterkonturen der befohlenen Äußerung erzeugt worden sind, können sie, falls
erwünscht, geglättet und die Bandbreite auf ungefähi 16 Hz begrenzt werden. Sie werden dann zur Steuerung
eines Formantsynthetisators benutzt, welcher ein kontinuierliches Sprachausgangssignal erzeugt.
Zahlreiche Systeme, sowohl analoger sowie digitaler Art, sind zur Synthese von Sprache aus Formantdaten
beschrieben worden. Geeignete Synthetisatorep. sind in USA.-Patentschrift 3 330 910 (J. L. FI a η a
gan), USA.-Patentschrift 3190963 (David Flanagan, insbesondere Fig. 5) und in USA.-Patentschnft
3158 685 (G erst man-Ke lly) beschrieben.
In vereinfachter Darstellung umfaßt ein Formantsynthelisator
ein System zur Erzeugung von Anregungen als eine Folge von Impulsen mit einem Abstand,
der proportional der Grund-Tonhöhe des gewünschten Signals ist. Die Intensität der Impulserregung
wird gesteuert, und das Signal wird an eine Kaskade von unterschiedlichen Resonatoren angelegt.
Es genügt zu sagen, daß der Sprachsynthetisator 26 eine Wellenform erzeugt, welche der nahekommt,
die für die gewünschte Äußerung benötigt wird. Dieses
Signal wird in einer beliebig gewünschten Weise verwendet, beispielsweise zur Anregung der Ausgangseinheit
27, die in der Form eines Lautsprechers, einer Aufzeichnungseinrichtung od. dgl. vorliegen
kann.
Hierzu 2 Blatt Zeichnungen
Claims (7)
1. Verfahren zur Sprachsynthese aus Darstellungen
von individuell gesprochenen Worten, bei dem parametrische Darstellungen (z. B. Formantfrequenzen,
Amplitude, Tonhöhe, Pol- und Nullfrequenzen stimmloser Laute) jedes Wortes in einer ausgewählten Gruppe von eine vollständige
Nachricht bildenden Wörtern entwickelt werden, dadurch gekennzeichnet, daß jedes zu
synthetisierende Wort in vorgewählte Unterintervalle eines stimmhaften Lauts zur Entwicklung
der die Änderungsgeschwindigkeit einer Formantkontur des Unterintervalls darstellenden
Spektralableitung für jedes Unterintervall unterteilt und die Länge eines Wortes nur dann
geändert wird, wenn der kleinste Spektralableitungswert in Abhängigkeit von einer abgeleiteten
Silben-Zeitkontur für die zu synthetisierende Nachricht gefunden wird, und daß ein geeigneter
Übergang zwischen den Wörtern der vollständigen Nachricht dadurch entwickelt wird,
daß eine gleitende Interpolationskurve über den Grenzen benachbarter, zu synthetisierender Wörter
vor deren Übertragung zu einem Synthesegerät aus den Spektralableitungen abgeleitet
wird.
2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1, mit einem ersten Eingang
zur Aufnahme von durch einen Sprachanalysator gelieferten parametrischen Dar. eilungen zu
synthetisierender individuell gesprochener Worte, einem zweiten Eingang zur Aufnahme von die
zu synthetisierenden Nachrichten bestimmenden Befehlssignalen, einem Ausgang zu einem Sprachsynthesegerät
und einem mit den ersten und zweiten Eingängen und dem Ausgang verbundenen Prozessor, der in Abhängigkeit von den über den
zweiten Eingang anstehenden Befehlssignalen den ersten Eingang zur Aufnahme und danach
zum Kombinieren der parametrischen Darstellungen der individuellen Wörter der zu synthetisierenden
Nachricht aktiviert, dadurch gekennzeichnet, daß der Prozessor (21) derart ausgebildet
ist, daß er zur Bildung geeigneter Übergänge zwischen den Wörtern sowohl den Spektralableitungswert
für jedes vorgewählte Unterintervall eines stimmhaften Lauts als auch eine gleitende
Interpolationskurve über Wortgrenzen in Abhängigkeit von den Spektralableitungen in
dem den Grenzen benachbarten Bereich ableitet und die Übergänge nachfolgend zusammen mit
der parametrischen Darstellung der zu synthetisierenden Nachricht an den Ausgang zum
Sprachsynthesegerät (26) anlegt.
3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Anordnung (20) eine ZpU-ablauf-Einstelleinrichtung
(22, 23) aufweist, .die dem Prozessor (21) Zeitablaufdaten mit allen
Zeitablaufregeln zuführt, wobei die Zeitablaufdaten einen Meßplan der Wortlängen als Funktion
der Lage in der Nachricht und der Zahi von Phonemen pro Wort enthalten und wobei die
Syntax der gesamten Nachricht im Prozessor (21) zum Modifizieren des Zeitablaufes und der
Dauer der zu synthetisierenden Wörter auswert-
4. Anordnung nach den Ansprüchen 2 und 3, dadurch gekennzeichnet, daß die Anordnung (20)
eine Tonhöhen-Einstelleinrichtung (24, 25) aufweist, welche dem Prozessor (21) eine zeitlich
normalisierte Tonhöhenkontur der die zu synthetisierende Nachricht darstellenden Tonhöhendaten
zuführt, und die Tonhöhendaten im Prozessor nach Maßgabe der von der Zeitablauf-Einstelleinrichtung
(22, 23) zugeführten Zeitablaufdaten zum Modifizieren der zeitlich normalisierten
Tonhöhenkontur der Nachricht auswertbar sind.
5. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (21) zur Änderung
der Dauer der über den ersten Eingang (17) eingehenden Daten geeignet ist, indem er Unterintervalle,
die typischerweise eine Länge von 10 ms haben, bei jedem gesprochenen Wort an einer solchen Stelle des Wortes einfügt oder abzieht,
an der die Spektralableitungswerte am kleinsten sind.
6. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (21) einen
phonetisch realistischen Übergang zwischen den miteinander zu kombinierenden Wörtern bildet,
indem eine parametrische Darstellung des Überganges zwischen gesprochenen Wortbereichen
entwickelt wird, und zwar für ungefähr die letzten 100 ms des ersten von den beiden miteinander
zu verschmelzenden Worten und für ungefähr die ersfen 100 ms des zweiten der beiden
miteinander zu verschmelzenden Worte.
7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß die Geschwindigkeit des Übergangs
zwischen den beiden zu verschmelzenden Wörtern proportional dem Durchschnitt der
Spektraiableitungen der beiden Wörter ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US00085660A US3828132A (en) | 1970-10-30 | 1970-10-30 | Speech synthesis by concatenation of formant encoded words |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2115258A1 DE2115258A1 (de) | 1972-05-10 |
DE2115258B2 DE2115258B2 (de) | 1973-06-07 |
DE2115258C3 true DE2115258C3 (de) | 1974-01-24 |
Family
ID=22193116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2115258A Expired DE2115258C3 (de) | 1970-10-30 | 1971-03-30 | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern |
Country Status (4)
Country | Link |
---|---|
US (1) | US3828132A (de) |
JP (1) | JPS539041B1 (de) |
CA (1) | CA941968A (de) |
DE (1) | DE2115258C3 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2917161A1 (de) | 1978-04-28 | 1979-11-29 | Texas Instruments Inc | Elektronisches lernhilfegeraet |
Families Citing this family (180)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4144582A (en) * | 1970-12-28 | 1979-03-13 | Hyatt Gilbert P | Voice signal processing system |
US4060848A (en) * | 1970-12-28 | 1977-11-29 | Gilbert Peter Hyatt | Electronic calculator system having audio messages for operator interaction |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
GB1541429A (en) * | 1975-12-19 | 1979-02-28 | Int Computers Ltd | Speech synthesising apparatus |
US4384170A (en) * | 1977-01-21 | 1983-05-17 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
US4210781A (en) * | 1977-12-16 | 1980-07-01 | Sanyo Electric Co., Ltd. | Sound synthesizing apparatus |
US4163120A (en) * | 1978-04-06 | 1979-07-31 | Bell Telephone Laboratories, Incorporated | Voice synthesizer |
US4304965A (en) * | 1979-05-29 | 1981-12-08 | Texas Instruments Incorporated | Data converter for a speech synthesizer |
US4455551A (en) * | 1980-01-08 | 1984-06-19 | Lemelson Jerome H | Synthetic speech communicating system and method |
US4559602A (en) * | 1983-01-27 | 1985-12-17 | Bates Jr John K | Signal processing and synthesizing method and apparatus |
US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
US6064960A (en) | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
JP3180764B2 (ja) * | 1998-06-05 | 2001-06-25 | 日本電気株式会社 | 音声合成装置 |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US6792615B1 (en) * | 1999-05-19 | 2004-09-14 | New Horizons Telecasting, Inc. | Encapsulated, streaming media automation and distribution system |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10048069A1 (de) * | 2000-09-28 | 2002-04-25 | Global Language Comm Systems E | Elektronische Textübertragungsvorrichtung |
US20020123130A1 (en) * | 2001-03-01 | 2002-09-05 | Cheung Ling Y. | Methods and compositions for degrading polymeric compounds |
US6915261B2 (en) * | 2001-03-16 | 2005-07-05 | Intel Corporation | Matching a synthetic disc jockey's voice characteristics to the sound characteristics of audio programs |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8229086B2 (en) | 2003-04-01 | 2012-07-24 | Silent Communication Ltd | Apparatus, system and method for providing silently selectable audible communication |
US7643990B1 (en) | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US7409347B1 (en) | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8229409B2 (en) | 2007-02-22 | 2012-07-24 | Silent Communication Ltd. | System and method for telephone communication |
US8494490B2 (en) | 2009-05-11 | 2013-07-23 | Silent Communicatin Ltd. | Method, circuit, system and application for providing messaging services |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US7895041B2 (en) * | 2007-04-27 | 2011-02-22 | Dickson Craig B | Text to speech interactive voice response system |
JP4469883B2 (ja) * | 2007-08-17 | 2010-06-02 | 株式会社東芝 | 音声合成方法及びその装置 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
EP3149728B1 (de) | 2014-05-30 | 2019-01-16 | Apple Inc. | Eingabeverfahren durch einzelne äusserung mit mehreren befehlen |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9756185B1 (en) * | 2014-11-10 | 2017-09-05 | Teton1, Llc | System for automated call analysis using context specific lexicon |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10915227B1 (en) | 2019-08-07 | 2021-02-09 | Bank Of America Corporation | System for adjustment of resource allocation based on multi-channel inputs |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2860187A (en) * | 1955-12-08 | 1958-11-11 | Bell Telephone Labor Inc | Artificial reconstruction of speech |
US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3319002A (en) * | 1963-05-24 | 1967-05-09 | Clerk Joseph L De | Electronic formant speech synthesizer |
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
GB1225142A (de) * | 1967-11-29 | 1971-03-17 | ||
US3588353A (en) * | 1968-02-26 | 1971-06-28 | Rca Corp | Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition |
-
1970
- 1970-10-30 US US00085660A patent/US3828132A/en not_active Expired - Lifetime
-
1971
- 1971-03-09 CA CA107,266A patent/CA941968A/en not_active Expired
- 1971-03-30 DE DE2115258A patent/DE2115258C3/de not_active Expired
- 1971-04-01 JP JP1928771A patent/JPS539041B1/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2917161A1 (de) | 1978-04-28 | 1979-11-29 | Texas Instruments Inc | Elektronisches lernhilfegeraet |
Also Published As
Publication number | Publication date |
---|---|
US3828132A (en) | 1974-08-06 |
DE2115258B2 (de) | 1973-06-07 |
DE2115258A1 (de) | 1972-05-10 |
CA941968A (en) | 1974-02-12 |
JPS539041B1 (de) | 1978-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE3244476C2 (de) | ||
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE69627865T2 (de) | Sprachsynthesizer mit einer datenbank für akustische elemente | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE69631037T2 (de) | Sprachsynthese | |
DE19861167A1 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
EP1224531B1 (de) | Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe | |
DE60315544T2 (de) | Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung | |
DE3246712C2 (de) | ||
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
DE19616103A1 (de) | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 |