DE60035001T2 - Sprachsynthese mit Prosodie-Mustern - Google Patents

Sprachsynthese mit Prosodie-Mustern Download PDF

Info

Publication number
DE60035001T2
DE60035001T2 DE60035001T DE60035001T DE60035001T2 DE 60035001 T2 DE60035001 T2 DE 60035001T2 DE 60035001 T DE60035001 T DE 60035001T DE 60035001 T DE60035001 T DE 60035001T DE 60035001 T2 DE60035001 T2 DE 60035001T2
Authority
DE
Germany
Prior art keywords
model data
prosodic
prosodic model
waveform
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60035001T
Other languages
English (en)
Other versions
DE60035001D1 (de
Inventor
Osamu Kasai
Toshiyuki Mizoguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Computer Entertainment Co Ltd
Konami Computer Entertainment Tokyo Inc
Konami Group Corp
Original Assignee
Konami Corp
Konami Computer Entertainment Co Ltd
Konami Computer Entertainment Tokyo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Corp, Konami Computer Entertainment Co Ltd, Konami Computer Entertainment Tokyo Inc filed Critical Konami Corp
Application granted granted Critical
Publication of DE60035001D1 publication Critical patent/DE60035001D1/de
Publication of DE60035001T2 publication Critical patent/DE60035001T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing

Description

  • STAND DER TECHNIK Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft Verbesserungen eines Sprachsyntheseverfahrens, eine Sprachsynthesevorrichtung und ein rechnerlesbares Medium zum Aufzeichnen eines Sprachsyntheseprogramms.
  • Beschreibung des Stands der Technik
  • Der Artikel mit dem Titel "Evaluating the pronunciation component of text-to-speech systems for English: a performance comparison of different approaches", Verfasser R.I. Damger et al, Computer Speech and Language (April 1999) 13, Seiten 155–176, betrifft die Entwicklung von Verfahren zum Vergleich von Text/Phonem-Subsystemen durch Vergleich der Leistung von vier repräsentativen Lösungsansätzen für die automatische Phonemisierung mit dem gleichen Test-Wörterbuch. Neben regelbasierten Lösungsansätzen werden drei datengesteuerte Techniken ausgewertet, nämlich Aussprache durch Analogie (PbA), NET-Sprache und IB-1-1G (ein modifiziertes k-Nächster-Nachbar-Verfahren).
  • Die Schrift EP-A-0 831 460 A2 beschreibt ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung, bei denen natürliche Sprache als Hilfsinformation benutzt und Sprache regelbezogen durch Sprachsynthese synthetisiert, prosodische Information für eine Phonemfolge eines jeden Worts einer Wortreihe, die durch Analyse eines eingegebenen Textes erhalten wurde, durch Bezugnahme auf ein Wort-Wörterbuch eingesetzt und eine Sprach-Wellenformsequenz aus der Phonemfolge eines jeden Worts durch Bezugnahme auf ein Sprach-Wellenform-Wörterbuch erhalten wird. Diese Veröffentlichungen offenbaren die Merkmale des Oberbegriffs der Ansprüche 1 und 3.
  • Das konventionelle Verfahren zur Ausgabe verschiedener (in der menschlichen Sprache) gesprochener Mitteilungen aus einer Maschine war ein so genanntes Sprachsyntheseverfahren, bei dem Sprachdaten einer Kompositionseinheit vorab gespeichert wurden, die einer gesprochenen Mitteilung aus verschiedenen Worten entspricht, und die Sprachdaten gleichlautend mit einer eingegebenen Zeichenfolge (Text) beliebig kombiniert wurden.
  • Allgemein werden bei einem derartigen Sprachsyntheseverfahren die Phonem-Information wie ein phonetischen Symbol, das verschiedenen Worten (Zeichenfolgen), wie sie alltäglich benutzt werden, entspricht, und die prosodische Information wie ein Akzent, eine Intonation und eine Amplitude in einem Wörterbuch aufgezeichnet. Es wird eine eingegebene Zeichenfolge analysiert. Ist eine gleiche Zeichenfolge im Wörterbuch abgelegt, so werden die Sprachdaten einer Kompositionseinheit kombiniert und auf Grundlage ihrer Information ausgegeben. Andererseits wird die Information in Übereinstimmung mit vordefinierten Regeln geschaffen und werden die Sprachdaten einer Kompositionseinheit kombiniert und auf Grundlage dieser Information ausgegeben.
  • Bei dem vorbeschriebenen konventionellen Sprachsyntheseverfahren kann jedoch für eine nicht im Wörterbuch verzeichnete Zeichenfolge die einer echt gesprochenen Mitteilung entsprechende Information bzw. insbesondere die prosodische In formation nicht geschaffen werden. Damit stellte sich das Problem, dass eine unnatürliche oder eine andere als die jeweils beabsichtigte Sprache hergestellt wurde.
  • Zusammenfassung der Erfindung
  • Aufgabe der vorliegenden Erfindung ist die Bereitstellung eines Sprachsyntheseverfahrens, bei dem eine natürliche Stimme durch Absorbieren einer Differenz zwischen einer beliebig eingegebenen Zeichenfolge und einer im einem Wörterbuch aufgezeichneten Zeichenfolge synthetisiert werden kann, einer Sprachsynthesevorrichtung und eines rechnerlesbaren Mediums mit einem auf diesem aufgezeichneten Sprachsyntheseprogramm.
  • Zur Lösung der vorgenannten Aufgabe wird erfindungsgemäß ein Sprachsyntheseverfahren nach Anspruch 1 bereitgestellt zur Schaffung von einer eingegebenen Zeichenfolge entsprechenden Stimmenmitteilungsdaten unter Verwendung eines Wort-Wörterbuchs zum Speichern einer großen Anzahl von Zeichenfolgen, die zumindest ein Zeichen mit zusammen mit seinem Akzent-Typ enthalten, eines prosodischen Wörterbuchs zum Speichern typischer prosodischer Modelldaten aus die prosodische Information für die im Wort-Wörterbuch gespeicherten Zeichenfolgen repräsentierenden prosodischen Modelldaten, und eines Wellenform-Wörterbuchs zum Speichern von Stimmen-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme, das die folgenden Schritte umfasst: Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge; Auswahl prosodischer Modelldaten aus dem prosodischen Wörterbuch auf Grundlage der eingegebenen Zeichenfolge und des Akzent-Typs; Transformieren der prosodischen Information der prosodischen Modelldaten gemäß der eingegebenen Zeichenfolge, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt, Auswahl der Wellenform-Daten entsprechend jedem Zeichen der eingegebenen Zeichenfolge aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten; und Verbinden der ausgewählten Wellenform-Daten miteinander.
  • Ist eine eingegebene Zeichenfolge nicht im Wörterbuch verzeichnet, so können erfindungsgemäß dieser Zeichenfolge in etwa entsprechende prosodische Modelldaten verwendet werden. Weiter lässt sich ihre prosodische Information gleichlautend mit der eingegebenen Zeichenfolge transformieren und sind die Wellenformdaten auf Grundlage der transformierten Informationsdaten auswählbar. Damit wird die Synthetisierung einer natürlichen Stimme ermöglicht.
  • Hierbei kann die Auswahl prosodischer Daten erfolgen durch Verwendung eines prosodischen Wörterbuchs zum Speichern von die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die silbische Information enthaltenden prosodischen Modelldaten, Schaffen der Silben-Information einer eingegebenen Zeichenfolge, Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge aus dem prosodischen Wörterbuch übereinstimmen, so dass ein prosodischer Modelldaten-Kandidat erzeugt wird, Schaffen einer rekonstruierten prosodischen Information durch Vergleich der Silben-Information jedes prosodischen Modelldaten-Kandidaten und der Silben-Information der eingegebenen Zeichenfolge, und Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge jedes prosodischen Modelldaten-Kandidaten und dessen rekonstruierter prosodischer Information.
  • Stimmen in diesem Falle bei irgendeinem der prosodischen Modelldaten-Kandidaten alle seine Phoneme mit den Phonemen der eingegebenen Zeichenfolge überein, so stellt dieser prosodische Modelldaten-Kandidat die optimalen prosodischen Modelldaten dar. Beim Fehlen eines Kandidaten, dessen sämtliche Phoneme mit den Phonemen der eingegebenen Zeichenfolge übereinstimmen, stellt der Kandidat mit der größten Anzahl von mit den Phonemen der eingegebenen Zeichenfolge übereinstimmenden Phonemen unter den prosodischen Modelldaten-Kandidaten die optimalen prosodischen Modelldaten dar. Falls mehrere Kandidaten existieren, bei denen eine größte Anzahl von Phonemen mit den Phonemen der eingegebenen Zeichenfolge überstimmt, repräsentiert der Kandidat mit der größten Anzahl aufeinanderfolgender übereinstimmender Phoneme die optimalen prosodischen Modelldaten. Damit besteht die Möglichkeit, die prosodischen Modelldaten mit demjenigen Phonem auszuwählen, das identisch ist mit dem und in der gleichen Position wie das Phonem der eingegebenen Zeichenfolge, bzw. mit einem restaurierten Phonem (nachfolgend auch bezeichnet als rekonstruiertes Phonem), das übereinstimmend und aufeinanderfolgend zur Synthese einer natürlicheren Stimme führt.
  • Die Transformation prosodischer Modelldaten erfolgt in der Weise, dass bei Nichtübereinstimmung der Zeichenfolge der ausgewählten prosodischen Modelldaten mit der eingegebenen Zeichenfolge eine Silbenlänge nach erfolgter Transformation aus einer vorab aus einer durchschnittlichen Silbenlänge für alle zur Sprachsynthese eingesetzte Zeichen und eine Silbenlänge der prosodischen Modelldaten für jedes nicht mit den prosodischen Modelldaten berechnet wird. Hiermit lässt sich die prosodische Information der ausgewählten prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge transformieren. Eine natürlichere Stimmensynthese wird somit ermöglicht.
  • Weiter erfolgt die Auswahl von Wellenform-Daten in der Weise, dass die Wellenform-Daten des entsprechenden Phonems in den prosodischen Modelldaten aus dem Wellenform-Wörterbuch für ein rekonstruiertes Phonem unter den die jeweils eingegebene Zeichenfolge darstellenden Phonemen und die Wellenform-Daten des entsprechenden Phonems, dessen Frequenz am nächsten zu derjenigen der prosodischen Modelldaten liegt, aus dem Wellenform-Wörterbuch für andere Phoneme ausgewählt werden. Damit lassen sich Wellenform-Daten heranziehen, die den prosodischen Modelldaten nach erfolgter Transformation am nächsten liegen. Die Synthese einer natürlicheren Stimme ist somit möglich.
  • Zur Erfüllung der vorbeschriebenen Aufgabe wird erfindungsgemäß eine Sprachsynthesevorrichtung bereitgestellt zur Schaffung der Sprachmitteilungsdaten entsprechend einer eingegebenen Zeichenfolge mittels eines Wort-Wörterbuchs zum Speichern einer großen Anzahl von Zeichenfolgen, welche zumindest ein Zeichen mit seinem Akzent-Typ umfassen, eines prosodischen Wörterbuchs zum Speichern typischer prosodischer Modelldaten aus die prosodische Information für die in diesem Wort-Wörterbuch gespeicherten Zeichenfolgen darstellenden prosodischen Modelldaten, und eines Wellenform-Wörterbuchs zum Speichern von Stimmen-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme, einer Akzent-Bestimmungseinrichtung zum Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge, einer prosodischen Modell-Auswahleinrichtung zur Auswahl der prosodischen Modelldaten aus dem Prosodie-Wörterbuch auf Grundlage der eingegebenen Zeichenfolge und des Akzent-Typs, einer Prosodie-Transformationseinrichtung zum Transformieren der prosodischen Information der prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt, Wellenform-Auswahleinrichtung zur Auswahl der jedem Zeichen der eingegebenen Zeichenfolge entsprechenden Wellenform-Daten auf Grundlage der prosodischen Modelldaten aus dem Wellenform-Wörterbuch sowie einer Wellenform-Verbindungseinrichtung zum Verbindender ausgewählten Wellenform-Daten miteinander.
  • Die Sprachsynthesevorrichtung ist mit einem rechnerlesbaren Medium mit darauf gespeichertem Sprachsyntheseprogramm, welches beim Lesen durch einen Rechner den Letzteren dazu befähigt, zu dienen als ein Wort-Wörterbuch zum Speichern einer großen Anzahl von Zeichenfolgen mit zumindest einem Zeichen mit seinem Akzent-Typ, als ein prosodisches Wörterbuch zum Speichern typischer prosodischer Modelldaten unter dem prosodischen Modelldaten, welche die prosodische Information für die in das Wort-Wörterbuch eingegebenen Zeichenfolgen darstellen, als ein Wellenform-Wörterbuch zur Speicherung der Stimmen-Wellenform-Daten einer Kompositionseinheit mit der aufgezeichneten Stimme, als eine Akzent-Bestimmungseinrichtung zum Bestimmen des Akzent-Typs einer eingegebenen Zeichenfolge, als eine Prosodie-Transformationsrichtung zum Transformieren der prosodischen Information der prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht der eingegebenen Zeichenfolge entspricht, als eine Wellenform-Auswahleinrichtung zur Auswahl der jedem Zeichen der eingegebenen Zeichenfolge entsprechenden Wellenform-Daten aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten, sowie als eine Wellenform-Verbindungseinrichtung zum Verbinden der ausgewählten Wellenform-Daten miteinander.
  • Die vorstehenden sowie weitere Zielsetzungen, Merkmale und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung und den beigefügten Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • Es zeigen:
  • 1 ein Ablaufdiagramm eines vollständigen erfindungsgemäßen Sprachsyntheseverfahrens;
  • 2 ein Diagramm, das ein prosodisches Wörterbuch darstellt;
  • 3 ein Ablaufdiagramm mit den Details eines Prozesses zur Auswahl eines prosodischen Modells;
  • 4 ein Diagramm mit spezifischen Einzelheiten des Prozesses zur Auswahl eines prosodischen Modells;
  • 5 ein Ablaufdiagramm mit den Details eines prosodischen Transformationsverfahrens;
  • 6 ein Diagramm mit spezifischen Einzelheiten der prosodischen Transformation;
  • 7 ein Ablaufdiagramm mit den Details eines Wellenform-Auswahlprozesses;
  • 8 ein Diagramm mit spezifischen Einzelheiten des Wellenform-Auswahlprozesses;
  • 9 ein Diagramm mit spezifischen Einzelheiten des Wellenform-Auswahlprozesses;
  • 10 ein Ablaufdiagramm mit den Details eines Wellenform-Verbindungsprozesses; und
  • 11 ein Funktionsblockdiagramm für eine Sprachsynthesevorrichtung gemäß der vorliegenden Erfindung.
  • Beschreibung der bevorzugten Ausführungsformen
  • 1 zeigt den Gesamtablauf eines erfindungsgemäßen Sprachsyntheseverfahrens.
  • Zunächst wird eine zu synthetisierende Zeichenfolge über eine Eingabevorrichtung oder ein Spielsystem (nicht dargestellt) eingegeben. Weiter wird deren Akzent-Typ auf Grundlage des Wort-Wörterbuchs bestimmt usw. (s1). Hierbei speichert das Wort-Wörterbuch eine große Anzahl von Zeichenfolgen (Worten), die zumindest ein Zeichen mit seinem Akzent-Typ enthalten. So speichert es beispielsweise zahlreiche Worte, die den Namen eines voraussichtlich einzugebenden Spielers (wobei "kun" (ein Höflichkeitstitel in Japan) dem eigentlichen Namen nachgestellt wird) mit seinem Akzent-Typ darstellen.
  • Eine spezifische Bestimmung erfolgt durch Vergleich einer eingegebenen Zeichenfolge und eines im Wort-Wörterbuch abgelegten Worts sowie Annahme des Akzent-Typs bei Vorhandensein des gleichen Worts oder ansonsten durch Übernahme des Akzent- Typs eines Worts mit ähnlicher Zeichenfolge unter den Worten mit gleicher Mora-Zahl.
  • Existiert das gleiche Wort nicht, so kann der Benutzer (oder Spieler) einen gewünschten Akzent-Typ aus sämtlichen Akzent-Typen, die für ein Wort mit der gleichen Mora-Zahl wie der eingegebenen Zeichenfolge erscheinen können, unter Verwendung einer Eingabevorrichtung (nicht dargestellt) wählen oder bestimmen.
  • Sodann werden die prosodischen Modelldaten auf Grundlage der eingegebenen Zeichenfolge und des Akzent-Typs aus dem prosodischen Wörterbuch ausgewählt (s2). Hierbei speichert das prosodische Wörterbuch typische prosodische Modelldaten unter den die prosodische Information für die im Wort-Wörterbuch abgelegten Worte repräsentierenden typischen prosodischen Modelldaten.
  • Stimmt die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge überein, so wird die prosodische Information der prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge transformiert (s3).
  • Auf der Grundlage der prosodischen Modelldaten nach der Transformation (wobei die prosodischen Modelldaten nach Transformation in der Praxis nicht transformierte prosodische Modelldaten enthalten können, da keine Transformation durchgeführt wird, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten mit der eingegebenen Zeichenfolge übereinstimmt) werden die einem jeden Zeichen der eingegebenen Zeichenfolge entsprechenden prosodischen Modelldaten aus dem Wel lenform-Wörterbuch ausgewählt (s4). Hierbei speichert das Wellenform-Wörterbuch die Stimmen-Wellenform-Daten einer Kompositionseinheit mit den aufgezeichneten Stimmen oder Stimmen-Wellenformdaten (phonemische Symbole) in Übereinstimmung mit einem allgemeinen VCV-Phonem-System in dieser Ausführungsform.
  • Schließlich werden die ausgewählten Wellenform-Daten zur Schaffung der zusammengesetzten Stimmendaten miteinander verbunden (s5).
  • Es folgt eine detaillierte Beschreibung eines Verfahrens zur Auswahl eines prosodischen Modells.
  • 2 zeigt ein Beispiel eines prosodischen Wörterbuchs, in dem eine Anzahl prosodischer Modelldaten, welche die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die Silbeninformation enthalten, nämlich eine Anzahl typischer Modelldaten, mit den Daten für eine Anzahl von im Wort-Wörterbuch gespeicherten Zeichenfolgen abgelegt sind. Hierbei besteht für jedes eine Zeichenfolge ausmachende Zeichen die silbische Information aus der Silbenart wie C: Konsonant + Vokal, V: Vokal, N': silbischer Nasallaut, Q: Doppelkonsonant. L: langer Laut oder #: stimmloser Laut, und der Silbenzahl, welche die Zahl des Stimme kennzeichnenden Symbols (A: 1, I:2, U:3, E:4, O:5, KA:6) gemäß ASJ-Notation (Acoustics Society of Japan) (in 2 weggelassen) bezeichnet. In der Praxis weist das prosodische Wörterbuch detaillierte Informationen bezüglich Frequenz, Volumen und Silbenlänge für jedes Phonem eines jeden prosodischen Modelldatums auf, die in der Zeichnung jedoch nicht ausgewiesen sind.
  • 3 ist ein detailliertes Ablaufdiagramm des Prozesses zur Auswahl des prosodischen Modells. 4 zeigt die spezifischen Einzelheiten dieses Prozesses, der nachfolgend im Einzelnen beschrieben wird.
  • Zunächst wird die silbische Information einer eingegebenen Zeichenfolge geschaffen (s201). Im Einzelnen wird eine Zeichenfolge nach Hiragana in Romaji (phonetisches Symbol durch alphabetische Notierung) in Übereinstimmung mit der vorerwähnten ASJ-Notierung buchstabiert, um die aus der Silbenart und der Silbenzahl bestehende silbische Information zu schaffen. Beispielsweise wird im Falle der Zeichenfolge "kasaikun", die in Romaji mit "kasaikun" buchstabiert ist, wie aus 4 ersichtlich eine silbische Information geschaffen, die aus der Silbenart "CCVCN" und der Silbenzahl "6, 11, 2, 8, 98" besteht.
  • Zur Darstellung der Zahl rekonstruierter Phoneme in einer VCV-Phonem-Einheit wird für die eingegebene Zeichenfolge eine VCV-Phonemfolge geschaffen (s202). Im Falle von "kasaikun" lautet die VCV-Phonem-Sequenz beispielsweise "ka asa ai iku un".
  • Andererseits werden nur die prosodischen Modelldaten mit dem Akzent-Typ und der Mora-Zahl aus den im prosodischen Wörterbuch gespeicherten prosodischen Modelldaten extrahiert, um einen prosodischen Modelldaten-Kandidaten zu erhalten (s203). So werden in einem Beispiel gemäß 2 und 4 "kamaikun", "sasaikun" und "shisaikun" extrahiert.
  • Die rekonstruierte prosodische Information wird geschaffen durch Vergleich ihrer silbischen Information mit der silbischen Information der eingegebenen Zeichenfolge für jeden prosodischen Modelldaten-Kandidaten (s204). Im Einzelnen werden der prosodische Modelldaten-Kandidat und die eingegebene Zeichenfolge für jedes Zeichen hinsichtlich ihrer silbischen Information verglichen. Hinzugefügt wird "11" bei Übereinstimmung von Konsonant und Vokal, "01" bei unterschiedlichem Konsonanten, aber übereinstimmendem Vokal, "10" bei übereinstimmendem Konsonanten und abweichendem Vokal sowie "00", wenn Konsonant und Vokal unterschiedlich sind. Weiter ist eine VCV-Einheit interpunktiert.
  • In dem Beispiel gemäß 2 und 4 ist die Vergleichsinformation dergestalt, dass "kamaikun" aus "11 01 11 11 11", "sasaikun" aus "01 11 11 11 11" und "shisaikun" aus "00 11 11 11 11" besteht, und die rekonstruierte prosodische Information den folgenden Aufbau aufweist: für "kamaikun" = 11 101 111 111 111", sasiakun = 01 111 111 111 111" und "shisaikun" = 00 011 111 111 111".
  • Aus den prosodischen Modelldaten-Kandidaten wird ein Kandidat ausgewählt (s205). Es wird eine Prüfung dahingehend vorgenommen, ob dessen Phonem mit dem Phonem der eingegebenen Zeichenfolge in einer CVC-Einheit übereinstimmt oder nicht, d.h. ob die rekonstruierte prosodische Information "11" oder "111" lautet (s206). Bei Übereinstimmung sämtlicher Phoneme wird sodann bestimmt, dass es sich hier um den optimalen prosodischen Modelldaten-Kandidaten handelt (s207).
  • Stimmt andererseits irgendein Phonem nicht mit dem der eingegebenen Zeichenfolge überein, so wird eine VCV-Einheit, nämlich die Zahl "11" oder "111" in der rekonstruierten prosodischen Information, verglichen (Ausgangswert 0) (s208). In der maximalen Größe ist deren Modell ein Kandidat für die optimalen prosodischen Modelldaten (s209). Weiter wird die aufeinanderfolgende Zahl übereinstimmender Phoneme in einer VCV-Einheit, nämlich die aufeinanderfolgende Zahl "11" oder "111" in der rekonstruierten prosodischen Information, verglichen (Ausgangswert 0) (s210). Unter Heranziehung des maximalen Wertes wird deren Modell zu einem Kandidaten für die optimalen prosodischen Modelldaten (s211).
  • Der vorbeschriebene Prozess wird für sämtliche prosodischen Modelldaten-Kandidaten wiederholt (s212). Stimmen die meisten Phoneme eines Kandidaten überein oder weist ein Kandidat eine größte Anzahl übereinstimmender Phoneme auf, oder sind mehrere Modelle mit einer größten Anzahl übereinstimmender Phoneme vorhanden, so wird die größte Zahl aufeinanderfolgender Phoneme als optimale prosodische Modelldaten bestimmt.
  • In dem Beispiel gemäß 2 und 4 ist kein Modell vorhanden, das die gleiche wie die eingegebene Zeichenfolge aufweist. Die Zahl der übereinstimmenden Phoneme beträgt 3 für "kamaikun", 4 für "sasaikun" und 3 für "shisaikun". Die Zahl der aufeinanderfolgenden übereinstimmenden Phoneme 3 ist 3 für "kamaikun" und 4 für "sasaikun". Damit ist bestimmt, dass "sasaikun" die optimalen prosodischen Modelldaten darstellt.
  • Es folgt eine Beschreibung der einzelnen Merkmale des prosodischen Transformationsprozesses.
  • 5 ist ein detailliertes Ablaufdiagramm des prosodischen Transformationsprozesses. 6 gibt die spezifischen Einzelheiten dieses prosodischen Transformationsprozesses wie der. Dieser prosodische Transformationsprozess sei nunmehr beschrieben:
    Zunächst werden ein Zeichen der wie vorbeschrieben ausgewählten prosodischen Modelldaten und ein Zeichen der eingegebenen Zeichenfolge jeweils einzeln von oben ausgewählt (s301). Stimmen hierbei die Zeichen überein (s302), so folgt die Wahl des nächsten Zeichens (s303). Bei nicht übereinstimmenden Zeichen wird die Silbenlänge nach der Transformation entsprechend dem Zeichen in den prosodischen Modelldaten wie nachstehend beschreiben erhalten. Auch wird das Volumen nach erfolgter Transformation wie erforderlich beigestellt. Es werden sodann die prosodischen Modelldaten umgeschrieben (s304, s305).
  • Unter der Annahme, dass die Silbenlänge in dem prosodischen Modelldaten x, die durchschnittliche Silbenlänge entsprechend dem Zeichen in den prosodischen Modelldaten x', die Silbenlänge nach der Transformation y und die durchschnittliche Silbenlänge entsprechend dem Zeichen nach erfolgter Transformation y' betragen, wird die Silbenlänge nach der Transformation errechnet zu: y = y3 x(x/x3)
  • Man beachte, dass die durchschnittliche Silbenlänge vorab für jedes Zeichnen errechnet und gespeichert wird.
  • Im Falle der 6 lauten die eingegebene Zeichenfolge "sakaikun" und die ausgewählten prosodischen Modelldaten "kasaikun". Wird das Zeichen "ka" in den prosodischen Modelldaten gleichlautend mit dem Zeichen "sa" in der eingegebenen Zei chenfolge transformiert, so ist unter der Voraussetzung, dass die durchschnittliche Silbenlänge des Zeichens "ka" 22 und die durchschnittliche Silbenlänge des Zeichens "sa" 25 betragen: die Silbenlänge des Zeichens "sa" nach dem Transformieren: Silbenlänge "sa" = durchschnittliche Silbenlänge "sa" × (Silbenlänge "ka"/durchschnittliche Silbenlänge "ka") = 25 × (20/22) = 23.
  • Ähnlich beträgt in dem Falle, da ein Zeichen "sa" in den prosodischen Modelldaten gleichlautend mit dem Zeichen "ka" in der eingegebenen Zeichenfolge transformiert wird, die Silbenlänge des Zeichens "ka" nach erfolgter Transformation: Silbenlänge "ka" = durchschnittliche Silbenlänge "ka" × (Silbenlänge "sa"/durchschnittliche Silbenlänge "sa") = 22 × (30/25) = 26.
  • Der vorbeschriebene Prozess wird für alle Zeichen in den prosodischen Modelldaten wiederholt und sodann in die phonemische (VCV)-Information umgewandelt (s306). Es wird die Verbindungsinformation der Phoneme geschaffen (s307).
  • Lauten die eingegebene Zeichenfolge "sasaikun" und die ausgewählten prosodischen Modelldaten "kasaikun", so stimmen drei Zeichen, nämlich "i", "ku" und "n", hinsichtlich Position und Silbe überein. Diese Zeichen sind restaurierte (rekonstruierte) Phoneme.
  • Es folgt eine Beschreibung der einzelnen Merkmale eines Wellenform-Auswahl-Prozesses.
  • 7 ist ein detailliertes Ablaufdiagramm, das den Wellenform-Auswahl-Prozess wiedergibt. Dieser Wellenform-Auswahl-Prozess sei nunmehr im Einzelnen beschrieben.
  • Zunächst werden die die eingegebene Zeichenfolge bildenden Phoneme jeweils einzeln von oben ausgewählt (s401). Handelt es sich bei dem Phonem jeweils um ein wie vorerwähnt rekonstruiertes Phonem (s402), so werden die Wellenform-Daten des entsprechenden Phonems in den ausgewählten und transformierten prosodischen Modelldaten aus dem Wellenform-Wörterbuch gewählt (s403).
  • Handelt es sich bei dem Phonem nicht um ein rekonstruiertes Phonem, so wird das Phonem mit gleichem Trennzeichen im Wellenform-Wörterbuch als ein Kandidat gewählt (s404). Es wird ein Frequenzunterschied zwischen diesem Kandidaten und dem entsprechenden Phonem in den prosodischen Modelldaten nach erfolgter Transformation errechnet (s405). Sind in diesem Falle zwei phonemische V-Intervalle vorhanden, so wird der Akzent-Typ berücksichtigt. Es wird die Summe der Frequenzunterschiede für jedes V-Intervall errechnet. Dieser Schritt wird für sämtliche Kandidaten wiederholt (s406). Die Wellenform-Daten der Phoneme für einen Kandidaten mit der geringsten Differenzgröße (Summe der Differenzen) wird aus dem Wellenform-Wörterbuch ausgewählt (s407). Hierbei können die Volumen der Phonemdaten-Kandidaten zusätzlich einbezogen werden, während diejenigen von extrem geringer Größe entfernt werden können.
  • Der vorbeschriebene Prozess wird für alle die eingegebene Zeichenfolge ausmachenden Phoneme wiederholt.
  • 8 und 9 zeigen die spezifischen Einzelmerkmale des Wellenform-Auswahl-Prozesses. Hierbei werden von den die eingegebene Zeichenfolge "sakaikun" bildenden VCV-Phonemen "sa aka ai iku un" die Frequenz und der Volumenwert des entsprechenden Phonems in den prosodischen Modelldaten nach erfolgter Transformation sowie die Frequenz und der Volumenwert des jeweiligen Phonem-Kandidaten jeweils für "sa" und "aka", die keine rekonstruierten Phoneme darstellen, aufgelistet.
  • Im Einzelnen zeigt 8 die Frequenz "450" und den Volumenwert "1000" für das Phonem "sa" in den prosodischen Modelldaten nach der Transformation sowie die Frequenzen "440", "500", "400" und die Volumenwerte "800", "1050", "950" von drei Phonem-Kandidaten "sa-001", "sa-002" und "sa-003". In diesem Falle wird der am nächsten liegende Phonem-Kandidat "sa-001" mit der Frequenz "440" gewählt.
  • 9 zeigt die Frequenz "450" und den Volumenwert "1000" im V-Intervall 1 für das Phonem "aka" in den prosodischen Modelldaten nach erfolgter Transformation, die Frequenz "400" und den Volumenwert "800" im V-Intervall 2 für das Phonem "aka" in den prosodischen Modelldaten nach erfolgter Transformation, die Frequenzen "400", "460" und die Volumenwerte "1000", "800" im V-Intervall 1 für die zwei Phoneme "aka-001" und "aka-002" sowie die Frequenzen "450", "410" und die Volumenwerte "800", "1000" im V-Intervall 2 für diese zwei Phoneme "aka-001" und "aka-002". In diesem Falle wird der Phonem-Kandidat "aka-002" gewählt, bei dem die Summe der Frequenzdifferenzen jeweils für das V-Intervall 1 und das V-Intervall 2 ξ450 – 400ξ + ξ400 – 450ξ = 100 für den Phonem-Kandidaten "aka-001" und ξ450 – 460ξ + ξ400 – 410ξ = 20 für den Phonem-Kandidaten "aka-002" am kleinsten ist.
  • 10 ist ein detailliertes Ablaufdiagramm eines Wellenform-Verbindungs-Prozesses. Dieser Wellenform-Verbindungs-Prozess sei nunmehr im Einzelnen beschrieben.
  • Zunächst werden die Wellenform-Daten für das wie vorbeschrieben ausgewählte Phonem jeweils von oben gewählt (s501). Es wird die Position des Verbindungskandidaten festgelegt (s502). In diesem Falle werden die Wellenform-Daten auf Grundlage der rekonstruierten Verbindungsinformation (s504) verbunden, wenn die Verbindung restaurierbar ist (s503).
  • Ist diese nicht restaurierbar, so wird eine Entscheidung hinsichtlich der Silbenlänge getroffen (s505). Sodann werden die Wellenform-Daten nach verschiedenen Verbindungsmöglichkeiten (wie Vokalintervallverbindung, Langtonverbindung, Stimmlossilbenverbindung, Doppelkonsonantverbindung, silbische Nasalverbindung) miteinander verbunden (s506).
  • Der vorbeschriebene Prozess wird für die Wellenform-Daten aller Phoneme wiederholt, um die zusammengesetzten Stimmendaten zu schaffen (s507).
  • 11 ist ein Funktionsblockdiagramm einer erfindungsgemäßen Sprachsynthesevorrichtung. In dieser Figur bezeichnet die Bezugsziffer 11 ein Wort-Wörterbuch, 12 ein prosodisches Wörterbuch, 13 ein Wellenform-Wörterbuch, 14 eine Akzent-Typ-Bestimmungseinrichtung, 15 eine Einrichtung für die prosodische Modellauswahl, 16 eine Prosodie-Transformationseinrichtung, 17 eine Wellenform-Auswahleinrichtung und 18 eine Wellenform-Verbindungseinrichtung.
  • Im Wort-Wörterbuch 11 ist eine große Anzahl von Zeichenfolgen (Worten) gespeichert, die zumindest ein Zeichen mit Akzent-Typ aufweisen. Das prosodische Wörterbuch 12 dient der Speicherung einer Anzahl prosodischer Modelldaten mit Zeichenfolge, Mora-Zahl, Akzent-Typ und Silbeninformation oder eine Anzahl typischer prosodischer Modelldaten für eine große Zahl von im Wort-Wörterbuch abgelegten Zeichenfolgen. Im Wellenform-Wörterbuch 13 sind Stimmen-Wellenform-Daten einer Kompositionseinheit mit aufgezeichneten Stimmen abgelegt.
  • In der Akzent-Typ-Bestimmungseinrichtung 14 werden eine über eine Eingabevorrichtung oder ein Spielsystem eingegebene Zeichenfolge und ein im Wort-Wörterbuch 11 gespeichertes Wort miteinander verglichen und bei Vorhandensein irgendeines gleichen Worts dessen Akzent-Typ als Akzent-Typ der Zeichenfolge bzw. im anderen Falle der Akzent-Typ eines Worts mit ähnlicher Zeichenfolge unter den Worten mit gleicher Mora-Zahl als Akzent-Typ dieser Zeichenfolge bestimmt.
  • In der Einrichtung 15 für die Auswahl eines prosodischen Modells werden die Silbeninformation der eingegebenen Zeichenfolge geschaffen, zur Schaffung eines prosodischen Modelldaten-Kandidaten die prosodischen Modelldaten extrahiert, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge aus dem prosodischen Wort-Wörterbuch 12 übereinstimmen, die Silbeninformation für alle prosodischen Modelldaten-Kandidaten und die Silbeninformation der eingegebenen Zeichenfolge zur Bereitstellung einer rekonstruierten prosodischen Information miteinander verglichen und die optimalen Modelldaten auf Grundlage der Zeichenfolge eines jeden der prosodischen Modelldaten-Kandidaten und der rekonstruierten prosodischen Information desselben geschaffen.
  • In der Prosodie-Transformationseinrichtung 16 wird die Silbenlänge nach erfolgter Transformation aus der vorab für alle zur Stimmensynthese herangezogenen Zeichen zur Benutzung errechneten durchschnittlichen Silbenlänge sowie im Falle, dass die Zeichenfolge der gewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt, die Silbenlänge der prosodischen Modelldaten für jedes in diesen prosodischen Modelldaten nicht übereinstimmende Zeichen errechnet.
  • In der Wellenform-Auswahleinrichtung 17 werden für die rekonstruierten Phoneme der eine eingegebene Zeichenfolge bildenden Phoneme die Wellenform-Daten des entsprechenden Phonems in den prosodischen Modelldaten nach erfolgter Transformation sowie die Wellenform-Daten entsprechender Phoneme mit einer Frequenz, die der Frequenz der prosodischen Modelldaten nach erfolgter Transformation am nächsten liegt, für die anderen Phoneme aus dem Wellenform-Wörterbuch ausgewählt.
  • In der Wellenform-Verbindungseinrichtung 18 werden die ausgewählten Wellenform-Daten zur Schaffung der zusammengesetzten Stimmendaten miteinander verbunden.
  • Die in dieser Beschreibung erläuterten bevorzugten Ausführungsformen dienen lediglich der Veranschaulichung und stellen keinerlei Einschränkung dar. Damit ist die Erfindung ausschließlich im Umfang der beiliegenden Ansprüche begrenzt. Es wird vorausgesetzt, dass alle in den Rahmen der Ansprüche fallenden Abwandlungen durch die vorliegende Erfindung erfasst sind.

Claims (6)

  1. Sprachsyntheseverfahren unter Verwendung eines Wort-Wörterbuchs zum Speichern von Zeichenfolgen mit Akzent, eines prosodischen Wörterbuchs und eines Wellenform-Wörterbuchs, umfassend die folgenden Schritte: Verwenden des Wort-Wörterbuchs zur Speicherung einer großen Anzahl von Zeichenfolgen, die zumindest ein Zeichen zusammen mit seinem Akzent-Typ enthalten, des prosodischen Wörterbuchs zum Speichern typischer Modelldaten, die die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die silbische Information unter den prosodischen Modelldaten enthalten, die die prosodische Information für die Zeichenfolgen repräsentieren, die in dem Wort-Wörterbuch gespeichert sind und des Wellenform-Wörterbuchs zum Speichern von Stimmen-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme; Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge (s1); Schaffen der Silben-Information einer eingegebenen Zeichenfolge (s201); Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge aus dem Prosodie-Wörterbuch übereinstimmen, so dass ein Prosodie-Modellkandidat (s202, s203) erzeugt wird; Schaffen der rekonstruierten Prosodie-Information durch Vergleich der Silben-Information jedes prosodischen Modelldaten-Kandidaten und der Silben-Information der eingegebenen Zeichenfolge (s204); Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge jedes prosodischen Modelldaten-Kandidaten und dessen rekonstruierter prosodischer Information (s205 bis s212); Auswahl der Wellenform-Daten entsprechend jedem Zeichen der eingegebenen Zeichenfolge aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten (s4) und Verbinden der ausgewählten Wellenform-Daten miteinander (s5); dadurch gekennzeichnet, dass dann, falls bei irgendeinem der prosodischen Modelldaten-Kandidaten alle seine Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, dieser prosodische Modelldaten-Kandidat die optimalen prosodischen Modelldaten (s206) darstellt; dass dann, falls die Phoneme keines Kandidaten mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, der Kandidat mit der größten Anzahl übereinstimmender Phoneme mit denjenigen der eingegebenen Zeichenfolge unter den prosodischen Modelldaten-Kandidaten die optimalen prosodischen Modelldaten (s208, s209) darstellt; und dass dann, falls mehrere Kandidaten existieren, bei denen eine größte Anzahl von Phonemen übereinstimmt, der Kandidat mit der größten Anzahl aufeinanderfolgender übereinstimmender Phoneme die optimalen prosodischen Modelldaten (s210, s211) darstellt; und dass die prosodische Information der prosodischen Modelldaten entsprechend der Silbenlänge transformiert wird, welche Transformation aus der durchschnittlichen Silbenlänge zuvor für alle in der Sprachsynthese verwendeten Zeichen und aus der Silbenlänge der prosodischen Modelldaten für jedes Zeichen erhalten wird, das nicht mit den prosodischen Modelldaten übereinstimmt, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt (s304).
  2. Sprachsyntheseverfahren gemäß Anspruch 1, ferner umfassend die folgenden Schritte: Auswahl der Wellenform-Daten des entsprechenden Phonems in den prosodischen Modelldaten aus dem Wellenform-Wörterbuch, bei welchem entsprechenden Phonem die Position und das Phonem mit demjenigen der prosodischen Modelldaten für jedes Phonem übereinstimmen, das eine eingegebene Zeichenfolge bildet (s402, s403); und Auswahl der Wellenform-Daten des entsprechenden Phonems, dessen Frequenz am nächsten derjenigen der prosodischen Modelldaten aus dem Wellenform-Wörterbuch für andere Phoneme liegt (s404 bis s407).
  3. Sprachsynthesevorrichtung, umfassend ein Wort-Wörterbuch zum Speichern von Zeichenfolgen mit Akzent, ein Prosodie-Wörterbuch und ein Wellenform-Wörterbuch, welches Wort-Wörterbuch (11) zum Speichern einer großen Anzahl von Zeichenfolgen vorgesehen ist, die zumindest ein Zeichen mit seinem Akzent-Typ umfassen, welches Prosodie-Wörterbuch (12) dazu vorgesehen ist, typische prosodische Modelldaten zu speichern, die die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die Silben-Information unter den prosodischen Modelldaten enthalten, welche die prosodische Information für die Zeichenfolgen darstellen, die in dem Wort-Wörterbuch gespeichert sind, und welches Wellenform-Wörterbuch (13) zum Speichern von Sprach-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme vorgesehen ist; welche Sprachsynthesevorrichtung ferner eine Akzent-Typ-Bestimmungseinrichtung (14) zum Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge umfasst; sowie prosodische Modellauswahlmittel (15) zum Schaffen der Silbeninformation einer eingegebenen Zeichenfolge, zum Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, aus dem Prosodie-Wörterbuch, so dass man einen prosodischen Modellkandidaten erhält, Schaffen der rekonstruierten prosodischen Information durch Vergleich der Silbeninformation jedes prosodischen Modelldaten-Kandidats mit der Silbeninformation der eingegebenen Zeichenfolge, und zur Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge für jeden prosodischen Modelldatenkandidaten und der daraus rekonstruierten prosodischen Information, Wellenform-Auswahlmittel (17) zur Auswahl der Wellenform-Daten, die jedem Zeichen der eingegebenen Zeichenfolge entsprechen, aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten und Wellenform-Verbindungsmittel (18) zum Verbinden der ausgewählten Wellenform-Daten miteinander; dadurch gekennzeichnet, dass dann, falls bei irgendeinem der prosodischen Modelldaten-Kandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, dieser prosodische Modelldatenkandidat die optimalen prosodischen Modelldaten darstellt; dass dann, falls bei keinem Kandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, der Kandidat mit der größten Anzahl übereinstimmender Phoneme mit den Phonemen der eingegebenen Zeichenfolge unter den prosodischen Modelldatenkandidaten die optimalen prosodischen Modelldaten darstellt; und dass dann, falls bei mehreren Kandidaten eine größte Anzahl von Phonemen übereinstimmt, derjenige Kandidat mit der größten Anzahl übereinstimmender Phoneme die optimalen prosodischen Modelldaten darstellt; welche Sprachsynthesevorrichtung ferner Prosodie-Transformationsmittel (16) zur Transformation der prosodischen Information der prosodischen Modelldaten entsprechend der Silbenlänge umfasst, welche Transformation aus der durchschnittlichen Silbenlänge erfolgt, die zuvor für alle in der Sprachsynthese verwendeten Zeichen berechnet wurde und aus der Silbenlänge der prosodischen Modelldaten für jedes Zeichen, das nicht mit den prosodischen Modelldaten übereinstimmt, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt.
  4. Sprachsynthesevorrichtung gemäß Anspruch 3, ferner umfassend Wellenform-Auswahlmittel (17) zur Auswahl der Wellenformdaten des entsprechenden Phonems in den prosodischen Modelldaten des Wellenform-Wörterbuchs, wobei die Position und das Phonem des entsprechenden Phonems mit denjenigen der prosodischen Modelldaten jedes Phonems übereinstimmen, welche eine eingegebene Zeichenfolge bildet, und zur Auswahl der Wellenform-Daten des Phonems, dessen Frequenz am nächsten zu derjenigen der prosodischen Modelldaten aus dem Wellenform-Wörterbuch für weitere Phoneme liegt.
  5. Rechnerlesbares Medium, welches ein Sprachsynteseprogramm aufzeichnet, welches Programm beim Lesen durch einen Rechner den Rechner dazu befähigt, ein Wort-Wörterbuch zur Speicherung von Zeichenfolgen, ein Prosodie-Wörterbuch und ein Wellenform-Wörterbuch zu bedienen, welcher Rechner dazu befähigt wird, als ein Wort-Wörterbuch (11) zur Speicherung einer großen Anzahl von Zeichenfolgen zu dienen, die zumindest ein Zeichen mit seinem Akzent-Typ enthalten, sowie als Prosodie-Wörterbuch (12) zur Speicherung typischer prosodischer Modelldaten, die die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die Silben-Information unter den prosodischen Modelldaten enthalten, welche die prosodischen Informationen für die Zeichenfolgen darstellen, die in dem Wort-Wörterbuch gespeichert sind, sowie als Wellenform-Wörterbuch (13) zur Speicherung der Stimmen-Wellenform-Daten einer Kompositionseinheit mit der aufgezeichneten Stimme; als Akzent-Typ-Bestimmungsmittel (14) zur Bestimmung des Akzent-Typs einer eingegebenen Zeichenfolge; als prosodische Modellauswahlmittel (15) zur Schaffung der Silbeninformation einer eingegebenen Zeichenfolge, zum Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, aus dem Prosodie-Wörterbuch, so dass man einen prosodischen Modellkandidat erhält, zur Schaffung der rekonstruierten prosodischen Information durch Vergleich der Silbeninformation jedes prosodischen Modelldatenkandidats und der Silbeninformation der eingegebenen Zeichenfolge, und zur Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge jedes prosodischen Modelldatenkandidats und dessen rekonstruierter prosodischer Information, dadurch gekennzeichnet, dass dann, falls bei einem der prosodischen Modelldatenkandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, dieser prosodische Modelldatenkandidat die optimalen prosodischen Modelldaten darstellt; dass dann, falls bei keinem Kandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, der Kandidat mit der größten Anzahl übereinstimmender Phoneme mit den Phonemen der eingegebenen Zeichenfolge unter den prosodischen Modelldatenkandidaten die optimalen prosodischen Modelldaten darstellt; und dass dann, falls mehrere Kandidaten existieren, bei denen eine größte Anzahl von Phonemen übereinstimmt, der Kandidat mit der größten Anzahl übereinstimmender Phoneme die optimalen prosodischen Modelldaten darstellt; sowie durch prosodische Transformationsmittel (16) zur Transformation der prosodischen Information der prosodischen Modelldaten entsprechend der Silbenlänge, welche Transformation aus der durchschnittlichen Silbenlänge erhalten wird, die zuvor für alle Zeichen berechnet wurde, die bei der Sprachsynthese verwendet wurden, und aus der Silbenlänge der prosodischen Modelldaten für jedes Zeichen, das nicht mit den prosodischen Modelldaten übereinstimmt, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt.
  6. Rechnerlesbares Medium, das das Sprachsyntheseprogramm gemäß Anspruch 5 aufzeichnet, ferner umfassend Wellenform-Auswahlmittel (17) zur Auswahl der Wellenformdaten des entsprechenden Phonems in den prosodischen Modelldaten aus dem Wellenform-Wörterbuch, bei welchem entsprechenden Phonem die Position und das Phonem mit denjenigen der prosodischen Modelldaten für jedes Phonem übereinstimmen, das eine eingegebene Zeichenfolge bildet, und zur Auswahl der Wellenform-Daten des Phonems, dessen Frequenz am nächsten zu derjenigen der prosodischen Modelldaten aus dem Wellenform-Wörterbuch für weitere Phoneme liegt.
DE60035001T 1999-07-23 2000-07-19 Sprachsynthese mit Prosodie-Mustern Expired - Lifetime DE60035001T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP20860699A JP3361291B2 (ja) 1999-07-23 1999-07-23 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP20860699 1999-07-23

Publications (2)

Publication Number Publication Date
DE60035001D1 DE60035001D1 (de) 2007-07-12
DE60035001T2 true DE60035001T2 (de) 2008-02-07

Family

ID=16559004

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60035001T Expired - Lifetime DE60035001T2 (de) 1999-07-23 2000-07-19 Sprachsynthese mit Prosodie-Mustern

Country Status (8)

Country Link
US (1) US6778962B1 (de)
EP (1) EP1071074B1 (de)
JP (1) JP3361291B2 (de)
KR (1) KR100403293B1 (de)
CN (1) CN1108603C (de)
DE (1) DE60035001T2 (de)
HK (1) HK1034130A1 (de)
TW (1) TW523733B (de)

Families Citing this family (179)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7353164B1 (en) 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7047193B1 (en) * 2002-09-13 2006-05-16 Apple Computer, Inc. Unsupervised data-driven pronunciation modeling
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US20050144003A1 (en) * 2003-12-08 2005-06-30 Nokia Corporation Multi-lingual speech synthesis
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2007024960A (ja) * 2005-07-12 2007-02-01 Internatl Business Mach Corp <Ibm> システム、プログラムおよび制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7912718B1 (en) 2006-08-31 2011-03-22 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510113B1 (en) 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100934288B1 (ko) * 2007-07-18 2009-12-29 현덕 한글을 이용한 음원 생성 방법 및 장치
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20100125459A1 (en) * 2008-11-18 2010-05-20 Nuance Communications, Inc. Stochastic phoneme and accent generation using accent class
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9570066B2 (en) * 2012-07-16 2017-02-14 General Motors Llc Sender-responsive text-to-speech processing
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6567372B2 (ja) * 2015-09-15 2019-08-28 株式会社東芝 編集支援装置、編集支援方法及びプログラム
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN111862954B (zh) * 2020-05-29 2024-03-01 北京捷通华声科技股份有限公司 一种语音识别模型的获取方法及装置
CN112002302A (zh) * 2020-07-27 2020-11-27 北京捷通华声科技股份有限公司 一种语音合成方法和装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1082230A (zh) * 1992-08-08 1994-02-16 凌阳科技股份有限公司 声音合成的程序字控制器
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
JP3397406B2 (ja) * 1993-11-15 2003-04-14 ソニー株式会社 音声合成装置及び音声合成方法
JPH07319497A (ja) * 1994-05-23 1995-12-08 N T T Data Tsushin Kk 音声合成装置
GB2292235A (en) * 1994-08-06 1996-02-14 Ibm Word syllabification.
JPH09171396A (ja) * 1995-10-18 1997-06-30 Baisera:Kk 音声発生システム
KR970060042A (ko) * 1996-01-05 1997-08-12 구자홍 음성합성방법
AU1941697A (en) * 1996-03-25 1997-10-17 Arcadia, Inc. Sound source generator, voice synthesizer and voice synthesizing method
US6029131A (en) * 1996-06-28 2000-02-22 Digital Equipment Corporation Post processing timing of rhythm in synthetic speech
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
JP3242331B2 (ja) 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
US6144939A (en) * 1998-11-25 2000-11-07 Matsushita Electric Industrial Co., Ltd. Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
EP1045372A3 (de) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Sprachkommunikationsystem
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Also Published As

Publication number Publication date
CN1108603C (zh) 2003-05-14
TW523733B (en) 2003-03-11
JP3361291B2 (ja) 2003-01-07
EP1071074A3 (de) 2001-02-14
EP1071074B1 (de) 2007-05-30
DE60035001D1 (de) 2007-07-12
KR20010021106A (ko) 2001-03-15
JP2001034283A (ja) 2001-02-09
HK1034130A1 (en) 2001-10-12
EP1071074A2 (de) 2001-01-24
US6778962B1 (en) 2004-08-17
KR100403293B1 (ko) 2003-10-30
CN1282018A (zh) 2001-01-31

Similar Documents

Publication Publication Date Title
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
EP1184839B1 (de) Graphem-Phonem-Konvertierung
EP1159734B1 (de) Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition