DE60035001T2

DE60035001T2 - Sprachsynthese mit Prosodie-Mustern

Info

Publication number: DE60035001T2
Application number: DE60035001T
Authority: DE
Inventors: Osamu Kasai; Toshiyuki Mizoguchi
Original assignee: Konami Corp; Konami Computer Entertainment Co Ltd; Konami Computer Entertainment Tokyo Inc
Current assignee: Konami Computer Entertainment Co Ltd; Konami Computer Entertainment Tokyo Inc; Konami Group Corp
Priority date: 1999-07-23
Filing date: 2000-07-19
Publication date: 2008-02-07
Anticipated expiration: 2020-07-20
Also published as: CN1108603C; TW523733B; JP3361291B2; EP1071074A3; EP1071074B1; DE60035001D1; KR20010021106A; JP2001034283A; HK1034130A1; EP1071074A2; US6778962B1; KR100403293B1; CN1282018A

Description

STAND DER TECHNIK Gebiet der Erfindung
Die vorliegende Erfindung betrifft Verbesserungen eines Sprachsyntheseverfahrens, eine Sprachsynthesevorrichtung und ein rechnerlesbares Medium zum Aufzeichnen eines Sprachsyntheseprogramms.
Beschreibung des Stands der Technik
Der Artikel mit dem Titel "Evaluating the pronunciation component of text-to-speech systems for English: a performance comparison of different approaches", Verfasser R.I. Damger et al, Computer Speech and Language (April 1999) 13, Seiten 155–176, betrifft die Entwicklung von Verfahren zum Vergleich von Text/Phonem-Subsystemen durch Vergleich der Leistung von vier repräsentativen Lösungsansätzen für die automatische Phonemisierung mit dem gleichen Test-Wörterbuch. Neben regelbasierten Lösungsansätzen werden drei datengesteuerte Techniken ausgewertet, nämlich Aussprache durch Analogie (PbA), NET-Sprache und IB-1-1G (ein modifiziertes k-Nächster-Nachbar-Verfahren).
Die Schrift EP-A-0 831 460 A2 beschreibt ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung, bei denen natürliche Sprache als Hilfsinformation benutzt und Sprache regelbezogen durch Sprachsynthese synthetisiert, prosodische Information für eine Phonemfolge eines jeden Worts einer Wortreihe, die durch Analyse eines eingegebenen Textes erhalten wurde, durch Bezugnahme auf ein Wort-Wörterbuch eingesetzt und eine Sprach-Wellenformsequenz aus der Phonemfolge eines jeden Worts durch Bezugnahme auf ein Sprach-Wellenform-Wörterbuch erhalten wird. Diese Veröffentlichungen offenbaren die Merkmale des Oberbegriffs der Ansprüche 1 und 3.
Das konventionelle Verfahren zur Ausgabe verschiedener (in der menschlichen Sprache) gesprochener Mitteilungen aus einer Maschine war ein so genanntes Sprachsyntheseverfahren, bei dem Sprachdaten einer Kompositionseinheit vorab gespeichert wurden, die einer gesprochenen Mitteilung aus verschiedenen Worten entspricht, und die Sprachdaten gleichlautend mit einer eingegebenen Zeichenfolge (Text) beliebig kombiniert wurden.
Allgemein werden bei einem derartigen Sprachsyntheseverfahren die Phonem-Information wie ein phonetischen Symbol, das verschiedenen Worten (Zeichenfolgen), wie sie alltäglich benutzt werden, entspricht, und die prosodische Information wie ein Akzent, eine Intonation und eine Amplitude in einem Wörterbuch aufgezeichnet. Es wird eine eingegebene Zeichenfolge analysiert. Ist eine gleiche Zeichenfolge im Wörterbuch abgelegt, so werden die Sprachdaten einer Kompositionseinheit kombiniert und auf Grundlage ihrer Information ausgegeben. Andererseits wird die Information in Übereinstimmung mit vordefinierten Regeln geschaffen und werden die Sprachdaten einer Kompositionseinheit kombiniert und auf Grundlage dieser Information ausgegeben.
Bei dem vorbeschriebenen konventionellen Sprachsyntheseverfahren kann jedoch für eine nicht im Wörterbuch verzeichnete Zeichenfolge die einer echt gesprochenen Mitteilung entsprechende Information bzw. insbesondere die prosodische In formation nicht geschaffen werden. Damit stellte sich das Problem, dass eine unnatürliche oder eine andere als die jeweils beabsichtigte Sprache hergestellt wurde.
Zusammenfassung der Erfindung
Aufgabe der vorliegenden Erfindung ist die Bereitstellung eines Sprachsyntheseverfahrens, bei dem eine natürliche Stimme durch Absorbieren einer Differenz zwischen einer beliebig eingegebenen Zeichenfolge und einer im einem Wörterbuch aufgezeichneten Zeichenfolge synthetisiert werden kann, einer Sprachsynthesevorrichtung und eines rechnerlesbaren Mediums mit einem auf diesem aufgezeichneten Sprachsyntheseprogramm.
Zur Lösung der vorgenannten Aufgabe wird erfindungsgemäß ein Sprachsyntheseverfahren nach Anspruch 1 bereitgestellt zur Schaffung von einer eingegebenen Zeichenfolge entsprechenden Stimmenmitteilungsdaten unter Verwendung eines Wort-Wörterbuchs zum Speichern einer großen Anzahl von Zeichenfolgen, die zumindest ein Zeichen mit zusammen mit seinem Akzent-Typ enthalten, eines prosodischen Wörterbuchs zum Speichern typischer prosodischer Modelldaten aus die prosodische Information für die im Wort-Wörterbuch gespeicherten Zeichenfolgen repräsentierenden prosodischen Modelldaten, und eines Wellenform-Wörterbuchs zum Speichern von Stimmen-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme, das die folgenden Schritte umfasst: Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge; Auswahl prosodischer Modelldaten aus dem prosodischen Wörterbuch auf Grundlage der eingegebenen Zeichenfolge und des Akzent-Typs; Transformieren der prosodischen Information der prosodischen Modelldaten gemäß der eingegebenen Zeichenfolge, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt, Auswahl der Wellenform-Daten entsprechend jedem Zeichen der eingegebenen Zeichenfolge aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten; und Verbinden der ausgewählten Wellenform-Daten miteinander.
Ist eine eingegebene Zeichenfolge nicht im Wörterbuch verzeichnet, so können erfindungsgemäß dieser Zeichenfolge in etwa entsprechende prosodische Modelldaten verwendet werden. Weiter lässt sich ihre prosodische Information gleichlautend mit der eingegebenen Zeichenfolge transformieren und sind die Wellenformdaten auf Grundlage der transformierten Informationsdaten auswählbar. Damit wird die Synthetisierung einer natürlichen Stimme ermöglicht.
Hierbei kann die Auswahl prosodischer Daten erfolgen durch Verwendung eines prosodischen Wörterbuchs zum Speichern von die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die silbische Information enthaltenden prosodischen Modelldaten, Schaffen der Silben-Information einer eingegebenen Zeichenfolge, Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge aus dem prosodischen Wörterbuch übereinstimmen, so dass ein prosodischer Modelldaten-Kandidat erzeugt wird, Schaffen einer rekonstruierten prosodischen Information durch Vergleich der Silben-Information jedes prosodischen Modelldaten-Kandidaten und der Silben-Information der eingegebenen Zeichenfolge, und Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge jedes prosodischen Modelldaten-Kandidaten und dessen rekonstruierter prosodischer Information.
Stimmen in diesem Falle bei irgendeinem der prosodischen Modelldaten-Kandidaten alle seine Phoneme mit den Phonemen der eingegebenen Zeichenfolge überein, so stellt dieser prosodische Modelldaten-Kandidat die optimalen prosodischen Modelldaten dar. Beim Fehlen eines Kandidaten, dessen sämtliche Phoneme mit den Phonemen der eingegebenen Zeichenfolge übereinstimmen, stellt der Kandidat mit der größten Anzahl von mit den Phonemen der eingegebenen Zeichenfolge übereinstimmenden Phonemen unter den prosodischen Modelldaten-Kandidaten die optimalen prosodischen Modelldaten dar. Falls mehrere Kandidaten existieren, bei denen eine größte Anzahl von Phonemen mit den Phonemen der eingegebenen Zeichenfolge überstimmt, repräsentiert der Kandidat mit der größten Anzahl aufeinanderfolgender übereinstimmender Phoneme die optimalen prosodischen Modelldaten. Damit besteht die Möglichkeit, die prosodischen Modelldaten mit demjenigen Phonem auszuwählen, das identisch ist mit dem und in der gleichen Position wie das Phonem der eingegebenen Zeichenfolge, bzw. mit einem restaurierten Phonem (nachfolgend auch bezeichnet als rekonstruiertes Phonem), das übereinstimmend und aufeinanderfolgend zur Synthese einer natürlicheren Stimme führt.
Die Transformation prosodischer Modelldaten erfolgt in der Weise, dass bei Nichtübereinstimmung der Zeichenfolge der ausgewählten prosodischen Modelldaten mit der eingegebenen Zeichenfolge eine Silbenlänge nach erfolgter Transformation aus einer vorab aus einer durchschnittlichen Silbenlänge für alle zur Sprachsynthese eingesetzte Zeichen und eine Silbenlänge der prosodischen Modelldaten für jedes nicht mit den prosodischen Modelldaten berechnet wird. Hiermit lässt sich die prosodische Information der ausgewählten prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge transformieren. Eine natürlichere Stimmensynthese wird somit ermöglicht.
Weiter erfolgt die Auswahl von Wellenform-Daten in der Weise, dass die Wellenform-Daten des entsprechenden Phonems in den prosodischen Modelldaten aus dem Wellenform-Wörterbuch für ein rekonstruiertes Phonem unter den die jeweils eingegebene Zeichenfolge darstellenden Phonemen und die Wellenform-Daten des entsprechenden Phonems, dessen Frequenz am nächsten zu derjenigen der prosodischen Modelldaten liegt, aus dem Wellenform-Wörterbuch für andere Phoneme ausgewählt werden. Damit lassen sich Wellenform-Daten heranziehen, die den prosodischen Modelldaten nach erfolgter Transformation am nächsten liegen. Die Synthese einer natürlicheren Stimme ist somit möglich.
Zur Erfüllung der vorbeschriebenen Aufgabe wird erfindungsgemäß eine Sprachsynthesevorrichtung bereitgestellt zur Schaffung der Sprachmitteilungsdaten entsprechend einer eingegebenen Zeichenfolge mittels eines Wort-Wörterbuchs zum Speichern einer großen Anzahl von Zeichenfolgen, welche zumindest ein Zeichen mit seinem Akzent-Typ umfassen, eines prosodischen Wörterbuchs zum Speichern typischer prosodischer Modelldaten aus die prosodische Information für die in diesem Wort-Wörterbuch gespeicherten Zeichenfolgen darstellenden prosodischen Modelldaten, und eines Wellenform-Wörterbuchs zum Speichern von Stimmen-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme, einer Akzent-Bestimmungseinrichtung zum Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge, einer prosodischen Modell-Auswahleinrichtung zur Auswahl der prosodischen Modelldaten aus dem Prosodie-Wörterbuch auf Grundlage der eingegebenen Zeichenfolge und des Akzent-Typs, einer Prosodie-Transformationseinrichtung zum Transformieren der prosodischen Information der prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt, Wellenform-Auswahleinrichtung zur Auswahl der jedem Zeichen der eingegebenen Zeichenfolge entsprechenden Wellenform-Daten auf Grundlage der prosodischen Modelldaten aus dem Wellenform-Wörterbuch sowie einer Wellenform-Verbindungseinrichtung zum Verbindender ausgewählten Wellenform-Daten miteinander.
Die Sprachsynthesevorrichtung ist mit einem rechnerlesbaren Medium mit darauf gespeichertem Sprachsyntheseprogramm, welches beim Lesen durch einen Rechner den Letzteren dazu befähigt, zu dienen als ein Wort-Wörterbuch zum Speichern einer großen Anzahl von Zeichenfolgen mit zumindest einem Zeichen mit seinem Akzent-Typ, als ein prosodisches Wörterbuch zum Speichern typischer prosodischer Modelldaten unter dem prosodischen Modelldaten, welche die prosodische Information für die in das Wort-Wörterbuch eingegebenen Zeichenfolgen darstellen, als ein Wellenform-Wörterbuch zur Speicherung der Stimmen-Wellenform-Daten einer Kompositionseinheit mit der aufgezeichneten Stimme, als eine Akzent-Bestimmungseinrichtung zum Bestimmen des Akzent-Typs einer eingegebenen Zeichenfolge, als eine Prosodie-Transformationsrichtung zum Transformieren der prosodischen Information der prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht der eingegebenen Zeichenfolge entspricht, als eine Wellenform-Auswahleinrichtung zur Auswahl der jedem Zeichen der eingegebenen Zeichenfolge entsprechenden Wellenform-Daten aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten, sowie als eine Wellenform-Verbindungseinrichtung zum Verbinden der ausgewählten Wellenform-Daten miteinander.
Die vorstehenden sowie weitere Zielsetzungen, Merkmale und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung und den beigefügten Zeichnungen.
Kurzbeschreibung der Zeichnungen
Es zeigen:
1 ein Ablaufdiagramm eines vollständigen erfindungsgemäßen Sprachsyntheseverfahrens;
2 ein Diagramm, das ein prosodisches Wörterbuch darstellt;
3 ein Ablaufdiagramm mit den Details eines Prozesses zur Auswahl eines prosodischen Modells;
4 ein Diagramm mit spezifischen Einzelheiten des Prozesses zur Auswahl eines prosodischen Modells;
5 ein Ablaufdiagramm mit den Details eines prosodischen Transformationsverfahrens;
6 ein Diagramm mit spezifischen Einzelheiten der prosodischen Transformation;
7 ein Ablaufdiagramm mit den Details eines Wellenform-Auswahlprozesses;
8 ein Diagramm mit spezifischen Einzelheiten des Wellenform-Auswahlprozesses;
9 ein Diagramm mit spezifischen Einzelheiten des Wellenform-Auswahlprozesses;
10 ein Ablaufdiagramm mit den Details eines Wellenform-Verbindungsprozesses; und
11 ein Funktionsblockdiagramm für eine Sprachsynthesevorrichtung gemäß der vorliegenden Erfindung.
Beschreibung der bevorzugten Ausführungsformen
1 zeigt den Gesamtablauf eines erfindungsgemäßen Sprachsyntheseverfahrens.
Zunächst wird eine zu synthetisierende Zeichenfolge über eine Eingabevorrichtung oder ein Spielsystem (nicht dargestellt) eingegeben. Weiter wird deren Akzent-Typ auf Grundlage des Wort-Wörterbuchs bestimmt usw. (s1). Hierbei speichert das Wort-Wörterbuch eine große Anzahl von Zeichenfolgen (Worten), die zumindest ein Zeichen mit seinem Akzent-Typ enthalten. So speichert es beispielsweise zahlreiche Worte, die den Namen eines voraussichtlich einzugebenden Spielers (wobei "kun" (ein Höflichkeitstitel in Japan) dem eigentlichen Namen nachgestellt wird) mit seinem Akzent-Typ darstellen.
Eine spezifische Bestimmung erfolgt durch Vergleich einer eingegebenen Zeichenfolge und eines im Wort-Wörterbuch abgelegten Worts sowie Annahme des Akzent-Typs bei Vorhandensein des gleichen Worts oder ansonsten durch Übernahme des Akzent- Typs eines Worts mit ähnlicher Zeichenfolge unter den Worten mit gleicher Mora-Zahl.
Existiert das gleiche Wort nicht, so kann der Benutzer (oder Spieler) einen gewünschten Akzent-Typ aus sämtlichen Akzent-Typen, die für ein Wort mit der gleichen Mora-Zahl wie der eingegebenen Zeichenfolge erscheinen können, unter Verwendung einer Eingabevorrichtung (nicht dargestellt) wählen oder bestimmen.
Sodann werden die prosodischen Modelldaten auf Grundlage der eingegebenen Zeichenfolge und des Akzent-Typs aus dem prosodischen Wörterbuch ausgewählt (s2). Hierbei speichert das prosodische Wörterbuch typische prosodische Modelldaten unter den die prosodische Information für die im Wort-Wörterbuch abgelegten Worte repräsentierenden typischen prosodischen Modelldaten.
Stimmt die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge überein, so wird die prosodische Information der prosodischen Modelldaten gleichlautend mit der eingegebenen Zeichenfolge transformiert (s3).
Auf der Grundlage der prosodischen Modelldaten nach der Transformation (wobei die prosodischen Modelldaten nach Transformation in der Praxis nicht transformierte prosodische Modelldaten enthalten können, da keine Transformation durchgeführt wird, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten mit der eingegebenen Zeichenfolge übereinstimmt) werden die einem jeden Zeichen der eingegebenen Zeichenfolge entsprechenden prosodischen Modelldaten aus dem Wel lenform-Wörterbuch ausgewählt (s4). Hierbei speichert das Wellenform-Wörterbuch die Stimmen-Wellenform-Daten einer Kompositionseinheit mit den aufgezeichneten Stimmen oder Stimmen-Wellenformdaten (phonemische Symbole) in Übereinstimmung mit einem allgemeinen VCV-Phonem-System in dieser Ausführungsform.
Schließlich werden die ausgewählten Wellenform-Daten zur Schaffung der zusammengesetzten Stimmendaten miteinander verbunden (s5).
Es folgt eine detaillierte Beschreibung eines Verfahrens zur Auswahl eines prosodischen Modells.
2 zeigt ein Beispiel eines prosodischen Wörterbuchs, in dem eine Anzahl prosodischer Modelldaten, welche die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die Silbeninformation enthalten, nämlich eine Anzahl typischer Modelldaten, mit den Daten für eine Anzahl von im Wort-Wörterbuch gespeicherten Zeichenfolgen abgelegt sind. Hierbei besteht für jedes eine Zeichenfolge ausmachende Zeichen die silbische Information aus der Silbenart wie C: Konsonant + Vokal, V: Vokal, N': silbischer Nasallaut, Q: Doppelkonsonant. L: langer Laut oder #: stimmloser Laut, und der Silbenzahl, welche die Zahl des Stimme kennzeichnenden Symbols (A: 1, I:2, U:3, E:4, O:5, KA:6) gemäß ASJ-Notation (Acoustics Society of Japan) (in 2 weggelassen) bezeichnet. In der Praxis weist das prosodische Wörterbuch detaillierte Informationen bezüglich Frequenz, Volumen und Silbenlänge für jedes Phonem eines jeden prosodischen Modelldatums auf, die in der Zeichnung jedoch nicht ausgewiesen sind.
3 ist ein detailliertes Ablaufdiagramm des Prozesses zur Auswahl des prosodischen Modells. 4 zeigt die spezifischen Einzelheiten dieses Prozesses, der nachfolgend im Einzelnen beschrieben wird.
Zunächst wird die silbische Information einer eingegebenen Zeichenfolge geschaffen (s201). Im Einzelnen wird eine Zeichenfolge nach Hiragana in Romaji (phonetisches Symbol durch alphabetische Notierung) in Übereinstimmung mit der vorerwähnten ASJ-Notierung buchstabiert, um die aus der Silbenart und der Silbenzahl bestehende silbische Information zu schaffen. Beispielsweise wird im Falle der Zeichenfolge "kasaikun", die in Romaji mit "kasaikun" buchstabiert ist, wie aus 4 ersichtlich eine silbische Information geschaffen, die aus der Silbenart "CCVCN" und der Silbenzahl "6, 11, 2, 8, 98" besteht.
Zur Darstellung der Zahl rekonstruierter Phoneme in einer VCV-Phonem-Einheit wird für die eingegebene Zeichenfolge eine VCV-Phonemfolge geschaffen (s202). Im Falle von "kasaikun" lautet die VCV-Phonem-Sequenz beispielsweise "ka asa ai iku un".
Andererseits werden nur die prosodischen Modelldaten mit dem Akzent-Typ und der Mora-Zahl aus den im prosodischen Wörterbuch gespeicherten prosodischen Modelldaten extrahiert, um einen prosodischen Modelldaten-Kandidaten zu erhalten (s203). So werden in einem Beispiel gemäß 2 und 4 "kamaikun", "sasaikun" und "shisaikun" extrahiert.
Die rekonstruierte prosodische Information wird geschaffen durch Vergleich ihrer silbischen Information mit der silbischen Information der eingegebenen Zeichenfolge für jeden prosodischen Modelldaten-Kandidaten (s204). Im Einzelnen werden der prosodische Modelldaten-Kandidat und die eingegebene Zeichenfolge für jedes Zeichen hinsichtlich ihrer silbischen Information verglichen. Hinzugefügt wird "11" bei Übereinstimmung von Konsonant und Vokal, "01" bei unterschiedlichem Konsonanten, aber übereinstimmendem Vokal, "10" bei übereinstimmendem Konsonanten und abweichendem Vokal sowie "00", wenn Konsonant und Vokal unterschiedlich sind. Weiter ist eine VCV-Einheit interpunktiert.
In dem Beispiel gemäß 2 und 4 ist die Vergleichsinformation dergestalt, dass "kamaikun" aus "11 01 11 11 11", "sasaikun" aus "01 11 11 11 11" und "shisaikun" aus "00 11 11 11 11" besteht, und die rekonstruierte prosodische Information den folgenden Aufbau aufweist: für "kamaikun" = 11 101 111 111 111", sasiakun = 01 111 111 111 111" und "shisaikun" = 00 011 111 111 111".
Aus den prosodischen Modelldaten-Kandidaten wird ein Kandidat ausgewählt (s205). Es wird eine Prüfung dahingehend vorgenommen, ob dessen Phonem mit dem Phonem der eingegebenen Zeichenfolge in einer CVC-Einheit übereinstimmt oder nicht, d.h. ob die rekonstruierte prosodische Information "11" oder "111" lautet (s206). Bei Übereinstimmung sämtlicher Phoneme wird sodann bestimmt, dass es sich hier um den optimalen prosodischen Modelldaten-Kandidaten handelt (s207).
Stimmt andererseits irgendein Phonem nicht mit dem der eingegebenen Zeichenfolge überein, so wird eine VCV-Einheit, nämlich die Zahl "11" oder "111" in der rekonstruierten prosodischen Information, verglichen (Ausgangswert 0) (s208). In der maximalen Größe ist deren Modell ein Kandidat für die optimalen prosodischen Modelldaten (s209). Weiter wird die aufeinanderfolgende Zahl übereinstimmender Phoneme in einer VCV-Einheit, nämlich die aufeinanderfolgende Zahl "11" oder "111" in der rekonstruierten prosodischen Information, verglichen (Ausgangswert 0) (s210). Unter Heranziehung des maximalen Wertes wird deren Modell zu einem Kandidaten für die optimalen prosodischen Modelldaten (s211).
Der vorbeschriebene Prozess wird für sämtliche prosodischen Modelldaten-Kandidaten wiederholt (s212). Stimmen die meisten Phoneme eines Kandidaten überein oder weist ein Kandidat eine größte Anzahl übereinstimmender Phoneme auf, oder sind mehrere Modelle mit einer größten Anzahl übereinstimmender Phoneme vorhanden, so wird die größte Zahl aufeinanderfolgender Phoneme als optimale prosodische Modelldaten bestimmt.
In dem Beispiel gemäß 2 und 4 ist kein Modell vorhanden, das die gleiche wie die eingegebene Zeichenfolge aufweist. Die Zahl der übereinstimmenden Phoneme beträgt 3 für "kamaikun", 4 für "sasaikun" und 3 für "shisaikun". Die Zahl der aufeinanderfolgenden übereinstimmenden Phoneme 3 ist 3 für "kamaikun" und 4 für "sasaikun". Damit ist bestimmt, dass "sasaikun" die optimalen prosodischen Modelldaten darstellt.
Es folgt eine Beschreibung der einzelnen Merkmale des prosodischen Transformationsprozesses.
5 ist ein detailliertes Ablaufdiagramm des prosodischen Transformationsprozesses. 6 gibt die spezifischen Einzelheiten dieses prosodischen Transformationsprozesses wie der. Dieser prosodische Transformationsprozess sei nunmehr beschrieben:
Zunächst werden ein Zeichen der wie vorbeschrieben ausgewählten prosodischen Modelldaten und ein Zeichen der eingegebenen Zeichenfolge jeweils einzeln von oben ausgewählt (s301). Stimmen hierbei die Zeichen überein (s302), so folgt die Wahl des nächsten Zeichens (s303). Bei nicht übereinstimmenden Zeichen wird die Silbenlänge nach der Transformation entsprechend dem Zeichen in den prosodischen Modelldaten wie nachstehend beschreiben erhalten. Auch wird das Volumen nach erfolgter Transformation wie erforderlich beigestellt. Es werden sodann die prosodischen Modelldaten umgeschrieben (s304, s305).
Unter der Annahme, dass die Silbenlänge in dem prosodischen Modelldaten x, die durchschnittliche Silbenlänge entsprechend dem Zeichen in den prosodischen Modelldaten x', die Silbenlänge nach der Transformation y und die durchschnittliche Silbenlänge entsprechend dem Zeichen nach erfolgter Transformation y' betragen, wird die Silbenlänge nach der Transformation errechnet zu: y = y3 x(x/x3)
Man beachte, dass die durchschnittliche Silbenlänge vorab für jedes Zeichnen errechnet und gespeichert wird.
Im Falle der 6 lauten die eingegebene Zeichenfolge "sakaikun" und die ausgewählten prosodischen Modelldaten "kasaikun". Wird das Zeichen "ka" in den prosodischen Modelldaten gleichlautend mit dem Zeichen "sa" in der eingegebenen Zei chenfolge transformiert, so ist unter der Voraussetzung, dass die durchschnittliche Silbenlänge des Zeichens "ka" 22 und die durchschnittliche Silbenlänge des Zeichens "sa" 25 betragen: die Silbenlänge des Zeichens "sa" nach dem Transformieren: Silbenlänge "sa" = durchschnittliche Silbenlänge "sa" × (Silbenlänge "ka"/durchschnittliche Silbenlänge "ka") = 25 × (20/22) = 23.
Ähnlich beträgt in dem Falle, da ein Zeichen "sa" in den prosodischen Modelldaten gleichlautend mit dem Zeichen "ka" in der eingegebenen Zeichenfolge transformiert wird, die Silbenlänge des Zeichens "ka" nach erfolgter Transformation: Silbenlänge "ka" = durchschnittliche Silbenlänge "ka" × (Silbenlänge "sa"/durchschnittliche Silbenlänge "sa") = 22 × (30/25) = 26.
Der vorbeschriebene Prozess wird für alle Zeichen in den prosodischen Modelldaten wiederholt und sodann in die phonemische (VCV)-Information umgewandelt (s306). Es wird die Verbindungsinformation der Phoneme geschaffen (s307).
Lauten die eingegebene Zeichenfolge "sasaikun" und die ausgewählten prosodischen Modelldaten "kasaikun", so stimmen drei Zeichen, nämlich "i", "ku" und "n", hinsichtlich Position und Silbe überein. Diese Zeichen sind restaurierte (rekonstruierte) Phoneme.
Es folgt eine Beschreibung der einzelnen Merkmale eines Wellenform-Auswahl-Prozesses.
7 ist ein detailliertes Ablaufdiagramm, das den Wellenform-Auswahl-Prozess wiedergibt. Dieser Wellenform-Auswahl-Prozess sei nunmehr im Einzelnen beschrieben.
Zunächst werden die die eingegebene Zeichenfolge bildenden Phoneme jeweils einzeln von oben ausgewählt (s401). Handelt es sich bei dem Phonem jeweils um ein wie vorerwähnt rekonstruiertes Phonem (s402), so werden die Wellenform-Daten des entsprechenden Phonems in den ausgewählten und transformierten prosodischen Modelldaten aus dem Wellenform-Wörterbuch gewählt (s403).
Handelt es sich bei dem Phonem nicht um ein rekonstruiertes Phonem, so wird das Phonem mit gleichem Trennzeichen im Wellenform-Wörterbuch als ein Kandidat gewählt (s404). Es wird ein Frequenzunterschied zwischen diesem Kandidaten und dem entsprechenden Phonem in den prosodischen Modelldaten nach erfolgter Transformation errechnet (s405). Sind in diesem Falle zwei phonemische V-Intervalle vorhanden, so wird der Akzent-Typ berücksichtigt. Es wird die Summe der Frequenzunterschiede für jedes V-Intervall errechnet. Dieser Schritt wird für sämtliche Kandidaten wiederholt (s406). Die Wellenform-Daten der Phoneme für einen Kandidaten mit der geringsten Differenzgröße (Summe der Differenzen) wird aus dem Wellenform-Wörterbuch ausgewählt (s407). Hierbei können die Volumen der Phonemdaten-Kandidaten zusätzlich einbezogen werden, während diejenigen von extrem geringer Größe entfernt werden können.
Der vorbeschriebene Prozess wird für alle die eingegebene Zeichenfolge ausmachenden Phoneme wiederholt.
8 und 9 zeigen die spezifischen Einzelmerkmale des Wellenform-Auswahl-Prozesses. Hierbei werden von den die eingegebene Zeichenfolge "sakaikun" bildenden VCV-Phonemen "sa aka ai iku un" die Frequenz und der Volumenwert des entsprechenden Phonems in den prosodischen Modelldaten nach erfolgter Transformation sowie die Frequenz und der Volumenwert des jeweiligen Phonem-Kandidaten jeweils für "sa" und "aka", die keine rekonstruierten Phoneme darstellen, aufgelistet.
Im Einzelnen zeigt 8 die Frequenz "450" und den Volumenwert "1000" für das Phonem "sa" in den prosodischen Modelldaten nach der Transformation sowie die Frequenzen "440", "500", "400" und die Volumenwerte "800", "1050", "950" von drei Phonem-Kandidaten "sa-001", "sa-002" und "sa-003". In diesem Falle wird der am nächsten liegende Phonem-Kandidat "sa-001" mit der Frequenz "440" gewählt.
9 zeigt die Frequenz "450" und den Volumenwert "1000" im V-Intervall 1 für das Phonem "aka" in den prosodischen Modelldaten nach erfolgter Transformation, die Frequenz "400" und den Volumenwert "800" im V-Intervall 2 für das Phonem "aka" in den prosodischen Modelldaten nach erfolgter Transformation, die Frequenzen "400", "460" und die Volumenwerte "1000", "800" im V-Intervall 1 für die zwei Phoneme "aka-001" und "aka-002" sowie die Frequenzen "450", "410" und die Volumenwerte "800", "1000" im V-Intervall 2 für diese zwei Phoneme "aka-001" und "aka-002". In diesem Falle wird der Phonem-Kandidat "aka-002" gewählt, bei dem die Summe der Frequenzdifferenzen jeweils für das V-Intervall 1 und das V-Intervall 2 ξ450 – 400ξ + ξ400 – 450ξ = 100 für den Phonem-Kandidaten "aka-001" und ξ450 – 460ξ + ξ400 – 410ξ = 20 für den Phonem-Kandidaten "aka-002" am kleinsten ist.
10 ist ein detailliertes Ablaufdiagramm eines Wellenform-Verbindungs-Prozesses. Dieser Wellenform-Verbindungs-Prozess sei nunmehr im Einzelnen beschrieben.
Zunächst werden die Wellenform-Daten für das wie vorbeschrieben ausgewählte Phonem jeweils von oben gewählt (s501). Es wird die Position des Verbindungskandidaten festgelegt (s502). In diesem Falle werden die Wellenform-Daten auf Grundlage der rekonstruierten Verbindungsinformation (s504) verbunden, wenn die Verbindung restaurierbar ist (s503).
Ist diese nicht restaurierbar, so wird eine Entscheidung hinsichtlich der Silbenlänge getroffen (s505). Sodann werden die Wellenform-Daten nach verschiedenen Verbindungsmöglichkeiten (wie Vokalintervallverbindung, Langtonverbindung, Stimmlossilbenverbindung, Doppelkonsonantverbindung, silbische Nasalverbindung) miteinander verbunden (s506).
Der vorbeschriebene Prozess wird für die Wellenform-Daten aller Phoneme wiederholt, um die zusammengesetzten Stimmendaten zu schaffen (s507).
11 ist ein Funktionsblockdiagramm einer erfindungsgemäßen Sprachsynthesevorrichtung. In dieser Figur bezeichnet die Bezugsziffer 11 ein Wort-Wörterbuch, 12 ein prosodisches Wörterbuch, 13 ein Wellenform-Wörterbuch, 14 eine Akzent-Typ-Bestimmungseinrichtung, 15 eine Einrichtung für die prosodische Modellauswahl, 16 eine Prosodie-Transformationseinrichtung, 17 eine Wellenform-Auswahleinrichtung und 18 eine Wellenform-Verbindungseinrichtung.
Im Wort-Wörterbuch 11 ist eine große Anzahl von Zeichenfolgen (Worten) gespeichert, die zumindest ein Zeichen mit Akzent-Typ aufweisen. Das prosodische Wörterbuch 12 dient der Speicherung einer Anzahl prosodischer Modelldaten mit Zeichenfolge, Mora-Zahl, Akzent-Typ und Silbeninformation oder eine Anzahl typischer prosodischer Modelldaten für eine große Zahl von im Wort-Wörterbuch abgelegten Zeichenfolgen. Im Wellenform-Wörterbuch 13 sind Stimmen-Wellenform-Daten einer Kompositionseinheit mit aufgezeichneten Stimmen abgelegt.
In der Akzent-Typ-Bestimmungseinrichtung 14 werden eine über eine Eingabevorrichtung oder ein Spielsystem eingegebene Zeichenfolge und ein im Wort-Wörterbuch 11 gespeichertes Wort miteinander verglichen und bei Vorhandensein irgendeines gleichen Worts dessen Akzent-Typ als Akzent-Typ der Zeichenfolge bzw. im anderen Falle der Akzent-Typ eines Worts mit ähnlicher Zeichenfolge unter den Worten mit gleicher Mora-Zahl als Akzent-Typ dieser Zeichenfolge bestimmt.
In der Einrichtung 15 für die Auswahl eines prosodischen Modells werden die Silbeninformation der eingegebenen Zeichenfolge geschaffen, zur Schaffung eines prosodischen Modelldaten-Kandidaten die prosodischen Modelldaten extrahiert, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge aus dem prosodischen Wort-Wörterbuch 12 übereinstimmen, die Silbeninformation für alle prosodischen Modelldaten-Kandidaten und die Silbeninformation der eingegebenen Zeichenfolge zur Bereitstellung einer rekonstruierten prosodischen Information miteinander verglichen und die optimalen Modelldaten auf Grundlage der Zeichenfolge eines jeden der prosodischen Modelldaten-Kandidaten und der rekonstruierten prosodischen Information desselben geschaffen.
In der Prosodie-Transformationseinrichtung 16 wird die Silbenlänge nach erfolgter Transformation aus der vorab für alle zur Stimmensynthese herangezogenen Zeichen zur Benutzung errechneten durchschnittlichen Silbenlänge sowie im Falle, dass die Zeichenfolge der gewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt, die Silbenlänge der prosodischen Modelldaten für jedes in diesen prosodischen Modelldaten nicht übereinstimmende Zeichen errechnet.
In der Wellenform-Auswahleinrichtung 17 werden für die rekonstruierten Phoneme der eine eingegebene Zeichenfolge bildenden Phoneme die Wellenform-Daten des entsprechenden Phonems in den prosodischen Modelldaten nach erfolgter Transformation sowie die Wellenform-Daten entsprechender Phoneme mit einer Frequenz, die der Frequenz der prosodischen Modelldaten nach erfolgter Transformation am nächsten liegt, für die anderen Phoneme aus dem Wellenform-Wörterbuch ausgewählt.
In der Wellenform-Verbindungseinrichtung 18 werden die ausgewählten Wellenform-Daten zur Schaffung der zusammengesetzten Stimmendaten miteinander verbunden.
Die in dieser Beschreibung erläuterten bevorzugten Ausführungsformen dienen lediglich der Veranschaulichung und stellen keinerlei Einschränkung dar. Damit ist die Erfindung ausschließlich im Umfang der beiliegenden Ansprüche begrenzt. Es wird vorausgesetzt, dass alle in den Rahmen der Ansprüche fallenden Abwandlungen durch die vorliegende Erfindung erfasst sind.

Claims

Sprachsyntheseverfahren unter Verwendung eines Wort-Wörterbuchs zum Speichern von Zeichenfolgen mit Akzent, eines prosodischen Wörterbuchs und eines Wellenform-Wörterbuchs, umfassend die folgenden Schritte: Verwenden des Wort-Wörterbuchs zur Speicherung einer großen Anzahl von Zeichenfolgen, die zumindest ein Zeichen zusammen mit seinem Akzent-Typ enthalten, des prosodischen Wörterbuchs zum Speichern typischer Modelldaten, die die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die silbische Information unter den prosodischen Modelldaten enthalten, die die prosodische Information für die Zeichenfolgen repräsentieren, die in dem Wort-Wörterbuch gespeichert sind und des Wellenform-Wörterbuchs zum Speichern von Stimmen-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme; Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge (s1); Schaffen der Silben-Information einer eingegebenen Zeichenfolge (s201); Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge aus dem Prosodie-Wörterbuch übereinstimmen, so dass ein Prosodie-Modellkandidat (s202, s203) erzeugt wird; Schaffen der rekonstruierten Prosodie-Information durch Vergleich der Silben-Information jedes prosodischen Modelldaten-Kandidaten und der Silben-Information der eingegebenen Zeichenfolge (s204); Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge jedes prosodischen Modelldaten-Kandidaten und dessen rekonstruierter prosodischer Information (s205 bis s212); Auswahl der Wellenform-Daten entsprechend jedem Zeichen der eingegebenen Zeichenfolge aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten (s4) und Verbinden der ausgewählten Wellenform-Daten miteinander (s5); dadurch gekennzeichnet, dass dann, falls bei irgendeinem der prosodischen Modelldaten-Kandidaten alle seine Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, dieser prosodische Modelldaten-Kandidat die optimalen prosodischen Modelldaten (s206) darstellt; dass dann, falls die Phoneme keines Kandidaten mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, der Kandidat mit der größten Anzahl übereinstimmender Phoneme mit denjenigen der eingegebenen Zeichenfolge unter den prosodischen Modelldaten-Kandidaten die optimalen prosodischen Modelldaten (s208, s209) darstellt; und dass dann, falls mehrere Kandidaten existieren, bei denen eine größte Anzahl von Phonemen übereinstimmt, der Kandidat mit der größten Anzahl aufeinanderfolgender übereinstimmender Phoneme die optimalen prosodischen Modelldaten (s210, s211) darstellt; und dass die prosodische Information der prosodischen Modelldaten entsprechend der Silbenlänge transformiert wird, welche Transformation aus der durchschnittlichen Silbenlänge zuvor für alle in der Sprachsynthese verwendeten Zeichen und aus der Silbenlänge der prosodischen Modelldaten für jedes Zeichen erhalten wird, das nicht mit den prosodischen Modelldaten übereinstimmt, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt (s304).
Sprachsyntheseverfahren gemäß Anspruch 1, ferner umfassend die folgenden Schritte: Auswahl der Wellenform-Daten des entsprechenden Phonems in den prosodischen Modelldaten aus dem Wellenform-Wörterbuch, bei welchem entsprechenden Phonem die Position und das Phonem mit demjenigen der prosodischen Modelldaten für jedes Phonem übereinstimmen, das eine eingegebene Zeichenfolge bildet (s402, s403); und Auswahl der Wellenform-Daten des entsprechenden Phonems, dessen Frequenz am nächsten derjenigen der prosodischen Modelldaten aus dem Wellenform-Wörterbuch für andere Phoneme liegt (s404 bis s407).
Sprachsynthesevorrichtung, umfassend ein Wort-Wörterbuch zum Speichern von Zeichenfolgen mit Akzent, ein Prosodie-Wörterbuch und ein Wellenform-Wörterbuch, welches Wort-Wörterbuch (11) zum Speichern einer großen Anzahl von Zeichenfolgen vorgesehen ist, die zumindest ein Zeichen mit seinem Akzent-Typ umfassen, welches Prosodie-Wörterbuch (12) dazu vorgesehen ist, typische prosodische Modelldaten zu speichern, die die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die Silben-Information unter den prosodischen Modelldaten enthalten, welche die prosodische Information für die Zeichenfolgen darstellen, die in dem Wort-Wörterbuch gespeichert sind, und welches Wellenform-Wörterbuch (13) zum Speichern von Sprach-Wellenformdaten einer Kompositionseinheit mit der aufgezeichneten Stimme vorgesehen ist; welche Sprachsynthesevorrichtung ferner eine Akzent-Typ-Bestimmungseinrichtung (14) zum Bestimmen des Akzent-Typs der eingegebenen Zeichenfolge umfasst; sowie prosodische Modellauswahlmittel (15) zum Schaffen der Silbeninformation einer eingegebenen Zeichenfolge, zum Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, aus dem Prosodie-Wörterbuch, so dass man einen prosodischen Modellkandidaten erhält, Schaffen der rekonstruierten prosodischen Information durch Vergleich der Silbeninformation jedes prosodischen Modelldaten-Kandidats mit der Silbeninformation der eingegebenen Zeichenfolge, und zur Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge für jeden prosodischen Modelldatenkandidaten und der daraus rekonstruierten prosodischen Information, Wellenform-Auswahlmittel (17) zur Auswahl der Wellenform-Daten, die jedem Zeichen der eingegebenen Zeichenfolge entsprechen, aus dem Wellenform-Wörterbuch auf Grundlage der prosodischen Modelldaten und Wellenform-Verbindungsmittel (18) zum Verbinden der ausgewählten Wellenform-Daten miteinander; dadurch gekennzeichnet, dass dann, falls bei irgendeinem der prosodischen Modelldaten-Kandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, dieser prosodische Modelldatenkandidat die optimalen prosodischen Modelldaten darstellt; dass dann, falls bei keinem Kandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, der Kandidat mit der größten Anzahl übereinstimmender Phoneme mit den Phonemen der eingegebenen Zeichenfolge unter den prosodischen Modelldatenkandidaten die optimalen prosodischen Modelldaten darstellt; und dass dann, falls bei mehreren Kandidaten eine größte Anzahl von Phonemen übereinstimmt, derjenige Kandidat mit der größten Anzahl übereinstimmender Phoneme die optimalen prosodischen Modelldaten darstellt; welche Sprachsynthesevorrichtung ferner Prosodie-Transformationsmittel (16) zur Transformation der prosodischen Information der prosodischen Modelldaten entsprechend der Silbenlänge umfasst, welche Transformation aus der durchschnittlichen Silbenlänge erfolgt, die zuvor für alle in der Sprachsynthese verwendeten Zeichen berechnet wurde und aus der Silbenlänge der prosodischen Modelldaten für jedes Zeichen, das nicht mit den prosodischen Modelldaten übereinstimmt, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt.
Sprachsynthesevorrichtung gemäß Anspruch 3, ferner umfassend Wellenform-Auswahlmittel (17) zur Auswahl der Wellenformdaten des entsprechenden Phonems in den prosodischen Modelldaten des Wellenform-Wörterbuchs, wobei die Position und das Phonem des entsprechenden Phonems mit denjenigen der prosodischen Modelldaten jedes Phonems übereinstimmen, welche eine eingegebene Zeichenfolge bildet, und zur Auswahl der Wellenform-Daten des Phonems, dessen Frequenz am nächsten zu derjenigen der prosodischen Modelldaten aus dem Wellenform-Wörterbuch für weitere Phoneme liegt.
Rechnerlesbares Medium, welches ein Sprachsynteseprogramm aufzeichnet, welches Programm beim Lesen durch einen Rechner den Rechner dazu befähigt, ein Wort-Wörterbuch zur Speicherung von Zeichenfolgen, ein Prosodie-Wörterbuch und ein Wellenform-Wörterbuch zu bedienen, welcher Rechner dazu befähigt wird, als ein Wort-Wörterbuch (11) zur Speicherung einer großen Anzahl von Zeichenfolgen zu dienen, die zumindest ein Zeichen mit seinem Akzent-Typ enthalten, sowie als Prosodie-Wörterbuch (12) zur Speicherung typischer prosodischer Modelldaten, die die Zeichenfolge, die Mora-Zahl, den Akzent-Typ und die Silben-Information unter den prosodischen Modelldaten enthalten, welche die prosodischen Informationen für die Zeichenfolgen darstellen, die in dem Wort-Wörterbuch gespeichert sind, sowie als Wellenform-Wörterbuch (13) zur Speicherung der Stimmen-Wellenform-Daten einer Kompositionseinheit mit der aufgezeichneten Stimme; als Akzent-Typ-Bestimmungsmittel (14) zur Bestimmung des Akzent-Typs einer eingegebenen Zeichenfolge; als prosodische Modellauswahlmittel (15) zur Schaffung der Silbeninformation einer eingegebenen Zeichenfolge, zum Extrahieren der prosodischen Modelldaten, deren Mora-Zahl und Akzent-Typ mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, aus dem Prosodie-Wörterbuch, so dass man einen prosodischen Modellkandidat erhält, zur Schaffung der rekonstruierten prosodischen Information durch Vergleich der Silbeninformation jedes prosodischen Modelldatenkandidats und der Silbeninformation der eingegebenen Zeichenfolge, und zur Auswahl der optimalen prosodischen Modelldaten auf Grundlage der Zeichenfolge jedes prosodischen Modelldatenkandidats und dessen rekonstruierter prosodischer Information, dadurch gekennzeichnet, dass dann, falls bei einem der prosodischen Modelldatenkandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, dieser prosodische Modelldatenkandidat die optimalen prosodischen Modelldaten darstellt; dass dann, falls bei keinem Kandidaten alle Phoneme mit denjenigen der eingegebenen Zeichenfolge übereinstimmen, der Kandidat mit der größten Anzahl übereinstimmender Phoneme mit den Phonemen der eingegebenen Zeichenfolge unter den prosodischen Modelldatenkandidaten die optimalen prosodischen Modelldaten darstellt; und dass dann, falls mehrere Kandidaten existieren, bei denen eine größte Anzahl von Phonemen übereinstimmt, der Kandidat mit der größten Anzahl übereinstimmender Phoneme die optimalen prosodischen Modelldaten darstellt; sowie durch prosodische Transformationsmittel (16) zur Transformation der prosodischen Information der prosodischen Modelldaten entsprechend der Silbenlänge, welche Transformation aus der durchschnittlichen Silbenlänge erhalten wird, die zuvor für alle Zeichen berechnet wurde, die bei der Sprachsynthese verwendet wurden, und aus der Silbenlänge der prosodischen Modelldaten für jedes Zeichen, das nicht mit den prosodischen Modelldaten übereinstimmt, wenn die Zeichenfolge der ausgewählten prosodischen Modelldaten nicht mit der eingegebenen Zeichenfolge übereinstimmt.
Rechnerlesbares Medium, das das Sprachsyntheseprogramm gemäß Anspruch 5 aufzeichnet, ferner umfassend Wellenform-Auswahlmittel (17) zur Auswahl der Wellenformdaten des entsprechenden Phonems in den prosodischen Modelldaten aus dem Wellenform-Wörterbuch, bei welchem entsprechenden Phonem die Position und das Phonem mit denjenigen der prosodischen Modelldaten für jedes Phonem übereinstimmen, das eine eingegebene Zeichenfolge bildet, und zur Auswahl der Wellenform-Daten des Phonems, dessen Frequenz am nächsten zu derjenigen der prosodischen Modelldaten aus dem Wellenform-Wörterbuch für weitere Phoneme liegt.