EP0058130A2

EP0058130A2 - Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same

Info

Publication number: EP0058130A2
Application number: EP82730011A
Authority: EP
Inventors: Eberhard Dr.-Ing. Grossmann
Original assignee: Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Priority date: 1981-02-11
Filing date: 1982-02-11
Publication date: 1982-08-18
Also published as: DE3271965D1; ATE20784T1; DE3105518A1; CA1172365A; EP0058130B1; EP0058130A3

Abstract

1. A method for the synthesis of speech with an unlimited vocabulary in the time domain from sound elements which are obtained from natural speech samples and are coded with low redundancy in digital form, stored and also reduced in length, in each case to the significant area of the relevant time signal typical of the sound, and in number, by utilizing related sounds which are mutually transformable into each other, having regard to the necessary storage space requirement, these sound elements being linked, with respect to the form, number and sequence required, into digital signal sequences on the basis of input commands and of predetermined rules of linkage for the purposes of speech synthesis, these signal sequences being used to generate, by means of digital/analog conversion and controllable amplification, sound waves which can be perceived as speech, characterized in : providing a total of about 100 sound elements, that is to say - about 50 elements for transitions sounds with an average of 240 samples each for an output frequency of 8 kHz, and - about 40 elements for phonemes with an average of 500 samples for unvoiced and 140 samples for voiced phonemes each and an output frequency of 8 kHz, and enabling the pitch to be varied for reproduction, in the case of the elements for the voiced transition sounds and phonemes, by omitting or using at least once, as a result of appropriate input commands, those samples and/or values which are preset as suitable by means of marker words at discrete positions in the time signal, depending on requirement, when the digital signal sequences are being formed.

Description

Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des VerfahrensProcess for the synthesis of speech with unlimited vocabulary and circuitry for carrying out the process

Die Erfindung bezieht sich auf ein Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz im Zeitbereich aus Lautelementen, die aus natürlichen Sprachproben gewonnen und in digitaler Form, redundanzarm kodiert, gespeichert und außerdem im Hinblick auf den erforderlichen Speicherplatzbedarf in der Länge jeweils auf den signifikanten Bereich des betreffenden lauttypischen Zeitsignals und in der Anzahl unter Ausnutzung sich gegenseitig ineinander überführbarer verwandter Laute reduziert sind, wobei zur Sprachsynthese diese Lautelemente aufgrund von Eingangsbefehlen und von vorgegebenen Verknüpfungsregeln in der erforderlichen Gestalt, Anzahl und Reihenfolge zu digitalen Signalfolgen verkettet werden, aus denen mittels Digital-Analog-Wandlung und steuerbarer Verstärkung als Sprache wahrnehmbare Schallwellen erzeugt werden, sowie auf eine Schaltungsanordnung zur Durchführung des Verfahrens.The invention relates to a method for the synthesis of speech with unlimited vocabulary in the time domain from sound elements, which are obtained from natural speech samples and coded in digital form, with low redundancy, stored and also in view of the required storage space in length in each case on the significant range of relevant sound-typical time signal and the number are reduced by utilizing mutually convertible related sounds, for speech synthesis these sound elements are chained in the required form, number and order to form digital signal sequences based on input commands and predetermined linking rules, from which by means of digital-analog Conversion and controllable amplification as speech-perceptible sound waves are generated, as well as on a circuit arrangement for performing the method.

Unter Sprachsynthese ist die Umwandlung eines als Symbolfolge vorliegenden Textes in das äquivalente akustische Signal mittels einer technischen Apparatur zu verstehen. Dabei ist es von grundlegender Bedeutung, daß zwischen der Eingabe der Symbolfolge in die Apparatur und der Ausgabe des äquivalenten akustischen Signals alle Abläufe unmittelbar, ohne Zwischenschaltung menschlicher Verstandeskräfte stattfinden. Die genau bestimmten technischen Einzelmaßnahmen folgen dabei einem planmäßigen Einsatz berechen- und beherrschbarer Naturkräfte.Speech synthesis is understood to mean the conversion of a text present as a symbol sequence into the equivalent acoustic signal by means of technical equipment. It is of fundamental importance that between the input of the symbol sequence in the apparatus and the output of the equivalent acoustic signal, all processes take place immediately, without the interposition of human mind powers. The precisely determined individual technical measures follow the planned use of predictable and controllable natural forces.

Die Bewertungskriterien für synthetische Sprache sind die Verständlichkeit und die Natürlichkeit. Die Maßstäbe dafür sind, wenn auch z.B. bei der Verständlichkeit nach objektiven Gesichtspunkten feststellbar, subjektiver Natur. Dennoch gibt es Sachverhalte, die für die Beurteilung sofort von jedermann herangezogen werden. Dabei handelt es sich um den Verlauf der Grundtonhöhe (Pitchfrequenz), den Sprechrhythmus und um den Intensitätsverlauf. Beim Signalverlauf natürlicher Sprache gehen die Einzellaute ineinander über. Sie werden durch mehrere Lautbildungsfrequenzen (Formanten) charakterisiert. Diese Lautbildungsfrequenzen sind unabhängig von der Grundtonhöhe, d.h. unabhängig von der Sprechhöhe. Diese Sachverhalte wirken sich mehr oder weniger sowohl auf die Verständlichkeit als auch auf die Natürlichkeit aus. Während die Verständlichkeit bei bekannten Sprachsynthesesystemen bisher notgedrungen im Vordergrund stand, zielen die Bestrebungen neuerdings, nachdem eine ausreichende Verständlichkeit erreicht wurde, mehr und mehr auf Verbesserungen hinsichtlich der Natürlichkeit ab. Geringe Schwierigkeiten bestehen bei der Dynamik. Die relative Lautstärke läßt sich mit steuerbaren Verstärkern variieren. Auch die Lautdauer, und damit der Sprechrhythmus, läßt sich durch dynamische Steuerung der Wiederholanzahl der Einzellautelemente mit verhältnismäßig einfachen Mitteln verändern. Problematisch hingegen ist die Beherrschung der Melodik, da die Länge der Sprachgrundfrequenzperioden für die einzelnen Laute fest vorgegeben sind und eine einfache, proportionale Verlängerung oder Verkürzung von Sprachgrundfrequenzperioden eine entsprechende Verschiebung des Formantenfrequenzspektrums bedeutet, d.h. zur völlig unnatürlichen Lauten führt.The evaluation criteria for synthetic language are intelligibility and naturalness. The standards for this are, even if e.g. in terms of intelligibility ascertainable from an objective point of view, subjective nature. Nevertheless, there are circumstances that everyone can immediately use for the assessment. These are the course of the basic pitch (pitch frequency), the speaking rhythm and the course of the intensity. The individual sounds merge into one another in the course of the natural language signal. They are characterized by several sound generation frequencies (formants). These sound generation frequencies are independent of the fundamental pitch, i.e. regardless of the speech height. These facts affect more or less both the intelligibility and the naturalness. While the comprehensibility of known speech synthesis systems has so far been in the foreground, efforts have recently been aimed more and more towards improvements in naturalness after sufficient intelligibility has been achieved. There are minor difficulties with the dynamics. The relative volume can be varied with controllable amplifiers. The duration of the sound, and thus the rhythm of speaking, can also be changed by relatively simple means by dynamically controlling the number of repetitions of the individual sound elements. However, mastering the melody is problematic because the length of the fundamental speech frequency periods is fixed for the individual sounds and a simple, proportional extension or shortening of fundamental speech frequency periods means a corresponding shift in the formant frequency spectrum, i.e. leads to completely unnatural sounds.

Verständlichkeit und Natürlichkeit synthetischer Sprache hängen andererseits auch von der Leistung ab, für das das betreffende System konzipiert ist. Selbstverständlich kann bei einem System mit begrenztem Wortschatz eine hervorragende Qualität der Sprache gewährleistet werden. Komplette Wörter oder gar längere Phrasen, zudem vielleicht noch von einem geschulten Sprecher dargeboten, können unter Erhaltung der natürlichen Melodik und Rhythmik gespeichert und auf Abruf wiedergegeben werden. Besteht die Zielsetzung für ein Sprachsynthesesystem hingegen darin, einen unbegrenzten Wortschatz zu erzeugen, muß auf kleinere Synthesebausteine, z.B. auf Laute zurückgegriffen werden. Dabei gehen auf jeden Fall Satz- und Wortdynamik sowie die Melodik zunächst verloren und sind bei der Synthese neu zu generieren. In welchem Umfang dies gelingt, ist für die Natürlichkeit synthetischer Sprache von wesentlicher Bedeutung.Comprehensibility and naturalness of synthetic language also depend on the performance for which the system in question is designed. Of course, a system with a limited vocabulary can guarantee excellent language quality. Complete Words or even longer phrases, which may also be presented by a trained speaker, can be saved while maintaining the natural melody and rhythm and played back on demand. If, on the other hand, the goal for a speech synthesis system is to generate an unlimited vocabulary, smaller synthesis components, for example sounds, must be used. In any case, sentence and word dynamics as well as the melody are lost at first and have to be regenerated during the synthesis. The extent to which this is successful is essential for the naturalness of synthetic language.

Hier nun spielen die technischen Möglichkeiten und die wirtschaftlichen Gesichtspunkte eine ausschlaggebende Rolle. Eine Klassifizierung der Synthesesysteme bzw. deren Unterteilung nach dem Syntheseprinzip

ermöglicht eine erste Abschätzung des erforderlichen Aufwandes für die Realisierung: Eine Wortsynthese, sowohl im Zeitbereich als auch im Parameterbereich, benötigt mit wachsendem Umfang des auszugebenden Vokalubars auch ein wachsendes Speichervolumen. Derartige Systeme sind also mit vernünftigem Aufwand nur für Systeme mit begrenztem Wortschatz geeignet. Auf der Lautsynthese beruhende Systeme ermöglichen die Ausgabe eines unbeschränkten Vokalubars und erfordern unterschiedlichen Aufwand, der in der folgenden Tabelle grob angedeutet ist.

Here the technical possibilities and the economic aspects play a crucial role. A classification of the synthesis systems or their subdivision according to the synthesis principle

enables a first estimate of the effort required for the implementation: word synthesis, both in the time domain and in the parameter domain, requires a growing storage volume as the volume of the vocalubar to be output increases. Such systems are therefore only suitable for systems with limited vocabulary with reasonable effort. Systems based on sound synthesis enable the output of an unlimited vocal bar and require different efforts, which are roughly indicated in the following table.

In der technisch-wissenschaftlichen .und der Patentliteratur sind die verschiedenartigen Sprachsynthesesysteme in großer Zahl abgehandelt. So ist beispielsweise aus der DE-OS 30 06 339 ein Verfahren und eine Einrichtung zur Sprachsynthese bekannt, wobei zum Zwecke der Miniaturisierung eine Informations-Kompressionstechnik zur Anwendung kommen soll, die bei minimalem Verlust an Sprachverständlichkeit und Natürlichkeit eine Speicherung in einem einzigen integrierten LSI-Schaltungs-Chip möglich werden läßt. Die als Synthesebausteine abgespeicherten Phoneme (Einzellaute) sind bei der Synthese in ihrer aus dem Speicher abgerufenen Gestalt einer Veränderung oder Regulierung in bezug auf eine Anpassung des Tonhöhenintervalls, der Amplituden und der Zeitachse zu unterziehen, um sich der Qualität der natürlichen Sprache wieder anzunähern. Die angewendete Datenkompressionstechnik, die an einem Beispiel näher erläutert ist, führt dazu, daß für ein Wort (Beispiel: "nana") eine Folge weniger (im Beispiel: fünf) Phoneme abzuspeichern ist. Diese, an sich bekannten Tatsachen werden in dieser Vorveröffentlichung detailliert beschrieben. Es ist jedoch kein Hinweis darauf zu entnehmen, ob Möglichkeiten vorgesehen sind, einen unbegrenzten Wortschatz zu synthetisieren sowie Melodik und Rhythmik nach Belieben zu beeinflussen.The various types of speech synthesis systems are dealt with in large numbers in the technical-scientific and patent literature. For example, from DE-OS 30 06 339 a method and a device for speech synthesis is known, wherein for the purpose of miniaturization an information compression technique is to be used, which is stored in a single integrated LSI with minimal loss of intelligibility and naturalness. Circuit chip can be made. The phonemes (individual sounds) stored as synthesis building blocks are to be subjected to a change or regulation in their shape retrieved from the memory with respect to an adaptation of the pitch interval, the amplitudes and the time axis in order to approximate the quality of natural language again. The data compression technique used, which is explained in more detail using an example, means that for a word (example: "nana") one sequence fewer (in the example: five) phonemes must be stored. These facts, which are known per se, are described in detail in this prior publication. However, there is no indication as to whether there are possibilities to synthesize an unlimited vocabulary and to influence melody and rhythm as desired.

Das aus der DE-OS 20 16 572 bekannte Sprachsynthesesystem berücksichtigt insbesondere hinsichtlich der Verständlichkeit die Probleme an den Übergängen zwischen aufeinanderfolgenden Phonemen. Da die Formantfrequenzen - eine Berücksichtigung der drei Hauptformanten ist ausreichend - an den Übergängen zunehmen, abnehmen oder gleich bleiben können, ergeben sich rein rechnerisch für jedes abzuspeichernde Phonem neun Versionen. Um nicht die Speicherkapazität um praktisch eine weitere Zehnerpotenz erhöhen zu müssen, zielt die Lösung bei diesem bekannten Stand der Technik darauf ab, mit einer gespeicherten Version auszukommen und diese Darstellung den Erfordernissen entsprechend während des Synthesevorgangs zu modifizieren. Außerdem wird lediglich der signifikante Bereich der einzelnen Laute abgespeichert, der z.B. bei einem /s/-Laut nur 10 % der gesamten Lautdauer betragen muß und dementsprechend durch zehnmaliges Wiederholen genau genug und verständlich reproduzierbar ist. Zur Vermeidung von abrupten Übergängen zwischen zwei aufeinanderfolgenden Phonemen sollen die gespeicherten Abschnitte mit einem Schwingungs-Nulldurchgang beginnen. Für stimmhafte Phoneme ist außerdem die Eignung am Übergang zu anderen Phonemen in besonderer Weise - einer subjektiven Prüfung - auszuwählen. Durch diesen Kompromiß lassen sich zwar abrupte Übergänge vermeiden oder zumindest auf einen geringen Umfang reduzieren, wobei jedoch andererseits auf völlig stoßfreie übergänge verzichtet werden muß.The speech synthesis system known from DE-OS 20 16 572 takes into account the problems at the transitions between successive phonemes in particular with regard to intelligibility. Since the formant frequencies - taking into account the three main formants is sufficient - to the Increase, decrease or remain transitions, there are nine versions for every phoneme to be stored. In order not to have to increase the storage capacity by practically a further power of ten, the solution in this known prior art aims to get by with a stored version and to modify this representation according to the requirements during the synthesis process. In addition, only the significant range of the individual sounds is saved, which, for example with a / s / sound, only has to be 10% of the total duration and can therefore be reproduced exactly enough and understandably by repeating ten times. In order to avoid abrupt transitions between two consecutive phonemes, the stored sections should start with an oscillation zero crossing. For voiced phonemes, the suitability at the transition to other phonemes must also be selected in a special way - a subjective test. With this compromise, abrupt transitions can be avoided or at least reduced to a small extent, but on the other hand, completely bumpless transitions must be avoided.

Dem aus der DE-OS 23 06 816 bekannten-Sprachgenerator liegt als Aufgabenstellung bei der Aufbereitung phonetischer Segmente zugrunde, einen umfassenden Tonhöhenperioden-Regelbereich der synthetisierten Laute zu schaffen, der der Verbesserung der Natürlichkeit und der Verständlichkeit zugute kommen soll. Als Lösung wird dazu angegeben, bei stimmhaften Lauten mit definierter Periodizität jeder Tonhöhenlänge Laut-Wellenformen aus natürlicher Sprache herauszugreifen und jeder solchen Wellenform am Endbereich eine Wellenform hinzuzufügen, die durch eine überschlägige Rechnung für die Wellenform des jeweiligen Lauts gewonnen wurde. Laut-Wellenformen von stimmlosen Lauten und die Übergänge zwischen Konsonanten und Vokalen, die eine undefinierte Periodizität aufweisen, sollen in feste Längen unterteilt werden. Die so gewonnenen Laut-Wellenformen stellen dann die Synthesebausteine dar. Eine Veränderung der Dauer einer Pitchperiode hat aber nicht nur eine entsprechende Tonhöhenveränderung, sondern - wie bereits oben schon erwähnt und auch nachfolgend noch näher erläutert wird - auch eine Lautverschiebung bzw. eine Verunreinigung zur Folge.The language generator known from DE-OS 23 06 816 is based on the task in the preparation of phonetic segments to create a comprehensive pitch period control range of the synthesized sounds, which should benefit the improvement of naturalness and intelligibility. The solution given is to pick out sound waveforms from natural language for voiced sounds with a defined periodicity of each pitch length and to add a waveform to each such waveform at the end area that was obtained by a rough calculation for the waveform of the respective sound. Sound waveforms of unvoiced sounds and the transitions between consonants and vowels that have an undefined periodicity should be divided into fixed lengths. The sound waveforms obtained in this way then constitute the synthesis structure A change in the duration of a pitch period does not only result in a corresponding change in pitch, but - as already mentioned above and will also be explained in more detail below - also results in a sound shift or contamination.

Bei der Erfindung wird von einem Stand der Technik ausgegangen, wie er aus der DE-OS 25 31 006 bekannt und im Oberbegriff des Anspruches 1 berücksichtigt ist. Die danach bei guter Verständlichkeit mögliche Reduktion führte bereits zu einem benötigten Speichervolumen für die Speicherung der Sprachdaten, unkodiert, im Zeitbereich von nur noch ca. l Mbit, entsprechend 125 kByte. Ziel der Erfindung ist nun, den Speicherplatzbedarf weiter zu verringern und insbesondere im Hinblick auf die Natürlichkeit der zu synthetisierenden Sprache einfach beherrschbare Maßnahmen zur Wort-und Satz-Melodievariation anzugeben, womit die der Sprachsynthese im Zeitbereich innewohnenden Vorzüge in bezug auf die Verständlichkeit, den Synthesealgorithmus und die Synthetisiergeschwindigkeit erheblich an Bedeutung gegenüber den im Parameterbereich arbeitenden Systemen gewinnen. Gemäß der Erfindung wird dies dadurch erreicht, daß insgesamt ca. 100 Lautelemente vorgesehen sind, nämlich:

- etwa 50 Elemente für Übergangslaute mit je durchschnittlich 240 Abtastwerten für 8 kHz Ausgabefrequenz und
- etwa 40 Elemente für Einzellaute mit je durchschnittlich 500 Abtastwerten bei stimmlosen und 140 Abtastwerten bei stimmhaften Einzellauten und 8 kHz Ausgabefrequenz,

und daß die Tonhöhe für die Wiedergabe bei den Elementen für die stimmhaften Übergangs- und Einzellaute veränderbar ist, indem solche Abtastwerte, die an diskreten Stellen des Zeitsignals mittels Markierwörtern als geeignet vorgegeben sind, je nach Bedarf aufgrund entsprechender Eingangsbefehle bei der Bildung der digitalen Signalfolgen ausgelassen bzw. mindestens einmal verwendet werden.The invention is based on a prior art as known from DE-OS 25 31 006 and is taken into account in the preamble of claim 1. The possible reduction, which is easy to understand, already led to the storage volume required for storing the voice data, uncoded, in the time range of only approx. 1 Mbit, corresponding to 125 kByte. The aim of the invention is now to further reduce the storage space requirement and, in particular with regard to the naturalness of the speech to be synthesized, to specify measures for word and sentence melody variation which are easy to control, with which the advantages inherent in speech synthesis in the time domain with regard to comprehensibility, the synthesis algorithm and the rate of synthesis becomes significantly more important than the systems working in the parameter area. According to the invention, this is achieved in that a total of approximately 100 sound elements are provided, namely:

- About 50 elements for transition sounds, each with an average of 240 samples for 8 kHz output frequency and
- about 40 elements for individual sounds, each with an average of 500 samples for voiceless and 140 samples for voiced individual sounds and 8 kHz output frequency,

and that the pitch for the reproduction of the elements for the voiced transitional and individual sounds can be changed by omitting such samples, which are specified as suitable at discrete locations in the time signal by means of marker words, as required on the basis of corresponding input commands in the formation of the digital signal sequences or be used at least once.

Ohne die Bedeutung der angegebenen Einzelheiten bei der Reduzierung der Sprachdaten schmälern zu wollen, werden nachfolgend zunächst die Maßnahmen für die Melodievariation näher erläutert. Wesentlich dafür ist die Tatsache, daß Veränderungen der Melodie von Sprache auf die stimmhaften Anteile entfallen und daß stimmhafte Laute eine große Periodizität aufweisen. Die zu speichernden signifikanten Bereiche benötigen also nur verhältnismäßig wenig wahre Abtastwerte, in der Größenordnung von 80 wahren Abtastwerten je stimmhaften Einzellaut. Innerhalb dieser signifikanten Bereiche, die eine Pitchperiode darstellen und das lauttypische Frequenzgemisch der Formanten enthalten, gibt es mehrere diskrete Stellen, an denen das Formantenfrequenzgemisch ii₄ Zeitsignalverlauf kaum oder nur geringfügige Veränderungen zeigt. Die für die Erfindung wesentliche Erkenntnis liegt nun darin, genau aus diesen "unempfindlichen" diskreten Stellen bewußt Veränderungsmöglichkeiten vorzusehen. Das bedeutet, die Pitchperiode kann verändert, verlängert oder verkürzt, und damit die Grundtonhöhe entsprechend abgesenkt oder angehoben werden, wenn Abtastwerte an diesen diskreten Stellen verwendet oder ausgelassen werden, ohne daß sich dadurch der Lautchärakter ändert. Zur Lokalisierung dieser diskreten Stellen, etwa 30 innerhalb eines derartigen signifkanten Bereiches, dienen besondere "Abtastwerte", die Markierwörter, die es erlauben, diese Stellen jederzeit aufzufinden. Die Markierwörter selbst entfallen bei der Verkettung der Elemente zu den digitalen Signalfolgen. Entsprechend dazu lassen 60 Abtastwerte, z.B. die jeweils einem Markierwort benachbarten, je nachdem, ob sie verwendet werden oder nicht, eine praktisch kontinuierliche Variation der Tonhöhe, also sehr viele Melodieverläufe zu. Insbesondere lassen sich dadurch auch die Sprachgrundfrequenzverläufe an den übergängen zu den folgenden Lauten kontinuierlich gestalten, also Stoßstellen vermeiden.Without wishing to reduce the meaning of the details given in the reduction of the speech data, the measures for the melody variation are first explained in more detail below. What is essential for this is the fact that changes in the melody of speech are accounted for by the voiced parts and that voiced sounds have a high periodicity. The significant areas to be stored therefore require only relatively few true samples, in the order of 80 true samples per voiced individual sound. Within these significant areas representing a pitch period and contain the noisy typical frequency spectrum of the formants, there are several discrete locations where the formant frequency mix ii ₄ time waveform shows little or only minor changes. The key finding for the invention is to deliberately provide possible changes from these "insensitive" discrete points. This means that the pitch period can be changed, lengthened or shortened, and thus the basic pitch can be lowered or raised accordingly, if samples are used or omitted at these discrete locations, without the sound character changing thereby. To locate these discrete locations, approximately 30 within such a significant area, special “samples” are used, the marker words, which allow these locations to be found at any time. The marker words themselves are omitted when the elements are linked to form the digital signal sequences. Correspondingly, 60 samples, for example those adjacent to a marker word, depending on whether they are used or not, permit a practically continuous variation in the pitch, that is to say a large number of melody lines. In particular, this also enables the fundamental speech frequency curves at the transitions to the following sounds to be designed continuously, that is, to avoid bumps.

Hierin liegt auch ein Grund dafür, daß als Synthesebausteine insgesamt nur ca. 100 Lautelemente benötigt werden. Bei der Aufbereitung der Lautelemente, also in der Analysephase, sind die natürlichen Sprachproben, aus denen die zu verwendenden Lautelemente gewonnen werden, ohnehin zu untersuchen, beispielsweise die oben erwähnten "unempfindlichen" Stellen zu bestimmen. Dabei lassen sich diese Sprachproben rechnerisch modifizieren, insbesondere bei übergangslauten Diskontinuitäten in den Formantverläufen eleminieren.This is also one reason why only about 100 sound elements are required as synthesis components. When preparing the sound elements, ie in the analysis phase, the natural speech samples from which the sound elements to be used are obtained are to be examined anyway, for example to determine the "insensitive" points mentioned above. These speech samples can be modified mathematically, especially in the case of transient loud discontinuities in the formant courses.

Die Ausnutzung von Lauttransformationen, d.h. einer gegenseitigen Überführbarkeit verwandter Laute, war bereits Gegenstand beim aus der DE-OS 25 31 006 bekannten Stand der Technik, von dem die Erfindung ausgeht. Dort führte die Reduzierung z.B. bei den Konsonanten von 22 auf 8. Weiterhin waren etliche Ausnahmen, etwa 150 Übergänge, je eine Pitchperiode stimmhafter Laute sowie ein Abschnitt aus dem Mittelteil der stimmlosen Laute und schließlich bei Explosivlauten noch der Anfang der Zeitfunktion zu speichern. Bei der Erfindung ergibt sich eine erhebliche Reduzierung aufgrund folgender Maßnahmen: Übergänge - ausgenommen Plosivlautkombinationen - lassen sich zeitlich invertieren; durch Verlängern bzw. Verkürzen der Lautdauer finden Vokalumwandlungen statt, durch Verkürzen der Lautdauer ergeben sich auch Konsonantenumwandlungen. Die benötigten Lautelemente setzen sich dadurch zusammen aus knapp 60 Elementen für übergangslaute, 27 Elementen für stimmhafte Einzellaute und 13 Elementen für stimmlose Einzellaute. Weitere Einzelheiten dazu folgen noch im Zusammenhang mit der Figurenbeschreibung.The exploitation of sound transformations, i.e. a mutual transferability of related sounds was already the subject of the prior art known from DE-OS 25 31 006, from which the invention is based. There the reduction led e.g. for the consonants from 22 to 8. Furthermore, a number of exceptions, about 150 transitions, a pitch period of voiced sounds as well as a section from the middle part of the unvoiced sounds and finally the beginning of the time function for explosive sounds had to be saved. In the invention there is a considerable reduction due to the following measures: transitions - with the exception of combinations of plosives - can be inverted in time; by lengthening or shortening the length of time, vowel conversions take place; by shortening the length of time, there are also consonant conversions. The required sound elements are made up of almost 60 elements for transitional sounds, 27 elements for voiced individual sounds and 13 elements for unvoiced individual sounds. Further details follow in connection with the description of the figures.

Besonders bevorzugte Ausführungsformen der Erfindung bestehen darin, in den digital gespeicherten Elementen für die stimmhaften Einzellaute zum Zwecke der Tonhöhenvariation zusätzliche Abtastwerte vorzusehen. Diese Maßnahme führt zwar zu einer geringfügigen Erhöhung um ca. 1000 Byte des benötigten Speicherplatzvolumens, ermöglicht aber weitergehende Variationen in den Melodieverläufen.Particularly preferred embodiments of the invention consist in providing additional samples in the digitally stored elements for the voiced individual sounds for the purpose of pitch variation. This measure leads to a slight increase of approx. 1000 bytes of the required storage space, but allows more extensive variations in the melody.

Im engen Zusammenhang damit ist es weiterhin vorteilhaft, wenn ein zusätzlicher Abtastwert einen zwischen den benachbarten wahren Abtastwerten liegenden interpolierten Wert besitzt. Auf diese Weise lassen sich eventuelle Diskontinuitäten verringern oder vermeiden, die zwischen den wahren Abtastwerten, die auf jeden Fall benötigt und verwendet werden, auftreten würden.In close connection with this, it is also advantageous if an additional sample value has an interpolated value lying between the adjacent true sample values. In this way, any discontinuities that would occur between the true samples that are definitely needed and used can be reduced or avoided.

Wie bereits weiter oben schon erwähnt, sind für die Maßnahmen zur Melodievariation "unempfindliche" Stellen in den Zeitverläufen bevorzugt, d.h. Markierwörter sind vorzugsweise an Stellen geringer Steigung des Zeitsignals vorzusehen. Ein zugehöriges Fehlersignal weist an solchen Stellen sehr kleine Ausschläge auf und erlaubt damit auf einfache Weise, die gewünschten diskreten Stellen zu ermitteln, zu lokalisieren und zu markieren.As already mentioned above, "insensitive" points in the time profiles are preferred for the measures for melody variation, i.e. Marking words should preferably be provided at points with a slight slope in the time signal. An associated error signal has very small deflections at such locations and thus allows the desired discrete locations to be determined, localized and marked in a simple manner.

Manchmal, besonders bei großen, erwünschten Tonhöhenschwankungen, kann es erforderlich sein, den möglichen Bereich der für Auslassungen bzw. die Verwendung geeigneten Abtastwerte voll auszunutzen. Häufiger sind jedoch die Fälle, in denen nur einige der zur Verfügung stehenden vorgegebenen Abtastwerte benötigt werden. Aus diesem Grunde ist es günstig, wenn Markierwörter an Stellen geringer Steigung des Zeitsignals mit einer höheren Priorität für Tonhöhenvariation ausgestattet sind als solche an Stellen mit größerer Steigung. Das bedeutet, zunächst erfolgen derartige Veränderungen immer an den unempfindlichsten Stellen, gegebenenfalls werden aber auch die empfindlicheren Stellen dazu herangezogen.Sometimes, especially with large, desired pitch fluctuations, it may be necessary to take full advantage of the possible range of samples suitable for omissions or use. However, the cases are more frequent in which only some of the predefined sample values available are required. For this reason, it is advantageous if marking words at points with a small slope of the time signal are given a higher priority for pitch variation than those at points with a larger slope. This means that such changes always take place at the least sensitive areas, but the more sensitive areas may also be used.

Obwohl durchaus auch die Möglichkeit besteht, bei den für Tonhöhenvariation als geeignet vorgegebenen Abtastwerten getrennt vom gespeicherten Lautelement_die zugehörigen Adressen zu verwalten, wird bei den Ausführungsformen der Erfindung die Lösung mit den Markierwörtern bevorzugt. Dabei können ein Markierwort und ein wahrer oder zusätzlicher Abtastwert digitale Muster desselben Vorrats aufweisen. Hinsichtlich einer eindeutigen Unterscheidbarkeit zwischen Markierwort und Abtastwert sollen dann jedoch Markierwörtern digitale Muster vorbehalten sein, die bei den Abtastwerten nicht vorkommen.Although there is also the possibility of using the sample values specified as suitable for pitch variation To manage the associated addresses separately from the stored sound element_, the solution with the marker words is preferred in the embodiments of the invention. A marker word and a true or additional sample can have digital patterns of the same stock. With regard to a clear distinction between the marker word and the sample value, however, marker words are to be reserved for digital words which do not occur in the sample values.

Allein schon aus Gründen unterschiedlicher Prioritäten reicht ein einziges Muster für Markierwörter nicht aus. Da eine softwaremässige Identifizierung der Muster keine besondere Systematik bei der Verteilung der digitalen Muster erfordert, ist es ohne weiteres möglich, für Markierwörter die Muster mit-den höchsten Stellenzahlen, bei 8-bit-Wörtern z.B. die Muster 246, 247, ... 255, vorzubehalten. Diese Muster können bei der Digitalisierung der Abtastwerte deshalb auf besonders vorteilhafte Weise ausgespart werden, weil eine Begrenzung am oberen Ende zu kaum spürbaren Beschränkungen führt.For reasons of different priorities alone, a single pattern for marker words is not sufficient. Since a software identification of the patterns does not require any special systematics for the distribution of the digital patterns, it is easily possible to use the patterns with the highest number of digits for marker words, e.g. with 8-bit words. reserve patterns 246, 247, ... 255. These patterns can be omitted in a particularly advantageous manner when digitizing the sampled values because a limitation at the upper end leads to hardly noticeable restrictions.

Von besonderer Bedeutung ist es für Ausführungsformen der Erfindung, während der Wortpausen die Gestalt der für die Verkettung des nächstfolgenden Wortes benötigten Lautelemente anhand der Eingangsbefehle bestimmen zu können. Hierdurch werden Diskontinuitäten bei der Ausgabe der einzelnen Wörter vermieden. Die Dauer für die Bestimmung der Gestalt der benötigten Synthesebausteine liegt, auch für sehr lange Wörter, im Bereich von wenigen Millisekunden. Unter Bestimmung der Gestalt ist hier zu verstehen: aufsuchen des betreffenden Lautelements, gegebenenfalls zeitlich invertieren, Lautdauer verlängern bzw. verkürzen und Wiederholanzahl des gespeicherten Lautelements angeben.It is of particular importance for embodiments of the invention to be able to determine the shape of the sound elements required for the concatenation of the next word following the pauses on the basis of the input commands. This avoids discontinuities in the output of the individual words. The duration for determining the shape of the required synthesis building blocks, even for very long words, is in the range of a few milliseconds. Determining the shape is to be understood here: searching for the relevant sound element, possibly inverting in time, lengthening or shortening the duration of the sound and specifying the number of repetitions of the stored sound element.

Ein weiterer wesentlicher Vorzug der Erfindung besteht darin, daß über eine alphanumerische Tastatur eingegebene Folgen üblicher Schriftzeichen in einem dem eigentlichen Synthesevorgang vorausgehenden Verfahrensschritt selbsttätig in eine als Eigangsbefehle geeignete Folge von Lautschriftzeichen transkribiert werden kann. Hierdurch wird auch ungeübten bzw. nicht geschulten Benutzern die Anwendung erheblich erleichtert bzw. überhaupt erst eröffnet. Selbstverständlich bleibt dabei auch die Möglichkeit bestehen, Lautschriftzeichen bzw. die geeigneten Eingangsbefehle unmittelbar einzugeben.A further essential advantage of the invention is that sequences of conventional characters entered via an alphanumeric keyboard can be automatically transcribed into a sequence of phonetic characters suitable as input commands in a method step preceding the actual synthesis process. As a result, even inexperienced or untrained users will find it much easier to use, or even opened up. Of course, there is also the option of entering phonetic characters or the appropriate input commands directly.

Für die Transkription ist allerdings weiteres Speichervolumen erforderlich. Überraschend ist dabei, daß dafür jedoch nur etwa ein Drittel desjenigen Speicherplatzvolumens benötigt wird, der für die Synthese vorzusehen ist, d.h. etwa ein Viertel des gesamten Speicherplatzvolumens für Synthese und Transkription, wenn die Transkription auf folgende Art durchgeführt wird: zunächst werden lexikalisch erfaßte Ausnahmen und Fremdwörter bearbeitet; ansonsten wird der Wortschatz einer Präfixverarbeitung, unter Berücksichtigung von Ausnahmen, einer Endungsabspaltung und einer Suffixverarbeitung, ebenfalls unter Berücksichtigung von Ausnahmen, unterzogen und die Transkription der Wortstämme nach katalogartig gespeicherten Regeln durchgeführt. Diese oder ähnliche Maßnahmen sind für Sprachwissenschaftler an sich geläufig.However, additional storage volume is required for the transcription. It is surprising that only about a third of the storage space volume that is to be provided for the synthesis is required for this, i.e. about a quarter of the total storage space for synthesis and transcription, if the transcription is carried out in the following way: first, lexically recorded exceptions and foreign words are processed; Otherwise, the vocabulary is subjected to a prefix processing, taking exceptions into account, an ending split-off and a suffix processing, also taking exceptions into account, and the transcription of the stems is carried out according to rules stored in a catalog. These or similar measures are common for linguists.

Eine Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens kann mit einem Mikroprozessor aufgebaut sein, an den Festwertspeicher mit einer Speicherkapazität von insgesamt 32 kByte und ein Arbeitsspeicher für 1 kByte anzuschließen sind, und weist außerdem einen dekompandierenden Digital-Analog-Wandler und einen -lautstärkeregelbaren- Niederfrequenzverstärker und einen Lautsprecher als elektro-akustische Wandlereinrichtung auf. Derartige Schaltungselemente und Bauteile sind marktüblich. Das Konzept ermöglicht aber auch eine weitgehende Integration. Die Dekomparadierung vor der Digital-Analog-Wandlung beinhaltet selbstverständlich, daß zuvor die gespeicherten Daten einer die Datenrate reduzierenden'Kodierung unterzogen wurden. Gebräuchliche und in der angegebenen Reihenfolge immer stärker reduzierende Verfahren sind die logarithmische PCM und die Adaptive-Delta-PCM. Aus gebräuchlichen Sprach-Ubertragungssystemen sind betreffende Bauteile bekannt und ohne weiteres auch bei Ausführungsformen der Erfindung einzusetzen.A circuit arrangement for carrying out the method according to the invention can be constructed with a microprocessor, to which the read-only memory with a total storage capacity of 32 kbytes and a working memory for 1 kbyte are to be connected, and also has a decomposing digital-to-analog converter and a volume-controllable low-frequency amplifier and a loudspeaker as an electro-acoustic transducer device. Such circuit elements and components are common on the market. The concept but also enables extensive integration. Decomparing before the digital-to-analog conversion naturally means that previously the stored data has been subjected to a coding which reduces the data rate. The logarithmic PCM and the adaptive delta PCM are common and increasingly reducing methods in the order given. Relevant components are known from common voice transmission systems and can also be used without further ado in embodiments of the invention.

Hinsichtlich des Aufwandes bei Schaltungsanordnungen sind noch immer die Speicher, genauer gesagt deren Größe, von Bedeutung. Deshalb ist es wichtig für Kostenabschätzungen, daß bei einer Schaltungsanordnung zur Durchführung des erfindungsgemäßen Verfahrens die Aufteilung der Kapazität von Festwertspeichern in:

1,5 kByte für das Transkriptionsprogramm, .
6 kByte für die Transkriptionsgrammatik,
1,5 kByte für das Syntheseprogramm,
1 kByte für die Synthesematrix
und 22 kByte für die Lautelemente
erfolgen kann.

With regard to the complexity of circuit arrangements, the memories, more precisely their size, are still important. It is therefore important for cost estimates that, in a circuit arrangement for carrying out the method according to the invention, the division of the capacity of read-only memories into:

1.5 kByte for the transcription program,.
6 kByte for the transcription grammar,
1.5 kByte for the synthesis program,
1 kByte for the synthesis matrix
and 22 kByte for the sound elements
can be done.

Schließlich ist es für die verschiedenartigen Einsatzgebiete von Ausführungsformen der Erfindung wichtig, daß die Eingabe der Daten, d.h. der Schreib- oder Lautschriftsymbolfolgen, sowie die Ausgabe der akustischen Signale sowohl direkt am Gerät als auch jeweils an entfernten Orten erfolgen kann. Dazu kann entsprechend am Eingang z.B. eine V24-Schnittstelle bzw. am Ausgang eine Niederfrequenzbuchse vorgesehen sein.Finally, for the various uses of embodiments of the invention, it is important that the data input, i.e. the writing or phonetic symbol sequences, as well as the output of the acoustic signals can take place both directly on the device and at remote locations. For this purpose, e.g. at the entrance a V24 interface or a low-frequency socket can be provided at the output.

Die Anwendungsmöglichkeiten für ein derartiges Sprachsynthesesystem sind aufgrund der Möglichkeit, ein unbegrenztes Vokalubar zu generieren, äußerst mannigfaltig. Beispielhaft sollen erwähnt sein: Telefon-Auskunftssysteme; akustischer Ersatz oder Unterstützung bei unübersichtlichen Anzeigetafeln, insbesondere Flug- oder Fahrplänen; Ersatz oder Ergänzung dort, wo die Aufmerksamkeit von Personen durch Dauerbeobachtung einzelner Ziffern- oder Textanzeigen oder Warnanlagen über Gebühr beansprucht wird, z.B. bei Flugzeug-Bordsystemen; Tastenwahltelefone als Eingabetastatur und Telefonhörer als Ausgabe bei Datenverarbeitungsanlagen, z.B. für Auskünfte sich laufend ändernder Daten, wie Lagerbestände, Kontenstände_r Börsenkurse, medizinische Diagnosen oder laufende Überwachung von Körperfunktionen von Patienten im Krankenhaus oder zu Hause; Bestellungen von Waren nach Katalognummern, von Theater- oder Konzertkarten; Erteilung und Annahme von Aufträgen, Umdispositionen u. dgl.; Fernübertragung von Prozessdaten; Hausleitsysteme; Sprachen-Unterricht; Computergestützter Unterricht; Verkehrsleitung; Bibliotheken-Anfragen und Auskünfte; Lexikon- Auskunftsdienst, Hilfe für Behinderte -Sprach- und Sehbehinderte- und vieles mehr.The possible uses for such a speech synthesis system are extremely varied due to the possibility of generating an unlimited vocalubar. Examples include: telephone information systems; more acoustic Replacement or support for confusing display boards, especially flight or timetable plans; Replacement or supplement where the attention of people is unduly claimed through constant observation of individual numerical or text displays or warning systems, for example in aircraft on-board systems; Key-dial telephones as input keypad and telephone handset as output for data processing systems, for example for information on continuously changing data, such as stocks, account _{balances for} stock exchange prices, medical diagnoses or continuous monitoring of body functions of patients in the hospital or at home; Ordering goods by catalog number, theater or concert tickets; Placing and accepting orders, redistribution, etc. the like; Remote transmission of process data; Home control systems; Language teaching; Computer aided instruction; Traffic management; Library inquiries and information; Lexicon information service, help for disabled people - speech and visually impaired - and much more.

In den Zeichnungen sind Einzelheiten für Ausführungsformen der Erfindung schematisch dargestellt. Dabei zeigen:

Fig. 1: ein Blockschaltbild für ein Sprachsynthese^gerät mit Transkri^ptionseinheit,
Fig. 2: ein Blockschaltbild eines Sprachsynthesegerätes mit Transkriptionseinheit, auf Mikroprozessorbasis;
Fig. 3: eine Darstellung der Lage der drei ersten Formanten für verschiedene Laute;
Fig. 4: eine Darstellung von Formantsprüngen an den übergängen zwischen drei Einzellauten;
Fig. 5: eine Darstellung für die Reduktionsmöglichkeit der Länge von Elementen;
Fig.6a: ein Beispiel für zeitliche Invertierung von Übergangslauten;
Fig.6b: die Möglichkeiten für Vokalumwandlungen;
Fig.6c: die Möglichkeiten für Konsonantenumwandlungen;
Fig. 7: ein Beispiel für die Veränderung des Höreindrucks durch Verschieben des Anfangspunktes;
Fig. ein Beispiel für die rechnerische Modifizierung
8a,b,c: eines stimmhaften Einzellautes zur Variation der Tonhöhe;
Fig. 9: ein -auszugsweises- Beispiel für die Anordnung von wahren, auslaßbaren und zusätzlichen Abtastwerten sowie von Markierwörtern in einem gespeicherten Element eines stimmhaften Einzellautes;
Fig. 10: eine Darstellung der Aufteilung und des Inhaltes des Lautelemente-Speichers;
Fig. ll: eine Darstellung des Ablaufs einer Transkription
und Fig. 12: eine Darstellung eines Synthesebeispiels (monoton).

Details of embodiments of the invention are shown schematically in the drawings. Show:

Fig. 1 shows a block diagram of a speech synthesis ^g et up instrument with Transkri ^p tion unit,
2 shows a block diagram of a speech synthesis device with a transcription unit, based on a microprocessor;
3 shows a representation of the position of the first three formants for different sounds;
4: a representation of formant jumps at the transitions between three individual tones;
5 shows a representation of the possibility of reducing the length of elements;
Fig. 6a: an example of temporal inversion of transition sounds;
Fig.6b: the possibilities for vowel conversions;
Fig. 6c: the possibilities for consonant conversions;
7 shows an example of the change in the auditory impression by shifting the starting point;
An example of the computational modification
8a, b, c: a voiced single tone for varying the pitch;
9: an excerpt of an example of the arrangement of true, skippable and additional sample values as well as marker words in a stored element of a voiced individual sound;
10 shows a representation of the division and the content of the sound element memory;
Fig. Ll: a representation of the process of a transcription
and FIG. 12: an illustration of a synthesis example (monotonous).

Wie die Fig. l zeigt, besteht eine Sprachsynthesesystem bei Ausführungsformen nach der Erfindung im wesentlichen aus zwei Einheiten, der für die Transkription und der für die Synthese selbst. Einzugeben ist entweder eine Schriftzeichenfolge, was über eine alphanumerische Tastatur oder über eine V24-Schnittstelle geschehen kann, oder aber eine Lautzeichenfolge. Obwohl geübte bzw. geschulte Benutzer über geeignete Tastaturen auch die Lautzeichenfolgen unmittelbar eingeben können, wird in den meisten Anwendungsfällen bei einem Verzicht auf die Transkription die Syntheseeinheit dann wohl die entsprechenden Eingangssignale von einem entfernten Ort über eine Datenleitung und die V24- Schnittstelle erhalten. Selbstverständlich lassen sich auch andere Schnittstellenbedingungen einhalten und im Rahmen fachmännischen Könnens realisieren. Die Transkriptionseinheit greift auf vorbereitete Regeln, unter dem Begriff Grammatik zusammengefaßt, zurück, die Syntheseeinheit im wesentlichen auf die gespeicherten Lautelemente. Die synthetisierten Abtastwertfolgen gelangen über einen Digital-Analog-Wandler D/A und einen regelbaren Verstärker entweder direkt über einen Lautsprecher oder über eine Niederfrequenzbuchse und eine nicht dargestellt Sprachübertragungsleitung und am entfernten Ort über einen Lautsprecher als Schallwellen zur Wieder-, besser Ausgabe,As shown in FIG. 1, a speech synthesis system in embodiments according to the invention essentially consists of two units, the one for the transcription and the one for the synthesis itself. Either a character string is to be entered, which is done via an alphanumeric keyboard or via a V24 interface can, or a sound string. Although experienced or trained users can also enter the sound strings directly using suitable keyboards, in most applications, if the transcription is not used, the synthesis unit will then receive the corresponding input signals from a remote location via a data line and the V24 interface. Of course, other interface conditions can also be complied with and implemented within the scope of professional skills. The transcription unit uses prepared rules, summarized under the term grammar, the synthesis unit essentially uses the stored sound elements. The synthesized Sampling value sequences arrive via a digital-to-analog converter D / A and a controllable amplifier either directly via a loudspeaker or via a low-frequency socket and a voice transmission line, not shown, and at a remote location via a loudspeaker as sound waves for reproduction, better output,

Das in Fig. 2 dargestellte Blockschaltbild gibt insbesondere im Größenvergleich der einzelnen Blöcke den Speicherplatzbedarf mit den Anteilen wieder, die für die Synthese und die Transkription insgesamt benötigt werden. Das System ist auf Bas.is eines Mikroprozessors pP konzipiert. Für die Eingabe der Schriftzeichenfolgen ist eine alphanumerische Tastatur, für die Ausgabe der als Sprache wahrnehmbaren Schallwellen ein üblicher elektro-akustischer Wandler vorgesehen. Für die Transkription arbeitet der Mikroprozessor pP mit dem Transkriptionsprogramm TP und der Transkriptionsgrammatik TG, bei der Sprachsynthese mit dem Syntheseprogramm SP und der Synthesematrix SM, wobei die benötigten Lautelemente je nach Bedarf aus dem Lautelementespeicher SE entnommen, in die im Arbeitsspeicher RAM abgelegte, aus der betreffenden Lautzeichenfolge abgeleitete Gestalt gebracht, in der betreffenden Anzahl und Reihenfolge verkettet und an den Digital-Analog-Wandler (s. Fig. 1, D/A) übergeben werden. Eine Lautstärkeregelung innerhalb der synthetisierten Wörter und Sätze erfolgt, ebenfalls vom Mikroprozessor pP gesteuert und entsprechend dafür eingegebener Befehle, im regelbaren Niederfrequenzverstärker (s. Fig. l) vor der Abstrahlung der Schallwellen bzw. der Übertragung des Niederfrequenzsignals.The block diagram shown in FIG. 2 shows, in particular in the size comparison of the individual blocks, the storage space requirement with the proportions that are required for the synthesis and the transcription as a whole. The system is designed on the basis of a microprocessor pP. An alphanumeric keyboard is provided for entering the character strings, and a conventional electro-acoustic converter is provided for outputting the sound waves perceptible as speech. For the transcription, the microprocessor pP works with the transcription program TP and the transcription grammar TG, for speech synthesis with the synthesis program SP and the synthesis matrix SM, the required sound elements being taken from the sound element memory SE as required and into the RAM stored in the working memory from which Derived shape of the relevant sound string, chained in the relevant number and order and passed to the digital-to-analog converter (see FIG. 1, D / A). A volume control within the synthesized words and sentences takes place, also controlled by the microprocessor pP and according to commands entered therefor, in the controllable low-frequency amplifier (see FIG. 1) before the radiation of the sound waves or the transmission of the low-frequency signal.

Die in Fig. 3 dargestellte Lage der drei ersten Formanten für neun verschiedene Laute läßt erkennen, daß insbesondere der erste und der zweite Formant von erheblicher Bedeutung für die Lautbildung sind. Aufgrund der linearen Teilung der Frequenzskala darf jedoch nicht übersehen werden, daß auch beim dritten Formanten der Bereich etwa einer halben Oktave beansprucht wird.The position of the first three formants for nine different sounds shown in FIG. 3 shows that the first and the second formants in particular are of considerable importance for the formation of sounds. Due to the linear division of the frequency scale, it should not be overlooked that in the third formant, the range is about half an octave.

In Fig. 4 ist für drei Laute die Lage der Formanten dargestellt. Es zeigt sich, daß an den Übergängen teilweise recht erhebliche Sprünge auftreten, die als äußerst unangenehm wahrgenommen werden würden. Hierbei handelt es sich jedoch um bekannte Erscheinungen, die lediglich deshalb nicht unerwähnt bleiben sollen, um die Vielschichtigkeit der Probleme anzudeuten, die bei einem Sprachsynthesesystem zu beachten sind.4 shows the position of the formants for three sounds. It can be seen that there are sometimes quite considerable jumps at the transitions that would be perceived as extremely unpleasant. However, these are known phenomena that should not be left unmentioned only to indicate the complexity of the problems that have to be considered in a speech synthesis system.

Das in Fig. 5 dargestellte Zeitsignal des Wortes "Asche" soll die Möglichkeit der Reduktion der Länge von Lautelementen durch Segmentierung in quasistationäre Bereiche S und Übergangsbereiche U veranschaulichen. Innerhalb der quasistationären Bereiche S sind Sprachgrundfrequenzperioden P zu erkennen, die den signifikanten Bereich eines Lautes bilden und nur in dieser Länge als Element für die Synthese abgespeichert zu werden brauchen. Ähnliche Grundfrequenzperioden sind auch bei übergangsbereichen zu erkennen und reichen als Synthesebaustein ebenfalls aus.The time signal of the word "ash" shown in FIG. 5 is intended to illustrate the possibility of reducing the length of sound elements by segmentation into quasi-stationary areas S and transition areas U. Within the quasi-stationary areas S, fundamental speech frequency periods P can be recognized, which form the significant area of a sound and only need to be stored as an element for the synthesis in this length. Similar fundamental frequency periods can also be seen in transition areas and are also sufficient as a synthesis module.

Die in den Fig. 6a, 6b und 6c angegebenen Möglichkeiten für zeitliche Invertierung von Übergängen (Fig. 6a), für Vokalumwandlung (Fig. 6b) und für Konsonantenumwandlung (Fig. 6c) sprechen für sich und bedürfen deshalb hier keiner näheren Erläuterung. Allerdings ist, wie weiter oben bereits erwähnt, darauf hinzuweisen, daß eine Verkürzung oder Verlängerung der Lautdauer eben nicht nur eine Verlagerung der Tonhöhe mit sich bringt, sondern insbesondere eine Lautumwandlung bewirkt. Von den 16 in Fig. 6 c angegebenen Lauten brauchen übrigens nur die in jeder Zeile an erster Stelle angegebenen gespeichert zu werden. Dies sind zwar die Laute mit den jeweils meisten benötigten Abtastwerten, doch wird dadurch Speicherplatz von gut 60 % gegenüber einer Speicherung aller dieser Laute eingespart.The options given in FIGS. 6a, 6b and 6c for temporal inversion of transitions (FIG. 6a), for vowel conversion (FIG. 6b) and for consonant conversion (FIG. 6c) speak for themselves and therefore do not require any further explanation here. However, as already mentioned above, it should be pointed out that shortening or lengthening the duration of the sound not only brings about a shift in the pitch, but in particular causes a sound conversion. Incidentally, of the 16 sounds indicated in FIG. 6 c, only those given in the first place in each line need to be stored. Although these are the sounds with the most required sample values in each case, this saves storage space of a good 60% compared to storing all of these sounds.

Die in Fig. 7 dargestellte Veränderung des Höreindrucks gibt an, daß 20 Testpersonen eine Konsonantenumwandlung feststellen sollten (in Klammern), die - bis auf zwei Personen bei der Verschiebung des Anfangspunktes auf 160 ms - den angegebenen Höreindruck bei den einzelnen Umwandlungsformen bestätigten.The change in the auditory impression shown in FIG. 7 indicates that 20 test persons should find a consonant conversion (in brackets) which - apart from two persons when the starting point was shifted to 160 ms - confirmed the stated auditory impression in the individual conversion forms.

Die Fig. 8a, 8b und 8c zeigen an einem Beispiel, auf welche Weise die bei der Erfindung wesentliche Variation der Tonhöhe ermöglicht wird. In Fig. 8a ist eine Grundfrequenzperiode des Lautes /a/ aufgetragen. Zur Modifizierung wird zunächst von einem Prädiktionsfehlerfilter das dazugehörige Fehlersignal (Fig. 8b) erzeugt. Daraus ist zu erkennen, daß diskrete Stellen angegeben werden können, an denen Modifizierungen vorzunehmen sind, ohne den Lautcharakter, jedoch seine Tonhöhe zu verändern. In Fig. 8c ist die gegenüber Fig. 8a um etwa 20 % gekürzte Periode des Lautes /a/ angegeben. Es zeigt sich im Vergleich der Kurvenverläufe von Fig. 8a und 8c, daß eine Verkürzung der Periode, d.h. eine Erhöhung der Tonhöhe, das eigentliche charakteristische Bild nicht verändert, der Laut /a/ als solcher also erhalten bleibt und -wie gewünscht- höher klingt.8a, 8b and 8c show an example of the manner in which the pitch variation which is essential in the invention is made possible. A basic frequency period of the sound / a / is plotted in FIG. 8a. For modification, the associated error signal (FIG. 8b) is first generated by a prediction error filter. From this it can be seen that discrete places can be specified where modifications have to be made without changing the sound character but its pitch. 8c shows the period of the sound / a / shortened by approximately 20% compared to FIG. 8a. It can be seen in the comparison of the curves of Figures 8a and 8c that a shortening of the period, i.e. an increase in pitch, the actual characteristic image does not change, the sound / a / is therefore retained as such and - as desired - sounds higher.

In der Fig. 9 ist ein Beispiel -.auszugsweise - angegeben, in welcher Reihenfolge (lfd. Nr.) in einem gespeicherten Element eines in der Tonhöhe veränderbaren, stimmhaften Übergangs- oder Einzellautes wahre Abtastwerte WAW, auslaßbare Abtastwerte DAW, zusätzliche Abtastwerte ZAW und Markierwörter MAW aufeinanderfolgen. Im Normalfall, d.h. wenn keine Tonhöhenvariation erfolgen soll, werden nur die wahren Abtastwerte WAW verwendet. Für eine Absenkung der Tonhöhe werden zusätzliche Abtastwerte ZAW mit verwendet, für eine Erhöhung hingegen gegenüber dem Normalfall auslaßbare Abtastwerte DAW weggelassen. Mit den Markierwörtern werden nicht nur die zusätzlichen ZAW bzw. auslaßbaren Abtastwerte DAW lokalisiert, sondern vorteilhaft auch deren Priorität für Tonhöhenänderungen bestimmt.In FIG. 9, an example is given, in extracts, in which order (serial number) in a stored element of a voiced transitional or individual sound that is variable in pitch, true samples WAW, skipped samples DAW, additional samples ZAW and Marking words MAW follow one another. Normally, i.e. if no pitch variation is to take place, only the true samples WAW are used. Additional sampling values ZAW are used for lowering the pitch, while sampling values DAW that can be omitted compared to the normal case are omitted for an increase. The marker words not only localize the additional ZAW or skewable sample values DAW, but also advantageously determine their priority for pitch changes.

Der in Fig. 10 dargestellte Block soll das Verhältnis des Speicherplatzbedarfs veranschaulichen, der für die Synthesebausteine, die Elemente der Einzel- und der Übergangslaute, benötigt wird. Dabei handelt es sich in erster Linie um die wahren Abtastwerte WAW der Elemente, außerdem aber auch um die Markierwörter MAW und die rechnerisch bestimmten zusätzlichen Abtastwerte ZAW bei den stimmhaften Einzellauten bzw. den stimmhaften Bereichen von Übergangslauten. Die gestrichelte Linie zwischen den Bereichen für die Einzellaut- und die übergangslaut-Elemente zeigt eine Aufteilung etwa im Verhältnis 4 : 6.The block shown in FIG. 10 is intended to illustrate the ratio of the storage space requirement which is required for the synthesis building blocks, the elements of the individual and the transition sounds. These are primarily the true sample values WAW of the elements, but also the marking words MAW and the mathematically determined additional sample values ZAW for the voiced individual sounds or the voiced areas of transition sounds. The dashed line between the areas for the individual sound and the transition sound elements shows a division roughly in a ratio of 4: 6.

Die Fig. ll, in der der Ablauf einer Transkription dargestellt ist, spricht für sich, soll aber anhand eines Beispiels, die Transkription des Wortes "verwischend" näher erläutert werden:Fig. 11, in which the process of a transcription is shown speaks for itself, but is to be explained in more detail using an example, the transcription of the word "blurring":

Bei der lexikalischen Verarbeitung ergibt sich, daß es sich um keine Ausnahme handelt. Die Wortanalyse erfolgt also nach:

The lexical processing shows that it is no exception. The word analysis is done according to:

Bei der Transkription des Stammes nach Regeln ist festzustellen, ob die Aussprache der Symbolfolge "sch" als ein Laut /sch/ (wie in: Schule) oder als zwei getrennte Laute /s/ und /ch/ erfolgen muß. Dazu gelten folgende Regeln aus dem Katalog: Befinden sich vor "sch" zwei Vokale oder ein Umlaut, gilt zunächst die zweite Alternative, also zwei getrennte Laute /s/ und /ch/ (Beispiel: Röschen/Roeschen). Ist dabei jedoch der zweite Vokal ein "u", gilt dennoch die erste Alternative, d.h. der Einzellaut /sch/ (Beispiel: tauschen).When transcribing the stem according to rules, it must be determined whether the pronunciation of the symbol sequence "sch" must be a sound / sh / (as in: school) or two separate sounds / s / and / ch /. The following rules from the catalog apply: If there are two vowels or an umlaut before "sch", the second alternative applies first, ie two separate sounds / s / and / ch / (example: Röschen / Roeschen). However, if the second vowel is a "u", the first alternative still applies, i.e. the individual sound / sh / (example: swap).

Befinden sich vor "schen" drei Vokale, wobei ein Umlaut wiederum als zwei Vokale angesehen werden, gilt wieder die zweite Alternative, also.zwei getrennte Laute /s/ und /ch/ (Beispiel: Häuschen/Haeuschen). Ausnahmen hiervon sind nur zwei Wörter: täuschen/taeuschen und Geräuschen/Geraeuschen.If there are three vowels in front of "schen", whereby an umlaut is again considered to be two vowels, that applies again second alternative, i.e. two separate sounds / s / and / ch / (example: little house / little house). Exceptions to this are just two words: deceive and deceive.

Ein weiteres Beispiel aus dem umfangreichen Regelkatalog betrifft den Laut /ch/. Dabei werden unterschieden:

wobei hier jeweils nur einige Lautbeispiele aufgeführt sind.Another example from the extensive rule catalog concerns the sound / ch /. A distinction is made between:

only a few sound examples are given here.

Die Fig. 12 zeigt den Signalverlauf - monoton - des synthetisierten Wortes /Tasche/. (Eine den Signalverlauf, die Melodik, Rhythmik und Dynamik enthaltende Darstellung wäre, soweit mit gebräuchlichen Mitteln überhaupt möglich, zweifellos unübersichtlicher). Für das /t/ wurde ein gekürztes /s/ verwendet. Der Übergang /ta/ entstammt dem Doppellaut /sa/. Für das /a/ wurden einer Periode 8 Wiederholungen angefügt. Der Übergang /asch/ wurde dem Doppellaut /sa/, zeitlich invertiert, entnommen. Beim /sch/ handelt es sich um einen stimmlosen Einzellaut. Der Übergang /scha/ entstammt dem Doppellaut /sa /. Schließlich wurde für das /a / am Ende zunächst eine Periode 6mal und sodann noch 6mal, jedoch mit dem Ausschnitt einer Sinusfunktion bewertet, wiederholt.12 shows the signal curve - monotonous - of the synthesized word / pocket /. (A representation containing the waveform, the melody, rhythm and dynamics would undoubtedly be more confusing, as far as is possible with the usual means). A shortened / s / was used for the / t /. The transition / ta / comes from the double sound / sa /. For the / a / 8 repetitions were added to a period. The transition / asch / was taken from the double volume / sa /, inverted in time. The / sh / is an unvoiced individual sound. The transition / scha / comes from the double sound / sa /. Finally, for the / a / at the end a period was repeated 6 times and then a further 6 times, but evaluated with a section of a sine function.

Claims

1.Procedure for the synthesis of speech with unlimited vocabulary in the time domain from sound elements obtained from natural speech samples and encoded in digital form, with low redundancy, and stored, and also with regard to the required storage space in length in each case to the significant area of the relevant sound-typical time signal and the number is reduced using mutually convertible related sounds, whereby for speech synthesis these sound elements are chained in the required form, number and sequence to digital signal sequences based on input commands and predetermined linking rules, from which by means of digital-analog conversion and controllable Amplification sound waves perceptible are generated, characterized in that a total of about 100 sound elements, namely: about 50 elements for transition sounds, each with an average of 240 samples for 8 kHz output frequency and

about 40 elements are provided for individual sounds, each with an average of 500 samples for unvoiced and 140 samples for voiced individual sounds and 8 kHz output frequency, and that the pitch for the reproduction of the elements for the voiced transition and individual sounds can be changed by such samples, which are specified as suitable at discrete points in the time signal by means of marker words, are omitted or used at least once due to corresponding input commands when forming the digital signal sequences.

2. The method according to claim 1, characterized in that additional samples are provided in the digitally stored elements for the voiced sounds for the purpose of pitch variation.

3. The method according to claim 2, characterized in that an additional sample has an interpolated value lying between the adjacent true samples.

4. The method according to any one of claims 1 to 3, characterized in that marking words are preferably provided at points with a slight slope of the time signal.

5. The method according to claim 4, characterized in that marking words at points with a lower slope of the time signal are equipped with a higher priority for pitch variation than those at points with a larger slope.

6. The method according to any one of claims 1 to 5, characterized in that marker words are reserved for digital patterns that do not occur in the samples.

7. The method according to claim 6, characterized in that for marking words, the pattern with the highest number of digits, for 8-bit words e.g. samples 246, 247, ... 255 are reserved.

8. The method according to any one of claims 1 to 7, characterized in that the shape of the sound elements required for the concatenation of the next word is determined on the basis of the input commands during the word breaks.

9. The method according to any one of claims 1 to 8, characterized in that entered via an alphanumeric keyboard sequences of common characters in a process step preceding the actual speech synthesis process is automatically transcribed into a sequence of phonetic characters suitable as input commands.

10. The method according to claim 9, characterized in that firstly lexically recorded exceptions and foreign words are processed, and the vocabulary is otherwise subjected to a prefix processing, taking exceptions into account, an ending split-off and a suffix processing, also taking exceptions into account, and the transcription the stems are carried out according to rules stored in a catalog.

11. Circuit arrangement for performing the method according to one of claims 1 to 10, characterized by a microprocessor (uP) to the read-only memory (ROM) with a total storage capacity of 32 kbytes and a working memory (RAM) for 1 kbyte are connected, and by a known electro-acoustic converter device consisting of a decomposing digital-to-analog converter and a low-frequency amplifier and a loudspeaker.

12. Circuit arrangement according to claim 11, characterized by a division of the capacity of the read-only memory (ROM) into: 1.5 kbytes for the transcription program, 6 kByte for the transcription grammar,

1.5 kByte for the synthesis program,

1 kbyte for the synthesis matrix and

22 kByte for the sound elements.

13. Circuit arrangement according to claim 11 or 12, characterized by a V24 interface at the input.

14. Circuit arrangement according to one of claims 11 to 13, characterized by a low-frequency socket at the output.