DE2524804A1

DE2524804A1 - Verfahren und vorrichtung zur automatischen spracherkennung

Info

Publication number: DE2524804A1
Application number: DE19752524804
Authority: DE
Inventors: Tetsuro Morino; Matsumi Suzuki; Shozo Yokota
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1974-06-04
Filing date: 1975-06-04
Publication date: 1975-12-18
Also published as: FR2274101B1; US4060694A; GB1519492A; FR2274101A1; JPS50155105A

Description

DR. ING. B. HOFFMANN · DIPL. ING. W. EITLE · OB. RER. NAT. K. HOFFMANN

PATEN^rl'AlfWliTE D-BOOO MÖNCHEN 81 · ARABELIASTRASSE 4 - TELEFON (0811) 911087 2 5 2 4 8 0 A

26 876

Fuji Xerox Co., Ltd., Tokyo / Japan

Verfahren und Vorrichtung zur automatischen Spracherkennung

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur automatischen Spracherkennung, entsprechend dem Oberbegriff des Anspruchs 1, sowie auf eine Vorrichtung zur Durchführung dieses Verfahrens.

Zur Spracherkennung sind bereits verschiedene Verfahren vorgeschlagen worden, bei welchen u.a. ein Schwellwertlogikkreis mit einem blinden Bereich verwendet wird, der aus analogen Elementen aufgebaut ist. Bei diesem Verfahren wird von einer, ein bestimmtes Phänomen kennzeichnenden Komponente eine andere Komponente substrahiert, welche ein eine Fehlfunktaion bewirkendes anderes Phänomen kennzeichnet.

509851/0397

-Z-

252480A

Falls der auf diese Weise gebildete Wert grosser als ein bestimmter Schwellwert ist/ wird derselbe als charakteristischer Parameter zur Kennzeichnung des Phänomens verwendet. Mit diesem Verfahren kann eine sehr genaue Erkennung unter Verwendung charakteristischer Parameter erreicht werden.

Bei diesem Verfahren wird ein charakteristischer Parameter entsprechend der folgenden Gleichung extrahiert

_ »fl (t

wobex X. - I

fallsx. > 0

und

' J

x. = "0"^; falls ν ^-η ...... r.., (2)

. _x

In>der obigen Gleichung ist x. der charakteristische Parameter, welcher einem Phänomen X. entspricht. F. ist das Ausgangssignal eines Bandpassfilter, Y . ein Schwellwert und -;£. sowie ß. Wertungsfaktoren.

Die Extraktion von charakteristischen Parametern in Übereinstimmung mit den Gleichungen (1) und (2) kann sehr zuverlässig für eine bestimmte Person durchgeführt werden, dessen Wertungsfaktor «£., ß. und der Schwellwert y. vorgegeben sind. Es zeigt sich jedoch, dass im Hinblick auf unterschiedliche Sprecher diese Zuverlässigkeit der Erkennung nicht erreicht werden kann.

Im Hinblick auf obigen Stand der Technik ist es demzufolge Aufgabe der vorliegenden Erfindung, ein Verfahren zur Spracherkennung und Sprachanalyse zu schaffen, gemäss welchem eine Extraktion von charakteristischen Parametern mit hoher Zuverlässigkeit erreicht werden kann, selbst wenn die Audiosignale unterschiedlicher Sprecher analisiert werden.

509851 /0397

252A80A

Erfindungsgemäss wird dies dadurch erreicht, indem die im kennzeichnenden Teil des Anspruchs 1 aufgeführten Verfahrensschritte durchgeführt werden.

Eine Vorrichtung zum Durchführen des erfindungsgemässen Verfahrens ergibt sich anhand des Anspruches 2.

Die Erfindung soll nunmehr anhand von Ausführungsbeispielen näher erläutert beschrieben werden, wobei auf die beigefügte Zeichnung Bezug genommen ist. Es zeigt:

Fig. 1 ein schematische Diagramm eines Extrahierkreises für charakteristische Parameter,

Fig. 2 ein Blockdiagramm einer Vorrichtung zur Spracherkennung gemäss der Erfindung, und

Fig. 3 ein Blockdiagramm einer abgewandelten Ausführungsform der Erfindung.

Das wesentliche ilerk^aal des E^-Jcennurigsverfahrens gemä'js der Erfindung besteht darin, dass die Wertungsfaktoren oc. und ß. von Gleichung (1) veränderlich gemacht werden. Demzufolge werden sie an jeden beliebigen Sprecher angepasst, um Variationen der charakteristischen Parameter, welche durch unterschiedliche Sprecher bedingt sind, zu verhindern. Dies wird dadurch erreicht, indem Gleichung (1) wie folgt erweitert wird:

509851/0397

x₁₀, X₁₁, X₁₂

^xlk

^xi0* ^xi

Ip-1

j=l

wobei ·■

und x_ik = "1"! falls x_ik > 0 bzw. X₁-I-- U fallsX{ι,—

In diesen Gleichungen (3) bis (5) sind ^c., und ß., die Wertungsfaktoren des K-ten charakLeristischen Parameter x., und Vik ^^{er Sc}^^weH^{wert von χ}·ν· ^Der K-ten charakteristische Parameter x.^ bestimmt im Hinblick auf den charakteristischen Parameter x., welcher dem Phänomen x. zugeordnet ist, jenem Zustand fest, welcher in der K-ten Position von einer Referenz

^xi0 ⁱⁿ f^xi0»^xil'^xi2 ^xik *'' ^xip-l-^ ^lie?^t· Letzterer Ausdruck

ist eine Aggregation von P Stücken von x.-Werten, welche durch graduelle Veränderungen der Werte der Wertungsfaktoren «c. und ß. in Gleichung (1) erhalten werden. Dieser Parameter entspricht demzufolge dem Wert x.. , welcher in Gleichung (3) auf der rechten Seite auftritt.

In .der auf diese? Weise expandierten Gleichung (4) ist der

Ausdruck Σ ⁿ<^f .. F. die K-te Komponente, welche das Phänomen J=I '^{J J}

509851/0397

£ A F

χ charakterisiert. Der Ausdruck j₌j JK j ist hingegen die K-te Komponente, welche das andere Phänomen x_e charakterisiert, das in dem Ausdruck £ "^-jj-FJ die Fehlfunktion auslöst.

3=1

Im Hinblick auf die Eingangssignale von fünf Vokalen a,i, u, e und ο wurden die entsprechenden Werte der Wertungsfaktoren et. und ß- der charakteristischen Parameter X₁, X₂ X₅ experimentell im Hinblick auf einen Sprecher A erweitert, um charakteristische Parameter zu erhalten, welche gemäss Tabelle 1 verschiedene Wertungsfaktoren besitzen. Im Hinblick auf 5o männliche Erwachsene, welche willkürlich gewählt wurden konnte dann überprüft werden, dass die erweiterten Parameter auch jene Parameter enthalten, welche den entsprechenden Sprechern zugeordnet sind, wodurch die Wirksamkeit der Erfindung demonstriert werden konnte.

Tabelle 1

Veränderungen der Wertungsfaktoren . und ß . der charakteristischen Parameter

charakteristi sche Parameter ^xi	- Veränderungsfaktor : j	Veränderung tungsfaktors I	des Wer-
^xl	*mi -¹^i+ kVci
X₂		P /3 Xlrv^^	2
^X3
^X5	4 4		5

= 0, 1, 2, p-1; ρ = 2; r = 0.05

509851/0397

Sow sich dies anhand von Gleichung (4) ergibt, besteht die Möglichkeit einer linearen Berechnung, um die charakteristischen Parameter abzuleiten, welche entsprechend den Gleichungen (4) und (5) extrahiert worden sind. Beispielsweise kann gemäss Fig. 1 ein einfacher Kreis mit zwei Addierern 1 verwendet werden, welche analoge Berechnungselemente besitzen, und welchen ein Schmitt-Triggerkreis 2 nachgeschaltet ist. Das mit Hilfe der Schaltanordnung von Fig. 1 gebildete Ausgangssignal ist gemäss Gleichung (5) ein Binärsignal mit den Werten "O" und "1", welches für digitale Verarbeitung sehr geeignet ist.

Im folgenden soll nunmehr beschrieben werden, wie ein einem bestimmten Sprecher angepasster Parameter mit Hilfe der entsprechend der Schaltanordnung nach Fig. 1 extrahierten charakteristischen Parameter gewählt werden kann. Dabei sei angenommen, dass eine Mehrzahl von Worten bzw. Ausdrücken eines Referenzsprechers A erkannt bzw. analy siert worden ist. Die

extrahierten, charakteristischen Parameter x., x₂ χ. ,

welche im folgenden als Referenzparameter bezeichnet werden, bilden für jedes Wort bzw. für jeden Ausdruck ein Zeit-Serienmuster mit den Binärwerten "1" und "0". Dieses Muster entspricht der folgenden Gleichung:

^Ym "

wobei m = l,2_>...jg

In Gleichung (6) entspricht Y dem zu erkennenden Ausdruck. Dies umfasst beispielsweise Y₁ = eins, Y~ = zwei, Y^ = drei, .Y = mehrfach.

Der Ausdruck Y ist ein Zeit-Serienmuster, welches aus den

charakteristischen Parametern χ (t ), x_o(t ) x. (t )

cj ym δ am χ ym

für Y besteht, wobei zusätzlich das Muster für die Zeit t

509851/0397 " ⁷ -

festgelegt ist. Die Zeit t wird unter Berücksichtigung der charakteristischen Parameter gewählt, weil jeder Parameter eine Funktion der Zeit t im Rahmen des Musters Y

ist. Das Muster Y (t) wird durch die Ausgangszustände der entsprechenden charakteristischen Parameter χ (t ), x~(t ) ... x.(t ) in Bezug auf die Zeit charakterisiert, indem die sich ergebenden Zustände der charakteristischen Parameter im Hinblick auf die Dauer der eingegebenen Signalwerte bzw. der eingegebenen Ausdrücke berücksichtigt werden.

Es sei angenommen, dass ein bestimmter Ausdruck extrahiert und mit Hilfe der Gleichung (6) normalisiert werden soll. Die charakteristischen Parameter werden dabei von demselben Ausdruck, jedoch von einem nicht festgelegten Sprecher extrahiert. Die charakteristischen Parameter sind dann jene, welche auf der rechten Seite von Gleichung (3) angegeben sind. Diese werden dann festgestellt, wodurch sich das folgende Muster ergibt.

^Ym⁼

wobei

In Gleichung (7) ist Y¹ (t) ein Zeit-Serienmuster, welches Y entspricht. Dieses Muster enthält Parameter, welche auf

m ^c

den nicht genauer definierten Sprecher adaptiert sind. Auf diese Weise können bestimmte Phänomene extrahiert werden,

509851/0397

welche in den Folgenden als adaptierte Parameter bezeichnet werden sollen. Sowie dies bereits erwähnt worden ist, werden bei den einzelnen Parameteransammlungen die adaptierten Parameter gebildet.

ym>> *ll<ym>> *i2fym> · ■ ·.··' ^xlp-l<^ty^tni^{) J} m> ^O-lVmi-'&irfVm^ ^xil⁽V m*'

Um diese adaptierten Parameter zu wählen, wird die Ähnlichkeit im Vergleich zu den Referenzparametern des Sprechers A in der folgenden Weise berechnet: Um die Erläuterung zu vereinfachen, soll dabei zuerst beschrieben werden, wie die adaptierten Parameter aus der Gruppe von Ix₁₀Oy_1n)* ^χι1^γ'Ώ^12^/n) ^xlpy

der entsprechenden Parameteraggregationen gewählt werden können Es treten dabei die folgenden Gleichungen auf:

^sio⁼ |₌f ^VJ- ^xi^(tym> > ^Sll⁼ t ^S12⁼ ^

^Sl_k=

^sip-i ■ |₌₁ Ψ

,_m), X₁Oy₁₁₁) ) legt die Ähnlichkeit zwischen den

509851/0397

— Q —

den Parametern ^xi_oi^t _vn,).^ ^un<^ X₁ (t ) des in Form eines Eingangssignals zugeführten Sprachteiles Y fest. Demzufolge ist der Ausdruck S₁ die Summe der Ähnlichkeit der einzelnen

teile Y₁, Y₂ Y_g. Der Ausdruck ψ (χ_χ^_n), X₁y

legt die Ähnlichkeit zwischen den Parametern x- - ^_νΐη) und x-(t) fest, demzufolge der Ausdruck S-- die Summe der Ähnlichkeit in jedem dieser Sprachteile ist. In der gleichen Weise enspricht der Ausdruck S- - der Summe ////,, Λ- \ γ (t ^V

¹P"¹ Γ (^xlp-l<yni'' ]'ym^j '.

Es sei nunmehr angenommen, dass die Summe von Ähnlichkeiten S- , S-- S- - von Gleichung (8) auf diese Weise abgeleitet worden ist. Falls der Ausdruck S-, den grössten Ähnlichkeitswert besitzt, ist der Parameter x., von S-, , welcher auf den bestimmten Sprecher angepasst ist, so dass mit demselben ein bestimmtes Phänomen extrahiert werden kann. Der auf diese Weise gewählte, adaptierte Parameter dient demzufolge dazu, die Ähnlichkeit festzulegen, wobei die gesamten, in Form eines Eingangssignals zugeführten Sprechteile berücksichtigt wurden. Auf diese Weise können sehr stabile charakteristische Parameter gleichförmig für jedes Wort oder jeden Sprechteil gewählt werden,

Im Hinblick auf den Ausdruck ^O^y'm^' ^X21^y'ni ^X22^Vni^·

' ^xk2^(ty^fm⁾

*^xi0<V m>' ^xil<Vm>' ^xi2^(tym⁾ ^Xip

werden die adaptierten Parameter in der gleichen Weise von den entsprechenden Parameteraggregationen ausgewählt, indem die Ähnlichkeiten gegenüber x„(t ) ....x, (t ) .... x^(t ) festgelegt werden.

- 1o

509851/0397

Für die praktische Berechnung dieser Ähnlichkeiten können verschiedene Verfahren verwendet werden. Da die Parameter die Binärwerte "1" und "O" besitzen, kann ein Verfahren verwendet werden, bei welchem der Minimale Abstand als maximale Ähnlichkeit ausgelegt wird. Es sei jedoch verstanden, dass dieses Verfahren einzig und allein eine Möglichkeit darstellt, so dass die Erfindung dadurch nicht begrenzt wird. Falls die Summe der Ähnlichkeiten für die Wahl der adaptierten Parameter einander gleich ist, werden innerhalb von Parameteraggregationen jene Parameter als adaptierte Parameter gewählt, welche den nächst kleineren Index von P besitzen. Entsprechend diesem Verfahren können die an einen beliebigen Sprecher angepassten, adaptierten Parameter gewählt werden, sobald er mit seiner Sprache einen bestimmten Satz von Ausdrücken bzw. Sprechteilen wiederholt.

Bei dem entsprechend Gleichung (7) festgelegten, adaptierten Parametern kann das Muster wie folgt neu angeordnet werden:

^Ym ^ss^^ftm<^t>l^xlk<Vm>· ^x2k<Vm> ^xik<Vm⁾

wobei m =1,2,., g

Die Gleichung (9) entspricht einem umgestellten Muster Y (t), welches von der Gleichung (7) abgeleitet worden ist. Die Umstellung erfolgte dabei derart, dass nur jene adaptierten Parameter festgelegt werden, bei welchen die Ausdrücke

^Xlk^y'm^^{J x}2k^V'^m^ ^Xik^Vni^ entsprechende, adaptierte

Parameter sind. Das auf diese Weise erhaltene Muster von Gleichung (9) kann als das zuvor aufzuzeichnende Standardmuster für den betreffenden Sprecher verwendet werden.

Nach der Aufzeichnung des Standardmusters entsprechend dem

- 11 -

509851/0397

oben beschriebenen Verfahren wird der Erkennungsvorgang durchgeführt, indem das Standardmuster mit einem unbekannten Sprachmuster zur Durchführung einer Diskrimination zur Abdeckung gebracht wird. Diese Musteranpassung erweist sich als sehr wirksam, um unter Verwendung des Abstandverfahresn eine einfache Entscheidung durchzuführen, weil jedes Muster aus Signalen mit den Binärwerten "1" und "O" besteht. Um eine optimale Anpassung zu erreichen, sollte zuvor eine Verarbeitung des Musters durchgeführt werden. Da das Muster jedoch eine Zeit-Serienanordnung besitzt, kann eine Einstellung der Zeitbasis bzw. eine Zeitverschiebung durchgeführt werden, um auf diese Weise eine optimale Anpassung im Rahmen eines äusserst einfachen Vorganges zu erreichen.

Das entsprechend Gleichung (9) gebildete Standardmuster muss für jeden Sprecher ersetzt werden, wobei ein aus mehreren Worten bestehendes Vokabular zur Erkennung bzw. Analyse verwendet wird, wobei alle diese Worte bereits im voraus gesprochen werden.

Das aus don Refereuzparatnetern der Gleichung (6) bestehende Muster Y kann demzufolge anstelle des Musters gemäss Gleichung (9) als Standardmuster verwendet werden. Falls das Muster entsprechend Gleichung (9) als Standardmuster verwendet wird, erlaubt das teilweise Sprechen einer Mehrzahl von Worten für die Erkennung bzw. Analyse die Wahl der adaptierten Parameter, wodurch die Lerndauer sehr stark reduziert wird.

In dem Folgenden soll nunmehr eine Ausführungsform der Erfindung unter Bezugnahme auf Fig. 2 beschrieben werden. Ein von einem Sprecher gesprochenes Wort wird zur Erkennung in bezug auf den Schalldruckwert normalisiert. Anschliessend daran

509851 /0397

wird das auf diese Weise gebildete Audiosignal einem Frequenzteiler 4 zugeführt, in welchem beispielsweise unter Verwendung eines 13-Kanal-Aktivfliters eine Spektralanalyse vorgenommen wird. Im Vergleich zu einem Digitalfilter vereinfacht die Verwendung eines Analogfilters den Aufbau, wobei zusätzlich die Spektralanalyse erleichtert wird.

Das durch Spektralanalyse gebildete Ausgangssignal wird einem Signalamplituden-Detektor 15 zugeführt, innerhalb welcher eine Abtastung während einer Zeitdauer von beispielsweise Io Millisekunden vorgenommen wird. Dabei wird der Spitzenwert dieses Signals bestimmt. Der auf diese Weise gebildete Spitzenwert wird anschliessend daran einem beispielsweise entsprechend Fig. 1 ausgebildeten Extrahierkreis 5 zugeführt, in welchem die charakteristischen Parameter bestimmt werden.Mit Hilfe dieses Extrahierkreises 5 erfolgt eine genaue Extraktion der Information bezüglich der erforderlichen Phänomene. Innerhalb des Extrahierkreises 5 werden die charakteristischen Parameter für ein bestimmtes Phänomen mit Hilfe eines Schwellwertlogikkreises extrahiert. Die Anzahl der entsprechend Gleichung (3) extrahierten charakteristischer. Parameter kann dabei ?1 betragen, wobei i = 7 und ρ = 2. Diese Parameter bilden ein Zeit-Serienmuster für ein Eingangsvokabular bzw. eine Stimme. Da dieses Muster aus Signalen mit den Binärwerten "1" und "O" besteht, werden die Eigenschaften der Phänomene durch Übergänge des Musters in bezug auf die Zeit festgelegt.

Anschliessend daran wird das Muster über ein Wellgatter 6 einem Speicher 7 zugeführt, in welchem eine Speicherung des Musters vorgenommen wird. Zusätzlich ist ein Referenzparameterspeicher 9 vorgesehen, in welchen ein Zeit-Serienmuster mit Signalwerten T1" und "O" entsprechend der Gleichung (6) eingespeichert worden ist. Dieses Muster basiert dabei auf den

- 13 -

509851/0397

charakteristischen Parametern bzw. Referenzparametern, welche in Abhängigkeitder gesprochenen Worte des ReferenzSprechers A extrahiert worden sind. Die Muster beider Speicher 7 und 9 werden gleichzeitig einer ersten Ähnlichkeits-Feststelleinheit 8 zugeführt, in welcher die Ähnlichkeit in Übereinstimmung mit Gleichung (8) bestimmt wird. Das Ausgangssignal dieser ersten Ähnlichkeitsfeststelleinheit (8) wird einem Diskriminator 1o zugeführt, in welchem ein adaptierter Parameter entsprechend der grössten Ähnlichkeit gewählt wird. Das auf diese Weise gebildete Wellsignal wird über das Wellgatter 6 dem Speicher 7 zugeführt. Innerhalb des Wellgatters 6 wird das Ausgangsgatter in Richtung des Speichers 7 für den adaptierten Parameter in Übereinstimmung mit dem Eingangssignal geöffnet, während es für alle anderen Parameter geschlossen ist.

Innerhalb des Speichers 7 wird das Zeit-Serienmuster eines beliebigen Speichers, einschliesslich der adaptierten Parameter in bezug auf die adaptierten Parameter allein in Übereinstimmung mit dem oben erwähnten Wellsignal neu angeordnet, worauf dann das neu angeordnete Muster als Standardmuster innerhalb eines StanciardmusterSpeichers 11 gespeichert wird. Nach Durchführung dieses Vorganges wird die Ähnlichkeit des Ungekannten innerhalb des Speichers 7 gespeicherten Musters innerhalb einer zweiten Ähnlichkeits-Feststelleinheit 12 festgestellt, indem eine Musterübereinstimmung gegenüber dem innerhalb des Standardmusterspeichers 11 gespeicherten Standardmusters vorgenommen wird. Das Ausgangssignal wird dann einem Diskriminator 13 zugeführt, in welchem das Standardmuster entsprechend der maximalen Ähnlichkeit als Eingangsmuster angesehen wird. Der Diskriminator 13 erzeugt demzufolge ein Ausgangssignal, welches eine Erkennung darstellt.

- 14 -

509851/0397

Gemäss Fig. 3 kann das in dem Referenzparameterspeicher 9 gespeicherte Muster direkt als Standardmuster angesehen werden/ wodurch sich das Vorsehen des Standardmusterspeichers 11 erübrigt. In diesem Fall wird die Erkennung des Unbekannten innerhalb des Speichers 7 gespeicherten Musters durchgeführt, indem innerhalb der zweiten Ähnlichkeits-Feststelleinheit 12 eine Anpassung bzw. Übereinstimmung mit dem Muster des Referenzparameterspeichers 9 vorgenommen wird.

Im Rahmen der vorliegenden Erfindung kann sehr zuverlässig eine Extraktion der charakteristischen Parameter vorgenommen werden, selbst wenn die Audiosignale mit Hilfe von mehr als zwei Sprechern gebildet werden. Da die Standardmuster in dem Zustand der Auswahl der adaptierten Parameter neu angeordnet und anschliessend gespeichert werden, ist es nicht notwendig, die Sprechproben mit demselben Vokabular zu wiederholen. Da das Muster Y , welches entsprechend Gleichung (6) aus den Referenzparametern besteht, als Standardmuster verwendet werden kann, erfolgt die Wahl der adaptierten Parameter einzig und allein durch partielles Sprechen einer Mehrzahl zu erkennender Sprechteile, wodurch die Lernbelastung des Sprechers sehr stark reduziert wird. Da das Muster fernerhin aus Signalwerten "O" und "1" besteht, kann die die Endentscheidungen durchführende Anordnung sehr einfach aufgebaut werden, so dass sich eine sehr wirtschaftliche Lösung ergibt. Durch Erweiterung der Parameter auf der rechten Seite von Gleichung (3) für Stimmen von Frauen und Kindern ist es fernerhin möglich, eine sehr genaue Erkennung im Hinblick auf die verschiedensten Sprecher zu erreichen.

- 15 -

509851/0397

Claims

Patentansprüche

Verfahren zur Spracherkennung, dadurch gekennzeichnet , dass die folgenden Schritte durchgeführt werden:

a) Normalisieren des Schalldruckwertes einer Eingangsstimme eines unbekannten Sprechers,

b) Analysieren des normalisierten Sprechsignals unter Verwendung einer Mehrzahl von Kanälen verschiedener Frequenzen,

c) in bezug auf das Ausgangssignal F. jedes analysierten Frequenzbandes Einstellen eines Wertungsfaktors od., welcher einer Charakteristik eines vorgegebenen Phänomens x. entspricht,

d) Extrahieren der charakteristischen Komponente x. des Phänomens x. ,

e) Einstellen eines Wertungsfaktors B. des Ausgangssignals

F., demzufolge eine Charakteristik des Phänomen X zur

3 ®

Entsprechung gebracht ist, sobald, extrahierte, charakteristische Komponente x. eine Fehlfunktion bzw. einen Fehler aufgrund eines anderen Phänomens X bewirkt,

f) gleichzeitiges Extrahieren der charakteristischen Komponente x_o des Phänomens X ,

g) falls die Differenz der auf diese Weise extrahierten charakteristischen Komponente grosser als ein folgender Schwellwert ^ ist, Verwenden dieser Differenz als charakteristischer Parameter für das Phänomen X._r

h) Expandieren des charakteristischen Parameters zur Erzielung einer auf dem charakteristischen Parameter basierenden charakteristischen Parametergruppe, wobei jeder charakteristische Parameter geringfügig unterschiedlich ist.

- 16 -

509851/0397

demzufolge eine Anpassung an die individuellen Eigenschaften von verschiedenen Sprechern möglich ist,

i) unter Verwendung der charakteristischen Parametergruppe Extrahieren eines charakteristischen Parameters, welcher eine maximale Ähnlichkeit mit dem zuvor gespeicherten Referenzpararaeter aufweist, demzufolge eine adaptierter Parameter gebildet ist, welcher an den unbekannten Sprecher angepasst ist, und

j) Übereinstimmen des von den extrahierten, adaptierten Parametern gebildeten Standardmusters mit einem dem unbekannten Sprecher zugeordneten, unbekannten Muster, wodurch eine Erkennung bzw. Analyse der Stimme durchgeführt wird.
2. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekennzeichnet , dass dieselbe aus einem eine Spektralanalyse durchführenden Frequenzteiler (4), einem daran angeschlossenen Signalamplitudendetektor (15), einem daran angeschlossenen, der Bildung der charakteristischen Parameter dienenden Extrahierkreis(5),einem daran angeschlossenen Wellgatter £6), sowie einem von diesem gespeisten Speicher (7) besteht, ferner dass das in dem Speicher (7) gespeicherte Signal einer ersten Ähnlichkeits-Feststelleinheit (8) und von dort einem adaptierte Parameter bildenden Diskriminator (1o) zugeführt ist, welcher wiederum das Wellgatter (6) steuert, und dass zusätzlich ein Referenzparameterspeicher (9) eine zweite Ähnlichkeits-Feststelleinheit (12) sowie ein die optimale Übereinstimmung bestimmender Diskriminator (13) vorgesehen sind.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass zusätzlich ein Standardmusterspeicher (11) vorgesehen ist, welcher in Abhängigkeit des von dem

- 17 -

509851/0397

Speicher (7) zugeführten Signals ein Ausgangssignal an die zweite Ähnlichkeits-Feststelleinheit (12) abgibt.
4. Vorrichtung nach Anspruch 2 oder 3, dadurch g e kennzeic h η e t , dass der die charakteristischen Parameter bildende Extrahierkreis (5) aus zwei hintereinander geschalteten Addierern (1) besteht, welche einen Schmitt-Trigger-Kreis (2) speisen.

509851/0397