DE2524804A1 - Verfahren und vorrichtung zur automatischen spracherkennung - Google Patents

Verfahren und vorrichtung zur automatischen spracherkennung

Info

Publication number
DE2524804A1
DE2524804A1 DE19752524804 DE2524804A DE2524804A1 DE 2524804 A1 DE2524804 A1 DE 2524804A1 DE 19752524804 DE19752524804 DE 19752524804 DE 2524804 A DE2524804 A DE 2524804A DE 2524804 A1 DE2524804 A1 DE 2524804A1
Authority
DE
Germany
Prior art keywords
characteristic
parameter
phoneme
parameters
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19752524804
Other languages
English (en)
Inventor
Tetsuro Morino
Matsumi Suzuki
Shozo Yokota
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of DE2524804A1 publication Critical patent/DE2524804A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Description

DR. ING. B. HOFFMANN · DIPL. ING. W. EITLE · OB. RER. NAT. K. HOFFMANN
PATENrl'AlfWliTE D-BOOO MÖNCHEN 81 · ARABELIASTRASSE 4 - TELEFON (0811) 911087 2 5 2 4 8 0 A
26 876
Fuji Xerox Co., Ltd., Tokyo / Japan
Verfahren und Vorrichtung zur automatischen Spracherkennung
Die vorliegende Erfindung bezieht sich auf ein Verfahren zur automatischen Spracherkennung, entsprechend dem Oberbegriff des Anspruchs 1, sowie auf eine Vorrichtung zur Durchführung dieses Verfahrens.
Zur Spracherkennung sind bereits verschiedene Verfahren vorgeschlagen worden, bei welchen u.a. ein Schwellwertlogikkreis mit einem blinden Bereich verwendet wird, der aus analogen Elementen aufgebaut ist. Bei diesem Verfahren wird von einer, ein bestimmtes Phänomen kennzeichnenden Komponente eine andere Komponente substrahiert, welche ein eine Fehlfunktaion bewirkendes anderes Phänomen kennzeichnet.
509851/0397
-Z-
252480A
Falls der auf diese Weise gebildete Wert grosser als ein bestimmter Schwellwert ist/ wird derselbe als charakteristischer Parameter zur Kennzeichnung des Phänomens verwendet. Mit diesem Verfahren kann eine sehr genaue Erkennung unter Verwendung charakteristischer Parameter erreicht werden.
Bei diesem Verfahren wird ein charakteristischer Parameter entsprechend der folgenden Gleichung extrahiert
_ »fl (t
wobex X. - I
fallsx. > 0
und
' J
x. = "0"; falls ν ^-η ...... r.., (2)
. x
In>der obigen Gleichung ist x. der charakteristische Parameter, welcher einem Phänomen X. entspricht. F. ist das Ausgangssignal eines Bandpassfilter, Y . ein Schwellwert und -;£. sowie ß. Wertungsfaktoren.
Die Extraktion von charakteristischen Parametern in Übereinstimmung mit den Gleichungen (1) und (2) kann sehr zuverlässig für eine bestimmte Person durchgeführt werden, dessen Wertungsfaktor «£., ß. und der Schwellwert y. vorgegeben sind. Es zeigt sich jedoch, dass im Hinblick auf unterschiedliche Sprecher diese Zuverlässigkeit der Erkennung nicht erreicht werden kann.
Im Hinblick auf obigen Stand der Technik ist es demzufolge Aufgabe der vorliegenden Erfindung, ein Verfahren zur Spracherkennung und Sprachanalyse zu schaffen, gemäss welchem eine Extraktion von charakteristischen Parametern mit hoher Zuverlässigkeit erreicht werden kann, selbst wenn die Audiosignale unterschiedlicher Sprecher analisiert werden.
509851 /0397
252A80A
Erfindungsgemäss wird dies dadurch erreicht, indem die im kennzeichnenden Teil des Anspruchs 1 aufgeführten Verfahrensschritte durchgeführt werden.
Eine Vorrichtung zum Durchführen des erfindungsgemässen Verfahrens ergibt sich anhand des Anspruches 2.
Die Erfindung soll nunmehr anhand von Ausführungsbeispielen näher erläutert beschrieben werden, wobei auf die beigefügte Zeichnung Bezug genommen ist. Es zeigt:
Fig. 1 ein schematische Diagramm eines Extrahierkreises für charakteristische Parameter,
Fig. 2 ein Blockdiagramm einer Vorrichtung zur Spracherkennung gemäss der Erfindung, und
Fig. 3 ein Blockdiagramm einer abgewandelten Ausführungsform der Erfindung.
Das wesentliche ilerk^aal des E^-Jcennurigsverfahrens gemä'js der Erfindung besteht darin, dass die Wertungsfaktoren oc. und ß. von Gleichung (1) veränderlich gemacht werden. Demzufolge werden sie an jeden beliebigen Sprecher angepasst, um Variationen der charakteristischen Parameter, welche durch unterschiedliche Sprecher bedingt sind, zu verhindern. Dies wird dadurch erreicht, indem Gleichung (1) wie folgt erweitert wird:
509851/0397
x10, X11, X12
xlk
xi0* xi
Ip-1
j=l
wobei ·■
und xik = "1"! falls xik > 0 bzw. X1-I-- U fallsX{ι,—
In diesen Gleichungen (3) bis (5) sind ^c., und ß., die Wertungsfaktoren des K-ten charakLeristischen Parameter x., und Vik ^er Sc^weHwert von χ·ν· Der K-ten charakteristische Parameter x.^ bestimmt im Hinblick auf den charakteristischen Parameter x., welcher dem Phänomen x. zugeordnet ist, jenem Zustand fest, welcher in der K-ten Position von einer Referenz
xi0 in fxi0»xil'xi2 xik *'' xip-l-^ lie?t· Letzterer Ausdruck
ist eine Aggregation von P Stücken von x.-Werten, welche durch graduelle Veränderungen der Werte der Wertungsfaktoren «c. und ß. in Gleichung (1) erhalten werden. Dieser Parameter entspricht demzufolge dem Wert x.. , welcher in Gleichung (3) auf der rechten Seite auftritt.
In .der auf diese? Weise expandierten Gleichung (4) ist der
Ausdruck Σ n<^f .. F. die K-te Komponente, welche das Phänomen J=I 'J J
509851/0397
£ A F
χ charakterisiert. Der Ausdruck j=j JK j ist hingegen die K-te Komponente, welche das andere Phänomen xe charakterisiert, das in dem Ausdruck £ "^-jj-FJ die Fehlfunktion auslöst.
3=1
Im Hinblick auf die Eingangssignale von fünf Vokalen a,i, u, e und ο wurden die entsprechenden Werte der Wertungsfaktoren et. und ß- der charakteristischen Parameter X1, X2 X5 experimentell im Hinblick auf einen Sprecher A erweitert, um charakteristische Parameter zu erhalten, welche gemäss Tabelle 1 verschiedene Wertungsfaktoren besitzen. Im Hinblick auf 5o männliche Erwachsene, welche willkürlich gewählt wurden konnte dann überprüft werden, dass die erweiterten Parameter auch jene Parameter enthalten, welche den entsprechenden Sprechern zugeordnet sind, wodurch die Wirksamkeit der Erfindung demonstriert werden konnte.
Tabelle 1
Veränderungen der Wertungsfaktoren . und ß . der charakteristischen Parameter
charakteristi
sche Parameter
xi
- Veränderungsfaktor
: j
Veränderung
tungsfaktors
I
des Wer-
xl *mi -1^i+ kVci
X2 P /3 Xlrv^^ 2
X3
X5 4 4 5
= 0, 1, 2, p-1; ρ = 2; r = 0.05
509851/0397
Sow sich dies anhand von Gleichung (4) ergibt, besteht die Möglichkeit einer linearen Berechnung, um die charakteristischen Parameter abzuleiten, welche entsprechend den Gleichungen (4) und (5) extrahiert worden sind. Beispielsweise kann gemäss Fig. 1 ein einfacher Kreis mit zwei Addierern 1 verwendet werden, welche analoge Berechnungselemente besitzen, und welchen ein Schmitt-Triggerkreis 2 nachgeschaltet ist. Das mit Hilfe der Schaltanordnung von Fig. 1 gebildete Ausgangssignal ist gemäss Gleichung (5) ein Binärsignal mit den Werten "O" und "1", welches für digitale Verarbeitung sehr geeignet ist.
Im folgenden soll nunmehr beschrieben werden, wie ein einem bestimmten Sprecher angepasster Parameter mit Hilfe der entsprechend der Schaltanordnung nach Fig. 1 extrahierten charakteristischen Parameter gewählt werden kann. Dabei sei angenommen, dass eine Mehrzahl von Worten bzw. Ausdrücken eines Referenzsprechers A erkannt bzw. analy siert worden ist. Die
extrahierten, charakteristischen Parameter x., x2 χ. ,
welche im folgenden als Referenzparameter bezeichnet werden, bilden für jedes Wort bzw. für jeden Ausdruck ein Zeit-Serienmuster mit den Binärwerten "1" und "0". Dieses Muster entspricht der folgenden Gleichung:
Ym "
wobei m = l,2>...jg
In Gleichung (6) entspricht Y dem zu erkennenden Ausdruck. Dies umfasst beispielsweise Y1 = eins, Y~ = zwei, Y^ = drei, .Y = mehrfach.
Der Ausdruck Y ist ein Zeit-Serienmuster, welches aus den
charakteristischen Parametern χ (t ), xo(t ) x. (t )
cj ym δ am χ ym
für Y besteht, wobei zusätzlich das Muster für die Zeit t
509851/0397 " 7 -
festgelegt ist. Die Zeit t wird unter Berücksichtigung der charakteristischen Parameter gewählt, weil jeder Parameter eine Funktion der Zeit t im Rahmen des Musters Y
ist. Das Muster Y (t) wird durch die Ausgangszustände der entsprechenden charakteristischen Parameter χ (t ), x~(t ) ... x.(t ) in Bezug auf die Zeit charakterisiert, indem die sich ergebenden Zustände der charakteristischen Parameter im Hinblick auf die Dauer der eingegebenen Signalwerte bzw. der eingegebenen Ausdrücke berücksichtigt werden.
Es sei angenommen, dass ein bestimmter Ausdruck extrahiert und mit Hilfe der Gleichung (6) normalisiert werden soll. Die charakteristischen Parameter werden dabei von demselben Ausdruck, jedoch von einem nicht festgelegten Sprecher extrahiert. Die charakteristischen Parameter sind dann jene, welche auf der rechten Seite von Gleichung (3) angegeben sind. Diese werden dann festgestellt, wodurch sich das folgende Muster ergibt.
Ym=
wobei
In Gleichung (7) ist Y1 (t) ein Zeit-Serienmuster, welches Y entspricht. Dieses Muster enthält Parameter, welche auf
m c
den nicht genauer definierten Sprecher adaptiert sind. Auf diese Weise können bestimmte Phänomene extrahiert werden,
509851/0397
welche in den Folgenden als adaptierte Parameter bezeichnet werden sollen. Sowie dies bereits erwähnt worden ist, werden bei den einzelnen Parameteransammlungen die adaptierten Parameter gebildet.
ym>> *ll<ym>> *i2fym> · ■ ·.··' xlp-l<tytni) J m> ^O-lVmi-'&irfVm^ xil(V m*'
Um diese adaptierten Parameter zu wählen, wird die Ähnlichkeit im Vergleich zu den Referenzparametern des Sprechers A in der folgenden Weise berechnet: Um die Erläuterung zu vereinfachen, soll dabei zuerst beschrieben werden, wie die adaptierten Parameter aus der Gruppe von Ix10Oy1n)* χι1^γ'Ώ^12^/n) xlpy
der entsprechenden Parameteraggregationen gewählt werden können Es treten dabei die folgenden Gleichungen auf:
sio= |=f ^VJ- xi(tym> > Sll= t S12= ^
Slk=
sip-i ■ |=1 Ψ
,m), X1Oy111) ) legt die Ähnlichkeit zwischen den
509851/0397
— Q —
den Parametern xioit vn,).^ un<^ X1 (t ) des in Form eines Eingangssignals zugeführten Sprachteiles Y fest. Demzufolge ist der Ausdruck S1 die Summe der Ähnlichkeit der einzelnen
teile Y1, Y2 Yg. Der Ausdruck ψ (χχ^n), X1y
legt die Ähnlichkeit zwischen den Parametern x- - ^νΐη) und x-(t) fest, demzufolge der Ausdruck S-- die Summe der Ähnlichkeit in jedem dieser Sprachteile ist. In der gleichen Weise enspricht der Ausdruck S- - der Summe ////,, Λ- \ γ (t ^V
1P"1 Γ (xlp-l<yni'' ]'ymj '.
Es sei nunmehr angenommen, dass die Summe von Ähnlichkeiten S- , S-- S- - von Gleichung (8) auf diese Weise abgeleitet worden ist. Falls der Ausdruck S-, den grössten Ähnlichkeitswert besitzt, ist der Parameter x., von S-, , welcher auf den bestimmten Sprecher angepasst ist, so dass mit demselben ein bestimmtes Phänomen extrahiert werden kann. Der auf diese Weise gewählte, adaptierte Parameter dient demzufolge dazu, die Ähnlichkeit festzulegen, wobei die gesamten, in Form eines Eingangssignals zugeführten Sprechteile berücksichtigt wurden. Auf diese Weise können sehr stabile charakteristische Parameter gleichförmig für jedes Wort oder jeden Sprechteil gewählt werden,
Im Hinblick auf den Ausdruck ^O^y'm^' X21^y'ni X22^Vni^·
' xk2(tyfm)
*xi0<V m>' xil<Vm>' xi2(tym) Xip
werden die adaptierten Parameter in der gleichen Weise von den entsprechenden Parameteraggregationen ausgewählt, indem die Ähnlichkeiten gegenüber x„(t ) ....x, (t ) .... x^(t ) festgelegt werden.
- 1o
509851/0397
Für die praktische Berechnung dieser Ähnlichkeiten können verschiedene Verfahren verwendet werden. Da die Parameter die Binärwerte "1" und "O" besitzen, kann ein Verfahren verwendet werden, bei welchem der Minimale Abstand als maximale Ähnlichkeit ausgelegt wird. Es sei jedoch verstanden, dass dieses Verfahren einzig und allein eine Möglichkeit darstellt, so dass die Erfindung dadurch nicht begrenzt wird. Falls die Summe der Ähnlichkeiten für die Wahl der adaptierten Parameter einander gleich ist, werden innerhalb von Parameteraggregationen jene Parameter als adaptierte Parameter gewählt, welche den nächst kleineren Index von P besitzen. Entsprechend diesem Verfahren können die an einen beliebigen Sprecher angepassten, adaptierten Parameter gewählt werden, sobald er mit seiner Sprache einen bestimmten Satz von Ausdrücken bzw. Sprechteilen wiederholt.
Bei dem entsprechend Gleichung (7) festgelegten, adaptierten Parametern kann das Muster wie folgt neu angeordnet werden:
Ym ss^ftm<t>lxlk<Vm>· x2k<Vm> xik<Vm)
wobei m =1,2,., g
Die Gleichung (9) entspricht einem umgestellten Muster Y (t), welches von der Gleichung (7) abgeleitet worden ist. Die Umstellung erfolgte dabei derart, dass nur jene adaptierten Parameter festgelegt werden, bei welchen die Ausdrücke
Xlk^y'm^J x2k^V'm^ Xik^Vni^ entsprechende, adaptierte
Parameter sind. Das auf diese Weise erhaltene Muster von Gleichung (9) kann als das zuvor aufzuzeichnende Standardmuster für den betreffenden Sprecher verwendet werden.
Nach der Aufzeichnung des Standardmusters entsprechend dem
- 11 -
509851/0397
oben beschriebenen Verfahren wird der Erkennungsvorgang durchgeführt, indem das Standardmuster mit einem unbekannten Sprachmuster zur Durchführung einer Diskrimination zur Abdeckung gebracht wird. Diese Musteranpassung erweist sich als sehr wirksam, um unter Verwendung des Abstandverfahresn eine einfache Entscheidung durchzuführen, weil jedes Muster aus Signalen mit den Binärwerten "1" und "O" besteht. Um eine optimale Anpassung zu erreichen, sollte zuvor eine Verarbeitung des Musters durchgeführt werden. Da das Muster jedoch eine Zeit-Serienanordnung besitzt, kann eine Einstellung der Zeitbasis bzw. eine Zeitverschiebung durchgeführt werden, um auf diese Weise eine optimale Anpassung im Rahmen eines äusserst einfachen Vorganges zu erreichen.
Das entsprechend Gleichung (9) gebildete Standardmuster muss für jeden Sprecher ersetzt werden, wobei ein aus mehreren Worten bestehendes Vokabular zur Erkennung bzw. Analyse verwendet wird, wobei alle diese Worte bereits im voraus gesprochen werden.
Das aus don Refereuzparatnetern der Gleichung (6) bestehende Muster Y kann demzufolge anstelle des Musters gemäss Gleichung (9) als Standardmuster verwendet werden. Falls das Muster entsprechend Gleichung (9) als Standardmuster verwendet wird, erlaubt das teilweise Sprechen einer Mehrzahl von Worten für die Erkennung bzw. Analyse die Wahl der adaptierten Parameter, wodurch die Lerndauer sehr stark reduziert wird.
In dem Folgenden soll nunmehr eine Ausführungsform der Erfindung unter Bezugnahme auf Fig. 2 beschrieben werden. Ein von einem Sprecher gesprochenes Wort wird zur Erkennung in bezug auf den Schalldruckwert normalisiert. Anschliessend daran
509851 /0397
wird das auf diese Weise gebildete Audiosignal einem Frequenzteiler 4 zugeführt, in welchem beispielsweise unter Verwendung eines 13-Kanal-Aktivfliters eine Spektralanalyse vorgenommen wird. Im Vergleich zu einem Digitalfilter vereinfacht die Verwendung eines Analogfilters den Aufbau, wobei zusätzlich die Spektralanalyse erleichtert wird.
Das durch Spektralanalyse gebildete Ausgangssignal wird einem Signalamplituden-Detektor 15 zugeführt, innerhalb welcher eine Abtastung während einer Zeitdauer von beispielsweise Io Millisekunden vorgenommen wird. Dabei wird der Spitzenwert dieses Signals bestimmt. Der auf diese Weise gebildete Spitzenwert wird anschliessend daran einem beispielsweise entsprechend Fig. 1 ausgebildeten Extrahierkreis 5 zugeführt, in welchem die charakteristischen Parameter bestimmt werden.Mit Hilfe dieses Extrahierkreises 5 erfolgt eine genaue Extraktion der Information bezüglich der erforderlichen Phänomene. Innerhalb des Extrahierkreises 5 werden die charakteristischen Parameter für ein bestimmtes Phänomen mit Hilfe eines Schwellwertlogikkreises extrahiert. Die Anzahl der entsprechend Gleichung (3) extrahierten charakteristischer. Parameter kann dabei ?1 betragen, wobei i = 7 und ρ = 2. Diese Parameter bilden ein Zeit-Serienmuster für ein Eingangsvokabular bzw. eine Stimme. Da dieses Muster aus Signalen mit den Binärwerten "1" und "O" besteht, werden die Eigenschaften der Phänomene durch Übergänge des Musters in bezug auf die Zeit festgelegt.
Anschliessend daran wird das Muster über ein Wellgatter 6 einem Speicher 7 zugeführt, in welchem eine Speicherung des Musters vorgenommen wird. Zusätzlich ist ein Referenzparameterspeicher 9 vorgesehen, in welchen ein Zeit-Serienmuster mit Signalwerten T1" und "O" entsprechend der Gleichung (6) eingespeichert worden ist. Dieses Muster basiert dabei auf den
- 13 -
509851/0397
charakteristischen Parametern bzw. Referenzparametern, welche in Abhängigkeitder gesprochenen Worte des ReferenzSprechers A extrahiert worden sind. Die Muster beider Speicher 7 und 9 werden gleichzeitig einer ersten Ähnlichkeits-Feststelleinheit 8 zugeführt, in welcher die Ähnlichkeit in Übereinstimmung mit Gleichung (8) bestimmt wird. Das Ausgangssignal dieser ersten Ähnlichkeitsfeststelleinheit (8) wird einem Diskriminator 1o zugeführt, in welchem ein adaptierter Parameter entsprechend der grössten Ähnlichkeit gewählt wird. Das auf diese Weise gebildete Wellsignal wird über das Wellgatter 6 dem Speicher 7 zugeführt. Innerhalb des Wellgatters 6 wird das Ausgangsgatter in Richtung des Speichers 7 für den adaptierten Parameter in Übereinstimmung mit dem Eingangssignal geöffnet, während es für alle anderen Parameter geschlossen ist.
Innerhalb des Speichers 7 wird das Zeit-Serienmuster eines beliebigen Speichers, einschliesslich der adaptierten Parameter in bezug auf die adaptierten Parameter allein in Übereinstimmung mit dem oben erwähnten Wellsignal neu angeordnet, worauf dann das neu angeordnete Muster als Standardmuster innerhalb eines StanciardmusterSpeichers 11 gespeichert wird. Nach Durchführung dieses Vorganges wird die Ähnlichkeit des Ungekannten innerhalb des Speichers 7 gespeicherten Musters innerhalb einer zweiten Ähnlichkeits-Feststelleinheit 12 festgestellt, indem eine Musterübereinstimmung gegenüber dem innerhalb des Standardmusterspeichers 11 gespeicherten Standardmusters vorgenommen wird. Das Ausgangssignal wird dann einem Diskriminator 13 zugeführt, in welchem das Standardmuster entsprechend der maximalen Ähnlichkeit als Eingangsmuster angesehen wird. Der Diskriminator 13 erzeugt demzufolge ein Ausgangssignal, welches eine Erkennung darstellt.
- 14 -
509851/0397
Gemäss Fig. 3 kann das in dem Referenzparameterspeicher 9 gespeicherte Muster direkt als Standardmuster angesehen werden/ wodurch sich das Vorsehen des Standardmusterspeichers 11 erübrigt. In diesem Fall wird die Erkennung des Unbekannten innerhalb des Speichers 7 gespeicherten Musters durchgeführt, indem innerhalb der zweiten Ähnlichkeits-Feststelleinheit 12 eine Anpassung bzw. Übereinstimmung mit dem Muster des Referenzparameterspeichers 9 vorgenommen wird.
Im Rahmen der vorliegenden Erfindung kann sehr zuverlässig eine Extraktion der charakteristischen Parameter vorgenommen werden, selbst wenn die Audiosignale mit Hilfe von mehr als zwei Sprechern gebildet werden. Da die Standardmuster in dem Zustand der Auswahl der adaptierten Parameter neu angeordnet und anschliessend gespeichert werden, ist es nicht notwendig, die Sprechproben mit demselben Vokabular zu wiederholen. Da das Muster Y , welches entsprechend Gleichung (6) aus den Referenzparametern besteht, als Standardmuster verwendet werden kann, erfolgt die Wahl der adaptierten Parameter einzig und allein durch partielles Sprechen einer Mehrzahl zu erkennender Sprechteile, wodurch die Lernbelastung des Sprechers sehr stark reduziert wird. Da das Muster fernerhin aus Signalwerten "O" und "1" besteht, kann die die Endentscheidungen durchführende Anordnung sehr einfach aufgebaut werden, so dass sich eine sehr wirtschaftliche Lösung ergibt. Durch Erweiterung der Parameter auf der rechten Seite von Gleichung (3) für Stimmen von Frauen und Kindern ist es fernerhin möglich, eine sehr genaue Erkennung im Hinblick auf die verschiedensten Sprecher zu erreichen.
- 15 -
509851/0397

Claims (4)

  1. Patentansprüche
    Verfahren zur Spracherkennung, dadurch gekennzeichnet , dass die folgenden Schritte durchgeführt werden:
    a) Normalisieren des Schalldruckwertes einer Eingangsstimme eines unbekannten Sprechers,
    b) Analysieren des normalisierten Sprechsignals unter Verwendung einer Mehrzahl von Kanälen verschiedener Frequenzen,
    c) in bezug auf das Ausgangssignal F. jedes analysierten Frequenzbandes Einstellen eines Wertungsfaktors od., welcher einer Charakteristik eines vorgegebenen Phänomens x. entspricht,
    d) Extrahieren der charakteristischen Komponente x. des Phänomens x. ,
    e) Einstellen eines Wertungsfaktors B. des Ausgangssignals
    F., demzufolge eine Charakteristik des Phänomen X zur
    3 ®
    Entsprechung gebracht ist, sobald, extrahierte, charakteristische Komponente x. eine Fehlfunktion bzw. einen Fehler aufgrund eines anderen Phänomens X bewirkt,
    f) gleichzeitiges Extrahieren der charakteristischen Komponente xo des Phänomens X ,
    g) falls die Differenz der auf diese Weise extrahierten charakteristischen Komponente grosser als ein folgender Schwellwert ^ ist, Verwenden dieser Differenz als charakteristischer Parameter für das Phänomen X.r
    h) Expandieren des charakteristischen Parameters zur Erzielung einer auf dem charakteristischen Parameter basierenden charakteristischen Parametergruppe, wobei jeder charakteristische Parameter geringfügig unterschiedlich ist.
    - 16 -
    509851/0397
    demzufolge eine Anpassung an die individuellen Eigenschaften von verschiedenen Sprechern möglich ist,
    i) unter Verwendung der charakteristischen Parametergruppe Extrahieren eines charakteristischen Parameters, welcher eine maximale Ähnlichkeit mit dem zuvor gespeicherten Referenzpararaeter aufweist, demzufolge eine adaptierter Parameter gebildet ist, welcher an den unbekannten Sprecher angepasst ist, und
    j) Übereinstimmen des von den extrahierten, adaptierten Parametern gebildeten Standardmusters mit einem dem unbekannten Sprecher zugeordneten, unbekannten Muster, wodurch eine Erkennung bzw. Analyse der Stimme durchgeführt wird.
  2. 2. Vorrichtung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekennzeichnet , dass dieselbe aus einem eine Spektralanalyse durchführenden Frequenzteiler (4), einem daran angeschlossenen Signalamplitudendetektor (15), einem daran angeschlossenen, der Bildung der charakteristischen Parameter dienenden Extrahierkreis(5),einem daran angeschlossenen Wellgatter £6), sowie einem von diesem gespeisten Speicher (7) besteht, ferner dass das in dem Speicher (7) gespeicherte Signal einer ersten Ähnlichkeits-Feststelleinheit (8) und von dort einem adaptierte Parameter bildenden Diskriminator (1o) zugeführt ist, welcher wiederum das Wellgatter (6) steuert, und dass zusätzlich ein Referenzparameterspeicher (9) eine zweite Ähnlichkeits-Feststelleinheit (12) sowie ein die optimale Übereinstimmung bestimmender Diskriminator (13) vorgesehen sind.
  3. 3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass zusätzlich ein Standardmusterspeicher (11) vorgesehen ist, welcher in Abhängigkeit des von dem
    - 17 -
    509851/0397
    Speicher (7) zugeführten Signals ein Ausgangssignal an die zweite Ähnlichkeits-Feststelleinheit (12) abgibt.
  4. 4. Vorrichtung nach Anspruch 2 oder 3, dadurch g e kennzeic h η e t , dass der die charakteristischen Parameter bildende Extrahierkreis (5) aus zwei hintereinander geschalteten Addierern (1) besteht, welche einen Schmitt-Trigger-Kreis (2) speisen.
    509851/0397
DE19752524804 1974-06-04 1975-06-04 Verfahren und vorrichtung zur automatischen spracherkennung Withdrawn DE2524804A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP49062526A JPS50155105A (de) 1974-06-04 1974-06-04

Publications (1)

Publication Number Publication Date
DE2524804A1 true DE2524804A1 (de) 1975-12-18

Family

ID=13202704

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19752524804 Withdrawn DE2524804A1 (de) 1974-06-04 1975-06-04 Verfahren und vorrichtung zur automatischen spracherkennung

Country Status (5)

Country Link
US (1) US4060694A (de)
JP (1) JPS50155105A (de)
DE (1) DE2524804A1 (de)
FR (1) FR2274101A1 (de)
GB (1) GB1519492A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0299572A2 (de) * 1987-07-11 1989-01-18 Philips Patentverwaltung GmbH Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2844156A1 (de) * 1978-10-10 1980-04-24 Philips Patentverwaltung Verfahren zum verifizieren eines sprechers
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
NL177950C (nl) * 1978-12-14 1986-07-16 Philips Nv Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
JPS6024994B2 (ja) * 1980-04-21 1985-06-15 シャープ株式会社 パタ−ン類似度計算方式
JPS5710199A (en) * 1980-06-21 1982-01-19 Tokyo Shibaura Electric Co Voice information extractor
JPS5782896A (en) * 1980-11-12 1982-05-24 Hitachi Ltd Continuous voice recognition system
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4388495A (en) * 1981-05-01 1983-06-14 Interstate Electronics Corporation Speech recognition microcomputer
US4454586A (en) * 1981-11-19 1984-06-12 At&T Bell Laboratories Method and apparatus for generating speech pattern templates
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式
JPS6057475A (ja) * 1983-09-07 1985-04-03 Toshiba Corp パタ−ン認識方式
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
US4797927A (en) * 1985-10-30 1989-01-10 Grumman Aerospace Corporation Voice recognition process utilizing content addressable memory
US5129000A (en) * 1986-04-05 1992-07-07 Sharp Kabushiki Kaisha Voice recognition method by analyzing syllables
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4916743A (en) * 1987-04-30 1990-04-10 Oki Electric Industry Co., Ltd. Pattern matching system
US4949382A (en) * 1988-10-05 1990-08-14 Griggs Talkwriter Corporation Speech-controlled phonetic typewriter or display device having circuitry for analyzing fast and slow speech
US5012517A (en) * 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
WO1997009712A2 (en) * 1995-09-05 1997-03-13 Frank Uldall Leonhard Method and system for processing auditory signals
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
ATE239966T1 (de) * 2000-11-07 2003-05-15 Ericsson Telefon Ab L M Anwendung von referenzdaten für spracherkennung
US7330538B2 (en) * 2002-03-28 2008-02-12 Gotvoice, Inc. Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
ATE322069T1 (de) * 2002-08-08 2006-04-15 Cit Alcatel Verfahren zur signalkodierung mittels einer vektorquantisierung

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1261385A (en) * 1968-07-24 1972-01-26 Matsushita Electric Ind Co Ltd Speech analyzing apparatus
US3509280A (en) * 1968-11-01 1970-04-28 Itt Adaptive speech pattern recognition system
US3619509A (en) * 1969-07-30 1971-11-09 Rca Corp Broad slope determining network
US3673331A (en) * 1970-01-19 1972-06-27 Texas Instruments Inc Identity verification by voice signals in the frequency domain
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3864518A (en) * 1972-03-20 1975-02-04 Meguer V Kalfaian Signal conversion apparatus
US3883850A (en) * 1972-06-19 1975-05-13 Threshold Tech Programmable word recognition apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2347738A1 (de) * 1972-09-21 1974-03-28 Threshold Tech Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0299572A2 (de) * 1987-07-11 1989-01-18 Philips Patentverwaltung GmbH Verfahren zur Erkennung von zusammenhängend gesprochenen Wörtern
EP0299572A3 (en) * 1987-07-11 1989-12-27 Philips Patentverwaltung Gmbh Method for connected word recognition

Also Published As

Publication number Publication date
FR2274101B1 (de) 1980-02-08
US4060694A (en) 1977-11-29
GB1519492A (en) 1978-07-26
FR2274101A1 (fr) 1976-01-02
JPS50155105A (de) 1975-12-15

Similar Documents

Publication Publication Date Title
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3645118C2 (de)
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE2753707A1 (de) Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache
DE2613258A1 (de) System zur automatischen spracherkennung
DE2347738A1 (de) Spracherkennungsverfahren und vorrichtung zur durchfuehrung desselben
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
DE3101851A1 (de) Verfahren zur abtastung von sprache
DE4031638C2 (de)
DE2825082A1 (de) Verfahren zur spracherkennung
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE2357067A1 (de) Vorrichtung zur sprachanalyse
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE2021126C3 (de) Spracherkennungs anordnung
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
DE2719175A1 (de) Schallanalysiereinrichtung
DE1206167B (de) Schaltung zur Verbesserung der Erkennbarkeit von Lauten bei der Schallanalyse

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8130 Withdrawal