DE2536640A1 - Anordnung zur erkennung von geraeuschen - Google Patents

Anordnung zur erkennung von geraeuschen

Info

Publication number
DE2536640A1
DE2536640A1 DE19752536640 DE2536640A DE2536640A1 DE 2536640 A1 DE2536640 A1 DE 2536640A1 DE 19752536640 DE19752536640 DE 19752536640 DE 2536640 A DE2536640 A DE 2536640A DE 2536640 A1 DE2536640 A1 DE 2536640A1
Authority
DE
Germany
Prior art keywords
output
signal
pattern
threshold value
outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19752536640
Other languages
English (en)
Other versions
DE2536640C3 (de
DE2536640B2 (de
Inventor
Ernst Dipl Ing Bunge
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Patentverwaltung GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Patentverwaltung GmbH filed Critical Philips Patentverwaltung GmbH
Priority to DE2536640A priority Critical patent/DE2536640C3/de
Priority to GB33772/76A priority patent/GB1562995A/en
Priority to JP51096193A priority patent/JPS5854400B2/ja
Priority to ES450719A priority patent/ES450719A1/es
Priority to FR7624875A priority patent/FR2321739A1/fr
Publication of DE2536640A1 publication Critical patent/DE2536640A1/de
Publication of DE2536640B2 publication Critical patent/DE2536640B2/de
Application granted granted Critical
Publication of DE2536640C3 publication Critical patent/DE2536640C3/de
Priority to US06/301,869 priority patent/US4432096A/en
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Description

Philips Patentverwaltung GmbH., 2 Hamburg 1, Steindamm 94
Anordnung zum Erkennen von Geräuschen
Die Erfindung betrifft eine Anordnung zur Erkennung von Geräuschen, insbesondere Sprache, bei der eine Filterbank das in ein elektrisches Signal umgewandelte Geräusch in eine Anzahl verschiedener Frequenzbänder aufteilt und die Energie des Signals über jeweils feste Zeitabschnitte an getrennten Ausgängen je Frequenzband ausgibt und eine an die Ausgänge angeschlossene Einrichtung die zeitliche Folge der Energieverteilungsmuster über die Frequenzbänder rait vorgegebenen Mustern vergleicht.
Eine derartige Anordnung ist aus der DT-CS 2 363 590 bekannt. Darin werden die integrierten Ausgänge der Filterbank gegebenenfalls über einen Multiplexer und einen A/D-Wandler einem Rechner zugeführt. Die über jeweils einen kurzen Zeitabschnitt integrierte spektrale Verteilung des zu untersuchenden Signals stellt einen mehrdimensionalen Vektor dar, so daß der Rechner eine zeitliche Folge von verschiedenen Vektoren erhält, die mit bekannten Folgen verglichen wird. Für die Barstellung eines Vektors v/erden
PHD 75-124 /im
709808/0611
PVE 02-270
dabei jedoch sehr viele Bit benötigt, so daß längere Vektorfolgen einen großen Speicherraum und auch bei schnellen Rechnern eine erhebliche Verarbeitungszeit erfordern, so daß eine Echtzeitverarbeitung kaum möglich ist oder sehr große und schnelle und damit teure Rechner erfordert.
Aufgabe der Erfindung ist es, eine Anordnung anzugeben, mit der eine Anzahl verschiedener Geräusche in Echtzeit mit geringem Aufwand erkannt werden kann. Diese Aufgabe löst die Erfindung durch die im Hauptanspruch angegebenen Maßnahmen. Die spektrale Verteilung des zu untersuchenden Signals in jedem Zeitabschnitt, ά. h. jeder Vektor wird als Spektralmuster aufgefaßt, das auf die menschliche Sprache bezogen in bekannter Weise·..· einem Phonem entspricht. Da die Spektralverteilung der Phoneme sprecherabhängig aber zum Teil erhebliche Toleranzen haben kann, ist für jeden Spektralanteil in jedem Phonem ein oberer und ein unterer Schwellwert vorgesehen. Es ist vorteilhaft, wenn, diese Schwellwerte einstellbar sind, zweckmäßigerweise unabhängig voneinander» Auf diese Weise erfolgt eine ganz außerordentliche Datenreduktion, da dem Rechner nicht alle möglichen Vektoren, sondern nur die tatsächlich vorkommenden Vektoren bzw. Muster zugeführt werden, und diese bereits entschlüsselt.
Ein Schwellwertdetektor kann sehr einfach aus nur zwei Komparatoren, beispielsweise Operationsverstärkern,aufgebaut sein, denen ein Verknüpfungsglied nachgeschaltet ist. Auf diese Weise ist ein Musterdetoktor, selbst wenn er eine größere Anzahl von Schwellwert·
*_ 7-0 9808/06 1 t
detektoren für eine größere Anzahl von Spektralbereichen und damit für eine feine Auflösung des Musters besitzt, wenig aufwendig, so daß auch bei einer größeren Anzahl von Musterdetektoren für entsprechend viele verschiedene Geräusche bzw. Phoneme eine preisgünstige Anordnung erhalten wird. Zweckmäßig wird jedem Musterdetektor eine Adresse zugeordnet, und ein Speicher speichert die Adressen der Musterdetektoren, die ein Ausgangssignal abgeben,in codierter Form, und diese codierten Adressenfolgen werden der Einrichtung zum Vergleich mit vorgegebenen Musterfolgen zugeführt. Damit ist es zum Beispiel möglich, die Aufeinanderfolge von Betriebs zuständen von Maschinen wie Generatoren oder Fahrzeugen zu erkennen, die sich als unterschiedliche Arbeitsgeräusche äußern, indem die entsprechend codierten Adressenfolgen der Musterdetektoren als Vergleichswerte vorgegeben werden. Ebenso kann solch eine Folge bzw. ein Satz von Adressen für die Spracherkennung als Charakteristikum für die Phonemfolge, also ein Wort oder eine Folge von Worten, verwendet werden.
Der Satz bzw. die Sätze von Adressen können durch ein adaptives Mustererkennungsprogramm erstellt werden. In dieses Programm werden in einer Lernphase für ein zu erkennendes Wort eine Anzahl von bekannten Prototypen, gekennzeichnet .durch ihre charakteristische Schwellwertadressenfolge, eingelesen. Im Programm wird die Häufigkeitsverteilung der Adressenfolgen erstellt und abgespeichert.
Dies geschieht für jedes im geplanten Vokabular zu erkennende Yior-l. Um das System möglichst Sprecher-unabhängig arbeiten x
70 9808/06 11
lassen,ist es sinnvoll, die Prototypen für jedes zu erlernende Wort von verschiedenen Sprechern sprechen zu lassen. Nach Abschluß der Lernphase sind im Rechner die Häufigkeitsverteilungen der Adressenfolgen für jedes zu erkennende Wort abgespeichert.
Soll nach Abschluß der Lernphase ein Wort erkannt werden, so wird das über das Mikrophon und die Filterbank erzeugte Spektrum den Musterdetektoren zugeführt,und deren Adressen werden entsprechend der Aufeinanderfolge der Ausgangssignale codiert in einen Rechner eingegeben und mit den Häufigkeitsverteilungen des erlernten Vokabulars wortweise verglichen. Dasjenige Wort gilt als erkannt, dessen Häufigkeitsverteilung für die vorliegende Adressenfolge den höchsten Wert liefert.
Soll eine Erkennung von ganzen Sätzen durchgeführt v/erden, so kann die Sicherheit des Systems durch Einbeziehung von syntaktischen Regeln für die mögliche Aufeinanderfolge von Worten erhöht werden.
Ausführungsbeispiele der Erfindung werden anhand der Zeichnung erläutert. Es zeigen:
Figur 1 ein Beispiel eines Signalspektrums mit zugehörigen Schwellwerten,
Figur 2 ein Blockschaltbild der gesamten Anordnung,
Figur 3 den Aufbau eines Musterdetektors mit einer ersten Ausfühningsform eines Schwellwertdetektors,
709808/06 11 - 5 -
Figur 4 eine zweite Ausführungsform eines Schwellwertdetektors ,
Figur 5a
und 5b Diagramme zur Erläuterung der Wirkungsweise der Schwellwertdetektoren.
Das in Figur 1 dargestellte Spektrum wird mittels der in Figur 2 dargestellten Anordnung erzeugt. Darin wird das zu erkennende Geräusch bzw. die zu erkennende Geräuschfolge über ein Mikrofon 1 in ein elektrisches Signal umgewandelt. Dieses Signal wird einem Dynamikregler 2 zugeführt, um die Erkennung bzw. Klassifizierung von der Grundlautstärke unabhängig zu machen, was für die Spracherkennung sehr wesentlich ist. Die so amplitudennormierte elektrische Zeitfunktion wird in einer Filterbank 3 in eine Anzahl K aneinandergrenzender Frequenzbereiche oder spektrale Komponenten zerlegt, und jede Komponente wird gleichgerichtet und über jeweils einen festen Zeitabschnitt von beispielsweise 10 ms integriert. Das Signal jeder gleichgerichteten und integrierten spektralen Komponente wird über jeweils einen Ausgang, der als Kanal bezeichnet wird, aus der Filterbank herausgeführt. Die Größe des Signals bzw. der Spannung an den einzelnen Ausgängen gibt den Energieinhalt E über die Integrationszeit des Kanals K an, wie in Figur 1 dargestellt ist, wo beispielsweise 10 Kanäle angenommen sind. Dieses Energieverteilungsmuster wird allgemein von Zeitabschnitt zu Zeitabschnitt wechseln, zumindest für einige Kanäle, wenn das Geräusch sich ändert.
703808/061 1
Die K Ausgänge 5 der Filterbank 3 sind in Figur 2 parallel mit einer Anzahl Must er detektor en 4 (1) bis 4 (n) verbunden. Jeder Musterdetektor prüft die Spannungen der einzelnen Kanäle K, ob diese in dem Toleranzbereich zwischen einer unteren Schwelle fu und einer oberen Schwelle fo liegen. In Figur 1 sind einige durch solche Schranken begrenzte Toleranzbereiche eingezeichnet, wie sie in einem der Musterdetektoren beispielsweise vorhanden sein mögen, wobei nicht für Jeden Kanal ein solcher Toleranzbereich angegeben ist, da es bei den verschiedenen Geräuschen erfahrungsgemäß meist einige Kanäle gibt, die für die Identifizierung des Geräusches wenig aussagekräftig sind. Auf diese V7eise kann dann Aufwand eingespart werden und teilweise sogar die Zuverlässigkeit der Erkennung erhöht werden. Aus der Figur 1 ist zu erkennen, daß die Signale für die Kanäle 2-4 und 7-9 innerhalb der zugehörigen Toleranzbereiche liegen, so daß dieser Musterdetektor ein Ausgangssignal erzeugt. Wenn dagegen das Signal nur eines Kanals nicht in dem Toleranzbereich liegen sollte, erzeugt der Musterdetektor bereits kein Ausgangssignal mehr. Aus der Figur 1 ist auch zu erkennen, daß die einzelnen Toleranzbereiche für die verschiedenen Kanäle verschieden groß sind, da insbesondere bei der Spracherkennung die Abweichungen der Signale in den verschiedenen Kanälen, die durch verschiedene Sprecher bedingt sind, unterschiedlich groß sein können.
Ein Beispiel für den inneren Aufbau eines Musterdetektors 4 ist in Figur 3 dargestellt. Darin sind eine Anzahl Schwellwertschal-
709808/0611
ter 10 (1) bis 10 (m), deren Ausgänge A alle über ein UND-Glied 6 zusammengefaßt werden. Nur wenn die Ausgänge A aller Schwellwertdetektoren 10 (1) bis 10 (m) gleichzeitig ein positives Ausgangssignal erzeugen, erzeugt auch der Ausgang M des Mu&erdetektors 4 ein Ausgangssignal, wie dies vorher beschrieben wurde.
Der Eingang E jedes Schwellwertdetektors ist über einen Umschalter mit einem der Ausgänge 5 der Filterbank 3 verbunden. Der Umschalter ist dabei nicht mit allen Ausgängen verbunden, sondern der Schwellwertdetektor lO (1) ist nur mit den Kanälen mit den niedrigsten Ordnungszahlen verbunden, der Schwellwertdetektor 10 (2) überlappend mit den nächsten Kanälen usw., bis der Schwellwertdetektor 10 (m) nur mit den Kanälen mit den höchsten Ordnungszahlen verbunden ist. Dies ist selbstverständlich nur dann sinnvoll, wenn, wie vorher beschriften wurde, nicht für jeden Kanal ein Schwellwertdetektor 10 vorgesehen ist.
Jeder Schwellwertdetektor 10 enthält zwei Komparatoren V1 und V2, rfiir die hier Operationsverstärker verwendet werden. Der mit dem Zeichen + gekennzeichnete nichtinvertierende Eingang der Opera- . tionsverstärker ist mit dem Eingang E verbunden, während die mit dem Zeichen - gekennzeichneten Eingänge Schwellspannungen erhalten, die durch die Reihenschaltung von zwei Widerständen R1 und R2 und zwei Potentiometern P1 und P2 erzeugt werden. Durch Verändern des Potentiometers P2 wird die untere Schwellenspannung fu eingestellt, während mit dem Potentiometer P1 der Abstand zwischen dieser Schwellenspannung und der oberen Schwellenspannung fo ein-
- 8 - 7 0 9808/0611
gestellt wird. Die Ausgangs signale der Komparatoren V1 und V2 werden über einige Bauelemente, die das Signal nicht logisch verändern und deren Bedeutung später erläutert wird, einem Exclusiv-ODER-Glied G zugeführt, dessen Ausgang mit dem Ausgang A des Schwellwertdetektors 10 verbunden ist.
Die grundsätzliche Funktion dieser Schaltung soll anhand der Figur 5a näher erläutert werden. Solange die Spannung a am Eingang E unterhalb der unteren Schwellenspannung fu liegt, sind die Ausgangs signale b des Komparators Vt und c des Komparators V2 niedrig. Sobald die Eingangsspannung a die untere Schwellenspannung fu überschreitet, springt das Ausgangssignal c des Komparators V2 auf einen hohen Wert, und das Exclusiv-ODER-Glied erzeugt ein hohes Ausgangssignal, wie in dem Signalverlauf d dargestellt ist. Wenn die Eingangs spannung a weiter steigt und auch die obere Schwellenspannung fo übersteigt, springt auch das Ausgangssignal b des Komparators V1·auf einen hohen Wert, so daß das Exclusiv-ODER-Glied. G zwei hohe Eingangssignale erhält und damit bekanntlich ein niedriges Ausgangssignal erzeugt. Am Ausgang A wird also nur ein positives Signal erzeugt, solange die Eingangsspannung a einen Wert zwischen den beiden Schwellspannungen fu und fo hat. Wenn die Eingangs spannung a wieder absinkt, wird beim Durchlaufen des schraffierten Toleranzbereiches, der durch die beiden Schwellwerte begrenzt wird, wieder ein Ausgangssignal erzeugt, in dem die Ausgangssignale der Komparatoren V1 und V2 nacheinander wieder auf einen niedrigen Wert zurückgehen, wie aus Figur 5» ersichtlich ist.
709808/06 11 - 9 -
Da die für die Komparatoren V1 und V2 verwendeten Operationsverstärker häufig höhere Betriebsspannungen benötigen als die nachfolgenden Logikschaltungen, muß deren Ausgangssignal, das nahezu der Betriebsspannung entspricht, auf diesen niedrigeren Pegel begrenzt werden. Dies geschieht für den Komparator V1 mit den Widerständen R3 und R5 und der Diode D1. Die Werte der Widerstände werden so gewählt, daß bei einem hohen Ausgangssignal des Komparators V1 die Eingangsspannung an der Schaltung S1 den maximal zulässigen Wert nicht überschreitet, wobei die Diode D1 gesperrt und damit unwirksam ist. Bei einem negativen Ausgangssignal des Komparators V1 ist die Diode D1 leitend und begrenzt die Spannung am Eingang der Schaltung S1 etwa auf Nullpotentioal. In gleicher Weise wird das Ausgangssignal des Komparators V2 durch die Widerstände R4 und R6 und die Diode D2 auf den Pegel der nachfolgenden Logikschaltungen begrenzt.
Die Schaltungen S1 und S2 sind Schmitt-Trigger, damit in dem Falle, wenn die Eingangsspannung eine der beiden Schwellspannungen fu oder fo sehr flach schneidet und damit einen sehr flachen Übergang des Ausgangssignals der Komparatoren erzeugt, die nachfolgenden Logikschaltungen Signale mit steilen Flanken erhalten.
Eine andere Ausführungsform des Schwellwertdetektors 10 ist in Figur 4 dargestellt. Auch hier werden als Komparatoren V1 und V2 wieder Operationsverstärker verwendet, wobei der Eingang E jedoch bei dem oberen Komparator V1 mit dem invertierenden Eingang und nur beim unteren Komparator Y2 mit dem nichtinvertierenden Ein-
709808/06 11 - 10 -
gang verbunden ist, Der jeweils andere Eingang der Komparatoren ist mit den Schwellspannungen fu bzw. fo verbunden, die in der in Figur 3 dargestellten Weise erzeugt werden können. Die Ausgänge der Komparatoren sind über ein UND-Glied aus den Dioden D 3 bzw. D4 mit einem Punkt P verbunden, der über einen Widerstand R7 beispielsweise mit der positiven, hohen Betriebsspannung der Komparatoren V1 und V2 verbunden ist. Die Funktion dieser Schaltung soll anhand von Figur 5b näher erläutert werden.
Solange die Spannung a am Eingang E unterhalb der unteren Spannungs· stelle fu liegt, führt der Ausgang des Komparators V1 ein hohes Signal, wie in der Kurve e dargestellt ist, während der Ausgang des Komparators V2 ein niedriges Signal entsprechend der Kurve c, die mit der in Figur 5a übereinstimmt, hat. Sobald die Eingangs-Spannung a die untere Schwellspannung fu überschreitet, wird das Ausgangssignal des Komparators V2 auch positiv, und damit hat der Punkt P ebenfalls ein positives Signal, wie in der Kurve d dargestellt ist. Wenn die Eingangs spannung β. dann weiter die obere Schwellspannung fo überschreitet, wird die Ausgangs spannung des Komparators V1 negativ und damit auch die Spannung am Punkt P, Wie beim Vergleich mit der Figur 5a zu erkennen ist, ergibt sich am Punkt P somit der gleiche Spannungsverlauf wie in der Schaltung nach Figur 3 am Ausgang A, wobei das Signal am Punkt P zunächst jedoch den vollen Spannungshub wie die Ausgangssignale der Komparatoren besitzt, und somit ebenfalls auf den niedrigeren Pegel der nachfolgenden Logikschaltungen angepaßt werden muß.
7 0 9808/06 11 - -11 -
Dies geschieht mit Hilfe der Diode D5 und des Widerstandes RB. Wenn beide Komparatoren ein hohes Ausgangssignal erzeugen, kann die Spannung am Punkt P den Wert nicht überschreiten, der durch das Verhältnis der Widerstände R7 und R8 infolge der dann leitenden Diode D5 bestimmt ist. Wenn jedoch ein Komparator ein negatives Ausgangssignal erzeugt, hat der Punkt P zwar ebenfalls etwa dieses Signal, jedoch ist dann die Diode D5 gesperrt, und am Eingang der Schaltung S3 liegt dann infolge des Widerstandes R8 etwa Nullpotential. Eine andere Möglichkeit, die maximale positive Spannung am Eingang der Schaltung S3 zu begrenzen, stellt die Diode D6 dar, die über die gestrichelten Linien mit dem Punkt P und der Spannung u\j, die gleich der Versorgungsspannung der Logikbausteine ist, verbunden ist. Durch diese Diode kann die Spannung am Punkt P nicht positiver werden- als diese Versorgungsspannung. Eine weitere Möglichkeit besteht auch darin, den Widerstand R7 anstatt mit der Betriebsspannung der Komparatoren V1 und V2 mit der Versorgungsspannung U^ der Logikbausteine zu verwenden. In jedem Falle sind bei positivem Ausgangssignal der Komparatoren Y1 und V2 die Dioden D3 und D4 gesperrt. Dem Ausgang A des Schwellwertdetektors 10 ist wieder ein Schmitt-Trigger S3 vorgeschaltet, der in jedem Falle, wie vorher beschrieben, ein Ausgangssi@ial mit steilen Flanken gewährleistet.
Auf diese Weise erzeugt also ein Musterdetektor 4 in Figur 2 ein Ausgangssignal, wenn alle angeschlossenen Ausgänge 5 der Filterbank 3 dem eingestellten Muster entsprechen. Für jedes zu erkennende
70 9808/06 11 - 12 -
Signalgrundmuster, bei der menschlichen Sprache sind es z.B. die Phoneme, ist ein solcher Musterdektor 4 vorgesehen.
Wenn nur einzelne verschiedene Geräusche erkannt werden sollen, . können die Ausgänge der Musterdetektoren direkt verwendet werden, beispielsweise indem sie Anzeigeeinrichtungen ansteuern. Bei Signalfolgen, die aus mehreren aufeinanderfolgenden Grundmustern bestehen, von denen jedes einzelne durch einen Musterdetektor erkannt wird, wird nach Figur 2 die Folge der erkannten Grundmuster zweckmäßig in einem Speicher 8 zwischengespeichert. Dazu sind die Ausgänge der Musterdetektoren 4 mit einem Adressenmultiplexer 7 verbunden, der ein Ausgangssignal eines Musterdetektors in eine Dualzahl umwandelt, die der Adresse (1) bis (n) des Musterdetektors entspricht, und diese Dualzahlen in einem Speicher 8 zuführt. Diese Dualzahl hat Id (n) Bit. Wenn also η Grundmuster vorgesehen sind und die längste Folge von Grundmustern 1 ist (bei Sprache wäre 1 die größte Anzahl von Phonemen in einem zu erkennenden Wort), so ist der benötigte Speicherbedarf des Speichers 8 Id (n) · 1 Bit. Bei der Spracherkennung ist η maximal etwa 32 und 1 etwa 16, so daß die benötigte Speicherkapazität etwa 16 . 5 Bit ist.
Die Steuereinheit 9 steuert die zeitliche Folge des Abspeicherns. Bei dem ersten erkannten Grundmuster wird die Adresse des entsprechenden Musterdetektors über den Adressenmultiplexer 7 in die erste Speicherstelle des Speichers 8 eingelesen. Danach schaltet der Grundmusterzähler 9 um eine Position weiter und die Adresse
_ 1* 709808/061 1
des Musterdetektors, der das zweite Grundmuster erkennt, wird in die zweite Speicherstelle eingelesen. Dieser Vorgang kann sich Ms 1 mal wiederholen.
Die Folge dieser maximal 1 Dualzahlen gibt nun an, in welcher Reihenfolge die Grundmuster (bei der Spracherkennung die Phoneme) in dem zu untersuchenden Signal aufgetreten sind,und gibt Aussage über das Wort, das aus diesen Grundmustern aufgebaut ist. Wenn zum Beispiel der Musterdetektor 4 (1) ein "a" erkennt und der Musterdetektor 4 (7) den Nasallaut "n", so würde für das gesprochene Wort "Anna" die Zahlenfolge 1, 7, 1 als Musterfolge abgespeichert werden.
Die Ziffernfolge wird dann in einen Rechner eingelesen und dort mit den Häufigkeitsverteilungen für die Worte des Erkennungsvokabulars verglichen und entsprechend der Übereinstimmung dem richtigen Wort zugeordnet.
Wie aus der vorstehenden Beschreibung hervorgeht, kann die Anordnung sehr universell eingesetzt werden und beliebige Geräusche und Geräuschfolgen auch größerer Länge erkennen, wobei die Quelle der Geräusche beliebig sein kann. Es können auch elektrische Signale damit untersucht werden, die nicht von akustischen Signalen abgeleitet sind.
- 14 -
709808/06 11

Claims (7)

  1. PVE 02-270
    - 25366Λ0
    Patentansprüche
    . ordnung zur Erkennung von Geräuschen, insbesondere Sprache, bei der eine Filterbank das in ein elektrisches Signal umgewandelte Geräusch in eine Anzahl verschiedener Frequenzbänder aufteilt und die Energie des Signals über jeweils feste Zeitabschnitte an getrennten Ausgängen je Frequenzband ausgibt und eine an die Ausgänge angeschlossene Einrichtung die zeitliche Folge der Energieverteilungsmuster über die Frequenzbänder mit vorgegebenen ^ustern vergleicht, dadurch gekennzeichnet, daß eine Anzahl Musterdetektoren (4) vorgesehen ist, wobei jeder Musterdetektor an wenigstens einen Teil der Ausgänge (5) der Filterbank (3) angeschlossen ist, daß jeder Musterdetektor für jaden angeschlossenen Ausgang einen Schwellwertdetektor (10) enthält, der einen Signalpegel auf seinem Ausgang erzeugt, wenn das Signal auf dem angeschlossenen Aus.gang zwischen einem unteren (fu) und einem oberen (fo) Schwellwert liegt, daß in jedem Musterdetektor ein UND-Glied (6) die Ausgänge aller darin enthaltenen Schwellwertdetektoren zusammenfaßt und einen Signalpegel an seinem den Ausgang des Musterdetektors darstellenden Ausgang erzeugt, wenn an allen Ausgängen der Schwellwertdetektoren ein Signalpegel erzeugt ist, und daß eine an die Musterdetektoren angeschlossene Einrichtung (7,8,9) die zeitliche Folge der Signalpegel an den Ausgängen der Musterdetektoren speichert und einer Vergleichseinrichtung zuführt.
  2. 2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Schwellwerte (fu, fo) unabhängig voneinander einstellbar sind.
    709808/0611 - 15 -
  3. 3. Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeder Schwellwertdetektor (10) zwei Komparatoren C1» V2) enthält, von denen der eine auf den unteren Schwellwert (fu) und der andere auf den oberen Schwellwert (fo) eingestellt ist und die ein Ausgangssignal in der gleichen Polarität erzeugen, wenn das Signal auf dem angeschlossenen Ausgang (5) der FiI-
    - · terbank (3) den eingestellten Schwellwert überschreitet, und daß die Ausgänge der beiden Komparatoren mit einem Exclusiv-ODER-Glied (G) verbunden sind, dessen Ausgang den Ausgang des Schwellwertdetektors darstellt.
  4. 4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß jedem Komparator (V1, V2) ein Schmitt-Trigger (S1, S2) naehgeschaltet ist.
  5. 5- Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeder Schwellwertde-cektor (10) zwei Komparatoren (V1, V2) enthält, von denen der eine auf den unteren Schwellwert (fu) und der andere auf den oberen Schwellwert (fo) eingestellt ist und die ein Ausgangssignal mit zueinander entgegengesetzter Polarittät erzeugen, wenn das Signal auf dem angeschlossenen Ausgang (5) der Filterbank (3) den eingestellten Schwellwert überschreitet, und daß die Ausgänge der beiden Komparatoren mit einem UND-Glied (D3, D4, R7) verbunden sind, dessen Ausgang den Ausgang des Schwellwertdetektors darstellt.
    709808/061 1
    - 16 -
  6. 6. Anordnung nach Anspruch 5, dadurch gekennzeichnet, daß dem UND-Glied (D3, D4, H?) ein Schmitt-Trigger (S3) nachgeschaltet ist.
  7. 7. Anordnung nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß jedem Musterdetektor (4) eine Adresse (n) zugeordnet ist und ein Speicher (8) die Adressen der Musterdetektoren, die ein Ausgangssignal abgeben, codiert speichert und die codierten Adressenfolgen einer E inrichtung zum Vergleich mit vorgegebenen Musterfolgen zuführt.
    709808/06 11
DE2536640A 1975-08-16 1975-08-16 Anordnung zur Erkennung von Geräuschen Expired DE2536640C3 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE2536640A DE2536640C3 (de) 1975-08-16 1975-08-16 Anordnung zur Erkennung von Geräuschen
GB33772/76A GB1562995A (en) 1975-08-16 1976-08-13 Arrangement for recognizing sounds
JP51096193A JPS5854400B2 (ja) 1975-08-16 1976-08-13 音声認識装置
ES450719A ES450719A1 (es) 1975-08-16 1976-08-14 Una disposicion para uso en el reconocimiento de sonidos.
FR7624875A FR2321739A1 (fr) 1975-08-16 1976-08-16 Dispositif pour l'identification de bruits, en particulier de signaux de parole
US06/301,869 US4432096A (en) 1975-08-16 1981-09-14 Arrangement for recognizing sounds

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2536640A DE2536640C3 (de) 1975-08-16 1975-08-16 Anordnung zur Erkennung von Geräuschen

Publications (3)

Publication Number Publication Date
DE2536640A1 true DE2536640A1 (de) 1977-02-24
DE2536640B2 DE2536640B2 (de) 1979-02-08
DE2536640C3 DE2536640C3 (de) 1979-10-11

Family

ID=5954186

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2536640A Expired DE2536640C3 (de) 1975-08-16 1975-08-16 Anordnung zur Erkennung von Geräuschen

Country Status (6)

Country Link
US (1) US4432096A (de)
JP (1) JPS5854400B2 (de)
DE (1) DE2536640C3 (de)
ES (1) ES450719A1 (de)
FR (1) FR2321739A1 (de)
GB (1) GB1562995A (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2919228C2 (de) * 1977-01-31 1983-07-28 Gert Heinz Manfred 4000 Düsseldorf Kölchens Akustisch fernbedienbarer Schalter
FR2380612A1 (fr) * 1977-02-09 1978-09-08 Thomson Csf Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif
DE2939077A1 (de) * 1979-09-27 1981-04-09 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum bestimmen charakteristischer werte aus einem geraeuschsignal
US4370521A (en) * 1980-12-19 1983-01-25 Bell Telephone Laboratories, Incorporated Endpoint detector
JPS57201300A (en) * 1981-06-05 1982-12-09 Hitachi Ltd Voice recognizer
CH645501GA3 (de) * 1981-07-24 1984-10-15
JPS603700A (ja) * 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
DE3407644A1 (de) * 1984-03-01 1985-09-12 Siemens AG, 1000 Berlin und 8000 München Verfahren zur bewertung der aehnlichkeit jeweils zweier digital dargestellter zahlenfolgen, insbesondere funktionskurven
GB2158980B (en) * 1984-03-23 1989-01-05 Ricoh Kk Extraction of phonemic information
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4843562A (en) 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
US4910784A (en) * 1987-07-30 1990-03-20 Texas Instruments Incorporated Low cost speech recognition system and method
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JP2890831B2 (ja) * 1990-11-28 1999-05-17 ヤマハ株式会社 Midiコード作成装置
US5745873A (en) * 1992-05-01 1998-04-28 Massachusetts Institute Of Technology Speech recognition using final decision based on tentative decisions
US7171016B1 (en) 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US5519824A (en) * 1994-03-18 1996-05-21 Timex Corporation System and method for storing and displaying font data representing fixed-width and compressed characters
US6560349B1 (en) * 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US8094949B1 (en) 1994-10-21 2012-01-10 Digimarc Corporation Music methods and systems
US7486799B2 (en) * 1995-05-08 2009-02-03 Digimarc Corporation Methods for monitoring audio and images on the internet
US7562392B1 (en) 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6829368B2 (en) * 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US8180844B1 (en) 2000-03-18 2012-05-15 Digimarc Corporation System for linking from objects to remote resources
US7689532B1 (en) 2000-07-20 2010-03-30 Digimarc Corporation Using embedded data with file sharing
US8095796B2 (en) * 1999-05-19 2012-01-10 Digimarc Corporation Content identifiers
US7302574B2 (en) * 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
CA2809775C (en) * 1999-10-27 2017-03-21 The Nielsen Company (Us), Llc Audio signature extraction and correlation
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
KR100349656B1 (ko) * 2000-12-20 2002-08-24 한국전자통신연구원 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법
WO2002051063A1 (en) 2000-12-21 2002-06-27 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures
US7046819B2 (en) * 2001-04-25 2006-05-16 Digimarc Corporation Encoded reference signal for digital watermarks
WO2003009277A2 (en) * 2001-07-20 2003-01-30 Gracenote, Inc. Automatic identification of sound recordings
US20040091111A1 (en) * 2002-07-16 2004-05-13 Levy Kenneth L. Digital watermarking and fingerprinting applications
US20070256499A1 (en) * 2006-04-21 2007-11-08 Pelecanos Jason W Machine and operating environment diagnostics, detection and profiling using sound
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
AU2008218716B2 (en) 2007-02-20 2012-05-10 The Nielsen Company (Us), Llc Methods and apparatus for characterizing media
WO2008137385A2 (en) 2007-05-02 2008-11-13 Nielsen Media Research, Inc. Methods and apparatus for generating signatures
CA2858944C (en) 2007-11-12 2017-08-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
DE102007056221B4 (de) * 2007-11-27 2009-07-09 Siemens Ag Österreich Verfahren zur Spracherkennung
US8457951B2 (en) 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
CN102982810B (zh) * 2008-03-05 2016-01-13 尼尔森(美国)有限公司 生成签名的方法和装置
WO2010135623A1 (en) 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
US9536517B2 (en) * 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US11489691B2 (en) 2017-07-12 2022-11-01 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device
US10930276B2 (en) 2017-07-12 2021-02-23 Universal Electronics Inc. Apparatus, system and method for directing voice input in a controlling device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2575909A (en) * 1949-07-01 1951-11-20 Bell Telephone Labor Inc Voice-operated system
US3683284A (en) * 1968-06-25 1972-08-08 Picker Corp Pulse height analyzer
US3755627A (en) * 1971-12-22 1973-08-28 Us Navy Programmable feature extractor and speech recognizer
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system

Also Published As

Publication number Publication date
GB1562995A (en) 1980-03-19
FR2321739A1 (fr) 1977-03-18
DE2536640C3 (de) 1979-10-11
ES450719A1 (es) 1977-09-01
FR2321739B1 (de) 1983-02-04
DE2536640B2 (de) 1979-02-08
JPS5242007A (en) 1977-04-01
JPS5854400B2 (ja) 1983-12-05
US4432096A (en) 1984-02-14

Similar Documents

Publication Publication Date Title
DE2536640A1 (de) Anordnung zur erkennung von geraeuschen
EP0296588B1 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE2536585C3 (de) Anordnung zur statistischen Signalanalyse
DE3901636C2 (de)
DE2357067C3 (de) Elektrische Schaltungsanordnung in Verbindung mit einer Spracherkennungseinrichtung
DE102012204960A1 (de) Interlockdetektor mit Selbstdiagnosefunktion für einen Interlockkreis und ein Verfahren zur Selbstdiagnose des Interlockdetektors
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE19648078A1 (de) Verfahren und Vorrichtung zur Interrupterzeugung
DE2111072A1 (de) Verfahren und Vorrichtung zum Unterscheiden zwischen Sprache und Rauschen
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE3936932A1 (de) Triggersignalerzeuger fuer oszilloskope
EP1212751B1 (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld
EP0840230B1 (de) Vorrichtung und Verfahren zur Selektion von Adressenwörtern mittels Demultiplex-Decodierung
DE2130975C3 (de) Schaltungsanordnung zum Empfang von Mehrfrequenzsignalen
DE19906118A1 (de) Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen
DE19860465A1 (de) Verfahren und Vorrichtung zur Kodierung der Adressen von baugleichen Funktionseinheiten
EP0103711B1 (de) Vorrichtung zur Auswertung eines Datenwortes
DE2834751C2 (de)
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE2555248C2 (de) Anordnung zum selbsttätigen Erkennen von Informationen
DE2363590A1 (de) Spracherkennungssystem mit merkmalsfolgekodierung
EP0964391A2 (de) Vorrichtung zur Verifizierung von Signalen
DE2848943C2 (de) Anordnung zum stochastischen Kodieren von mindestens zwei Größen
EP0629048A2 (de) Anordnung zur Analog/Digital-Wandlung von Signalen mit unterschiedlichem Signalpegel
DE102020003669A1 (de) Verfahren zum Prüfen einer Schalleingabevorrichtung auf eine Manipulation, Steuereinrichtung eingerichtet zur Durchführung eines solchen Verfahrens, Schalleingabevorrichtung mit einer solchen Steuereinrichtung und Kraftfahrzeug mit einer solchen Schalleingabevorrichtung

Legal Events

Date Code Title Description
OD Request for examination
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee