DE2536640A1 - Anordnung zur erkennung von geraeuschen - Google Patents
Anordnung zur erkennung von geraeuschenInfo
- Publication number
- DE2536640A1 DE2536640A1 DE19752536640 DE2536640A DE2536640A1 DE 2536640 A1 DE2536640 A1 DE 2536640A1 DE 19752536640 DE19752536640 DE 19752536640 DE 2536640 A DE2536640 A DE 2536640A DE 2536640 A1 DE2536640 A1 DE 2536640A1
- Authority
- DE
- Germany
- Prior art keywords
- output
- signal
- pattern
- threshold value
- outputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 abstract description 10
- 238000001228 spectrum Methods 0.000 abstract description 5
- 239000013598 vector Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- FGRBYDKOBBBPOI-UHFFFAOYSA-N 10,10-dioxo-2-[4-(N-phenylanilino)phenyl]thioxanthen-9-one Chemical group O=C1c2ccccc2S(=O)(=O)c2ccc(cc12)-c1ccc(cc1)N(c1ccccc1)c1ccccc1 FGRBYDKOBBBPOI-UHFFFAOYSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Description
Philips Patentverwaltung GmbH., 2 Hamburg 1, Steindamm 94
Anordnung zum Erkennen von Geräuschen
Die Erfindung betrifft eine Anordnung zur Erkennung von Geräuschen,
insbesondere Sprache, bei der eine Filterbank das in ein elektrisches Signal umgewandelte Geräusch in eine Anzahl verschiedener
Frequenzbänder aufteilt und die Energie des Signals über jeweils feste Zeitabschnitte an getrennten Ausgängen je Frequenzband
ausgibt und eine an die Ausgänge angeschlossene Einrichtung die zeitliche Folge der Energieverteilungsmuster über die
Frequenzbänder rait vorgegebenen Mustern vergleicht.
Eine derartige Anordnung ist aus der DT-CS 2 363 590 bekannt.
Darin werden die integrierten Ausgänge der Filterbank gegebenenfalls über einen Multiplexer und einen A/D-Wandler einem Rechner
zugeführt. Die über jeweils einen kurzen Zeitabschnitt integrierte spektrale Verteilung des zu untersuchenden Signals stellt
einen mehrdimensionalen Vektor dar, so daß der Rechner eine zeitliche Folge von verschiedenen Vektoren erhält, die mit bekannten
Folgen verglichen wird. Für die Barstellung eines Vektors v/erden
PHD 75-124 /im
709808/0611
PVE 02-270
dabei jedoch sehr viele Bit benötigt, so daß längere Vektorfolgen einen großen Speicherraum und auch bei schnellen Rechnern
eine erhebliche Verarbeitungszeit erfordern, so daß eine
Echtzeitverarbeitung kaum möglich ist oder sehr große und schnelle und damit teure Rechner erfordert.
Aufgabe der Erfindung ist es, eine Anordnung anzugeben, mit der eine Anzahl verschiedener Geräusche in Echtzeit mit geringem
Aufwand erkannt werden kann. Diese Aufgabe löst die Erfindung durch die im Hauptanspruch angegebenen Maßnahmen. Die spektrale
Verteilung des zu untersuchenden Signals in jedem Zeitabschnitt, ά. h. jeder Vektor wird als Spektralmuster aufgefaßt, das auf
die menschliche Sprache bezogen in bekannter Weise·..· einem Phonem
entspricht. Da die Spektralverteilung der Phoneme sprecherabhängig
aber zum Teil erhebliche Toleranzen haben kann, ist für jeden Spektralanteil in jedem Phonem ein oberer und ein unterer
Schwellwert vorgesehen. Es ist vorteilhaft, wenn, diese Schwellwerte
einstellbar sind, zweckmäßigerweise unabhängig voneinander» Auf diese Weise erfolgt eine ganz außerordentliche Datenreduktion,
da dem Rechner nicht alle möglichen Vektoren, sondern nur die tatsächlich vorkommenden Vektoren bzw. Muster zugeführt werden,
und diese bereits entschlüsselt.
Ein Schwellwertdetektor kann sehr einfach aus nur zwei Komparatoren,
beispielsweise Operationsverstärkern,aufgebaut sein, denen ein Verknüpfungsglied nachgeschaltet ist. Auf diese Weise ist ein
Musterdetoktor, selbst wenn er eine größere Anzahl von Schwellwert·
*_ 7-0 9808/06 1 t
detektoren für eine größere Anzahl von Spektralbereichen und damit für eine feine Auflösung des Musters besitzt, wenig aufwendig,
so daß auch bei einer größeren Anzahl von Musterdetektoren für entsprechend viele verschiedene Geräusche bzw. Phoneme
eine preisgünstige Anordnung erhalten wird. Zweckmäßig wird jedem Musterdetektor eine Adresse zugeordnet, und ein Speicher
speichert die Adressen der Musterdetektoren, die ein Ausgangssignal
abgeben,in codierter Form, und diese codierten Adressenfolgen werden der Einrichtung zum Vergleich mit vorgegebenen
Musterfolgen zugeführt. Damit ist es zum Beispiel möglich, die Aufeinanderfolge von Betriebs zuständen von Maschinen wie Generatoren
oder Fahrzeugen zu erkennen, die sich als unterschiedliche Arbeitsgeräusche äußern, indem die entsprechend codierten Adressenfolgen
der Musterdetektoren als Vergleichswerte vorgegeben werden. Ebenso kann solch eine Folge bzw. ein Satz von Adressen
für die Spracherkennung als Charakteristikum für die Phonemfolge,
also ein Wort oder eine Folge von Worten, verwendet werden.
Der Satz bzw. die Sätze von Adressen können durch ein adaptives Mustererkennungsprogramm erstellt werden. In dieses Programm werden
in einer Lernphase für ein zu erkennendes Wort eine Anzahl von bekannten Prototypen, gekennzeichnet .durch ihre charakteristische
Schwellwertadressenfolge, eingelesen. Im Programm wird die Häufigkeitsverteilung der Adressenfolgen erstellt und abgespeichert.
Dies geschieht für jedes im geplanten Vokabular zu erkennende Yior-l. Um das System möglichst Sprecher-unabhängig arbeiten x
70 9808/06 11
lassen,ist es sinnvoll, die Prototypen für jedes zu erlernende
Wort von verschiedenen Sprechern sprechen zu lassen. Nach Abschluß der Lernphase sind im Rechner die Häufigkeitsverteilungen
der Adressenfolgen für jedes zu erkennende Wort abgespeichert.
Soll nach Abschluß der Lernphase ein Wort erkannt werden, so wird das über das Mikrophon und die Filterbank erzeugte Spektrum
den Musterdetektoren zugeführt,und deren Adressen werden entsprechend
der Aufeinanderfolge der Ausgangssignale codiert in einen Rechner eingegeben und mit den Häufigkeitsverteilungen
des erlernten Vokabulars wortweise verglichen. Dasjenige Wort gilt als erkannt, dessen Häufigkeitsverteilung für die vorliegende
Adressenfolge den höchsten Wert liefert.
Soll eine Erkennung von ganzen Sätzen durchgeführt v/erden, so kann die Sicherheit des Systems durch Einbeziehung von syntaktischen
Regeln für die mögliche Aufeinanderfolge von Worten erhöht werden.
Ausführungsbeispiele der Erfindung werden anhand der Zeichnung
erläutert. Es zeigen:
Figur 1 ein Beispiel eines Signalspektrums mit zugehörigen Schwellwerten,
Figur 2 ein Blockschaltbild der gesamten Anordnung,
Figur 3 den Aufbau eines Musterdetektors mit einer ersten Ausfühningsform eines Schwellwertdetektors,
709808/06 11 - 5 -
Figur 4 eine zweite Ausführungsform eines Schwellwertdetektors
,
Figur 5a
und 5b Diagramme zur Erläuterung der Wirkungsweise der Schwellwertdetektoren.
Das in Figur 1 dargestellte Spektrum wird mittels der in Figur 2 dargestellten Anordnung erzeugt. Darin wird das zu erkennende
Geräusch bzw. die zu erkennende Geräuschfolge über ein Mikrofon 1 in ein elektrisches Signal umgewandelt. Dieses Signal wird einem
Dynamikregler 2 zugeführt, um die Erkennung bzw. Klassifizierung von der Grundlautstärke unabhängig zu machen, was für die Spracherkennung
sehr wesentlich ist. Die so amplitudennormierte elektrische Zeitfunktion wird in einer Filterbank 3 in eine Anzahl K
aneinandergrenzender Frequenzbereiche oder spektrale Komponenten
zerlegt, und jede Komponente wird gleichgerichtet und über jeweils
einen festen Zeitabschnitt von beispielsweise 10 ms integriert. Das Signal jeder gleichgerichteten und integrierten spektralen
Komponente wird über jeweils einen Ausgang, der als Kanal bezeichnet wird, aus der Filterbank herausgeführt. Die Größe des Signals
bzw. der Spannung an den einzelnen Ausgängen gibt den Energieinhalt E über die Integrationszeit des Kanals K an, wie in Figur 1
dargestellt ist, wo beispielsweise 10 Kanäle angenommen sind. Dieses Energieverteilungsmuster wird allgemein von Zeitabschnitt
zu Zeitabschnitt wechseln, zumindest für einige Kanäle, wenn das Geräusch sich ändert.
703808/061 1
Die K Ausgänge 5 der Filterbank 3 sind in Figur 2 parallel mit einer Anzahl Must er detektor en 4 (1) bis 4 (n) verbunden. Jeder
Musterdetektor prüft die Spannungen der einzelnen Kanäle K, ob diese in dem Toleranzbereich zwischen einer unteren Schwelle fu
und einer oberen Schwelle fo liegen. In Figur 1 sind einige durch solche Schranken begrenzte Toleranzbereiche eingezeichnet,
wie sie in einem der Musterdetektoren beispielsweise vorhanden sein mögen, wobei nicht für Jeden Kanal ein solcher Toleranzbereich
angegeben ist, da es bei den verschiedenen Geräuschen erfahrungsgemäß meist einige Kanäle gibt, die für die Identifizierung
des Geräusches wenig aussagekräftig sind. Auf diese V7eise kann dann Aufwand eingespart werden und teilweise sogar die
Zuverlässigkeit der Erkennung erhöht werden. Aus der Figur 1
ist zu erkennen, daß die Signale für die Kanäle 2-4 und 7-9 innerhalb der zugehörigen Toleranzbereiche liegen, so daß dieser
Musterdetektor ein Ausgangssignal erzeugt. Wenn dagegen das
Signal nur eines Kanals nicht in dem Toleranzbereich liegen sollte, erzeugt der Musterdetektor bereits kein Ausgangssignal mehr.
Aus der Figur 1 ist auch zu erkennen, daß die einzelnen Toleranzbereiche für die verschiedenen Kanäle verschieden groß sind, da
insbesondere bei der Spracherkennung die Abweichungen der Signale in den verschiedenen Kanälen, die durch verschiedene Sprecher bedingt
sind, unterschiedlich groß sein können.
Ein Beispiel für den inneren Aufbau eines Musterdetektors 4 ist in Figur 3 dargestellt. Darin sind eine Anzahl Schwellwertschal-
709808/0611
ter 10 (1) bis 10 (m), deren Ausgänge A alle über ein UND-Glied 6
zusammengefaßt werden. Nur wenn die Ausgänge A aller Schwellwertdetektoren
10 (1) bis 10 (m) gleichzeitig ein positives Ausgangssignal erzeugen, erzeugt auch der Ausgang M des Mu&erdetektors 4
ein Ausgangssignal, wie dies vorher beschrieben wurde.
Der Eingang E jedes Schwellwertdetektors ist über einen Umschalter
mit einem der Ausgänge 5 der Filterbank 3 verbunden. Der Umschalter
ist dabei nicht mit allen Ausgängen verbunden, sondern der Schwellwertdetektor lO (1) ist nur mit den Kanälen mit den niedrigsten
Ordnungszahlen verbunden, der Schwellwertdetektor 10 (2) überlappend mit den nächsten Kanälen usw., bis der Schwellwertdetektor
10 (m) nur mit den Kanälen mit den höchsten Ordnungszahlen verbunden ist. Dies ist selbstverständlich nur dann sinnvoll,
wenn, wie vorher beschriften wurde, nicht für jeden Kanal ein Schwellwertdetektor 10 vorgesehen ist.
Jeder Schwellwertdetektor 10 enthält zwei Komparatoren V1 und V2,
rfiir die hier Operationsverstärker verwendet werden. Der mit dem
Zeichen + gekennzeichnete nichtinvertierende Eingang der Opera- . tionsverstärker ist mit dem Eingang E verbunden, während die mit
dem Zeichen - gekennzeichneten Eingänge Schwellspannungen erhalten, die durch die Reihenschaltung von zwei Widerständen R1 und
R2 und zwei Potentiometern P1 und P2 erzeugt werden. Durch Verändern des Potentiometers P2 wird die untere Schwellenspannung fu
eingestellt, während mit dem Potentiometer P1 der Abstand zwischen dieser Schwellenspannung und der oberen Schwellenspannung fo ein-
- 8 - 7 0 9808/0611
gestellt wird. Die Ausgangs signale der Komparatoren V1 und V2 werden über einige Bauelemente, die das Signal nicht logisch
verändern und deren Bedeutung später erläutert wird, einem Exclusiv-ODER-Glied G zugeführt, dessen Ausgang mit dem Ausgang A
des Schwellwertdetektors 10 verbunden ist.
Die grundsätzliche Funktion dieser Schaltung soll anhand der Figur 5a näher erläutert werden. Solange die Spannung a am Eingang
E unterhalb der unteren Schwellenspannung fu liegt, sind die Ausgangs signale b des Komparators Vt und c des Komparators V2
niedrig. Sobald die Eingangsspannung a die untere Schwellenspannung fu überschreitet, springt das Ausgangssignal c des Komparators
V2 auf einen hohen Wert, und das Exclusiv-ODER-Glied erzeugt ein hohes Ausgangssignal, wie in dem Signalverlauf d dargestellt
ist. Wenn die Eingangs spannung a weiter steigt und auch
die obere Schwellenspannung fo übersteigt, springt auch das Ausgangssignal
b des Komparators V1·auf einen hohen Wert, so daß das Exclusiv-ODER-Glied. G zwei hohe Eingangssignale erhält und
damit bekanntlich ein niedriges Ausgangssignal erzeugt. Am Ausgang
A wird also nur ein positives Signal erzeugt, solange die Eingangsspannung a einen Wert zwischen den beiden Schwellspannungen
fu und fo hat. Wenn die Eingangs spannung a wieder absinkt,
wird beim Durchlaufen des schraffierten Toleranzbereiches, der durch die beiden Schwellwerte begrenzt wird, wieder ein Ausgangssignal
erzeugt, in dem die Ausgangssignale der Komparatoren V1 und V2 nacheinander wieder auf einen niedrigen Wert zurückgehen,
wie aus Figur 5» ersichtlich ist.
709808/06 11 - 9 -
Da die für die Komparatoren V1 und V2 verwendeten Operationsverstärker
häufig höhere Betriebsspannungen benötigen als die nachfolgenden Logikschaltungen, muß deren Ausgangssignal, das nahezu
der Betriebsspannung entspricht, auf diesen niedrigeren Pegel begrenzt werden. Dies geschieht für den Komparator V1 mit den
Widerständen R3 und R5 und der Diode D1. Die Werte der Widerstände
werden so gewählt, daß bei einem hohen Ausgangssignal des Komparators
V1 die Eingangsspannung an der Schaltung S1 den maximal
zulässigen Wert nicht überschreitet, wobei die Diode D1 gesperrt und damit unwirksam ist. Bei einem negativen Ausgangssignal des
Komparators V1 ist die Diode D1 leitend und begrenzt die Spannung am Eingang der Schaltung S1 etwa auf Nullpotentioal. In gleicher
Weise wird das Ausgangssignal des Komparators V2 durch die Widerstände
R4 und R6 und die Diode D2 auf den Pegel der nachfolgenden Logikschaltungen begrenzt.
Die Schaltungen S1 und S2 sind Schmitt-Trigger, damit in dem Falle,
wenn die Eingangsspannung eine der beiden Schwellspannungen fu oder fo sehr flach schneidet und damit einen sehr flachen Übergang
des Ausgangssignals der Komparatoren erzeugt, die nachfolgenden Logikschaltungen Signale mit steilen Flanken erhalten.
Eine andere Ausführungsform des Schwellwertdetektors 10 ist in
Figur 4 dargestellt. Auch hier werden als Komparatoren V1 und V2
wieder Operationsverstärker verwendet, wobei der Eingang E jedoch bei dem oberen Komparator V1 mit dem invertierenden Eingang und
nur beim unteren Komparator Y2 mit dem nichtinvertierenden Ein-
709808/06 11 - 10 -
gang verbunden ist, Der jeweils andere Eingang der Komparatoren ist mit den Schwellspannungen fu bzw. fo verbunden, die in der
in Figur 3 dargestellten Weise erzeugt werden können. Die Ausgänge
der Komparatoren sind über ein UND-Glied aus den Dioden D 3 bzw. D4 mit einem Punkt P verbunden, der über einen Widerstand
R7 beispielsweise mit der positiven, hohen Betriebsspannung der Komparatoren V1 und V2 verbunden ist. Die Funktion
dieser Schaltung soll anhand von Figur 5b näher erläutert werden.
Solange die Spannung a am Eingang E unterhalb der unteren Spannungs·
stelle fu liegt, führt der Ausgang des Komparators V1 ein hohes Signal, wie in der Kurve e dargestellt ist, während der Ausgang
des Komparators V2 ein niedriges Signal entsprechend der Kurve c, die mit der in Figur 5a übereinstimmt, hat. Sobald die Eingangs-Spannung
a die untere Schwellspannung fu überschreitet, wird das Ausgangssignal des Komparators V2 auch positiv, und damit hat der
Punkt P ebenfalls ein positives Signal, wie in der Kurve d dargestellt ist. Wenn die Eingangs spannung β. dann weiter die obere
Schwellspannung fo überschreitet, wird die Ausgangs spannung des Komparators V1 negativ und damit auch die Spannung am Punkt P,
Wie beim Vergleich mit der Figur 5a zu erkennen ist, ergibt sich am Punkt P somit der gleiche Spannungsverlauf wie in der Schaltung
nach Figur 3 am Ausgang A, wobei das Signal am Punkt P zunächst jedoch den vollen Spannungshub wie die Ausgangssignale
der Komparatoren besitzt, und somit ebenfalls auf den niedrigeren Pegel der nachfolgenden Logikschaltungen angepaßt werden muß.
7 0 9808/06 11 - -11 -
Dies geschieht mit Hilfe der Diode D5 und des Widerstandes RB. Wenn beide Komparatoren ein hohes Ausgangssignal erzeugen, kann
die Spannung am Punkt P den Wert nicht überschreiten, der durch das Verhältnis der Widerstände R7 und R8 infolge der dann leitenden
Diode D5 bestimmt ist. Wenn jedoch ein Komparator ein negatives Ausgangssignal erzeugt, hat der Punkt P zwar ebenfalls
etwa dieses Signal, jedoch ist dann die Diode D5 gesperrt, und am Eingang der Schaltung S3 liegt dann infolge des Widerstandes
R8 etwa Nullpotential. Eine andere Möglichkeit, die maximale positive Spannung am Eingang der Schaltung S3 zu begrenzen, stellt
die Diode D6 dar, die über die gestrichelten Linien mit dem Punkt P und der Spannung u\j, die gleich der Versorgungsspannung der Logikbausteine
ist, verbunden ist. Durch diese Diode kann die Spannung am Punkt P nicht positiver werden- als diese Versorgungsspannung.
Eine weitere Möglichkeit besteht auch darin, den Widerstand R7 anstatt mit der Betriebsspannung der Komparatoren V1 und V2 mit
der Versorgungsspannung U^ der Logikbausteine zu verwenden. In
jedem Falle sind bei positivem Ausgangssignal der Komparatoren Y1 und V2 die Dioden D3 und D4 gesperrt. Dem Ausgang A des Schwellwertdetektors
10 ist wieder ein Schmitt-Trigger S3 vorgeschaltet, der in jedem Falle, wie vorher beschrieben, ein Ausgangssi@ial
mit steilen Flanken gewährleistet.
Auf diese Weise erzeugt also ein Musterdetektor 4 in Figur 2 ein Ausgangssignal, wenn alle angeschlossenen Ausgänge 5 der Filterbank
3 dem eingestellten Muster entsprechen. Für jedes zu erkennende
70 9808/06 11 - 12 -
Signalgrundmuster, bei der menschlichen Sprache sind es z.B. die Phoneme, ist ein solcher Musterdektor 4 vorgesehen.
Wenn nur einzelne verschiedene Geräusche erkannt werden sollen, . können die Ausgänge der Musterdetektoren direkt verwendet werden,
beispielsweise indem sie Anzeigeeinrichtungen ansteuern. Bei Signalfolgen, die aus mehreren aufeinanderfolgenden Grundmustern
bestehen, von denen jedes einzelne durch einen Musterdetektor erkannt wird, wird nach Figur 2 die Folge der erkannten Grundmuster
zweckmäßig in einem Speicher 8 zwischengespeichert. Dazu sind die Ausgänge der Musterdetektoren 4 mit einem Adressenmultiplexer
7 verbunden, der ein Ausgangssignal eines Musterdetektors in
eine Dualzahl umwandelt, die der Adresse (1) bis (n) des Musterdetektors entspricht, und diese Dualzahlen in einem Speicher 8
zuführt. Diese Dualzahl hat Id (n) Bit. Wenn also η Grundmuster
vorgesehen sind und die längste Folge von Grundmustern 1 ist (bei Sprache wäre 1 die größte Anzahl von Phonemen in einem zu
erkennenden Wort), so ist der benötigte Speicherbedarf des Speichers 8 Id (n) · 1 Bit. Bei der Spracherkennung ist η maximal
etwa 32 und 1 etwa 16, so daß die benötigte Speicherkapazität etwa 16 . 5 Bit ist.
Die Steuereinheit 9 steuert die zeitliche Folge des Abspeicherns. Bei dem ersten erkannten Grundmuster wird die Adresse des entsprechenden
Musterdetektors über den Adressenmultiplexer 7 in die erste Speicherstelle des Speichers 8 eingelesen. Danach schaltet
der Grundmusterzähler 9 um eine Position weiter und die Adresse
_ 1* 709808/061 1
des Musterdetektors, der das zweite Grundmuster erkennt, wird in die zweite Speicherstelle eingelesen. Dieser Vorgang kann sich Ms
1 mal wiederholen.
Die Folge dieser maximal 1 Dualzahlen gibt nun an, in welcher Reihenfolge die Grundmuster (bei der Spracherkennung die Phoneme)
in dem zu untersuchenden Signal aufgetreten sind,und gibt Aussage über das Wort, das aus diesen Grundmustern aufgebaut ist. Wenn
zum Beispiel der Musterdetektor 4 (1) ein "a" erkennt und der Musterdetektor
4 (7) den Nasallaut "n", so würde für das gesprochene Wort
"Anna" die Zahlenfolge 1, 7, 1 als Musterfolge abgespeichert werden.
Die Ziffernfolge wird dann in einen Rechner eingelesen und dort mit
den Häufigkeitsverteilungen für die Worte des Erkennungsvokabulars verglichen und entsprechend der Übereinstimmung dem richtigen Wort
zugeordnet.
Wie aus der vorstehenden Beschreibung hervorgeht, kann die Anordnung
sehr universell eingesetzt werden und beliebige Geräusche und Geräuschfolgen auch größerer Länge erkennen, wobei die Quelle der
Geräusche beliebig sein kann. Es können auch elektrische Signale damit untersucht werden, die nicht von akustischen Signalen abgeleitet
sind.
- 14 -
709808/06 11
Claims (7)
- PVE 02-270- 25366Λ0Patentansprüche. ordnung zur Erkennung von Geräuschen, insbesondere Sprache, bei der eine Filterbank das in ein elektrisches Signal umgewandelte Geräusch in eine Anzahl verschiedener Frequenzbänder aufteilt und die Energie des Signals über jeweils feste Zeitabschnitte an getrennten Ausgängen je Frequenzband ausgibt und eine an die Ausgänge angeschlossene Einrichtung die zeitliche Folge der Energieverteilungsmuster über die Frequenzbänder mit vorgegebenen ^ustern vergleicht, dadurch gekennzeichnet, daß eine Anzahl Musterdetektoren (4) vorgesehen ist, wobei jeder Musterdetektor an wenigstens einen Teil der Ausgänge (5) der Filterbank (3) angeschlossen ist, daß jeder Musterdetektor für jaden angeschlossenen Ausgang einen Schwellwertdetektor (10) enthält, der einen Signalpegel auf seinem Ausgang erzeugt, wenn das Signal auf dem angeschlossenen Aus.gang zwischen einem unteren (fu) und einem oberen (fo) Schwellwert liegt, daß in jedem Musterdetektor ein UND-Glied (6) die Ausgänge aller darin enthaltenen Schwellwertdetektoren zusammenfaßt und einen Signalpegel an seinem den Ausgang des Musterdetektors darstellenden Ausgang erzeugt, wenn an allen Ausgängen der Schwellwertdetektoren ein Signalpegel erzeugt ist, und daß eine an die Musterdetektoren angeschlossene Einrichtung (7,8,9) die zeitliche Folge der Signalpegel an den Ausgängen der Musterdetektoren speichert und einer Vergleichseinrichtung zuführt.
- 2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Schwellwerte (fu, fo) unabhängig voneinander einstellbar sind.709808/0611 - 15 -
- 3. Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeder Schwellwertdetektor (10) zwei Komparatoren C1» V2) enthält, von denen der eine auf den unteren Schwellwert (fu) und der andere auf den oberen Schwellwert (fo) eingestellt ist und die ein Ausgangssignal in der gleichen Polarität erzeugen, wenn das Signal auf dem angeschlossenen Ausgang (5) der FiI-- · terbank (3) den eingestellten Schwellwert überschreitet, und daß die Ausgänge der beiden Komparatoren mit einem Exclusiv-ODER-Glied (G) verbunden sind, dessen Ausgang den Ausgang des Schwellwertdetektors darstellt.
- 4. Anordnung nach Anspruch 3, dadurch gekennzeichnet, daß jedem Komparator (V1, V2) ein Schmitt-Trigger (S1, S2) naehgeschaltet ist.
- 5- Anordnung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß jeder Schwellwertde-cektor (10) zwei Komparatoren (V1, V2) enthält, von denen der eine auf den unteren Schwellwert (fu) und der andere auf den oberen Schwellwert (fo) eingestellt ist und die ein Ausgangssignal mit zueinander entgegengesetzter Polarittät erzeugen, wenn das Signal auf dem angeschlossenen Ausgang (5) der Filterbank (3) den eingestellten Schwellwert überschreitet, und daß die Ausgänge der beiden Komparatoren mit einem UND-Glied (D3, D4, R7) verbunden sind, dessen Ausgang den Ausgang des Schwellwertdetektors darstellt.709808/061 1- 16 -
- 6. Anordnung nach Anspruch 5, dadurch gekennzeichnet, daß dem UND-Glied (D3, D4, H?) ein Schmitt-Trigger (S3) nachgeschaltet ist.
- 7. Anordnung nach Anspruch 1 oder einem der folgenden, dadurch gekennzeichnet, daß jedem Musterdetektor (4) eine Adresse (n) zugeordnet ist und ein Speicher (8) die Adressen der Musterdetektoren, die ein Ausgangssignal abgeben, codiert speichert und die codierten Adressenfolgen einer E inrichtung zum Vergleich mit vorgegebenen Musterfolgen zuführt.709808/06 11
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2536640A DE2536640C3 (de) | 1975-08-16 | 1975-08-16 | Anordnung zur Erkennung von Geräuschen |
GB33772/76A GB1562995A (en) | 1975-08-16 | 1976-08-13 | Arrangement for recognizing sounds |
JP51096193A JPS5854400B2 (ja) | 1975-08-16 | 1976-08-13 | 音声認識装置 |
ES450719A ES450719A1 (es) | 1975-08-16 | 1976-08-14 | Una disposicion para uso en el reconocimiento de sonidos. |
FR7624875A FR2321739A1 (fr) | 1975-08-16 | 1976-08-16 | Dispositif pour l'identification de bruits, en particulier de signaux de parole |
US06/301,869 US4432096A (en) | 1975-08-16 | 1981-09-14 | Arrangement for recognizing sounds |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2536640A DE2536640C3 (de) | 1975-08-16 | 1975-08-16 | Anordnung zur Erkennung von Geräuschen |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2536640A1 true DE2536640A1 (de) | 1977-02-24 |
DE2536640B2 DE2536640B2 (de) | 1979-02-08 |
DE2536640C3 DE2536640C3 (de) | 1979-10-11 |
Family
ID=5954186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2536640A Expired DE2536640C3 (de) | 1975-08-16 | 1975-08-16 | Anordnung zur Erkennung von Geräuschen |
Country Status (6)
Country | Link |
---|---|
US (1) | US4432096A (de) |
JP (1) | JPS5854400B2 (de) |
DE (1) | DE2536640C3 (de) |
ES (1) | ES450719A1 (de) |
FR (1) | FR2321739A1 (de) |
GB (1) | GB1562995A (de) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2919228C2 (de) * | 1977-01-31 | 1983-07-28 | Gert Heinz Manfred 4000 Düsseldorf Kölchens | Akustisch fernbedienbarer Schalter |
FR2380612A1 (fr) * | 1977-02-09 | 1978-09-08 | Thomson Csf | Dispositif de discrimination des signaux de parole et systeme d'alternat comportant un tel dispositif |
DE2939077A1 (de) * | 1979-09-27 | 1981-04-09 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zum bestimmen charakteristischer werte aus einem geraeuschsignal |
US4370521A (en) * | 1980-12-19 | 1983-01-25 | Bell Telephone Laboratories, Incorporated | Endpoint detector |
JPS57201300A (en) * | 1981-06-05 | 1982-12-09 | Hitachi Ltd | Voice recognizer |
CH645501GA3 (de) * | 1981-07-24 | 1984-10-15 | ||
JPS603700A (ja) * | 1983-06-22 | 1985-01-10 | 日本電気株式会社 | 音声検出方式 |
DE3407644A1 (de) * | 1984-03-01 | 1985-09-12 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur bewertung der aehnlichkeit jeweils zweier digital dargestellter zahlenfolgen, insbesondere funktionskurven |
GB2158980B (en) * | 1984-03-23 | 1989-01-05 | Ricoh Kk | Extraction of phonemic information |
US4805225A (en) * | 1986-11-06 | 1989-02-14 | The Research Foundation Of The State University Of New York | Pattern recognition method and apparatus |
US4843562A (en) | 1987-06-24 | 1989-06-27 | Broadcast Data Systems Limited Partnership | Broadcast information classification system and method |
US4910784A (en) * | 1987-07-30 | 1990-03-20 | Texas Instruments Incorporated | Low cost speech recognition system and method |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
JP2890831B2 (ja) * | 1990-11-28 | 1999-05-17 | ヤマハ株式会社 | Midiコード作成装置 |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US7171016B1 (en) | 1993-11-18 | 2007-01-30 | Digimarc Corporation | Method for monitoring internet dissemination of image, video and/or audio files |
US5519824A (en) * | 1994-03-18 | 1996-05-21 | Timex Corporation | System and method for storing and displaying font data representing fixed-width and compressed characters |
US6560349B1 (en) * | 1994-10-21 | 2003-05-06 | Digimarc Corporation | Audio monitoring using steganographic information |
US8094949B1 (en) | 1994-10-21 | 2012-01-10 | Digimarc Corporation | Music methods and systems |
US7486799B2 (en) * | 1995-05-08 | 2009-02-03 | Digimarc Corporation | Methods for monitoring audio and images on the internet |
US7562392B1 (en) | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
US6505160B1 (en) | 1995-07-27 | 2003-01-07 | Digimarc Corporation | Connected audio and other media objects |
US6829368B2 (en) * | 2000-01-26 | 2004-12-07 | Digimarc Corporation | Establishing and interacting with on-line media collections using identifiers in media signals |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US8180844B1 (en) | 2000-03-18 | 2012-05-15 | Digimarc Corporation | System for linking from objects to remote resources |
US7689532B1 (en) | 2000-07-20 | 2010-03-30 | Digimarc Corporation | Using embedded data with file sharing |
US8095796B2 (en) * | 1999-05-19 | 2012-01-10 | Digimarc Corporation | Content identifiers |
US7302574B2 (en) * | 1999-05-19 | 2007-11-27 | Digimarc Corporation | Content identifiers triggering corresponding responses through collaborative processing |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
CA2809775C (en) * | 1999-10-27 | 2017-03-21 | The Nielsen Company (Us), Llc | Audio signature extraction and correlation |
US7035873B2 (en) * | 2001-08-20 | 2006-04-25 | Microsoft Corporation | System and methods for providing adaptive media property classification |
US6963975B1 (en) * | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
KR100349656B1 (ko) * | 2000-12-20 | 2002-08-24 | 한국전자통신연구원 | 다수의 하위 음성검출 시스템을 이용한 음성검출 장치 및그 방법 |
WO2002051063A1 (en) | 2000-12-21 | 2002-06-27 | Digimarc Corporation | Methods, apparatus and programs for generating and utilizing content signatures |
US7046819B2 (en) * | 2001-04-25 | 2006-05-16 | Digimarc Corporation | Encoded reference signal for digital watermarks |
WO2003009277A2 (en) * | 2001-07-20 | 2003-01-30 | Gracenote, Inc. | Automatic identification of sound recordings |
US20040091111A1 (en) * | 2002-07-16 | 2004-05-13 | Levy Kenneth L. | Digital watermarking and fingerprinting applications |
US20070256499A1 (en) * | 2006-04-21 | 2007-11-08 | Pelecanos Jason W | Machine and operating environment diagnostics, detection and profiling using sound |
US20080051029A1 (en) * | 2006-08-25 | 2008-02-28 | Bradley James Witteman | Phone-based broadcast audio identification |
AU2008218716B2 (en) | 2007-02-20 | 2012-05-10 | The Nielsen Company (Us), Llc | Methods and apparatus for characterizing media |
WO2008137385A2 (en) | 2007-05-02 | 2008-11-13 | Nielsen Media Research, Inc. | Methods and apparatus for generating signatures |
CA2858944C (en) | 2007-11-12 | 2017-08-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
DE102007056221B4 (de) * | 2007-11-27 | 2009-07-09 | Siemens Ag Österreich | Verfahren zur Spracherkennung |
US8457951B2 (en) | 2008-01-29 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for performing variable black length watermarking of media |
CN102982810B (zh) * | 2008-03-05 | 2016-01-13 | 尼尔森(美国)有限公司 | 生成签名的方法和装置 |
WO2010135623A1 (en) | 2009-05-21 | 2010-11-25 | Digimarc Corporation | Robust signatures derived from local nonlinear filters |
US20140025385A1 (en) * | 2010-12-30 | 2014-01-23 | Nokia Corporation | Method, Apparatus and Computer Program Product for Emotion Detection |
US9536517B2 (en) * | 2011-11-18 | 2017-01-03 | At&T Intellectual Property I, L.P. | System and method for crowd-sourced data labeling |
US11489691B2 (en) | 2017-07-12 | 2022-11-01 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
US10930276B2 (en) | 2017-07-12 | 2021-02-23 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2575909A (en) * | 1949-07-01 | 1951-11-20 | Bell Telephone Labor Inc | Voice-operated system |
US3683284A (en) * | 1968-06-25 | 1972-08-08 | Picker Corp | Pulse height analyzer |
US3755627A (en) * | 1971-12-22 | 1973-08-28 | Us Navy | Programmable feature extractor and speech recognizer |
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
-
1975
- 1975-08-16 DE DE2536640A patent/DE2536640C3/de not_active Expired
-
1976
- 1976-08-13 JP JP51096193A patent/JPS5854400B2/ja not_active Expired
- 1976-08-13 GB GB33772/76A patent/GB1562995A/en not_active Expired
- 1976-08-14 ES ES450719A patent/ES450719A1/es not_active Expired
- 1976-08-16 FR FR7624875A patent/FR2321739A1/fr active Granted
-
1981
- 1981-09-14 US US06/301,869 patent/US4432096A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB1562995A (en) | 1980-03-19 |
FR2321739A1 (fr) | 1977-03-18 |
DE2536640C3 (de) | 1979-10-11 |
ES450719A1 (es) | 1977-09-01 |
FR2321739B1 (de) | 1983-02-04 |
DE2536640B2 (de) | 1979-02-08 |
JPS5242007A (en) | 1977-04-01 |
JPS5854400B2 (ja) | 1983-12-05 |
US4432096A (en) | 1984-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2536640A1 (de) | Anordnung zur erkennung von geraeuschen | |
EP0296588B1 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE2536585C3 (de) | Anordnung zur statistischen Signalanalyse | |
DE3901636C2 (de) | ||
DE2357067C3 (de) | Elektrische Schaltungsanordnung in Verbindung mit einer Spracherkennungseinrichtung | |
DE102012204960A1 (de) | Interlockdetektor mit Selbstdiagnosefunktion für einen Interlockkreis und ein Verfahren zur Selbstdiagnose des Interlockdetektors | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE19648078A1 (de) | Verfahren und Vorrichtung zur Interrupterzeugung | |
DE2111072A1 (de) | Verfahren und Vorrichtung zum Unterscheiden zwischen Sprache und Rauschen | |
DE4325404C2 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen | |
DE3936932A1 (de) | Triggersignalerzeuger fuer oszilloskope | |
EP1212751B1 (de) | Verfahren zur unterdrückung von störrauschen in einem signalfeld | |
EP0840230B1 (de) | Vorrichtung und Verfahren zur Selektion von Adressenwörtern mittels Demultiplex-Decodierung | |
DE2130975C3 (de) | Schaltungsanordnung zum Empfang von Mehrfrequenzsignalen | |
DE19906118A1 (de) | Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen | |
DE19860465A1 (de) | Verfahren und Vorrichtung zur Kodierung der Adressen von baugleichen Funktionseinheiten | |
EP0103711B1 (de) | Vorrichtung zur Auswertung eines Datenwortes | |
DE2834751C2 (de) | ||
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE2555248C2 (de) | Anordnung zum selbsttätigen Erkennen von Informationen | |
DE2363590A1 (de) | Spracherkennungssystem mit merkmalsfolgekodierung | |
EP0964391A2 (de) | Vorrichtung zur Verifizierung von Signalen | |
DE2848943C2 (de) | Anordnung zum stochastischen Kodieren von mindestens zwei Größen | |
EP0629048A2 (de) | Anordnung zur Analog/Digital-Wandlung von Signalen mit unterschiedlichem Signalpegel | |
DE102020003669A1 (de) | Verfahren zum Prüfen einer Schalleingabevorrichtung auf eine Manipulation, Steuereinrichtung eingerichtet zur Durchführung eines solchen Verfahrens, Schalleingabevorrichtung mit einer solchen Steuereinrichtung und Kraftfahrzeug mit einer solchen Schalleingabevorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |