DE69722980T2 - Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen - Google Patents

Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen Download PDF

Info

Publication number
DE69722980T2
DE69722980T2 DE69722980T DE69722980T DE69722980T2 DE 69722980 T2 DE69722980 T2 DE 69722980T2 DE 69722980 T DE69722980 T DE 69722980T DE 69722980 T DE69722980 T DE 69722980T DE 69722980 T2 DE69722980 T2 DE 69722980T2
Authority
DE
Germany
Prior art keywords
speech
classes
data
language
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69722980T
Other languages
English (en)
Other versions
DE69722980D1 (de
Inventor
Lalit Rai Amawalk Bahl
Ponani Yorktown Heights Gopalakrishnan
Ramesh Ambat White Plains Gopinath
Stephane Herman Danbury Maes
Mukund Ossining Panmanabhan
Lazaros White Plains Polymenakos
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE69722980D1 publication Critical patent/DE69722980D1/de
Application granted granted Critical
Publication of DE69722980T2 publication Critical patent/DE69722980T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Description

  • Die vorliegende Erfindung betrifft die Aufzeichnung von Daten, die Sprache in einer oder mehreren Umgebungen sowie sprachfremde Daten enthalten.
  • Spracherkennung stellt einen wichtigen Aspekt bei der Entwicklung des Zusammenwirkens zwischen Mensch und Maschine dar. Das Endziel bei der Entwicklung von Spracherkennungssystemen besteht darin, die Tastaturschnittstelle von Computern durch Spracheingabe zu ersetzen. Zu diesem Zweck sind verschiedene Systeme entwickelt worden; diese Systeme konzentrieren sich jedoch üblicherweise auf die Verringerung der Aufzeichnungsfehlerrate bei relativ reinen Daten in einer kontrollierten und konstanten Umgebung, d. h., der Sprecher spricht relativ deutlich in einer leisen Umgebung. Obwohl dies bei Anwendungen wie dem Aufzeichnen von Diktaten keineswegs eine praxisferne Annahme darstellt, gibt es diverse reale Situationen, für die sich diese Annahmen nicht eignen, d. h., die Umgebungsbedingungen sind zu laut oder/oder wechseln rasch. Da das Endziel der Forschungen zur Spracherkennung in der universellen Anwendbarkeit von Spracherkennungssystemen unter realen Bedingungen besteht (z. B. an Informationsständen, bei der Aufzeichnung von Rundfunksendungen usw.), ist es erforderlich, Spracherkennungssysteme zu entwickeln, die unter diesen nichtidealen Bedingungen funktionieren. Zum Beispiel wechseln im Falle von Rundfunksendungen Sprachsegmente des Ansagers und der Korrespondenten (die entweder relativ rein sind oder Hintergrundmusik enthalten) mit Musik und Interviews mit Personen (eventuell per Telefon und möglicherweise in einer Geräuschkulisse) ab.
  • Ein Spracherkennungssystem zum Decodieren reiner Sprache könnte dazu dienen, diese unterschiedlichen Datenklassen zu decodieren, würde jedoch zu einer sehr hohen Fehlerrate führen, wenn alle Datenklassen außer der reinen Sprache aufgezeichnet werden. Wenn diese Systeme zum Beispiel zum Decodieren eines Segments mit reiner Musik verwendet würden, erhielte man eine Wortfolge, obwohl die Eingabedaten tatsächlich keine Sprache enthalten, was zu einer hohen Rate fehlerhafter Einfügungen führt. Eine Möglichkeit zur Lösung dieses Problems besteht in der Verwendung eines „Murmelsprache"-Modells in der Spracherkennungseinheit. Dieses Murmelsprache-Modell ist so beschaffen, dass es den geräuschähnlichen Anteil der akustischen Eingabe erkennt und so einige der fehlerhaften Einfügungen verhindern kann. Die durch dieses Verfahren erreichte Leistungssteigerung ist jedoch begrenzt.
  • In „Speech and Channel Codec Candidate for the Half Rate Digital Cellular Channel", PROCEEDINGS OF ICASSP'94, ADELAIDE, 19. April 1994, Bd. 1, S. 265 bis 268, von SWAMINATHAN ET AL. wird eine Sprach-Codeausführung nach dem Stand der Technik beschrieben, welches die Modusauswahl und die anregungsgesteuerte Modellierung von Daten umfasst, die Sprache und Hintergrundgeräusche enthalten.
  • Gemäß der durch die Ansprüche 1 bis 24 definierten vorliegenden Erfindung wird nun ein Verfahren zum Aufzeichnen eines Datensegments bereitgestellt, welches Sprache in einer oder mehreren Umgebungen und sprachfremde Daten enthält und Folgendes umfasst: Eingeben der Daten in einen Segmentierer und Erzeugen einer Reihe von Segmenten, wobei jedem Segment ein aus einer vorgegebenen Menge von Klassen ausgewählter Typkennzeichner zugewiesen wird; Aufzeichnen jedes mit einem Typkennzeichner versehenen Segments unter Verwendung eines speziell für diesen Typ geschaffenen Systems.
  • Wenn man die vorliegende Erfindung unter einem anderen Gesichtspunkt betrachtet, kann man sagen, dass jetzt ein System zum Aufzeichnen eines Datensegments bereitgestellt wird, das Sprache in einer oder mehreren Umgebungen und sprachfremde Daten enthält und Folgendes umfasst: Ein Mittel zum Eingeben der Daten in einen Segmentierer und Erzeugen einer Reihe von Segmenten, wobei jedem Segment ein aus einer vorgegebenen Menge von Klassen ausgewählter Typkennzeichner zugewiesen wird; ein Mittel zum Aufzeichnen jedes mit einem Typkennzeichner versehenen Segments unter Verwendung eines speziell für diesen Typ geschaffenen Systems.
  • In einer bevorzugten Ausführungsart der vorliegenden Erfindung wird eine alternative Möglichkeit zur Behandlung des Problems bereitgestellt, bei der der erste Schritt darin besteht, jede der einzelnen Klassen in den Eingabedaten automatisch zu kennzeichnen und dann eine andere Spracherkennungseinheit zum Aufzeichnen der einzelnen Klassen der Eingabedaten zu verwenden. Dadurch wird die Systemleistung für alle Datenklassen erheblich verbessert.
  • Bei einer bevorzugten Ausführungsart der vorliegenden Erfindung wird jede Datenklasse durch ein speziell hierfür bestimmtes System aufgezeichnet. Diese Systeme entstehen durch Umwandlung der Übungsdaten, mittels derer das Spracherkennungssystem trainiert wurde, so dass es die akustische Umgebung der Klasse erkennt. Zum Beispiel besteht das Hauptkennzeichen von Telefonsprache darin, dass sie auf ein Frequenzband von 300 bis 3700 Hz beschränkt ist, während die reinen Übungsdaten eine größere Bandbreite besitzen. Daher werden die Übungsdaten auf eine Bandbreite von 300 bis 3700 Hz beschränkt, um sie zu umzuwandeln und so besser an Sprache von Telefonqualität anzupassen, und das Spracherkennungssystem wird mittels dieser umgewandelten Daten trainiert. Desgleichen wird im Falle musikgestörter Sprache zu den reinen Übungsdaten reine Musik hinzugefügt, und das Spracherkennungssystem wird mittels der musikgestörten Übungsdaten trainiert.
  • Bevorzugte Ausführungsarten der vorliegenden Erfindung stellen ein Verfahren zur Verbesserung der Erkennungsgenauigkeit beim Aufzeichnen von Sprachdaten bereit, die Daten aus einer Vielzahl von Umgebungen wie zum Beispiel Rundfunknachrichtensendungen enthalten. Diese Segmentierungsprozedur erfolgt unkontrolliert, da die Sprachdaten hierfür nicht in Schriftform vorliegen müssen. Rundfunknachrichtensendungen enthalten üblicherweise Daten aus verschiedenartigen Quellen in unterschiedlichen Umgebungen. Eine grobe (und sehr zutreffende) Einteilung von Sprachdaten ergibt die folgenden Klassen: Reine Sprache, geräuschgestörte Sprache (bei Rundfunknachrichten kann dies Hintergrundmusik sein), reine Geräusche (oder Musik) ohne Sprache, Telefoninterviews und schließlich Sprache in einer ungleichmäßigen Geräuschumgebung. Üblicherweise werden Spracherkennungssysteme mittels reiner Sprache trainiert; wenn dieses System jedoch zum Decodieren der Daten aus anderen Klassen eingesetzt wird, erzielt man nur eine sehr geringe Erkennungsleistung.
  • Bei einer bevorzugten Ausführungsart der vorliegenden Erfindung werden zuerst automatisch verschiedene Datenklassen gekennzeichnet, worauf dann jede Klasse durch ein für diese jeweils speziell entwickeltes System aufgezeichnet wird. Bei einer bevorzugten Ausführungsart der vorliegenden Erfindung wird ein Segmentierungsalgorithmus bereitgestellt, der auf der Schaffung eines akustischen Modells zur Kennzeichnung der Daten in jeder Klasse und der anschließenden Verwendung eines dynamischen Programmierungsalgorithmus (des Viterbi-Algorithmus) basiert, um die zu jeder Klasse gehörenden Segmente automatisch zu kennzeichnen. Die akustischen Modelle werden in einem bestimmten Merkmalraum erstellt, die Erfindung beschreibt aber auch verschiedene Merkmalräume zur Verwendung für verschiedene Klassen.
  • Im Folgenden werden in Form eines Beispiels bevorzugte Ausführungsarten der vorliegenden Erfindung unter Bezug auf die beiliegenden Zeichnungen beschrieben, in denen:
  • 1 ein linearer Segment-Klassifizierungsbaum für eine bevorzugte Ausführungsart der vorliegenden Erfindung ist;
  • 2 ein Klassifizierer nach dem Hidden-Markov-Modell für eine bevorzugte Ausführungsart der verliegenden Erfindung ist;
  • 3 ein. paralleler Segment-Klassifizierungsbaum für eine bevorzugte Ausführungsart der vorliegenden Erfindung ist;
  • 4 und 4a Hidden-Markov-Modelle zum Klassifizieren von segmentierter Sprache, die einem aus einer Vielzahl bekannter Sprecher entspricht, bei einer bevorzugten Ausführungsart der vorliegenden Erfindung sind;
  • 5 ein Blockschaltbild des Systems einer bevorzugten Ausführungsart der vorliegenden Erfindung ist;
  • 6 ein Flussdiagramm einer Ausführungsart der vorliegenden Erfindung ist;
  • 7(a) ein Flussdiagramm ist, welches das Einfügen eines Codeverzeichnisses bei einer bevorzugten Ausführungsart der vorliegenden Erfindung veranschaulicht; und,
  • 7(b) ein Flussdiagramm ist, das eine Segmentierungsprozedur bei einer bevorzugten Ausführungsart der vorliegenden Erfindung beschreibt.
  • Es wird ein Verfahren zur Verbesserung der Erkennungsgenauigkeit beim Aufzeichnen von Sprachdaten beschrieben, die Daten aus einer Vielzahl von Umgebungen wie zum Beispiel Rundfunknachrichtensendungen enthalten. Die hier betrachteten speziellen Klassen beziehen sich auf die Rundfunknachrichtensendung, jedoch können zum Verarbeiten anderer Situationen, bei denen Sprache aus verschiedenen Umgebungen und sprachfremde Klänge beteiligt sind, ähnliche Verfahren verwendet werden. Rundfunknachrichtensendungen enthalten Daten aus einer Vielzahl von Quellen in verschiedenen Umgebungen, und eine grobe Einteilung dieser Typen sieht wie folgt aus: Reine Sprache, durch Hintergrundmusik gestörte Sprache, reine Musik ohne Sprache, per Telefon geführte Interviews und schließlich Sprache in einer ungleichmäßigen Geräuschumgebung. Ferner kann man die obigen Kategorien weiter in Unterkategorien unterteilen, zum Beispiel kann die Klasse der reinen Sprache anhand der Person des Sprechers oder anderer Mikrofontypen usw. unterteilt werden. Die oben beschriebenen Kategorien sind jedoch insofern am wichtigsten, als die obige Einteilung ausreichend ist, um eine deutliche Leistungsverbesserung zu bewirken.
  • Bei einer bevorzugten Ausführungsart der vorliegenden Erfindung wird die Spracheingabe in eine zeitliche Folge von Merkmalvektoren s1, ... , sT umgewandelt, und die Zielstellung besteht jetzt darin, jedem der Merkmalvektoren eine der oben erwähnten Klassen zuzuordnen. Da aufeinanderfolgende Merkmalvektoren in sehr kurzen Zeitabständen (ca. 10 ms) aus der Spracheingabe extrahiert werden, kann es passieren, dass einem Segment von benachbarten Merkmalvektoren dieselbe Kennung zugeordnet wird. Bei der hier beschriebenen Ausführung ist es auch möglich, diese Bedingung einzuhalten, d. h., dass eine Gruppe von benachbarten Merkmalvektoren, denen dieselbe Kennung zugeordnet wird, mindestens genauso lang oder länger als ein bestimmter Mindestwert ist. Es wird angenommen, dass die Übungsdaten markiert sind, d. h. jede Folge von Merkmalvektoren, die die Übungsdaten darstellen, durch einen Klassenkennzeichner markiert wurde, und dass ferner für jede Klasse ausreichend Daten vorliegen, um für die Klasse ein Modell erstellen zu können.
  • Eines der vorliegenden Probleme besteht darin, einen Merkmalvektor zu finden, mittels dessen sich verschiedene Klassen leicht unterscheiden lassen und der verschieden von dem für den Spracherkennungsprozess verwendeten Merkmalvektor sein kann. Es kann auch der Fall vorliegen, dass zum Trennen unterschiedlicher Klassen verschiedene Merkmalvektoren erforderlich sind. Unter solchen Umständen ist es einfacher, die Segmentierung entsprechend dem in 1 gezeigten Hierarchiebaum vorzunehmen, bei dem auf jeder Ebene des Baums die Daten einer Klasse gekennzeichnet sind. Dadurch wird auch die Verwendung verschiedener Merkmalvektoren auf unterschiedlichen Ebenen des Baums ermöglicht. Der Merkmalvektor f1 in 1 wird beispielsweise zum Kennzeichnen zur Klasse c1 gehöriger Segmente und f2 zum Kennzeichnen zur Klasse c2 gehöriger Segmente usw. verwendet.
  • Die Segmentierung erfolgt auf jeder Ebene des Baums in folgender weise: Auf jeder Ebene des Baums wird für jeden Merkmalvektor der Spracheingabe eine Binärentscheidung getroffen, d. h., ob der Merkmalvektor zu einer speziellen Klasse gehört oder nicht. Der erste Schritt hierfür besteht darin, Modelle zu erstellen, die die Verteilung des Merkmalvektors für jede Klasse darstellen. Dies kann man erreichen, indem man die Merkmalvektoren der Übungsdaten, welche durch Kennungen der jeweiligen Klasse markiert sind, zusammenfasst und daraus ein Modell Mc erstellt, das ein Gemisch von Gauß-Verteilungen Gc,i (mit i = 1,..., k1) umfasst, wobei μc,i, λc,i die Mittelwerte und die Kovarianzmatrizen der Gauß-Verteilungen darstellen. Derselben Prozedur kann man sich zum Erstellen eines Modells Mc für Daten bedienen, die nicht zu der Klasse gehören. In diesem Gemisch sollen Gc,i (mit i = 1, ... , k2) die Gauß-Verteilungen und μc,i, λc,i die Mittelwerte und die Kovarianzmatrizen dieser Gauß-Verteilungen darstellen.
  • Im Folgenden wird die Annahme zugrundegelegt, dass der Eingabemerkmalvektor durch eines dieser Modelle erzeugt wurde, und die Aufgabe besteht nun darin, ihm die Kennung desjenigen Modells zuzuordnen, durch das er die höchste Wahrscheinlichkeit erhält. Die Wahrscheinlichkeit des Eingabemerkmalvektors xt, zu der jeweiligen Klasse zu gehören, wird durch P(xt/Mc) und die Wahrscheinlichkeit, nicht zu dieser Klasse zu gehören, durch P(xt/Mc) angegeben. Ferner soll die oben erwähnte Bedingung der Mindestlänge eingeführt werden, d. h., dass die Anzahl benachbarter Merkmalvektoren, denen dieselbe Kennung zugeordnet wurde, mindestens einen vorgegebenen Wert besitzen muss. Dies wird dadurch erreicht, dass man zur Erzeugung der Eingabedaten ein Hidden-Markov-Modell (HMM) gemäß 2 annimmt. Der obere Pfad des Modells entspricht den zu der angegebenen Klasse gehörenden Eingabedaten, und die Wahrscheinlichkeitsverteilung der Zweige c1 bis cN ist durch Mc gegeben. Der untere Pfad entspricht den nicht zu der angegebenen Klasse gehörenden Eingabedaten, und die Wahrscheinlichkeitsverteilung der Zweige c 1 bis c M ist durch Mc gegeben. Durch die Mindestlängen N und M der beiden Pfade wird sichergestellt, dass die Anzahl der benachbarten Merkmalvektoren, die entweder der Klasse zugeordnet werden oder nicht zugeordnet werden, größer als M bzw. N ist. Der Viterbi-Algorithmus dient dazu, einen Pfad durch das Trellis-Netz zu bahnen, die dem Modell in 2 entspricht, und Gruppen von benachbarten Eingabemerkmalvektoren einen Klassenkennzeichner c oder c zuzuordnen.
  • Bei der Verarbeitung von Rundfunknachrichten wurde die erste Ebene des Baums in 1 dazu verwendet, reine Musiksegmente von den übrigen Daten zu trennen. Bis hierhin ist der Merkmalvektor f, der bei der oben beschriebenen Prozedur verwendet werden muss, noch nicht festgelegt worden. Zur Kennzeichnung von Musik gibt es verschiedene Merkmale, die einzeln oder als Kombination zur Bildung des Merkmalvektors f1 von 1 verwendet werden können.
  • Alle 10 ms wird ein Fenster (als Rahmen bezeichnet) der Spracheingabe erfasst und für jeden Rahmen ein Merkmalvektor erzeugt. Üblicherweise besteht der erste Schritt während des Extrahierungsschrittes eines Merkmalvektors in der Berechnung der Energie oder des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern. Eines der Merkmale von Musik ist, dass bei ihr die Energie in jedem Band ungefähr gleich ist. Daher kann als Merkmal zur Kennzeichnung von Musik deren Energieverteilung über die verschiedenen Bänder in einem Rahmen dienen. Ein anderes Merkmal zur Unterscheidung der Musik von Sprache ist der zeitliche Verlauf der Tonhöhe des Signals. Die Tonhöhe eines Sprachsignals schwankt stark um den Mittelwert, während die Tonhöhe eines Musiksignals zeitlich relativ konstant bleibt. Daher kann als weiteres Merkmal zur Unterscheidung der Musik von Sprache der Mittelwert und die zeitliche Schwankung der Tonhöhe dienen. Als drittes Merkmal kann das Cepstrum oder eine Linearkombination der Cepstra mehrerer Rahmen dienen. (Die Cepstra erhält man durch Anwenden der diskreten Fouriertransformation auf einen Vektor, dessen Elemente die Energiewerte in den logarithmisch abgestuften Frequenzbändern umfassen). Eine weitere Möglichkeit besteht darin, mit einer Kombination der oben genannten Merkmale zu beginnen und dann eine lineare Diskriminante zu berechnen (siehe P. O. Duda und P. E. Hart, „Pattern Classification and Scene Analysis", Wiley, New York, 1973), um Musik und Sprache voneinander zu trennen (da nur zwei Klassen unterschieden werden müssen, kann man nur einen Diskriminantenvektor finden, der die beiden Klassen maximal voneinander trennt).
  • Nach dem Entfernen der reinen Musiksegmente wird auf der nächsten Ebene in 1 die Telefonsprache von normaler Sprache getrennt. Telefonsprache ist wie oben erwähnt durch eine Bandbreite von 300 bis 3700 Hz gekennzeichnet, während normale reine Sprache eine wesentlich größere Bandbreite (z. B. 0–8000 Hz) aufweist. Daher kann das Verhältnis zwischen der Energie in dem Frequenzband 300–3700 Hz und der Energie außerhalb dieses Bandes als Merkmal zur Trennung von Telefonsprache und normaler Sprache verwendet werden. Alternative oder zusätzliche Möglichkeiten sind die Cepstra und deren lineare Diskriminanten, wie sie oben für den Fall der reinen Musik erwähnt wurden.
  • Die dritte Ebene in dem Baum von 1 trennt aus der Sprache mit einem Geräuschhintergrund die reine Sprache ab. Ein Merkmal, das die Sprache kennzeichnet, sind ihre starken zeitlichen Schwankungen, während die Schwankungen bei geräuschunterlegter Sprache wesentlich geringer sind. Deshalb können die zeitlichen Energieschwankungen als ein mögliches Merkmal zur Trennung von reiner und geräuschunterlegter Sprache dienen. Ebenso wie bei den obigen Fällen stellen die Cepstra und deren lineare Diskriminanten alternative oder zusätzliche Möglichkeiten dar.
  • Nach der Kennzeichnung der reinen Sprachsegmente kann man versuchen, diese weiter nach der Person des Sprechers oder nach dem verwendeten Mikrofontyp usw. zu unterteilen. Die hier verwendete Segmentierungsprozedur ist der in der oberen Baumhierarchie verwendeten bis auf die Tatsache identisch, dass die Aufteilung auf dieser Stufe nicht mehr binär erfolgt. Wenn zum Beispiel die reine Sprache nach einem der Sprecher A, B, C oder einem unbekannten Sprecher unterteilt werden soll, entspräche die Baumhierarchie der in 3 gezeigten, und das zugrundeliegende HHM entspräche 4. Somit hat der Zweig a1 bis am eine Wahrscheinlichkeitsverteilung, die den Sprecher A kennzeichnet, der Zweig b1 bis bn eine Wahrscheinlichkeitsverteilung, die den Sprecher B kennzeichnet und so weiter, und d1 bis dp eine Wahrscheinlichkeitsverteilung, die den unbekannten Sprecher kennzeichnet; dies stellt ein sprecherunabhängiges Modell dar.
  • Wenn für die zu segmentierende reine Sprache eine Aufzeichnung zur Verfügung steht, kann man diese zur weiteren Verbesserung der Segmentierung einsetzen. Im diesem Fall wird das Modell für jeden Sprecher durch Kombination einer Anzahl von Teilmodellen erzeugt, wobei jedes Teilmodell die Aussprache einer phonetischen Klasse durch den Sprecher kennzeichnet. Wenn es K phonetische Klassen gibt, setzt sich zum Beispiel jedes Sprechermodell MS aus einem Gemisch von Teilmodellen zusammen (eine Gauß-Verteilung ist ein Beispiel für ein Teilmodell), wobei jedes Teilmodell einer phonetischen Klasse entspricht.
  • Die Spracheingabe wird zuerst unter Verwendung eines sprecherunabhängigen Modells mittels des Viterbi-Algorithmus (siehe A. J. Viterbi, „Error Bounds for Convolutional Codes and An Asymptotically Optimal Decoding Algorithm", IEEE Trans. on Info. Theory, Bd. IT-13, S. 260 bis 269, April 1967) der vorgegebenen Textvorlage zugeordnet, um jedem Merkmalvektor eine phonetische Kennung zuzuordnen und Ruheperioden auszusondern. Der Segmentierer hat nun die Aufgabe, den Sprachsegmenten zwischen den Ruheperioden einen Sprecherkennzeichner zuzuordnen, wobei die phonetische Kennung für jeden Merkmalvektor in dem Segment gilt.
  • Das akustische Modell für das Zuordnen eines Sprecherkennzeichners zu dem Segment zwischen zwei aufeinanderfolgenden Ruheperioden wird in 4a gezeigt. Hier wird angenommen, dass die Länge des Segments zwischen den beiden Ruheperioden M beträgt und den Merkmalvektoren die phonetischen Kennungen j1, ... ,jM zugeordnet werden. Die Wahrscheinlichkeit eines Merkmalvektors wird für den Fall berechnet, dass das Sprecherteilmodell, welches der dem Merkmalvektor, zum Beispiel j1, zugeordneten phonetischen Klasse entspricht, das Segment ist und aj1, bj1, ... ,uj1 die Teilmodelle der verschiedenen Sprecher für die phonetische Klasse j1 darstellen.
  • Nachdem die Spracheingabe in die gewünschten Klassen segmentiert wurde, wird im nächsten Schritt jedes Segment durch eine speziell für dieses Segment geschaffene Spracherkennungseinheit aufgezeichnet. Diese Systeme entstehen durch Umwandlung der Übungsdaten, durch die das Spracherkennungssystem so trainiert wurde, dass es die akustische Umgebung der Klasse erkennt. Das Hauptkennzeichen der Telefonsprache besteht zum Beispiel in der Begrenzung ihres Frequenzbandes von 300 bis 3700 Hz, während die reinen Übungsdaten eine größere Bandbreite aufweisen. Um die Übungsdaten zur besseren Erkennung der Sprache mit Telefonqualität umzuwandeln, wird die Bandbreite der Übungsdaten auf 300–3700 Hz begrenzt und das Spracherkennungssystem mittels dieser umgewandelten Daten trainiert. Ebenso wird im Falle der musikgestörten Sprache zu den reinen Übungsdaten reine Musik hinzugefügt und das Spracherkennungssystem mittels der musikgestörten Übungsdaten trainiert.
  • 5 ist ein Blockschaltbild eines Systems gemäß der vorliegenden Erfindung. Die Erfindung kann in einem allgemein gebräuchlichen Computer realisiert werden, der so programmiert ist, dass er die in 5 gezeigten Funktionsblöcke bereitstellt. In 5 erfolgt die Spracheingabe, welche reine Sprache, musikgestörte Sprache, reine Musik und/oder Telefonsprache enthalten kann, in einen Segmentierer 500. Der Segmentierer segmentiert die Spracheingabe in Segmente, die entsprechend einem der obigen Typen der Spracheingabe eingeteilt sind. Dann wird jedes Segment einem seinem Typ entsprechenden Decodierer zugeleitet: Telefonsprach-Segmente zum Telefonsprach-Decodierer 502; reine Sprache zum Decodierer 506 für reine Sprache; und musikgestörte Sprache zum Decodierer 508 für musikgestörte Sprache. Jeder der Decodierer 502, 506 und 508 erzeugt eine decodierte Ausgabe des Eingabesegments, und diese Ausgaben werden als decodierte Ausgabe des Systems vorgelegt. Für den Fall der reinen Musik wird eigentlich keine decodierte Ausgabe erzeugt, da hierin keine zu decodierenden Sprachdaten enthalten sind.
  • 6 zeigt ein Flussdiagramm einer Ausführungsart der vorliegenden Erfindung. Auch hier können diese Schritte in einem allgemein gebräuchlichen Computer realisiert werden, der gemäß den obigen Angaben programmiert wurde. Der erste Schritt des in 6 gezeigten Prozesses besteht darin, eine Dateneingabe bereitzustellen, die reine Musik, musikgestörte Sprache, Telefonsprache und/oder reine Sprache enthalten kann. Diese Eingabe wird in Schritt 602 segmentiert, um eine Reihe von Segmenten zu erzeugen, die die Dateneingabe darstellen, wobei jedem Segment ein Kennzeichner aus einer vorgegebenen Gruppe von Kennzeichnern zugeordnet wird: Reine Musik, musikgestörte Sprache, Telefonsprache und/oder reine Sprache. Dann werden die Segmente in Schritt 604 unter Verwendung eines auf den jeweiligen Datentyp zugeschnittenen speziellen Decodierungsmittels decodiert und aufgezeichnet. Das Ergebnis dieser Operation wird als decodierte Ausgabe vorgelegt.
  • Durch eine bevorzugte Ausführungsart der vorliegenden Erfindung wird die Segmentierung sprachlicher Äußerungen auf Basis des Sprechers ermöglicht. Mit anderen Worten, das Verfahren kann unter stationären Bedingungen der Geräusche und des Kanals die Spracheingabe entsprechend der Person des Sprechers segmentieren. Hierfür brauchen die Sprecher nicht vorher bekannt zu sein. Auch die Anzahl der Sprecher kann unbekannt sein. Wenn sich der Kanal oder die Hintergrundgeräusche ändern (d. h., wenn Musik dazukommt), kann das Verfahren ebenfalls richtig segmentieren. Durch diesen Aspekt der Erfindung wird die unkontrollierte Segmentierung sprachlicher Äußerungen auf Basis des Sprecherkanals und des Hintergrundes ermöglicht. Die Erfindung benötigt keine Vorinformationen zu dem Signal, kann solche Informationen jedoch unkompliziert verwenden. Sie stellt ein schnelles Verfahren dar, das zum Fällen einer Entscheidung keine eigentliche Spracherkennungsphase benötigt. Durch diesen Aspekt der Erfindung werden die verschiedenen Segmente umgeordnet, die dasselbe Kennzeichen aufweisen (d. h. derselbe Sprecher über denselben Kanal und mit einem ähnlichen Hintergrund), so dass Systeme in Übereinstimmung mit den Eigenheiten jeder Segmentklasse trainiert werden können.
  • 7(a) veranschaulicht ein Verfahren gemäß dieser Ausführungsart der vorliegenden Erfindung, durch das einem vorhandenen System neue Codeverzeichnisse hinzugefügt werden können. Die Zugangsprüfung 702 wählt Merkmalvektoren aus, die keine Konflikte mit den vorhandenen Codeverzeichnissen erzeugen. Dann werden die Merkmalvektoren in Schritt 704 quantifiziert und die entstehenden Codeverzeichnisse zu den Blöcken 706 und 708 geschickt, in denen die Mittelwerte bzw. die Varianzen berechnet werden. Die Mittelwerte und die Varianzen werden dann in Block 710 gespeichert. Im Bewertungsblock 712 wird über die Menge aller Merkmalvektoren Buch geführt, die außerhalb der Mittelwerte und Varianzen eines bestimmten Codeverzeichnisses liegen. Wenn die Anzahl solcher Vektoren einen vorgegebenen Schwellenwert übersteigt, wird der Merkmalvektor gelöscht. 7(b) beschreibt die Testprozedur. In Schritt 802 wird jeder Rahmen unter Verwendung der Eingabe von Block 804 anhand der aktuell vorhandenen Codeverzeichnisse decodiert. Dann wird in Block 806 eine Gruppe von Histogrammen erzeugt, die zum Auswählen eines Codeverzeichnisses in Schritt 810 dienen. Die Histogramme stellen die Anzahl der Merkmalvektoren in der Testsprache dar, die mit jedem Codeverzeichnis übereinstimmen. Das mögliche Codeverzeichnis wird in Schritt 808 auf Plausibilität geprüft (Verhältnisse zwischen den Abständen zu den Codewörtern und den Varianzen dieser Codewörter). Kann die Auswahl akzeptiert werden, werden die Rahmen durch einen Index des Codeverzeichnisses markiert. Wahlweise können die Daten zum Aktualisieren der zugehörigen Rahmen verwendet werden. Aus Gründen der Stabilität sollten im Allgemeinen zum Definieren eines Codeverzeichnisses keine Datensequenzen verwendet werden, die länger als 10 Sekunden sind. Schlägt der Plausibilitätstest fehl, wird in Schritt 812 unter Verwendung zulässiger. Rahmen ein neues Codeverzeichnis zu den vorhandenen Codeverzeichnissen hinzugefügt.
  • Man beachte, dass das Verfahren die Dateien nicht nur segmentiert, wenn ein Sprecherwechsel vorliegt, sondern dass es auch Segmente umordnen kann, die zu einem bestimmten Sprecher gehören (bzw. unter ähnlichen Bedingungen).
  • Da zu den Sprechern keine Informationen bekannt sind, ist bei diesem Aspekt der Erfindung keine Trainingsphase erforderlich. Da jedoch einige Schwellenwerte erforderlich sind, werden diese Schwellenwerte unter Verwendung ähnlicher Daten vor dem Test ermittelt. Die Auswahl der Schwellenwerte kann durch Probieren erfolgen.
  • Sollten jedoch vorher bereits Informationen bekannt sein, so können diese in das Codeverzeichnis aufgenommen werden. wenn zum Beispiel einige Sprecher bekannt sind, können deren Modelle vorher geladen werden, und nachher werden nur neue Sprecher in die Datenbank aufgenommen. Wenn im Hintergrund Musik vermutet wird, können Codeverzeichnisse mit reiner Sprache, reiner Musik und verschiedenen Typen von Musik mit Sprache erstellt werden.
  • Die obige Einteilung erfolgt ohne Kontrolle und unabhängig von jeglicher Spracherkennung.
  • Bei einer bevorzugten Anordnung sind die (als Ausgabe der akustischen Verarbeitung erhaltenen) Merkmalvektoren das MEL-Cepstrum, Delta und Delta-Delta (einschließlich CO (Energie)). Es gibt 39 Dimensionsvektoren. Die Merkmale werden normalerweise für 30 ms lange Rahmen im Abstand von 10 ms berechnet. Man beachte, dass es allein der Spracherkennungseinheit obliegt, welches Modell bereitgestellt wird. Wenn andere Merkmalvektoren (wie das LPC-Cepstrum) verwendet werden, kann der Segmentierer das LPC-Cepstrum als Merkmalvektor verwenden. Die Leistungsfähigkeit des Segmentierers hängt jedoch von der verwendeten Merkmalgruppe ab. Natürlich ist es immer möglich, für die Erkennungseinheit und den Segmentierer unterschiedliche Merkmalgruppen zu verwenden.
  • Das Segmentierersystem speichert zu jedem Segmenttyp eine Mindestmenge an Informationen: Zum Beispiel ein Codeverzeichnis mit 65 Codewörtern (obwohl die Anzahl der Codewörter nicht entscheidend ist), deren Varianzen sowie einige während des Eintragens wahlweise registrierten Bewertungsinformationen. Es ist insbesondere nicht erforderlich, die Übungssequenzen zu speichern.
  • Sobald schließlich ein Codeverzeichnis ausgewählt worden ist, kann das System die zugehörigen Rahmen entsprechend markieren.
  • Die Segmentierung erfolgt nach einem verallgemeinerten Algorithmus zur Vektorquantifizierung.
  • Wenn in die Datenbank ein neues Codeverzeichnis aufgenommen wird, werden die als zulässig ausgewählten Merkmalvektoren zu einer Gruppe von beispielsweise 65 Gedewörtern zusammengefasst. Auch die Varianz jeder Gruppe wird gespeichert. Und schließlich werden für jedes Codewort noch einige weitere Bewertungsinformationen gespeichert, einschließlich der Anzahl der zu diesem Codewort gehörenden Merkmalvektoren, die nur sehr entfernt mit diesem zu tun haben. Es können zwei Abstände verwendet werden: Ein Mahalanobis-Abstand, der ein gewichteter euklidischer Abstand ist, wobei seine Gewichte im umgekehrten Verhältnis zu den Varianzen jeder Dimension des Merkmalvektors stehen (diese Gewichte lassen sich zuvor auf Basis der zum Trainieren der Spracherkennung verwendeten Daten oder der Übungsdaten und/oder Testdaten festlegen), oder eines wahrscheinlichen Abstands, wobei der Abstand gleich dem Logarithmus der Wahrscheinlichkeit der zu dem Codewort (gleicher Mittelwert und gleiche Varianzen) gehörenden Gauß-Verteilung ist. Üblicherweise werden für das Training 10 Sekunden Sprache verwendet. Merkmalvektoren werden als zulässig erachtet, wenn sie keine Konflikte mit vorhandenen Codewörtern erzeugen. Das bedeutet, dass einige Vektoren, die vorhandenen Codewörtern zu ähnlich sind, während der Gruppenbildung abgewiesen werden. Wenn dies nicht erfolgt, kommt es durch Überlappungen von Gruppen zu Instabilitäten.
  • Während der Testphase oder bei der eigentlichen Anwendung des Systems erhält man die Merkmalvektoren von der Akustikausgabe. Nach etwa drei Sekunden Sprache erscheint eine mögliche Kennung. Nach etwa 5 bis 10 Sekunden wird eine abschließende Entscheidung gefällt. Der Test wird mittels eines verallgemeinerten VQ-Decodierers durchgeführt. Dieser sucht nacheinander für jeden Rahmen das passendste Codeverzeichnis aus (oder ordnet die N passendsten Codeverzeichnisse der Reihe nach). Dann wird ein Histogramm erzeugt, welches anzeigt, wie viele Rahmen jedes Codeverzeichnis ausgewählt haben. Das am häufigsten ausgewählte Codeverzeichnis legt die mögliche Kennung fest.
  • In dieser Phase prüft der Segmentierer, ob die Wahl der möglichen Kennung plausibel ist. Wenn dies nicht der Fall ist, wird unter Verwendung zulässiger Rahmen ein neues Codeverzeichnis hinzugefügt. Dessen Eignung wird mittels verschiedener Tests geprüft. Zuerst wird das Histogramm untersucht. Ein deutliches Maximum zeigt eine gute Chance dafür an, dass die Auswahl richtig ist. Bei mehreren gleichwertigen Codeverzeichnissen werden Varianztests aussagekräftiger. Die Varianztests werden wie folgt definiert: Für jeden Merkmalvektor wird dessen Abstand zu dem ausgewählten Codewort oder den gleichwertigen Codewörtern mit deren zugehörigen Varianzen verglichen. Wenn die Abstände, die zugehörigen Bewertungszahlen vorausgesetzt, zu groß sind, wird das Codeverzeichnis verworfen. Wenn schließlich kein Codeverzeichnis akzeptiert wird, wird keines festgelegt, und es muss ein neues Codeverzeichnis erstellt werden. wenn ein akzeptierbares Codeverzeichnis übrigbleibt, wird die Kennung durch dieses festgelegt.
  • Obwohl die Erfindung insbesondere unter Bezug auf dessen spezielle Ausführungsarten beschrieben wurde, ist klar, dass an diesen Ausführungsarten Änderungen angebracht werden können, ohne von dem durch die beiliegenden Ansprüche festgelegten Geltungsbereich der Erfindung abzuweichen.

Claims (24)

  1. Verfahren zum Aufzeichnen eines Datensegments, das Sprachdaten in einer oder mehreren Umgebungen und sprachfremde Daten enthält, wobei das Verfahren Folgendes umfasst Eingeben der Daten in einen Segmentierer und Erstellen einer Reihe von Segmenten, wobei jedem Segment ein aus einem vorgegebenen Satz von Klassen ausgewählter Typkennzeichner zugewiesen wird, und jede einzelne Klasse durch ein Hidden-Markov-Modell beschrieben wird; Aufzeichnen jedes durch einen Typkennzeichner markierten Segments unter Verwendung eines speziell für diesen Typ entwickelten Systems: bei dem der Schritt des Erstellens einer Reihe von Segmenten Folgendes umfasst: Kennzeichnen einer Anzahl von Klassen, nach denen die eingegebenen Akustikdaten klassifiziert werden können und die möglichst viele akustisch verschiedene Klassen darstellen.
  2. Verfahren nach Anspruch 1, bei dem die Klassen sprachfremde Signale, Telefonsprache, geräuschgestörte Sprache und reine Sprache umfassen.
  3. Verfahren nach Anspruch 1, bei dem der Schritt des Zuweisens eines Typkennzeichners Folgendes umfasst: die Annahme, dass die Eingabedaten durch eine parallele Kombination von Modellen erzeugt werden, wobei jedes Modell einer der vorgegebenen Klassen entspricht; die einem Segment zugewiesene Klassenkennung (ID), die die Klassenkennung des Modells ist, welches das Segment unter gewissen Einschränkungen mit der höchsten Wahrscheinlichkeit versieht.
  4. Verfahren nach Anspruch 3, bei dem eine der Einschränkungen in einer zeitlichen Mindestlänge des Segments besteht.
  5. Verfahren nach Anspruch 1, bei dem der Schritt des Zuweisens eines Typkennzeichners Folgendes umfasst: Verwenden einer binären Baumhierarchie, bei der Segmente, die einer der vorgegebenen Klassifikationen entsprechen, auf jeder Baumebene isoliert sind.
  6. Verfahren nach Anspruch 1, bei dem der Segmentierungsschritt mittels eines Hidden-Markov-Modells zum Beschreiben jeder Klasse und mittels des Viterbi-Algorithmus zum Isolieren der Segmente und zum Zuweisen der Typbezeichner zu den Segmenten ausgeführt wird.
  7. Verfahren nach Anspruch 3, bei dem der Prozess des Entwickelns der Modelle das Festlegens eines Merkmalraums für die einzelnen vorgegebenen Klassen umfasst.
  8. Verfahren nach Anspruch 7, bei dem der Merkmalraum für das Modell für sprachfremde Signale auf eine der folgenden Arten erzeugt wird: Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden und Berechnen eines Vektors für dieses Fenster, der die Energie oder den Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern umfasst, wobei die Varianz über die Dimensionen des Vektors das Merkmal darstellt; Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern und Berechnen des Cepstra dieses Vektors, wobei das Cepstra das Merkmal darstellt; Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern und Berechnen einer linearen Diskriminante, um sprachfremde Signale und Sprache voneinander zu trennen; Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern, Berechnen der Varianz über die Dimensionen des Vektors, des Cepstra des Vektors und einer linearen Diskriminante, wobei die Varianz über die Dimensionen des Vektors, das Cepstra des Vektors oder die lineare Diskriminante das Merkmal darstellt; und, Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden und Berechnen der Tonhöhe, wobei der Mittelwert und die Varianz der Tonhöhe über eine Vielzahl aufeinanderfolgender Fenster das Merkmal darstellen.
  9. Verfahren nach Anspruch 7, bei dem der Merkmalraum für das Modell für die Telefonsprache auf eine der folgenden Arten entwickelt wird: Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden und Berechnen eines Verhältnisses der Energien in dem Telefon-Frequenzband (300 bis 3700 Hz) zur Gesamtenergie des Signals; Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern und Berechnen des Cepstra aus diesem Vektor, wobei das Cepstra das Merkmal darstellt; Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern und Berechnen einer linearen Diskriminante, um Telefonsprache und telefonfremde Sprache voneinander zu trennen.
  10. Verfahren nach Anspruch 7, bei dem der Merkmalraum für das Modell der reinen Sprache auf eine der folgenden Arten erzeugt wird: Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden und Berechnen der Energie in diesem Fenster, wobei sich das Merkmal auf die Variation der Energie über eine Vielzahl aufeinanderfolgender Fenster bezieht; Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern und Berechnen des Cepstra aus diesem Vektor, wobei das Cepstra das Merkmal darstellt; und Auswählen eines Fensters der Spracheingabe alle 10 Millisekunden, Berechnen des Logarithmus der Energie in logarithmisch abgestuften Frequenzbändern und Berechnen einer linearen Diskriminante, um reine Sprache und lärmgestörte Sprache voneinander zu trennen.
  11. Verfahren nach Anspruch 2, bei dem Segmente mit reiner Sprache weiter in kleinere Segmente aufgeteilt werden, denen eine Sprecher-Kennungsmarkierung zugewiesen werden kann.
  12. Verfahren nach Anspruch 1, das ferner das Entwickeln eines Systems zum Aufzeichnen von Daten von jeder Klassenkennung umfasst.
  13. Verfahren nach Anspruch 11, das ferner das Bereitstellen einer Textvorlage zur Sprechererkennung durch Überwachung und dadurch zur Verbesserung der Segmentierung der Sprecherkennung umfasst.
  14. Verfahren nach Anspruch 13, bei dem die Modelle für die Übungssprecher durch Kombinieren von Teilmodellen erzeugt werden, die jeder phonetischen Klasse oder Unterklasse entsprechen.
  15. Verfahren nach Anspruch 13, bei dem zuerst die reine Sprache unter Verwendung sprecherunabhängiger Modelle durch den Viterbi-Algorithmus mit der vorgegebenen Textvorlage verglichen wird, um Ruheperioden zu erkennen und jeden Merkmalvektor zwischen zwei aufeinanderfolgenden Ruheperioden mit der Kennzeichnung einer phonetischen Klasse (oder Unterklasse) zu markieren.
  16. Verfahren nach Anspruch 15, bei dem einem Sprachsegment zwischen zwei aufeinanderfolgenden Ruheperioden eine Sprecherkennung zugewiesen wird, wobei die Wahrscheinlichkeit jedes Merkmalvektors für jedes Sprechermodell für die phonetische Unterklasse berechnet wird, die dem Merkmalvektor zugewiesen wurde.
  17. Verfahren nach Anspruch 2, bei dem das Einrichten eines Systems zum Aufzeichnen von Telefonsprache Folgendes umfasst Anpassen der Übungsdaten, anhand deren das Spracherkennungssystem erstellt wurde, damit dieses zu der akustischen Umgebung der Telefonsprache passt; wobei das Anpassen die Begrenzung der Bandbreite der Übungsdaten an die Telefonbandbreiten umfasst.
  18. Verfahren nach Anspruch 2, bei dem das Einrichten eines Systems zum Aufzeichnen von musikgestörter Sprache Folgendes umfasst: Anpassen der Übungsdaten, anhand deren das Spracherkennungssystem erstellt wurde, damit dieses zu der akustischen Umgebung von musikgestörter Sprache passt; wobei das Anpassen das Hinzufügen von reiner Musik zu der reinen Sprache der Übungsdaten umfasst.
  19. Verfahren nach Anspruch 11, bei dem die Prozedur des Segmentierens unter Verwendung eines Parallelverfahrens durchgeführt wird, welches eine Wortaufzeichnung der reinen Sprache verwendet.
  20. Verfahren nach Anspruch 1, bei dem zu den Klassen die Identität eines Sprechers selbst gehört.
  21. Verfahren nach Anspruch 1, bei dem eine der Klassen in dem vorgegebenen Satz von Klassen eine Sprecherkennzeichnungsklasse ist.
  22. Verfahren nach Anspruch 21, bei dem Sprecherkennzeichnungsklassen nicht von vornherein bekannt sind und durch Aktualisieren der den Sprechern entsprechenden Klassen automatisch ermittelt werden.
  23. Verfahren nach Anspruch 21, bei dem die Sprecherkennzeichnungsklassen ferner veränderliche Hintergrundumgebungen umfassen und bei dem Sprecherkennzeichnungsklassen anhand dieser veränderlichen Umgebungen ermittelt werden.
  24. System zum Aufzeichnen eines Datensegments, welches Sprache in einer oder mehreren Umgebungen sowie sprachfremde Daten enthält und Folgendes umfasst: Ein Mittel zur Dateneingabe in einen Segmentierer und Erstellen einer Reihe von Segmenten, wobei jedem Segment ein aus einem vorgegebenen Satz von Klassen ausgewählter Typkennzeichner zugewiesen wird und jede einzelne Klasse jeweils durch ein Hidden-Markov-Modell beschrieben wird; ein Mittel zum Aufzeichnen jedes durch einen Typkennzeichner markierte Segment unter Verwendung eines speziell für diesen Typ erstellten Systems; ein Mittel zum Kennzeichnen einer Anzahl von Klassen, nach denen die eingegebenen Akustikdaten klassifiziert werden können und die möglichst viele akustisch verschiedene Klassen darstellen.
DE69722980T 1996-02-02 1997-01-17 Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen Expired - Lifetime DE69722980T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/595,722 US6067517A (en) 1996-02-02 1996-02-02 Transcription of speech data with segments from acoustically dissimilar environments
US595722 1996-02-02

Publications (2)

Publication Number Publication Date
DE69722980D1 DE69722980D1 (de) 2003-07-31
DE69722980T2 true DE69722980T2 (de) 2004-05-19

Family

ID=24384411

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69722980T Expired - Lifetime DE69722980T2 (de) 1996-02-02 1997-01-17 Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen

Country Status (3)

Country Link
US (1) US6067517A (de)
EP (1) EP0788090B1 (de)
DE (1) DE69722980T2 (de)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
US6683697B1 (en) * 1991-03-20 2004-01-27 Millenium L.P. Information processing methodology
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6377921B1 (en) * 1998-06-26 2002-04-23 International Business Machines Corporation Identifying mismatches between assumed and actual pronunciations of words
US6260014B1 (en) * 1998-09-14 2001-07-10 International Business Machines Corporation Specific task composite acoustic models
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US7006967B1 (en) * 1999-02-05 2006-02-28 Custom Speech Usa, Inc. System and method for automating transcription services
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6332122B1 (en) 1999-06-23 2001-12-18 International Business Machines Corporation Transcription system for multiple speakers, using and establishing identification
DE60018696T2 (de) * 1999-07-01 2006-04-06 Koninklijke Philips Electronics N.V. Robuste sprachverarbeitung von verrauschten sprachmodellen
US7689416B1 (en) * 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US20020055844A1 (en) * 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
US7624010B1 (en) 2000-07-31 2009-11-24 Eliza Corporation Method of and system for improving accuracy in a speech recognition system
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JP3467469B2 (ja) * 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体
US6605768B2 (en) * 2000-12-06 2003-08-12 Matsushita Electric Industrial Co., Ltd. Music-signal compressing/decompressing apparatus
US6826241B2 (en) 2001-02-21 2004-11-30 Motorola, Inc. Apparatus and method for filtering maximum-length-code signals in a spread spectrum communication system
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US7363278B2 (en) 2001-04-05 2008-04-22 Audible Magic Corporation Copyright detection and protection system and method
US7953219B2 (en) * 2001-07-19 2011-05-31 Nice Systems, Ltd. Method apparatus and system for capturing and analyzing interaction based content
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
EP1505572B1 (de) * 2002-05-06 2006-03-08 Prous Institute For Biomedical Research S.A. Spracherkennungsverfahren
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
US20030220784A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation System and method for automated voice message transcription and delivery
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US7337115B2 (en) * 2002-07-03 2008-02-26 Verizon Corporate Services Group Inc. Systems and methods for providing acoustic classification
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040138894A1 (en) * 2002-10-17 2004-07-15 Daniel Kiecza Speech transcription tool for efficient speech transcription
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7596494B2 (en) * 2003-11-26 2009-09-29 Microsoft Corporation Method and apparatus for high resolution speech reconstruction
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
US8204884B2 (en) * 2004-07-14 2012-06-19 Nice Systems Ltd. Method, apparatus and system for capturing and analyzing interaction based content
US20060288402A1 (en) * 2005-06-20 2006-12-21 Nokia Corporation Security component for dynamic properties framework
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
CN1949364B (zh) * 2005-10-12 2010-05-05 财团法人工业技术研究院 语音识别的前级检测系统与方法
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US7885813B2 (en) * 2006-09-29 2011-02-08 Verint Systems Inc. Systems and methods for analyzing communication sessions
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
US8249870B2 (en) * 2008-11-12 2012-08-21 Massachusetts Institute Of Technology Semi-automatic speech transcription
US8762149B2 (en) * 2008-12-10 2014-06-24 Marta Sánchez Asenjo Method for verifying the identity of a speaker and related computer readable medium and computer
DK2328363T3 (en) 2009-09-11 2016-08-22 Starkey Labs Inc SOUND CLASSIFICATION SYSTEM FOR HEARING DEVICES
US8554562B2 (en) * 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US9564148B2 (en) * 2010-05-18 2017-02-07 Sprint Communications Company L.P. Isolation and modification of audio streams of a mixed signal in a wireless communication device
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
US8442825B1 (en) 2011-08-16 2013-05-14 The United States Of America As Represented By The Director, National Security Agency Biomimetic voice identifier
KR101482148B1 (ko) * 2011-12-23 2015-01-14 주식회사 케이티 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
US9026065B2 (en) * 2012-03-21 2015-05-05 Raytheon Company Methods and apparatus for resource sharing for voice and data interlacing
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
CN109545229B (zh) * 2019-01-11 2023-04-21 华南理工大学 一种基于语音样本特征空间轨迹的说话人识别方法
KR20200140571A (ko) * 2019-06-07 2020-12-16 삼성전자주식회사 데이터 인식 방법 및 장치
CN111883159A (zh) * 2020-08-05 2020-11-03 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4430726A (en) * 1981-06-18 1984-02-07 Bell Telephone Laboratories, Incorporated Dictation/transcription method and arrangement
DE69322894T2 (de) * 1992-03-02 1999-07-29 At & T Corp Lernverfahren und Gerät zur Spracherkennung
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
EP0645757B1 (de) * 1993-09-23 2000-04-05 Xerox Corporation Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores

Also Published As

Publication number Publication date
DE69722980D1 (de) 2003-07-31
US6067517A (en) 2000-05-23
EP0788090B1 (de) 2003-06-25
EP0788090A3 (de) 1998-08-19
EP0788090A2 (de) 1997-08-06

Similar Documents

Publication Publication Date Title
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60320414T2 (de) Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
EP1159734B1 (de) Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE112010005959T5 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE60023736T2 (de) Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
DE102010040553A1 (de) Spracherkennungsverfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8328 Change in the person/name/address of the agent

Representative=s name: DUSCHER, R., DIPL.-PHYS. DR.RER.NAT., PAT.-ANW., 7