DE69822296T2 - Mustererkennungsregistrierung in einem verteilten system - Google Patents

Mustererkennungsregistrierung in einem verteilten system Download PDF

Info

Publication number
DE69822296T2
DE69822296T2 DE69822296T DE69822296T DE69822296T2 DE 69822296 T2 DE69822296 T2 DE 69822296T2 DE 69822296 T DE69822296 T DE 69822296T DE 69822296 T DE69822296 T DE 69822296T DE 69822296 T2 DE69822296 T2 DE 69822296T2
Authority
DE
Germany
Prior art keywords
model
user
recognition
station
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69822296T
Other languages
English (en)
Other versions
DE69822296D1 (de
Inventor
Stefan Besling
Eric Thelen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE69822296D1 publication Critical patent/DE69822296D1/de
Application granted granted Critical
Publication of DE69822296T2 publication Critical patent/DE69822296T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Description

  • Die Erfindung betrifft ein Verfahren zum Erkennen eines in einer Benutzerstation gespeicherten Eingabemusters, die eine Erkennungseinheit einer Serverstation nutzt, wobei die Serverstation und die Benutzerstation über ein Netzwerk verbunden sind, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, und wobei das Verfahren Folgendes umfasst:
    Durchführen eines Anfangsschrittes der Erkennungsregistrierung, der Folgendes beinhaltet: die Übertragung von einem Benutzer der Benutzerstation zugeordneten Modellverbesserungsdaten von der Benutzerstation zur Erkennungseinheit und die Zuordnung einer Benutzeridentifizierung zum Benutzer der Benutzerstation; und
    für eine Erkennungssitzung zwischen der Benutzerstation und der Serverstation die Übertragung einer einem Benutzer der Benutzerstation zugeordneten Benutzeridentifizierung und eines Eingabemusters, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, von der Benutzerstation zur Serverstation; und den Einsatz der Erkennungseinheit zum Erkennen des Eingabemusters durch Einfügen mindestens eines Erkennungsmodells in die Modellsammlung, die die dem Benutzer zugeordneten Modellverbesserungsdaten darstellt.
  • Die Erfindung betrifft ferner ein Mustererkennungssystem, das mindestens eine Benutzerstation, die ein Eingabemuster speichert, und eine Serverstation umfasst, die eine Erkennungseinheit beinhaltet, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, wobei die Serverstation mit der Benutzerstation über ein Netzwerk verbunden ist;
    wobei die Benutzerstation Mittel umfasst, um anfangs einem Benutzer der Benutzerstation zugeordnete Modellverbesserungsdaten und eine dem Benutzer zugeordnete Benutzeridentifizierung zur Serverstation zu übertragen, und um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation eine einem Benutzer der Benut zerstation zugeordnete Benutzeridentifizierung und ein Eingabemuster, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, zur Serverstation zu übertragen; und
    wobei die Serverstation Mittel umfasst, um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation mindestens ein Erkennungsmodell in die Modellsammlung einzufügen, die die Modellverbesserungsdaten darstellt, die einem Benutzer zugeordnet sind, von dem das Eingabemuster ausging, und um die Spracherkennungseinheit dazu einzusetzen, das von der Benutzerstation empfangene Eingabemuster zu erkennen.
  • Mustererkennungssysteme, wie beispielsweise kontinuierliche Spracherkennungssysteme mit großem Vokabular oder Handschrifterkennungssysteme, nutzen typischerweise eine Sammlung von Erkennungsmodellen, um ein Eingabemuster zu erkennen. Es können beispielsweise ein akustisches Modell und ein Vokabular verwendet werden, um Wörter zu erkennen, und es kann ein Sprachmodell verwendet werden, um das grundlegende Ergebnis der Erkennung zu verbessern. In 1 ist ein typischer Aufbau eines kontinuierlichen Spracherkennungssystems 100 mit großem Vokabular dargestellt [siehe L. Rabiner, B.-H. Juang, „Fundamentals of speech recognition", Prentice Hall 1993, Seiten 434–454]. Das System 100 umfasst ein Spektralanalyse-Teilsystem 110 und ein System zum Einheitenabgleich. In dem Spektralanalyse-Teilsystem 110 wird das Spracheingabesignal (speech input signal, SIS) spektral bzw. zeitlich analysiert, um einen repräsentativen Vektor mit Merkmalen (Beobachtungsvektor, engl. observation vector, OV) zu berechnen. Typischerweise wird das Sprachsignal digitalisiert (d. h. mit einer Geschwindigkeit von 6,67 kHz abgetastet) und vorverarbeitet, indem beispielsweise eine Vorverzerrung angewendet wird. Aufeinanderfolgende Abtastwerte werden in Gruppen (Blöcken) in Frames zusammengefasst, die beispielsweise 32 ms des Sprachsignals entsprechen. Aufeinanderfolgende Frames überlappen sich teilweise um beispielsweise 16 ms. Häufig wird das LPC-Spektralanalyseverfahren (engl. linear predictive coding) angewendet, um für jeden Frame einen repräsentativen Vektor mit Merkmalen (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann zum Beispiel 24, 32 oder 63 Komponenten aufweisen. Das Standardverfahren bei der kontinuierlichen Spracherkennung mit großem Vokabular besteht darin, ein Wahrscheinlichkeitsmodell der Spracherzeugung vorauszusetzen, wobei eine spezielle Wortfolge W = w1w2w3 ... wq eine Folge von akustischen Beobachtungsvektoren Y = y1y2y3 ... yT erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Wortfolge w1w2w3 ... wq bestimmt wird, bei der die Wahrscheinlichkeit am größten ist, dass sie die beobachtete Folge von Beobachtungsvektoren y1y2y3 ... yT (über der Zeit t = 1, ..., T) verursacht hat, wobei die Beobachtungsvektoren das Ergebnis des Spektralanalyse-Teilsystems 110 sind. Hieraus ergibt sich die Bestimmung der maximalen erfahrungsgemäßen Wahrscheinlichkeit:
    max P(W|Y) für alle möglichen Wortfolgen W
  • Durch die Anwendung des Bayesschen Satzes zu bedingten Wahrscheinlichkeiten ergibt sich P(W|Y) aus: P(W|Y) = P(Y|W)·P(W)/P(Y)
  • Da P(Y) unabhängig von W ist, ergibt sich die Wortfolge mit der höchsten Wahrscheinlichkeit aus: arg max P(Y|W)·P(W) für alle möglichen Wortfolgen W (1)
  • In dem Teilsystem zum Einheitenabgleich 120 liefert ein akustisches Modell den ersten Term der Gleichung (1). Das akustische Modell wird verwendet, um die Wahrscheinlichkeit P(Y|W) einer Folge von Beobachtungsvektoren Y für eine gegebene Wortkette W zu schätzen. Bei einem System mit großem Vokabular wird dies normalerweise durchgeführt, indem die Beobachtungsvektoren mit einem Verzeichnis von Spracherkennungseinheiten abgeglichen werden. Eine Spracherkennungseinheit ist durch eine Folge von akustischen Bezugswerten dargestellt. Es können verschiedene Formen von Spracherkennungseinheiten verwendet werden. Beispielsweise kann eine ganzes Wort oder sogar eine Gruppe von Worten durch eine einzelne Spracherkennungseinheit dargestellt werden. Ein Wortmodell (WM) bietet für jedes Wort eines gegebenen Vokabulars eine Transkription in eine Folge von akustischen Bezugswerten. Bei Systemen, bei denen ein ganzes Wort durch eine Spracherkennungseinheit dargestellt wird, besteht eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit. Bei anderen Systemen, insbesondere solchen mit großem Vokabular, können für die Spracherkennungseinheit Teilworteinheiten auf linguistischer Basis, wie Einzellaute, Doppellaute oder Silben, sowie abgeleitete Einheiten, wie Phenene und Phenone verwendet werden. Bei derartigen Systemen wird ein Wortmodell von einem Lexikon 134 vorgegeben, das die Folge von Teilworteinheiten beschreibt, die sich auf ein Wort des Vokabulars beziehen, und den Teilwortmodellen 132 vorgegeben, die Folgen von akustischen Bezugswerten der betreffenden Spracherkennungseinheit beschreiben. Eine Wortmodell-Zusammensetzungseinheit 136 setzt das Wortmodell basierend auf dem Teilwortmodell 132 und dem Lexikon 134 zusammen. In
  • 2A ist ein Wortmodell 200 für ein System dargestellt, das auf Ganzwort-Spracherkennungseinheiten basiert, wobei die Spracherkennungseinheit des gezeigten Wortes unter Verwendung einer Folge von zehn akustischen Bezugswerten (201 bis 210) gebildet wird. In 2B ist ein Wortmodell 220 für ein System dargestellt, das auf Teilworteinheiten basiert, wobei das gezeigte Wort durch eine Folge von drei Teilwortmodellen (250, 260 und 270) jeweils mit einer Folge von vier akustischen Bezugswerten (251, 252, 253, 254; 261 bis 264; 271 bis 274) gebildet wird. Die in 2 dargestellten Wortmodelle basieren auf Hidden-Markov-Modellen (HMM), die häufig verwendet werden, um Sprach- und Handschriftsignale zufällig nachzubilden. Mit Hilfe dieses Modells ist jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM gekennzeichnet, dessen Parameter aus einem Trainingsdatensatz geschätzt werden. Bei Spracherkennungssystemen mit großem Vokabular, die beispielsweise 10.000 bis 60.000 Worte umfassen, wird im Allgemeinen ein begrenzter Satz von beispielsweise 40 Teilworteinheiten verwendet, da eine große Anzahl von Trainingsdaten erforderlich wäre, um ein HMM für größere Einheiten in geeigneter Weise zu trainieren. Ein HMM-Zustand entspricht einem akustischen Bezugswert (zur Spracherkennung) oder einem allografischen Bezugswert (zur Handschrifterkennung). Es sind zahlreiche Verfahren zum Bilden eines Bezugswertes bekannt, einschließlich diskreter oder kontinuierlicher Wahrscheinlichkeitsdichten.
  • Ein Abgleichsystem 130 auf Wortebene gleicht die Beobachtungsvektoren mit allen Folgen von Spracherkennungseinheiten ab und liefert die Mutmaßlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Folge. Werden Teilworteinheiten verwendet, wird der Abgleich eingeschränkt, indem das Lexikon 134 benutzt wird, um die mögliche Folge von Teilworteinheiten auf Folgen im Lexikon 134 zu beschränken. Dadurch wird das Ergebnis auf mögliche Folgen von Wörtern reduziert. Ein Abgleichsystem 140 auf Satzebene nutzt ein Sprachmodell (engl. language model, LM), um den Abgleich weiter einzuschränken, so dass die untersuchten Pfade diejenigen sind, die Wortfolgen entsprechen, welche richtige Folgen sind, wie sie vom Sprachmodell definiert sind. Als solches liefert das Sprachmodell den zweiten Term P(W) der Gleichung (1). Werden die Ergebnisse des akustischen Modells mit denjenigen des Sprachmodells kombiniert, liegt am Ausgang des Teilsystems 120 zum Einheitenabgleich ein erkannter Satz (recognised sentence, RS) vor. Das bei der Musterkennung verwendete Sprachmodell kann syntaktische bzw. semantische Einschränkungen 142 der Sprache und der Erkennungsaufgabe beinhalten. Ein auf syntaktischen Einschränkungen basierendes Sprachmodell wird üblicherweise als Grammatik 144 bezeichnet. Die von dem Sprachmodell verwendete Grammatik 144 liefert die Wahrscheinlichkeit einer Wortfolge W = w1w2w3 ... wq, die sich im Prinzip ergibt aus: P(W) = P(w1)P(w2|w1)·P(w3|w1w2) ... P(wq|w1w2w3 ... wq).
  • Da es in der Praxis nicht machbar ist, die bedingten Wortwahrscheinlichkeiten für alle Wörter und alle Folgelängen in einer gegebenen Sprache zuverlässig zu schätzen, werden häufig N-Gramm-Wortmodelle verwendet. Bei einem N-Gramm-Modell wird der Term P(wj|w1w2w3 ... wj–1) durch P(wj|wj–N+1 ... wj–1) angenähert. In der Praxis werden Bigramme oder Trigramme verwendet. Bei einem Trigramm wird der Term P(wj|w1w2w3 ... wj–1) durch P(wj|wj–2wj–1) angenähert.
  • Ähnliche Systeme sind für die Handschrifterkennung bekannt. Das für ein Handschrifterkennungssystem verwendete Sprachmodell kann zusätzlich oder alternativ zur Spezifizierung von Wortfolgen Zeichenfolgen spezifizieren.
  • Benutzerunabhängige Mustererkennungssysteme verfügen über benutzerunabhängige Erkennungsmodelle. Zur Erzielung eines annehmbaren Erkennungsgrades werden Erkennungssysteme mit einem besonders großen Vokabular benutzerabhängig gemacht, indem das System für einen speziellen Benutzer trainiert wird. Ein Beispiel für ein derartiges System ist das Diktiersystem Philips SP 6000. Dieses System ist ein verteiltes System, bei dem der Benutzer direkt in eine Benutzerstation, wie beispielsweise einen PC oder eine Workstation, diktieren kann. Die Sprache wird digital aufgezeichnet und über ein Netzwerk zu einer Serverstation übertragen, wo die Sprache von einer Spracherkennungseinheit erkannt wird. Der erkannte Text kann zur Benutzerstation zurückgesendet werden. Bei diesem System werden die akustischen Bezugswerte des akustischen Modells für einen neuen Benutzer des Systems trainiert, indem der neue Benutzer einen vorher festgelegten Text mit einer ungefähren Dauer von 30 Minuten diktiert. Dadurch werden der Serverstation genügend Daten zur Verfügung gestellt, damit sie einen vollständig neuen Satz akustischer Bezugswerte für den Benutzer erstellen kann. Nach dieser Registrierungsphase kann der Benutzer einen Text diktieren. Bei jeder Diktiersitzung ruft die Erkennungseinheit in der Serverstation die zu dem diktierenden Benutzer gehörenden akustischen Bezugswerte ab und verwendet sie zum Erkennen des Diktats. Andere Erkennungsmodelle, wie beispielsweise ein Lexikon, Vokabular oder Sprachmodell, werden nicht für einen speziellen Benutzer trainiert. Für diese Aspekte ist das System nur auf eine spezielle Kategorie von Benutzern, beispielsweise Juristen, Ärzte, Chirurgen usw., zielgerichtet.
  • Die relativ lange Trainingsdauer mindert die Akzeptanz des System durch Benutzer, die das System gelegentlich oder nur für kurze Zeit nutzen möchten. Außerdem macht die relativ große Menge von akustischen Bezugswerten, die von der Serverstation für jeden Benutzer gespeichert werden müssen, das System für eine große Benutzeranzahl weniger geeignet. Wird das System für das Diktat eines Textes in einem anderen Bereich als demjenigen, auf den das Sprachmodell und das Vokabular ausgerichtet sind, verwendet, verschlechtern sich die Erkennungsergebnisse. Ein Beispiel für ein Spracherkennungssystem für mehrere Benutzer wird in US-A-4922538 offenbart.
  • Der Erfindung, wie sie in den Ansprüchen 1–11 dargelegt ist, liegt die Aufgabe zugrunde, die Mustererkennung in einer Client/Server-Konfiguration zu ermöglichen, ohne einen übermäßigen Trainingsaufwand für den Benutzer zu erfordern. Ferner hat die Erfindung zur Aufgabe, die Mustererkennung in einer Client/Server-Konfiguration zu ermöglichen, wobei der Server in der Lage ist, die Erkennung für viele Clients (Benutzerstationen) gleichzeitig zu unterstützen. Eine weitere Aufgabe besteht darin, die Musterkennung für einen großen Themenbereich zu ermöglichen.
  • Zur Lösung der Aufgabe ist das erfindungsgemäße Verfahren dadurch gekennzeichnet, dass der Server eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs umfasst; dass der Schritt der Erkennungsregistrierung Folgendes umfasst: die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle des gleichen Typs in Abhängigkeit von den Modellverbesserungsdaten, die dem Benutzer zugeordnet sind, und das Speichern einer Angabe des ausgewählten Erkennungsmodells zusammen mit der Benutzeridentifizierung; und dass der Schritt des Erkennens des Eingabemusters Folgendes umfasst: das Abrufen eines Erkennungsmodells, das der zur Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und das Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
  • Durch Speichern einer Anzahl von Erkennungsmodellen des gleichen Typs, zum Beispiel einer Anzahl von Sprachmodellen, die jedes auf mindestens ein unterschiedliches Thema ausgerichtet sind, beispielsweise Fotografie, Gartenbau, Automobile usw., kann ein geeignetes Erkennungsmodell für einen speziellen Benutzer des Systems ausgewählt werden. Dadurch ergibt sich eine gute Erkennungsqualität. Auf diese Weise ist ein Benutzer nicht an einen speziellen Typ des Erkennungsmodells, wie beispielsweise ein spe zielles Sprachmodell oder Vokabular, gebunden, während gleichzeitig die Flexibilität des Systems realisiert wird, indem die Modelle für viele Benutzer wieder verwendet werden. So können beispielsweise alle an Fotografie interessierten Benutzer dasselbe Sprachmodell verwenden, das die Fotografie betrifft. Diese Flexibilität und die damit zusammenhängenden, durch die Nutzung eines benutzerorientierten Erkennungsmodells gebotenen guten Erkennungsergebnisse werden erzielt, ohne dass ein spezielles Modell für jeden Benutzer gespeichert werden müsste. Vorteilhafterweise kann auch die Menge der Trainingsdaten, die vom Benutzer einzugeben sind, wesentlich geringer als in dem bekannten System sein. Anstatt eine ausreichende Datenmenge zu erfordern, um ein Modell vollständig zu trainieren oder ein bereits existierendes Modell anzupassen, braucht die Datenmenge erfindungsgemäß nur ausreichend zu sein, um ein geeignetes Modell aus den verfügbaren Modellen auszuwählen.
  • Gemäß der in dem abhängigen Patentanspruch 2 definierten Maßnahme wird die Vielzahl von Erkennungsmodellen des gleichen Typs durch ein grundlegendes Erkennungsmodell und eine Vielzahl von Anpassungsprofilen gebildet. Ein Erkennungsmodell wird ausgewählt, indem ein geeignetes Anpassungsprofil gewählt und das grundlegende Modell unter Zuhilfenahme des gewählten Anpassungsprofils angepasst wird. So kann beispielsweise ein grundlegendes Sprachmodell alle häufig verwendeten Wortfolgen einer Sprache abdecken, während das Anpassungsprofil Wortfolgen eines speziellen Interessenbereichs abdeckt. Das angepasste Sprachmodell kann dann sowohl die allgemein verwendeten und die speziellen Folgen abdecken. Auf diese Weise reicht es aus, nur ein grundlegendes Modell (eines gegebenen Typs) und eine Anzahl von – normalerweise viel kleineren – Anpassungsprofilen zu speichern.
  • Gemäß der in dem abhängigen Patentanspruch 3 definierten Maßnahme umfassen die Modellverbesserungsdaten akustische Trainingsdaten, beispielsweise akustische Bezugswerte. Auf der Grundlage der akustischen Trainingsdaten wird ein geeignetes akustisches Modell ausgewählt oder ein grundlegendes akustisches Modell mit Hilfe eines geeigneten Anpassungsprofils angepasst. Eine einfache Art der Durchführung besteht darin, eine relativ kurze Äußerung eines Benutzers (beispielsweise begrenzt auf ein paar Sätze) mit einer Reihe von verschiedenen akustischen Modellen zu erkennen. Jedes der Modelle ist vorzugsweise auf einen speziellen Sprachtyp, beispielsweise weibliche/männliche Stimme, langsames/schnelles Sprechen oder Sprechen mit unterschiedlichen Akzenten ausgerichtet. Es wird dann das akustische Modell ausgewählt, das das beste Ergebnis liefert.
  • Gemäß der in dem abhängigen Patentanspruch 4 definierten Maßnahme umfasst das Anpassungsprofil des akustischen Modells eine Matrix zum Umwandeln eines akustischen Bezugswerteraums oder eines Satzes akustischer Bezugswerte, die mit akustischen Bezugswerten kombiniert werden sollen, die von dem grundlegenden akustischen Modell genutzt werden. Auf diese Weise kann das akustische Modell wirksam angepasst werden.
  • Gemäß der in dem abhängigen Patentanspruch 5 definierten Maßnahme umfassen die Modellverbesserungsdaten Sprachmodell-Trainingsdaten. Bei einem bevorzugten Ausführungsbeispiel umfassen die Sprachmodell-Trainingsdaten mindestens eine Kontextidentifizierung. Die Kontextidentifizierung umfasst oder gibt vorzugsweise ein Schlüsselwort an. Auf der Grundlage der Trainingsdaten wird ein Sprachmodell oder ein Sprachmodell-Anpassungsprofil ausgewählt.
  • Gemäß der in dem abhängigen Patentanspruch 7 definierten Maßnahme umfassen die Modellverbesserungsdaten Vokabular-Trainingsdaten, wie beispielsweise eine Kontextidentifizierung, die die Auswahl aus einem entsprechenden Vokabular oder Vokabular-Anpassungsprofil ermöglicht, das zur Anpassung eines Grundvokabulars verwendet wird.
  • Gemäß der in dem abhängigen Patentanspruch 10 definierten Maßnahme umfasst die Kontextidentifizierung eine Wortfolge, wie beispielsweise ein Satzglied oder einen Text, oder gibt sie an. Mindestens ein Schlüsselwort wird aus der Wortfolge extrahiert, und die Auswahl des Modells oder Anpassungsprofils basiert auf dem/den extrahierten Schlüsselwort(en).
  • Zur Lösung der Aufgabe ist das Mustererkennungssystem dadurch gekennzeichnet, dass die Serverstation Folgendes umfasst: eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs; Mittel zum Auswählen eines Erkennungsmodells aus der Vielzahl unterschiedlicher Erkennungsmodelle des gleichen Typs in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten, und zum Speichern einer Angabe zu dem ausgewählten Erkennungsmodell zusammen mit der Benutzeridentifizierung; und Mittel zum Abrufen eines Erkennungsmodells, das der der Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und zum Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
  • Diese und andere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 ein Spracherkennungssystem;
  • 2 Hidden-Markov-Modelle zum Bilden von Wort- oder Teilworteinheiten;
  • 3 ein Blockschaltbild des erfindungsgemäßen Systems; und
  • 4 ein Ablaufdiagramm, das die Registrierungsphase und die Erkennungsphase darstellt.
  • 3 zeigt ein Blockschaltbild eines erfindungsgemäßen Mustererkennungssystems 300. Das System 300 umfasst eine Serverstation 310 und mindestens eine Benutzerstation. Dargestellt sind drei Benutzerstationen 350, 360 und 370, wobei nähere Einzelheiten nur für die Benutzerstation 350 dargestellt sind. Die Stationen können unter Verwendung herkömmlicher Rechnertechnologie ausgeführt werden. Die Benutzerstation 350 kann beispielsweise aus einem Desktop-PC oder einer Desktop-Workstation bestehen, wohingegen die Serverstation 310 aus einem PC-Server oder einem Workstation-Server bestehen kann. Die Computer werden durch ein geeignetes, in den Prozessor des Computers geladenes Programm gesteuert. Die Serverstation 310 und die Benutzerstation 350 sind über ein Netzwerk 330 miteinander verbunden. Das Netzwerk 330 kann jegliches geeignete Netzwerk, wie ein lokales Netzwerk, beispielsweise in einer Büroumgebung, oder ein Weitbereichsnetz, vorzugsweise das Internet, sein. Die Stationen umfassen Kommunikationsmittel 312 bzw. 352 zum Kommunizieren über das Netzwerk 330. Es können alle Kommunikationsmittel, die für den Einsatz in Verbindung mit dem Netzwerk 330 geeignet sind, verwendet werden. Typischerweise bestehen die Kommunikationsmittel aus einer Kombination von Hardware, beispielsweise einer Kommunikationsschnittstelle oder einem Modem, und Software in Form eines Software-Treibers, der ein spezielles Kommunikationsprotokoll, beispielsweise die TCP/IP-Protokolle des Internets, unterstützt.
  • Die Benutzerstation 350 umfasst Steuermittel 354. Als Teil einer Registrierungsphase funktioniert das Steuermittel 354 so, dass es anfangs Modellverbesserungsdaten von der Benutzerstation 350 zur Serverstation 310 überträgt. Die Modellverbesserungsdaten sind einem Benutzer der Benutzerstation 350 zugeordnet. Normalerweise werden die Modellverbesserungsdaten direkt durch einen Benutzer eingegeben, der zu diesem Zeitpunkt die Benutzerstation 350 nutzt. Die Eingabe erfolgt typischerweise über die Benutzerschnittstellenmittel 356, beispielsweise eine Tastatur, eine Maus oder über ein Mikrofon, das mit einer Toneingabeschnittstelle der Benutzerstation 350 verbunden ist. Als Teil der Registrierungsphase überträgt das Steuermittel 354 eine Benutzeridentifizierung, die dem Benutzer der Benutzerstation 350 zugeordnet ist, zur Serverstation 310. Die Benutzeridentifizierung kann beispielsweise ein Benutzername sein, unter dem sich der Benutzer bei der Benutzerstation 350 oder über die Benutzerstation 350 bei der Serverstation 310 angemeldet hat. Die Benutzeridentifizierung kann auch aus einer Kommunikationsidentifizierung, beispielsweise einer Kommunikationsadresse oder einer Telefonnummer, bestehen.
  • Die Serverstation 310 umfasst ein Speichermittel 314 zum Speichern einer Vielzahl verschiedener Erkennungsmodelle des gleichen Typs. Die Serverstation 310 kann beispielsweise mehrere Sprachmodelle, mehrere Vokabulare oder mehrere Gruppen von akustischen Bezugswerten (für ein Spracherkennungssystem) speichern. Das Speichermittel 314 kann aus einer Festplatte bestehen. Es können auch beliebige andere geeignete Speichermittel verwendet werden. Das Speichermittel 314 kann physikalisch in der Serverstation 310 angeordnet sein oder alternativ beispielsweise über ein Netzwerk für die Serverstation 310 zugänglich sein. Die Serverstation 310 umfasst ferner Auswahlmittel 316, um ein Erkennungsmodell aus einer Vielzahl verschiedener Erkennungsmodelle des gleichen Typs auszuwählen. Die Auswahl erfolgt in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten. Die Speichermittel 318 werden dazu verwendet, eine Angabe des ausgewählten Erkennungsmodells zusammen mit der Benutzeridentifizierung zu speichern. Eine derartige Speicherung kann durch Speichern einer Liste von Benutzeridentifizierungen für das ausgewählte Modell in dem Speichermittel 314 erfolgen. Es können auch getrennte Tabellen zum Speichern der Beziehung zwischen einer Benutzeridentifizierung und einem ausgewählten Modell verwendet werden.
  • Das Steuermittel 354 der Benutzerstation 350 funktioniert so, dass es für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation eine einem Benutzer der Benutzerstation zugeordnete Benutzeridentifizierung und ein Eingabemuster zur Serverstation überträgt, das für die von dem Benutzer erzeugte zeitsequentielle Eingabe repräsentativ ist. Die Erkennungssitzung kann sofort auf die Registrierungsphase folgen (in diesem Fall braucht die Benutzeridentifizierung nicht noch einmal übertragen zu werden) oder zu jedem beliebigen Zeitpunkt nach der Registrierungsphase stattfinden. Das Eingabemuster stellt die Sprache darstellenden Signale dar, die von dem Benutzer der Benutzerstation erzeugt werden. Beispiele für derartige Signale sind Sprachsignale oder Handschriftsignale. Im Prinzip ist das Muster ein zeitsequentielles Muster. Vorzugsweise werden alle Informationen zum zeitsequentiellen Verhalten des Musters ebenfalls von der Benut zerstation 350 zur Serverstation 310 übertragen. Vorzugsweise wird eine „Echtzeit"-Verbindung zwischen der Benutzerstation 350 und der Serverstation 310 hergestellt, wobei das Benutzerschnittstellenmittel 356 der Benutzerstation 350 ein vom Benutzer erzeugtes Eingangssignal abtastet. Das Signal wird analysiert (beispielsweise bei Sprachsignalen auf eine Art, wie sie für das Teilsystem 110 zur Spektralanalyse aus 1 beschrieben wurde) und das Ergebnis (z. B. eine Folge von Vektoren) wird in Datenblöcken zusammengefasst, und die Datenblöcke werden zur Serverstation 310 übertragen. Als Alternative kann die Folge von Abtastwerten oder die Folge von Vektoren vorher aufgezeichnet worden sein und der Benutzerstation 350 von einem festen Speichermedium, wie einer Festplatte, oder von einem tragbaren Speichermedium, wie einer Diskette, zugeführt werden. Normalerweise liegen die zeitsequentiellen Informationen immer noch vor. Es ist anzumerken, dass im Besonderen Handschrift der Benutzerstation 350 auch als Bild zugeführt werden kann, wobei ein ausführliches zeitsequentielles Verhalten, das bei einem Online-Handschrifterkennungssystem existiert, verloren geht. Trotzdem können derartige Signale auch in dem erfindungsgemäßen System verwendet werden.
  • Bei jeder Erkennungssitzung mit einer Benutzerstation nutzt die Serverstation 310 Abrufmittel 320 zum Abrufen eines Erkennungsmodells von dem Speichermittel 314. Das Erkennungsmodell (oder die Erkennungsmodelle) werden abgerufen, die der Benutzeridentifizierung zugeordnet sind, die durch die Benutzerstation zur Serverstation übertragen wurden. Das Abrufmittel 310 fügt das abgerufene Erkennungsmodell in eine Modellsammlung von mindestens einem Erkennungsmodell ein. Die Modellsammlung wird von einer Erkennungseinheit 322 dazu verwendet, das von der Benutzerstation 350 empfangene Eingabemuster zu erkennen.
  • 4 zeigt den Gesamtinformationsaustausch zwischen der Benutzerstation 350 und der Serverstation 310. Bei der Registrierungsphase 400 überträgt die Benutzerstation die Benutzeridentifizierung (engl. user identifier, UI) und Modellverbesserungsdaten (engl. model improvement data, MID) zur Serverstation 310. Es ist anzumerken, dass die genaue Reihenfolge, in der die Elemente übertragen werden, und die Anzahl der Übertragungsrahmen oder -pakete, die zur Übertragung der Elemente verwendet werden, irrelevant sind. Während jeder Erkennungssitzung (dargestellt sind die beiden Sitzungen 410 und 420) werden die Benutzeridentifizierung (UI) und das Signal (SGN) zur Serverstation 310 übertragen.
  • Bei einem weiteren erfindungsgemäßen Ausführungsbeispiel besteht die Vielzahl von Erkennungsmodellen des gleichen Typs aus einem grundlegenden Erkennungsmodell und einer Vielzahl von Anpassungsprofilen. Vorzugsweise werden das grundlegende Modell und die Anpassungsprofile im selben Speicher, beispielsweise dem Speichermittel 314, gespeichert. Das Auswahlmittel 316 wählt ein Erkennungsmodell aus, indem es mindestens eines der Anpassungsprofile in Abhängigkeit von den dem Benutzer der Benutzerstation zugeordneten Modellverbesserungsdaten auswählen. Die Speichermittel 318 werden dazu verwendet, eine Angabe des ausgewählten Anpassungsprofils zusammen mit der Benutzeridentifizierung zu speichern. Das Abrufmittel 320 ruft ein Erkennungsmodell von den Speichermitteln 314 ab, indem es ein der Benutzeridentifizierung zugeordnetes Anpassungsmodell abruft und das grundlegende Erkennungsmodell gesteuert von dem Anpassungsprofil anpasst. Verfahren zum Anpassen eines Erkennungsmodells sind allgemein bekannt. Beispiele für derartige Verfahren für spezielle Erkennungsmodelle sind unten aufgeführt. Das Abrufmittel 320 fügt das angepasste Erkennungsmodell in die Modellsammlung ein, die von der Spracherkennungseinheit 322 genutzt wird.
  • Bei einem weiteren Ausführungsbeispiel umfasst das Eingabemuster Sprache darstellende Daten. Die Modellverbesserungsdaten umfassen akustische Trainingsdaten. Der Umfang der akustischen Trainingsdaten kann sehr begrenzt sein. Wo bei bekannten Systemen ungefähr eine Stunde mit Sprachdaten erforderlich ist, um ein akustisches Modell vollständig zu trainieren, und ungefähr eine Viertelstunde mit Sprachdaten erforderlich ist, um ein akustisches Standardmodell an einen neuen Benutzer anzupassen, stellen die akustischen Trainingsdaten bei dem erfindungsgemäßen System wesentlich weniger als eine Viertelstunde Sprache dar. Die akustischen Trainingsdaten sind vorzugsweise darauf beschränkt, akustische Aspekte von weniger als fünf Minuten Sprache darzustellen. Vorteilhafterweise ist der Umfang der Sprachdaten auf lediglich ein paar Sätze (z. B. weniger als fünf Sätze) oder sogar nur ein paar vom Benutzer der Benutzerstation 350 gesprochene Wörter begrenzt. Der Benutzer kann ausdrücklich aufgefordert werden, vorher festgelegte Wörter oder Sätze zu sprechen (der zu sprechende Text kann dem Benutzer angezeigt werden). Als Alternative kann das Training implizit sein. Beispielsweise könnte das Erkennungssystem sofort funktionsbereit sein, indem ein akustisches Standardmodell verwendet wird. Eine vorher festgelegte Zeitspanne oder ein vorher festgelegter Umfang der Spracheingabe wird dann als akustische Trainingsdaten verwendet. Ein für den Benutzer geeignetes akustisches Modell wird aus einer Vielzahl verschiedener akustischer Modelle ausge wählt. Bei einem bevorzugten Ausführungsbeispiel umfassen die akustischen Trainingsdaten akustische Daten wie akustische Beobachtungsvektoren (die akustische Abtastwerte darstellen), und die akustischen Daten werden separat erkannt, indem jedes der akustischen Modelle verwendet wird. Das akustische Modell, das das beste Erkennungsergebnis lieferte, wird dann als am besten mit dem Benutzer übereinstimmend ausgewählt. Als Alternative zur Zuführung der tatsächlichen akustischen Daten zur Serverstation 310 kann die Benutzerstation 350 auch gewisse akustische Merkmale für die Serverstation 310 extrahieren, wie beispielsweise Tonlage oder mittlere Sprechgeschwindigkeit. Die Serverstation 310 kann für jedes der Erkennungsmodelle derartige akustischen Merkmale speichern und ein am besten übereinstimmendes Modell auf der Grundlage der Merkmale auswählen. Es ist zu beachten, dass die verschiedenen akustischen Modelle auch aus einem grundlegenden akustischen Modell bestehen können, wobei Anpassungsprofile eingesetzt werden, um das grundlegende akustische Modell (vorzugsweise ein vollständig trainiertes sprecherunabhängiges Modell) an verschiedene akustische Modelle anzupassen. In einem derartigen Fall beinhaltet die Auswahl eines akustischen Modells die Auswahl eines akustischen Modellanpassungsprofils. Das Anpassungsprofil kann beispielsweise ein akustisches Modell sein, das akustische Daten von einem oder mehreren Sprechern darstellt, die eine spezielle Kategorie von Sprechern repräsentieren, beispielsweise männlich/weiblich, schnell/langsam sprechend oder mit verschiedenen Akzenten. Zur Erkennung wird das ausgewählte akustische Modellanpassungsprofil verwendet, um das grundlegende akustische Modell anzupassen. Allgemein bekannte Verfahren zum Anpassen eines akustischen Modells beinhalten das MLLR-Verfahren (Maximum Likelihood Linear Regression), bei dem eine lineare Transformation des akustischen Bezugswerteraums erfolgt, und das MAP-Verfahren (Maximum A Posteriori probability) oder Bayessche Anpassungsverfahren (siehe „Fundamentals of speech recognition" von L. Rabiner, B.-H. Juang, erschienen 1993 bei Prentice Hall, auf den Seiten 373 bis 375). Offensichtlich können akustische Bezugswerte eines Anpassungsprofils auch mit akustischen Bezugswerten verknüpft werden, die für das Training des grundlegenden akustischen Modells verwendet werden, gefolgt von einem erneuten Training für die verknüpfte Gruppe von Bezugswerten.
  • Bei einem weiteren oder alternativen Ausführungsbeispiel umfassen die Modellverbesserungsdaten Sprachmodell-Trainingsdaten. Die Sprachmodell-Trainingsdaten können Informationen umfassen, die direkt Informationen entsprechen, wie sie in dem Sprachmodell der Spracherkennungseinheit 322 verwendet werden. Die Trai ningsdaten könnten beispielsweise Bigramme oder Trigramme und ihre entsprechenden Wahrscheinlichkeiten für spezielle vom Benutzer verwendete Sprachelemente enthalten. Als Alternative umfassen oder geben die Trainingsdaten Textdaten (beispielsweise Textdateien) an, die von der Serverstation analysiert werden können. Die Serverstation 310 wählt ein Sprachmodell aus einer Vielzahl verschiedener Sprachmodelle in der Serverstation auf der Grundlage der dem Benutzer zugeordneten Sprachmodell-Trainingsdaten aus. Die Serverstation 310 wählt zum Beispiel ein Sprachmodell aus, das am besten einer Analyse eines Textes entspricht, der vom Benutzer angegeben oder geliefert wird. Die Sprachmodell-Trainingsdaten umfassen vorzugsweise mindestens eine Kontextidentifizierung. Die Kontextidentifizierung gibt vorzugsweise einen Interessenbereich des Benutzers an. In diesem Fall wählt die Serverstation ein Sprachmodell aus, das am besten mit dem geäußerten Interesse übereinstimmt. Dies kann auf verschiedene Arten erfolgen. Das Sprachmodell in der Serverstation 310 kann beispielsweise für spezielle Kontexte entwickelt worden sein, und dem Benutzer kann die Möglichkeit angeboten werden, zwischen diesen Modellen zu wählen. Als Alternative könnte die Serverstation Textdaten sammeln, die der Kontextidentifizierung entsprechen. In diesem Fall ist die Kontextidentifizierung vorzugsweise ein Schlüsselwort oder umfasst oder zeigt eine Folge von Wörtern, beispielsweise ein Satzglied, einen Satz oder ein Dokument, an, von der die Serverstation 310 automatisch ein oder mehrere repräsentative Schlüsselwörter extrahiert. Die Gruppe von Dokumenten, aus denen die Textdaten gesammelt werden, kann aus einem Dokumentendateisystem bestehen, wie es beispielsweise in Computersystemen verwendet wird. Wenn herkömmliche Dokumente verwendet werden, kann die Auswahl durch Durchsuchen des Inhalts des Dokuments erfolgen. Vorteilhafterweise besteht die Gruppe von Dokumenten aus einer Dokumentendatenbank, beispielsweise einem Dokumentenverwaltungssystem. Bei einem derartigen System können als Alternative oder zusätzlich zum Durchsuchen des Inhalts der Dokumente auch Attribute, die den Inhalt der Dokumente beschreiben, dazu verwendet werden zu bestimmen, ob ein Dokument relevant ist. Vorteilhafterweise besteht die Gruppe von Dokumenten aus Dokumenten in einem verteilten Rechnersystem. Das verteilte Rechnersystem kann sich von einer Gruppe lokaler Computer in einem Gebäude oder einem Werk eines Unternehmens, die über ein lokales Netzwerk miteinander verbunden sind, bis zu einem weltweiten Netzwerk von Computern verschiedener Unternehmen erstrecken, die über ein Weitbereichsnetz, wie das Internet, miteinander verbunden sind. Das verteilte System umfasst mehrere Dokumentenspeicher, die normalerweise als Server bezeichnet werden. Die Ver wendung eines verteilten Systems und im Besonderen des Internets stellt sicher, dass eine große Datenmenge und im Allgemeinen aktuelle Daten zur Verfügung stehen. Auf diese Weise kann das Sprachmodell neue Sprachelemente enthalten, die zum Zeitpunkt der Auslieferung des Systems unbekannt waren oder selten verwendet wurden, ohne dass der Benutzer alle neuen Elemente zu trainieren braucht.
  • Vorteilhafterweise durchsucht die Serverstation 310 selbst ein Netz wie das Internet nach aktuellen Textdaten, die der Kontextidentifizierung entsprechen. Es können auch spezialisierte Suchmaschinen oder Suchagenten eingesetzt werden, um die Textdaten zu finden. Auf der Grundlage der Textdaten erstellt die Serverstation ein Sprachmodell, das mit der Kontextidentifizierung übereinstimmt. Dieses Modell steht dann auch für die Verwendung durch andere Nutzer mit dem gleichen Interesse zur Verfügung.
  • Wird eine Suchmaschine verwendet, durchsucht die Netzsuchmaschine die Dokumentenspeicher in dem verteilten System nach Dokumenten, die dem von der Serverstation 310 (oder direkt durch die Benutzerstation 350) zugeführten Suchkriterium entsprechen. Typischerweise durchsucht die Netzsuchmaschine regelmäßig das verteilte System um zu ermitteln, welche Dokumente zur Verfügung stehen und Attribute wie Schlüsselwörter aus den Dokumenten zu extrahieren. Das Ergebnis der Durchsuchung wird dann in einer Datenbank der Suchmaschine gespeichert. Die Suche wird dann in der Datenbank durchgeführt. Wird ein Suchagent verwendet, besteht die Aufgabe des Suchagenten darin, die Speicher des verteilten Systems zu durchsuchen. Zu diesem Zweck liefert die Serverstation 310 (oder die Benutzerstation 350) dem Suchagenten das Suchkriterium. Der Suchagent durchsucht autonom Speicher in dem verteilten System. Immer wenn ein Dokument gefunden wird, das das Suchkriterium erfüllt, kann der Agent dieses zu der anfragenden Station beispielsweise über reguläre E-Mails übertragen. Zahlreiche Formen von Suchagenten sind insbesondere für das Internet bekannt. Beispielsweise kann der Agent nur in der anfragenden Station aktiv sein, wo er der Reihe nach (oder parallel) auf Speicher in dem verteilten System zugreift, die auf Anfragen des Agenten antworten. Als Alternative kann der Agent sich durch das verteilte System bewegen, z.B. indem er von einem Server zum anderen springt, wobei der Agent bei dem Server aktiviert wird, den er zu dem Zeitpunkt „besucht".
  • Es ist zu beachten, dass anstelle der Speicherung mehrerer vollständiger Sprachmodelle auch ein grundlegendes Sprachmodell verwendet werden kann, das die allgemein verwendete Sprache darstellt, wobei Sprachmodell-Anpassungsprofile eingesetzt werden, um das grundlegende Modell auch an spezielle Interessenbereiche anzupassen.
  • Zahlreiche Arten der Anpassung eines Sprachmodells sind bekannt. Bei einem N-Gramm-Modell kann der Term P(wj|wj–N+1 ... wj–1) durch ein Häufigkeitsverfahren geschätzt werden: P(wj|wj–N+1 ... wj–1) = F(wj–N+1 ... wj–1wj)/F(wj–N+1 ... wj–1)wobei F angibt, wie oft die Folge in ihrem Argument in dem gegebenen Trainingskorpus auftritt. Damit die Schätzung zuverlässig ist, muss F(wj–N+1 ... wj–1wj) im Trainingskorpus substantiell sein. Um zu verhindern, dass der Trainingskorpus unverhältnismäßig groß sein muss und bei vielen möglichen Wortfolgen F(wj–N+1 ... wj–1wj) = 0, können wohlbekannte Glättungsverfahren eingesetzt werden. Beispielsweise kann die Glättung für ein Trigramm erfolgen, indem die zu Trigrammen, Bigrammen und Unigrammen gehörigen Häufigkeiten interpoliert werden: P(w3|w2w1) = p1·F(w1w2w3)/F(w1w2) + p2·F(w1w2)/(F(w1) + p3·F(w1)/Summe(F(w1))wobei die nicht negativen Gewichtungen die Gleichung p1 + p2 + p3 = 1 erfüllen und Summe (F(w1)) die Größe des Trainingskorpus ist. Die Gewichtungen hängen von den Werten von F(w1w2) und F(w1) ab und können erzielt werden, indem das Prinzip der Kreuzvalidierung angewendet wird. Auf diese Weise kann eine Anpassung durchgeführt werden, indem das grundlegende Sprachmodell mit einem Anpassungsprofil interpoliert wird, das eine begrenzte Anzahl von Unigrammen, Bigrammen bzw. Trigrammen spezifiziert. Geeignete andere Verfahren zum Anpassen eines Sprachmodells wurden in den nicht vorher veröffentlichten Deutschen Patentanmeldungen DE 197 08 183.5 und DE 197 08 184.3 beschrieben, die beide der vorliegenden Anmelderin zugewiesen sind, und den Dokumenten „Speaker adaptation in the Philips System for Large Vocabulary Continuous Speech Recognition" von E. Thelen, X. Aubert, und P. Beyerlein, erschienen in Proceeding ICASSP 1997, Band 2, auf den Seiten 1035–1038, und „Long Term On-line Speaker Adaptation for Large Vocabulary Dictation" von E. Thelen, erschienen in Proceedings ICSLP 1996, auf den Seiten 2139–2142, beschrieben.
  • Bei einem weiteren oder alternativen erfindungsgemäßen Ausführungsbeispiel umfassen die Modellverbesserungsdaten Vokabulartrainingsdaten. Die Serverstation 310 wählt ein Vokabular aus einer Vielzahl verschiedener in der Serverstation 310 gespeicherter (oder der Serverstation 310 zur Verfügung stehender) Vokabulare aus. Als Alternative kann die Serverstation 310 ein Vokabularanpassungsprofil auswählen und das ausgewählte Vokabularanpassungsprofil dazu verwenden, ein grundlegendes Vokabular anzupassen. Das Vokabularanpassungsprofil kann beispielsweise eine Liste mit zusätzlichen Wör tern umfassen oder angeben, die einfach zu dem grundlegenden Vokabular hinzugefügt werden, das die Wörter abdecken kann, die normalerweise in einer Sprache verwendet werden. Es ist zu beachten, dass das Hinzufügen eines neuen Wortes zu einem Vokabular selbst nicht ausreichen kann um sicherzustellen, dass das Wort erkannt werden kann. Bei einem Spracherkennungssystem ist zusätzlich eine Transkription in akustische Bezugswerte erforderlich. Bei vielen Sprachen kann eine verhältnismäßig genaue Transkription für die meisten Wörter automatisch erzielt werden. Durch den Vergleich eines neuen Wortes mit Wörtern, die bereits im Vokabular existieren, und eine Transkription kann eine geeignete Transkription erzeugt werden. Beispielsweise kann eine phonetische Transkription mit einer verhältnismäßig hohen Genauigkeit für ein Wort auf der Basis phonetischer Transkriptionen bekannter Wörter erfolgen. Auch wenn die Transkription nur eine mittelmäßige Qualität aufweist, liegt das neue Wort in dem Vokabular und vorzugsweise auch in dem Sprachmodell vor. Dadurch wird die Erkennung des Wortes ermöglicht (die sonst nicht möglich wäre), und mit Hilfe des Sprachmodells kann die Erkennung des Wortes in seinem Kontext einen annehmbaren Grad aufweisen. Ist das Wort einmal erkannt, kann die Transkription automatisch angepasst werden, um besser mit der tatsächlichen Äußerung überein zu stimmen, für die das Wort erkannt wird.
  • Bei einem weiteren Ausführungsbeispiel umfassen die Vokabulartrainingsdaten mindestens eine Kontextidentifizierung, und die Serverstation 310 funktioniert so, dass sie ein Vokabular oder ein Vokabularanpassungsprofil auswählt, das der Kontextidentifizierung entspricht. Ähnlich wie bei dem für das Sprachmodell beschriebenen Vorgehen, funktioniert die Serverstation 310 so, dass sie Text in Abhängigkeit von der Kontextidentifizierung findet. Aus einem gefundenen Text extrahiert die Serverstation 310 Wörter. Zahlreiche Verfahren sind für die Extraktion von Wörtern, beispielsweise Schlüsselwörtern, aus einem Text bekannt. Für die Spracherkennung kann die Serverstation 310 ein getrenntes „phonetisches" Wörterbuch verwenden, um die Wörter in eine akustische Darstellung zu transkribieren. Als Alternative erfolgt dies automatisch, wie es oben dargelegt wurde.

Claims (11)

  1. Verfahren zum Erkennen eines in einer Benutzerstation gespeicherten Eingabemusters, die eine Erkennungseinheit einer Serverstation nutzt, wobei die Serverstation und die Benutzerstation über ein Netzwerk verbunden sind, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, und wobei das Verfahren Folgendes umfasst: Durchführen eines Anfangsschrittes der Erkennungsregistrierung, der Folgendes beinhaltet: die Übertragung von einem Benutzer der Benutzerstation zugeordneten Modellverbesserungsdaten von der Benutzerstation zur Erkennungseinheit und die Zuordnung einer Benutzeridentifizierung zum Benutzer der Benutzerstation; und für eine Erkennungssitzung zwischen der Benutzerstation und der Serverstation die Übertragung einer einem Benutzer der Benutzerstation zugeordneten Benutzeridentifizierung und eines Eingabemusters, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, von der Benutzerstation zur Serverstation; und den Einsatz der Erkennungseinheit zum Erkennen des Eingabemusters durch Einfügen mindestens eines Erkennungsmodells in die Modellsammlung, die die dem Benutzer zugeordneten Modellverbesserungsdaten darstellt, dadurch gekennzeichnet, dass der Server eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs umfasst, der Schritt der Erkennungsregistrierung Folgendes umfasst: die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle des gleichen Typs in Abhängigkeit von den Modellverbesserungsdaten, die dem Benutzer zugeordnet sind, und das Speichern einer Angabe des ausgewählten Erkennungsmodells zusammen mit der Benutzeridentifizierung, und der Schritt des Erkennens des Eingabemusters Folgendes umfasst: das Abrufen des Erkennungsmodells, das der zur Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und das Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Vielzahl von Erkennungsmodellen des gleichen Typs aus einem grundlegenden Erkennungsmodell und einer Vielzahl von Anpassungsprofilen besteht, der Schritt des Auswählens eines Erkennungsmodells in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten die Auswahl von mindestens einem der Anpassungsprofile in Abhängigkeit von den Modellverbesserungsdaten umfasst, und dass der Schritt der Erkennungsregistrierung die Speicherung einer Angabe des ausgewählten Anpassungsprofils zusammen mit der Benutzeridentifizierung umfasst, und dass der Schritt des Abrufens eines der Benutzeridentifizierung zugeordneten Erkennungsmodells das Abrufen eines der Benutzeridentifizierung zugeordneten Anpassungsprofils und das Anpassen des grundlegenden Erkennungsmodells mit Hilfe des Anpassungsprofils umfasst.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Eingabemuster Sprache darstellende Daten umfasst, dass die Modellverbesserungsdaten akustische Trainingsdaten umfassen und dass die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle basierend auf den dem Benutzer zugeordneten akustischen Trainingsdaten das Auswählen eines akustischen Modells aus einer Vielzahl verschiedener akustischer Modelle oder das Auswählen eines Anpassungsprofils für das akustische Modell und Verwenden des ausgewählten Anpassungsprofils für das akustische Modell zum Anpassen eines grundlegenden akustischen Modells umfasst.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das Anpassungsprofil für das akustische Modell eine Matrix zum Umwandeln eines akustischen Bezugswerteraums oder eine Gruppe von akustischen Bezugswerten umfasst, die mit von dem grundlegenden akustischen Modell verwendeten akustischen Bezugswerten kombiniert werden sollen.
  5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Modellverbesserungsdaten Sprachmodell-Trainingsdaten umfassen und dass das Auswählen eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle auf der Basis der dem Benutzer zugeordneten Sprachmodell-Trainingsdaten die Auswahl eines Sprachmodells aus einer Vielzahl verschiedener Sprachmodelle oder die Auswahl eines Sprachmodell-Anpassungsprofils und die Verwendung des ausgewählten Sprachmodell-Anpassungsprofils zum Anpassen eines grundlegenden Sprachmodells umfasst.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Sprachmodell-Trainingsdaten mindestens eine Kontextidentifizierung umfassen und dass das Verfahren den Schritt des Auswählens in der Serverstation eines Sprachmodells oder eines Sprachmodell-Anpassungsprofils umfasst, das der Kontextidentifizierung entspricht.
  7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Modellverbesserungsdaten Vokabular-Trainingsdaten umfassen und dass die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle auf der Basis der dem Benutzer zugeordneten Vokabular-Trainingsdaten das Auswählen eines Vokabulars aus einer Vielzahl verschiedener Vokabulare oder das Auswählen eines Vokabular-Anpassungsprofils und das Verwenden des ausgewählten Vokabular-Anpassungsprofils zum Anpassen eines grundlegenden Vokabulars umfasst.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Vokabular-Trainingsdaten mindestens eine Kontextidentifizierung umfassen und dass das Verfahren den Schritt des Auswählens in der Serverstation eines Vokabulars oder eines Vokabular-Anpassungsprofils umfasst, das der Kontextidentifizierung entspricht.
  9. Verfahren nach Anspruch 6 oder 8, dadurch gekennzeichnet, dass die Kontextidentifizierung ein Schlüsselwort umfasst.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die Kontextidentifizierung eine Folge von Wörtern umfasst oder angibt und dass das Verfahren die Extraktion mindestens eines Schlüsselwortes aus der Folge von Wörtern und die Durchführung der Auswahl auf der Grundlage des/der extrahierten Schlüsselwortes/Schlüsselwörter umfasst.
  11. Mustererkennungssystem, das mindestens eine Benutzerstation, die ein Eingabemuster speichert, und eine Serverstation umfasst, die eine Erkennungseinheit beinhaltet, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, wobei die Serverstation mit der Benutzerstation über ein Netzwerk verbunden ist, wobei die Benutzerstation Mittel umfasst, um anfangs einem Benutzer der Benutzerstation zugeordnete Modellverbesserungsdaten und eine dem Benutzer zugeordnete Benutzeridentifizierung zur Serverstation zu übertragen, und um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation eine einem Benutzer der Benutzerstation zugeordnete Benutzeridentifizierung und ein Eingabemuster, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, zur Serverstation zu übertragen, und wobei die Serverstation Mittel umfasst, um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation mindestens ein Erkennungsmodell in die Modellsammlung einzufügen, die die Modellverbesserungsdaten darstellt, die einem Benutzer zugeordnet sind, von dem das Eingabemuster ausging, und die Spracherkennungseinheit dazu einzusetzen, das von der Benutzerstation empfangene Eingabemuster zu erkennen, dadurch gekennzeichnet, dass die Serverstation Folgendes umfasst: eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs, Mittel zum Auswählen eines Erkennungs modells aus der Vielzahl unterschiedlicher Erkennungsmodelle des gleichen Typs in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten, und zum Speichern einer Angabe zu dem ausgewählten Erkennungsmodell zusammen mit der Benutzeridentifizierung, und Mittel zum Abrufen des Erkennungsmodells, das der der Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und zum Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
DE69822296T 1997-10-20 1998-10-08 Mustererkennungsregistrierung in einem verteilten system Expired - Lifetime DE69822296T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97203267 1997-10-20
EP97203267 1997-10-20
PCT/IB1998/001566 WO1999021172A2 (en) 1997-10-20 1998-10-08 Pattern recognition enrolment in a distributed system

Publications (2)

Publication Number Publication Date
DE69822296D1 DE69822296D1 (de) 2004-04-15
DE69822296T2 true DE69822296T2 (de) 2005-02-24

Family

ID=8228844

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69822296T Expired - Lifetime DE69822296T2 (de) 1997-10-20 1998-10-08 Mustererkennungsregistrierung in einem verteilten system

Country Status (5)

Country Link
US (1) US6363348B1 (de)
EP (1) EP0980574B1 (de)
JP (1) JP4267081B2 (de)
DE (1) DE69822296T2 (de)
WO (1) WO1999021172A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung

Families Citing this family (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7082397B2 (en) 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6691163B1 (en) * 1999-12-23 2004-02-10 Alexa Internet Use of web usage trail data to identify related links
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7035788B1 (en) * 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US8135589B1 (en) 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
EP1215661A1 (de) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Sprachgesteuertes tragbares Endgerät
JP4109414B2 (ja) * 2000-12-18 2008-07-02 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
JP3838029B2 (ja) * 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
US7024359B2 (en) * 2001-01-31 2006-04-04 Qualcomm Incorporated Distributed voice recognition system using acoustic feature vector modification
US7103549B2 (en) * 2001-03-22 2006-09-05 Intel Corporation Method for improving speech recognition performance using speaker and channel information
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20030023431A1 (en) * 2001-07-26 2003-01-30 Marc Neuberger Method and system for augmenting grammars in distributed voice browsing
CN1409527A (zh) * 2001-09-13 2003-04-09 松下电器产业株式会社 终端器、服务器及语音辨识方法
US6961722B1 (en) * 2001-09-28 2005-11-01 America Online, Inc. Automated electronic dictionary
KR20030034739A (ko) * 2001-10-26 2003-05-09 삼성전자주식회사 음성단위모델데이터의 갱신방법 및 그 장치
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
US7539725B2 (en) * 2003-04-03 2009-05-26 Zix Corporation Auditor system
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US7379596B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation System and method for personalization of handwriting recognition
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
CA2618547C (en) * 2005-08-09 2014-02-18 Mobilevoicecontrol, Inc. Use of multiple speech recognition software instances
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US20070203901A1 (en) * 2006-02-24 2007-08-30 Manuel Prado Data transcription and management system and method
US20080228479A1 (en) * 2006-02-24 2008-09-18 Viva Transcription Coporation Data transcription and management system and method
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4658022B2 (ja) * 2006-11-20 2011-03-23 株式会社リコー 音声認識システム
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
US7877258B1 (en) * 2007-03-29 2011-01-25 Google Inc. Representing n-gram language models for compact storage and fast retrieval
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8682661B1 (en) * 2010-08-31 2014-03-25 Google Inc. Robust speech recognition
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US8930194B2 (en) 2011-01-07 2015-01-06 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
EP2678861B1 (de) 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridisierte client-server-spracherkennung
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
TWI549055B (zh) * 2011-08-05 2016-09-11 宏碁股份有限公司 更新網路內容的方法與裝置
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
EP2818377B1 (de) * 2012-02-24 2017-07-12 Toyota Jidosha Kabushiki Kaisha System zur bestimmung eines fahrzeugstatus, verfahren zur bestimmung eines fahrzeugstatus und betriebsunterstützungssystem
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9767793B2 (en) * 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9460716B1 (en) * 2012-09-11 2016-10-04 Google Inc. Using social networks to improve acoustic models
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9792911B2 (en) * 2014-03-25 2017-10-17 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Background voice recognition trainer
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9965685B2 (en) 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US5182765A (en) * 1985-11-26 1993-01-26 Kabushiki Kaisha Toshiba Speech recognition system with an accurate recognition function
GB8702910D0 (en) * 1987-02-10 1987-03-18 British Telecomm Multi-user speech recognition system
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
EP0954854A4 (de) * 1996-11-22 2000-07-19 T Netix Inc Teilwertbasierte sprecherverifizierung mittels vereinigung verschiedener klassifizierer unter verwendung von kanal-, vereinigungs-, modell- und schwellenadaptation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung

Also Published As

Publication number Publication date
DE69822296D1 (de) 2004-04-15
JP2001506382A (ja) 2001-05-15
WO1999021172A3 (en) 1999-07-01
EP0980574B1 (de) 2004-03-10
JP4267081B2 (ja) 2009-05-27
US6363348B1 (en) 2002-03-26
EP0980574A2 (de) 2000-02-23
WO1999021172A2 (en) 1999-04-29

Similar Documents

Publication Publication Date Title
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE60201262T2 (de) Hierarchische sprachmodelle
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE60015531T2 (de) Client-server spracherkennungssystem
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE69827667T2 (de) Vokoder basierter spracherkenner
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
EP1135767B1 (de) Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69814589T2 (de) Spracherkennung unter verwendung mehrerer spracherkenner
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60316912T2 (de) Verfahren zur Spracherkennung
DE602005000308T2 (de) Vorrichtung für sprachgesteuerte Anwendungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition