DE69822296T2

DE69822296T2 - Mustererkennungsregistrierung in einem verteilten system

Info

Publication number: DE69822296T2
Application number: DE69822296T
Authority: DE
Inventors: Stefan Besling; Eric Thelen
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1997-10-20
Filing date: 1998-10-08
Publication date: 2005-02-24
Anticipated expiration: 2018-10-09
Also published as: DE69822296D1; JP2001506382A; WO1999021172A3; EP0980574B1; JP4267081B2; US6363348B1; EP0980574A2; WO1999021172A2

Description

Die Erfindung betrifft ein Verfahren zum Erkennen eines in einer Benutzerstation gespeicherten Eingabemusters, die eine Erkennungseinheit einer Serverstation nutzt, wobei die Serverstation und die Benutzerstation über ein Netzwerk verbunden sind, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, und wobei das Verfahren Folgendes umfasst:
Durchführen eines Anfangsschrittes der Erkennungsregistrierung, der Folgendes beinhaltet: die Übertragung von einem Benutzer der Benutzerstation zugeordneten Modellverbesserungsdaten von der Benutzerstation zur Erkennungseinheit und die Zuordnung einer Benutzeridentifizierung zum Benutzer der Benutzerstation; und
für eine Erkennungssitzung zwischen der Benutzerstation und der Serverstation die Übertragung einer einem Benutzer der Benutzerstation zugeordneten Benutzeridentifizierung und eines Eingabemusters, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, von der Benutzerstation zur Serverstation; und den Einsatz der Erkennungseinheit zum Erkennen des Eingabemusters durch Einfügen mindestens eines Erkennungsmodells in die Modellsammlung, die die dem Benutzer zugeordneten Modellverbesserungsdaten darstellt.
Die Erfindung betrifft ferner ein Mustererkennungssystem, das mindestens eine Benutzerstation, die ein Eingabemuster speichert, und eine Serverstation umfasst, die eine Erkennungseinheit beinhaltet, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, wobei die Serverstation mit der Benutzerstation über ein Netzwerk verbunden ist;
wobei die Benutzerstation Mittel umfasst, um anfangs einem Benutzer der Benutzerstation zugeordnete Modellverbesserungsdaten und eine dem Benutzer zugeordnete Benutzeridentifizierung zur Serverstation zu übertragen, und um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation eine einem Benutzer der Benut zerstation zugeordnete Benutzeridentifizierung und ein Eingabemuster, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, zur Serverstation zu übertragen; und
wobei die Serverstation Mittel umfasst, um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation mindestens ein Erkennungsmodell in die Modellsammlung einzufügen, die die Modellverbesserungsdaten darstellt, die einem Benutzer zugeordnet sind, von dem das Eingabemuster ausging, und um die Spracherkennungseinheit dazu einzusetzen, das von der Benutzerstation empfangene Eingabemuster zu erkennen.
Mustererkennungssysteme, wie beispielsweise kontinuierliche Spracherkennungssysteme mit großem Vokabular oder Handschrifterkennungssysteme, nutzen typischerweise eine Sammlung von Erkennungsmodellen, um ein Eingabemuster zu erkennen. Es können beispielsweise ein akustisches Modell und ein Vokabular verwendet werden, um Wörter zu erkennen, und es kann ein Sprachmodell verwendet werden, um das grundlegende Ergebnis der Erkennung zu verbessern. In 1 ist ein typischer Aufbau eines kontinuierlichen Spracherkennungssystems 100 mit großem Vokabular dargestellt [siehe L. Rabiner, B.-H. Juang, „Fundamentals of speech recognition", Prentice Hall 1993, Seiten 434–454]. Das System 100 umfasst ein Spektralanalyse-Teilsystem 110 und ein System zum Einheitenabgleich. In dem Spektralanalyse-Teilsystem 110 wird das Spracheingabesignal (speech input signal, SIS) spektral bzw. zeitlich analysiert, um einen repräsentativen Vektor mit Merkmalen (Beobachtungsvektor, engl. observation vector, OV) zu berechnen. Typischerweise wird das Sprachsignal digitalisiert (d. h. mit einer Geschwindigkeit von 6,67 kHz abgetastet) und vorverarbeitet, indem beispielsweise eine Vorverzerrung angewendet wird. Aufeinanderfolgende Abtastwerte werden in Gruppen (Blöcken) in Frames zusammengefasst, die beispielsweise 32 ms des Sprachsignals entsprechen. Aufeinanderfolgende Frames überlappen sich teilweise um beispielsweise 16 ms. Häufig wird das LPC-Spektralanalyseverfahren (engl. linear predictive coding) angewendet, um für jeden Frame einen repräsentativen Vektor mit Merkmalen (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann zum Beispiel 24, 32 oder 63 Komponenten aufweisen. Das Standardverfahren bei der kontinuierlichen Spracherkennung mit großem Vokabular besteht darin, ein Wahrscheinlichkeitsmodell der Spracherzeugung vorauszusetzen, wobei eine spezielle Wortfolge W = w₁w₂w₃ ... w_q eine Folge von akustischen Beobachtungsvektoren Y = y₁y₂y₃ ... y_T erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Wortfolge w₁w₂w₃ ... w_q bestimmt wird, bei der die Wahrscheinlichkeit am größten ist, dass sie die beobachtete Folge von Beobachtungsvektoren y₁y₂y₃ ... y_T (über der Zeit t = 1, ..., T) verursacht hat, wobei die Beobachtungsvektoren das Ergebnis des Spektralanalyse-Teilsystems 110 sind. Hieraus ergibt sich die Bestimmung der maximalen erfahrungsgemäßen Wahrscheinlichkeit:
max P(W|Y) für alle möglichen Wortfolgen W
Durch die Anwendung des Bayesschen Satzes zu bedingten Wahrscheinlichkeiten ergibt sich P(W|Y) aus: P(W|Y) = P(Y|W)·P(W)/P(Y)
Da P(Y) unabhängig von W ist, ergibt sich die Wortfolge mit der höchsten Wahrscheinlichkeit aus: arg max P(Y|W)·P(W) für alle möglichen Wortfolgen W (1)
In dem Teilsystem zum Einheitenabgleich 120 liefert ein akustisches Modell den ersten Term der Gleichung (1). Das akustische Modell wird verwendet, um die Wahrscheinlichkeit P(Y|W) einer Folge von Beobachtungsvektoren Y für eine gegebene Wortkette W zu schätzen. Bei einem System mit großem Vokabular wird dies normalerweise durchgeführt, indem die Beobachtungsvektoren mit einem Verzeichnis von Spracherkennungseinheiten abgeglichen werden. Eine Spracherkennungseinheit ist durch eine Folge von akustischen Bezugswerten dargestellt. Es können verschiedene Formen von Spracherkennungseinheiten verwendet werden. Beispielsweise kann eine ganzes Wort oder sogar eine Gruppe von Worten durch eine einzelne Spracherkennungseinheit dargestellt werden. Ein Wortmodell (WM) bietet für jedes Wort eines gegebenen Vokabulars eine Transkription in eine Folge von akustischen Bezugswerten. Bei Systemen, bei denen ein ganzes Wort durch eine Spracherkennungseinheit dargestellt wird, besteht eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit. Bei anderen Systemen, insbesondere solchen mit großem Vokabular, können für die Spracherkennungseinheit Teilworteinheiten auf linguistischer Basis, wie Einzellaute, Doppellaute oder Silben, sowie abgeleitete Einheiten, wie Phenene und Phenone verwendet werden. Bei derartigen Systemen wird ein Wortmodell von einem Lexikon 134 vorgegeben, das die Folge von Teilworteinheiten beschreibt, die sich auf ein Wort des Vokabulars beziehen, und den Teilwortmodellen 132 vorgegeben, die Folgen von akustischen Bezugswerten der betreffenden Spracherkennungseinheit beschreiben. Eine Wortmodell-Zusammensetzungseinheit 136 setzt das Wortmodell basierend auf dem Teilwortmodell 132 und dem Lexikon 134 zusammen. In
2A ist ein Wortmodell 200 für ein System dargestellt, das auf Ganzwort-Spracherkennungseinheiten basiert, wobei die Spracherkennungseinheit des gezeigten Wortes unter Verwendung einer Folge von zehn akustischen Bezugswerten (201 bis 210) gebildet wird. In 2B ist ein Wortmodell 220 für ein System dargestellt, das auf Teilworteinheiten basiert, wobei das gezeigte Wort durch eine Folge von drei Teilwortmodellen (250, 260 und 270) jeweils mit einer Folge von vier akustischen Bezugswerten (251, 252, 253, 254; 261 bis 264; 271 bis 274) gebildet wird. Die in 2 dargestellten Wortmodelle basieren auf Hidden-Markov-Modellen (HMM), die häufig verwendet werden, um Sprach- und Handschriftsignale zufällig nachzubilden. Mit Hilfe dieses Modells ist jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM gekennzeichnet, dessen Parameter aus einem Trainingsdatensatz geschätzt werden. Bei Spracherkennungssystemen mit großem Vokabular, die beispielsweise 10.000 bis 60.000 Worte umfassen, wird im Allgemeinen ein begrenzter Satz von beispielsweise 40 Teilworteinheiten verwendet, da eine große Anzahl von Trainingsdaten erforderlich wäre, um ein HMM für größere Einheiten in geeigneter Weise zu trainieren. Ein HMM-Zustand entspricht einem akustischen Bezugswert (zur Spracherkennung) oder einem allografischen Bezugswert (zur Handschrifterkennung). Es sind zahlreiche Verfahren zum Bilden eines Bezugswertes bekannt, einschließlich diskreter oder kontinuierlicher Wahrscheinlichkeitsdichten.
Ein Abgleichsystem 130 auf Wortebene gleicht die Beobachtungsvektoren mit allen Folgen von Spracherkennungseinheiten ab und liefert die Mutmaßlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Folge. Werden Teilworteinheiten verwendet, wird der Abgleich eingeschränkt, indem das Lexikon 134 benutzt wird, um die mögliche Folge von Teilworteinheiten auf Folgen im Lexikon 134 zu beschränken. Dadurch wird das Ergebnis auf mögliche Folgen von Wörtern reduziert. Ein Abgleichsystem 140 auf Satzebene nutzt ein Sprachmodell (engl. language model, LM), um den Abgleich weiter einzuschränken, so dass die untersuchten Pfade diejenigen sind, die Wortfolgen entsprechen, welche richtige Folgen sind, wie sie vom Sprachmodell definiert sind. Als solches liefert das Sprachmodell den zweiten Term P(W) der Gleichung (1). Werden die Ergebnisse des akustischen Modells mit denjenigen des Sprachmodells kombiniert, liegt am Ausgang des Teilsystems 120 zum Einheitenabgleich ein erkannter Satz (recognised sentence, RS) vor. Das bei der Musterkennung verwendete Sprachmodell kann syntaktische bzw. semantische Einschränkungen 142 der Sprache und der Erkennungsaufgabe beinhalten. Ein auf syntaktischen Einschränkungen basierendes Sprachmodell wird üblicherweise als Grammatik 144 bezeichnet. Die von dem Sprachmodell verwendete Grammatik 144 liefert die Wahrscheinlichkeit einer Wortfolge W = w₁w₂w₃ ... w_q, die sich im Prinzip ergibt aus: P(W) = P(w1)P(w2|w1)·P(w3|w1w2) ... P(wq|w1w2w3 ... wq).
Da es in der Praxis nicht machbar ist, die bedingten Wortwahrscheinlichkeiten für alle Wörter und alle Folgelängen in einer gegebenen Sprache zuverlässig zu schätzen, werden häufig N-Gramm-Wortmodelle verwendet. Bei einem N-Gramm-Modell wird der Term P(w_j|w₁w₂w₃ ... w_j–1) durch P(w_j|w_j–N+1 ... w_j–1) angenähert. In der Praxis werden Bigramme oder Trigramme verwendet. Bei einem Trigramm wird der Term P(w_j|w₁w₂w₃ ... w_j–1) durch P(w_j|w_j–2w_j–1) angenähert.
Ähnliche Systeme sind für die Handschrifterkennung bekannt. Das für ein Handschrifterkennungssystem verwendete Sprachmodell kann zusätzlich oder alternativ zur Spezifizierung von Wortfolgen Zeichenfolgen spezifizieren.
Benutzerunabhängige Mustererkennungssysteme verfügen über benutzerunabhängige Erkennungsmodelle. Zur Erzielung eines annehmbaren Erkennungsgrades werden Erkennungssysteme mit einem besonders großen Vokabular benutzerabhängig gemacht, indem das System für einen speziellen Benutzer trainiert wird. Ein Beispiel für ein derartiges System ist das Diktiersystem Philips SP 6000. Dieses System ist ein verteiltes System, bei dem der Benutzer direkt in eine Benutzerstation, wie beispielsweise einen PC oder eine Workstation, diktieren kann. Die Sprache wird digital aufgezeichnet und über ein Netzwerk zu einer Serverstation übertragen, wo die Sprache von einer Spracherkennungseinheit erkannt wird. Der erkannte Text kann zur Benutzerstation zurückgesendet werden. Bei diesem System werden die akustischen Bezugswerte des akustischen Modells für einen neuen Benutzer des Systems trainiert, indem der neue Benutzer einen vorher festgelegten Text mit einer ungefähren Dauer von 30 Minuten diktiert. Dadurch werden der Serverstation genügend Daten zur Verfügung gestellt, damit sie einen vollständig neuen Satz akustischer Bezugswerte für den Benutzer erstellen kann. Nach dieser Registrierungsphase kann der Benutzer einen Text diktieren. Bei jeder Diktiersitzung ruft die Erkennungseinheit in der Serverstation die zu dem diktierenden Benutzer gehörenden akustischen Bezugswerte ab und verwendet sie zum Erkennen des Diktats. Andere Erkennungsmodelle, wie beispielsweise ein Lexikon, Vokabular oder Sprachmodell, werden nicht für einen speziellen Benutzer trainiert. Für diese Aspekte ist das System nur auf eine spezielle Kategorie von Benutzern, beispielsweise Juristen, Ärzte, Chirurgen usw., zielgerichtet.
Die relativ lange Trainingsdauer mindert die Akzeptanz des System durch Benutzer, die das System gelegentlich oder nur für kurze Zeit nutzen möchten. Außerdem macht die relativ große Menge von akustischen Bezugswerten, die von der Serverstation für jeden Benutzer gespeichert werden müssen, das System für eine große Benutzeranzahl weniger geeignet. Wird das System für das Diktat eines Textes in einem anderen Bereich als demjenigen, auf den das Sprachmodell und das Vokabular ausgerichtet sind, verwendet, verschlechtern sich die Erkennungsergebnisse. Ein Beispiel für ein Spracherkennungssystem für mehrere Benutzer wird in US-A-4922538 offenbart.
Der Erfindung, wie sie in den Ansprüchen 1–11 dargelegt ist, liegt die Aufgabe zugrunde, die Mustererkennung in einer Client/Server-Konfiguration zu ermöglichen, ohne einen übermäßigen Trainingsaufwand für den Benutzer zu erfordern. Ferner hat die Erfindung zur Aufgabe, die Mustererkennung in einer Client/Server-Konfiguration zu ermöglichen, wobei der Server in der Lage ist, die Erkennung für viele Clients (Benutzerstationen) gleichzeitig zu unterstützen. Eine weitere Aufgabe besteht darin, die Musterkennung für einen großen Themenbereich zu ermöglichen.
Zur Lösung der Aufgabe ist das erfindungsgemäße Verfahren dadurch gekennzeichnet, dass der Server eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs umfasst; dass der Schritt der Erkennungsregistrierung Folgendes umfasst: die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle des gleichen Typs in Abhängigkeit von den Modellverbesserungsdaten, die dem Benutzer zugeordnet sind, und das Speichern einer Angabe des ausgewählten Erkennungsmodells zusammen mit der Benutzeridentifizierung; und dass der Schritt des Erkennens des Eingabemusters Folgendes umfasst: das Abrufen eines Erkennungsmodells, das der zur Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und das Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
Durch Speichern einer Anzahl von Erkennungsmodellen des gleichen Typs, zum Beispiel einer Anzahl von Sprachmodellen, die jedes auf mindestens ein unterschiedliches Thema ausgerichtet sind, beispielsweise Fotografie, Gartenbau, Automobile usw., kann ein geeignetes Erkennungsmodell für einen speziellen Benutzer des Systems ausgewählt werden. Dadurch ergibt sich eine gute Erkennungsqualität. Auf diese Weise ist ein Benutzer nicht an einen speziellen Typ des Erkennungsmodells, wie beispielsweise ein spe zielles Sprachmodell oder Vokabular, gebunden, während gleichzeitig die Flexibilität des Systems realisiert wird, indem die Modelle für viele Benutzer wieder verwendet werden. So können beispielsweise alle an Fotografie interessierten Benutzer dasselbe Sprachmodell verwenden, das die Fotografie betrifft. Diese Flexibilität und die damit zusammenhängenden, durch die Nutzung eines benutzerorientierten Erkennungsmodells gebotenen guten Erkennungsergebnisse werden erzielt, ohne dass ein spezielles Modell für jeden Benutzer gespeichert werden müsste. Vorteilhafterweise kann auch die Menge der Trainingsdaten, die vom Benutzer einzugeben sind, wesentlich geringer als in dem bekannten System sein. Anstatt eine ausreichende Datenmenge zu erfordern, um ein Modell vollständig zu trainieren oder ein bereits existierendes Modell anzupassen, braucht die Datenmenge erfindungsgemäß nur ausreichend zu sein, um ein geeignetes Modell aus den verfügbaren Modellen auszuwählen.
Gemäß der in dem abhängigen Patentanspruch 2 definierten Maßnahme wird die Vielzahl von Erkennungsmodellen des gleichen Typs durch ein grundlegendes Erkennungsmodell und eine Vielzahl von Anpassungsprofilen gebildet. Ein Erkennungsmodell wird ausgewählt, indem ein geeignetes Anpassungsprofil gewählt und das grundlegende Modell unter Zuhilfenahme des gewählten Anpassungsprofils angepasst wird. So kann beispielsweise ein grundlegendes Sprachmodell alle häufig verwendeten Wortfolgen einer Sprache abdecken, während das Anpassungsprofil Wortfolgen eines speziellen Interessenbereichs abdeckt. Das angepasste Sprachmodell kann dann sowohl die allgemein verwendeten und die speziellen Folgen abdecken. Auf diese Weise reicht es aus, nur ein grundlegendes Modell (eines gegebenen Typs) und eine Anzahl von – normalerweise viel kleineren – Anpassungsprofilen zu speichern.
Gemäß der in dem abhängigen Patentanspruch 3 definierten Maßnahme umfassen die Modellverbesserungsdaten akustische Trainingsdaten, beispielsweise akustische Bezugswerte. Auf der Grundlage der akustischen Trainingsdaten wird ein geeignetes akustisches Modell ausgewählt oder ein grundlegendes akustisches Modell mit Hilfe eines geeigneten Anpassungsprofils angepasst. Eine einfache Art der Durchführung besteht darin, eine relativ kurze Äußerung eines Benutzers (beispielsweise begrenzt auf ein paar Sätze) mit einer Reihe von verschiedenen akustischen Modellen zu erkennen. Jedes der Modelle ist vorzugsweise auf einen speziellen Sprachtyp, beispielsweise weibliche/männliche Stimme, langsames/schnelles Sprechen oder Sprechen mit unterschiedlichen Akzenten ausgerichtet. Es wird dann das akustische Modell ausgewählt, das das beste Ergebnis liefert.
Gemäß der in dem abhängigen Patentanspruch 4 definierten Maßnahme umfasst das Anpassungsprofil des akustischen Modells eine Matrix zum Umwandeln eines akustischen Bezugswerteraums oder eines Satzes akustischer Bezugswerte, die mit akustischen Bezugswerten kombiniert werden sollen, die von dem grundlegenden akustischen Modell genutzt werden. Auf diese Weise kann das akustische Modell wirksam angepasst werden.
Gemäß der in dem abhängigen Patentanspruch 5 definierten Maßnahme umfassen die Modellverbesserungsdaten Sprachmodell-Trainingsdaten. Bei einem bevorzugten Ausführungsbeispiel umfassen die Sprachmodell-Trainingsdaten mindestens eine Kontextidentifizierung. Die Kontextidentifizierung umfasst oder gibt vorzugsweise ein Schlüsselwort an. Auf der Grundlage der Trainingsdaten wird ein Sprachmodell oder ein Sprachmodell-Anpassungsprofil ausgewählt.
Gemäß der in dem abhängigen Patentanspruch 7 definierten Maßnahme umfassen die Modellverbesserungsdaten Vokabular-Trainingsdaten, wie beispielsweise eine Kontextidentifizierung, die die Auswahl aus einem entsprechenden Vokabular oder Vokabular-Anpassungsprofil ermöglicht, das zur Anpassung eines Grundvokabulars verwendet wird.
Gemäß der in dem abhängigen Patentanspruch 10 definierten Maßnahme umfasst die Kontextidentifizierung eine Wortfolge, wie beispielsweise ein Satzglied oder einen Text, oder gibt sie an. Mindestens ein Schlüsselwort wird aus der Wortfolge extrahiert, und die Auswahl des Modells oder Anpassungsprofils basiert auf dem/den extrahierten Schlüsselwort(en).
Zur Lösung der Aufgabe ist das Mustererkennungssystem dadurch gekennzeichnet, dass die Serverstation Folgendes umfasst: eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs; Mittel zum Auswählen eines Erkennungsmodells aus der Vielzahl unterschiedlicher Erkennungsmodelle des gleichen Typs in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten, und zum Speichern einer Angabe zu dem ausgewählten Erkennungsmodell zusammen mit der Benutzeridentifizierung; und Mittel zum Abrufen eines Erkennungsmodells, das der der Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und zum Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
Diese und andere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 ein Spracherkennungssystem;
2 Hidden-Markov-Modelle zum Bilden von Wort- oder Teilworteinheiten;
3 ein Blockschaltbild des erfindungsgemäßen Systems; und
4 ein Ablaufdiagramm, das die Registrierungsphase und die Erkennungsphase darstellt.
3 zeigt ein Blockschaltbild eines erfindungsgemäßen Mustererkennungssystems 300. Das System 300 umfasst eine Serverstation 310 und mindestens eine Benutzerstation. Dargestellt sind drei Benutzerstationen 350, 360 und 370, wobei nähere Einzelheiten nur für die Benutzerstation 350 dargestellt sind. Die Stationen können unter Verwendung herkömmlicher Rechnertechnologie ausgeführt werden. Die Benutzerstation 350 kann beispielsweise aus einem Desktop-PC oder einer Desktop-Workstation bestehen, wohingegen die Serverstation 310 aus einem PC-Server oder einem Workstation-Server bestehen kann. Die Computer werden durch ein geeignetes, in den Prozessor des Computers geladenes Programm gesteuert. Die Serverstation 310 und die Benutzerstation 350 sind über ein Netzwerk 330 miteinander verbunden. Das Netzwerk 330 kann jegliches geeignete Netzwerk, wie ein lokales Netzwerk, beispielsweise in einer Büroumgebung, oder ein Weitbereichsnetz, vorzugsweise das Internet, sein. Die Stationen umfassen Kommunikationsmittel 312 bzw. 352 zum Kommunizieren über das Netzwerk 330. Es können alle Kommunikationsmittel, die für den Einsatz in Verbindung mit dem Netzwerk 330 geeignet sind, verwendet werden. Typischerweise bestehen die Kommunikationsmittel aus einer Kombination von Hardware, beispielsweise einer Kommunikationsschnittstelle oder einem Modem, und Software in Form eines Software-Treibers, der ein spezielles Kommunikationsprotokoll, beispielsweise die TCP/IP-Protokolle des Internets, unterstützt.
Die Benutzerstation 350 umfasst Steuermittel 354. Als Teil einer Registrierungsphase funktioniert das Steuermittel 354 so, dass es anfangs Modellverbesserungsdaten von der Benutzerstation 350 zur Serverstation 310 überträgt. Die Modellverbesserungsdaten sind einem Benutzer der Benutzerstation 350 zugeordnet. Normalerweise werden die Modellverbesserungsdaten direkt durch einen Benutzer eingegeben, der zu diesem Zeitpunkt die Benutzerstation 350 nutzt. Die Eingabe erfolgt typischerweise über die Benutzerschnittstellenmittel 356, beispielsweise eine Tastatur, eine Maus oder über ein Mikrofon, das mit einer Toneingabeschnittstelle der Benutzerstation 350 verbunden ist. Als Teil der Registrierungsphase überträgt das Steuermittel 354 eine Benutzeridentifizierung, die dem Benutzer der Benutzerstation 350 zugeordnet ist, zur Serverstation 310. Die Benutzeridentifizierung kann beispielsweise ein Benutzername sein, unter dem sich der Benutzer bei der Benutzerstation 350 oder über die Benutzerstation 350 bei der Serverstation 310 angemeldet hat. Die Benutzeridentifizierung kann auch aus einer Kommunikationsidentifizierung, beispielsweise einer Kommunikationsadresse oder einer Telefonnummer, bestehen.
Die Serverstation 310 umfasst ein Speichermittel 314 zum Speichern einer Vielzahl verschiedener Erkennungsmodelle des gleichen Typs. Die Serverstation 310 kann beispielsweise mehrere Sprachmodelle, mehrere Vokabulare oder mehrere Gruppen von akustischen Bezugswerten (für ein Spracherkennungssystem) speichern. Das Speichermittel 314 kann aus einer Festplatte bestehen. Es können auch beliebige andere geeignete Speichermittel verwendet werden. Das Speichermittel 314 kann physikalisch in der Serverstation 310 angeordnet sein oder alternativ beispielsweise über ein Netzwerk für die Serverstation 310 zugänglich sein. Die Serverstation 310 umfasst ferner Auswahlmittel 316, um ein Erkennungsmodell aus einer Vielzahl verschiedener Erkennungsmodelle des gleichen Typs auszuwählen. Die Auswahl erfolgt in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten. Die Speichermittel 318 werden dazu verwendet, eine Angabe des ausgewählten Erkennungsmodells zusammen mit der Benutzeridentifizierung zu speichern. Eine derartige Speicherung kann durch Speichern einer Liste von Benutzeridentifizierungen für das ausgewählte Modell in dem Speichermittel 314 erfolgen. Es können auch getrennte Tabellen zum Speichern der Beziehung zwischen einer Benutzeridentifizierung und einem ausgewählten Modell verwendet werden.
Das Steuermittel 354 der Benutzerstation 350 funktioniert so, dass es für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation eine einem Benutzer der Benutzerstation zugeordnete Benutzeridentifizierung und ein Eingabemuster zur Serverstation überträgt, das für die von dem Benutzer erzeugte zeitsequentielle Eingabe repräsentativ ist. Die Erkennungssitzung kann sofort auf die Registrierungsphase folgen (in diesem Fall braucht die Benutzeridentifizierung nicht noch einmal übertragen zu werden) oder zu jedem beliebigen Zeitpunkt nach der Registrierungsphase stattfinden. Das Eingabemuster stellt die Sprache darstellenden Signale dar, die von dem Benutzer der Benutzerstation erzeugt werden. Beispiele für derartige Signale sind Sprachsignale oder Handschriftsignale. Im Prinzip ist das Muster ein zeitsequentielles Muster. Vorzugsweise werden alle Informationen zum zeitsequentiellen Verhalten des Musters ebenfalls von der Benut zerstation 350 zur Serverstation 310 übertragen. Vorzugsweise wird eine „Echtzeit"-Verbindung zwischen der Benutzerstation 350 und der Serverstation 310 hergestellt, wobei das Benutzerschnittstellenmittel 356 der Benutzerstation 350 ein vom Benutzer erzeugtes Eingangssignal abtastet. Das Signal wird analysiert (beispielsweise bei Sprachsignalen auf eine Art, wie sie für das Teilsystem 110 zur Spektralanalyse aus 1 beschrieben wurde) und das Ergebnis (z. B. eine Folge von Vektoren) wird in Datenblöcken zusammengefasst, und die Datenblöcke werden zur Serverstation 310 übertragen. Als Alternative kann die Folge von Abtastwerten oder die Folge von Vektoren vorher aufgezeichnet worden sein und der Benutzerstation 350 von einem festen Speichermedium, wie einer Festplatte, oder von einem tragbaren Speichermedium, wie einer Diskette, zugeführt werden. Normalerweise liegen die zeitsequentiellen Informationen immer noch vor. Es ist anzumerken, dass im Besonderen Handschrift der Benutzerstation 350 auch als Bild zugeführt werden kann, wobei ein ausführliches zeitsequentielles Verhalten, das bei einem Online-Handschrifterkennungssystem existiert, verloren geht. Trotzdem können derartige Signale auch in dem erfindungsgemäßen System verwendet werden.
Bei jeder Erkennungssitzung mit einer Benutzerstation nutzt die Serverstation 310 Abrufmittel 320 zum Abrufen eines Erkennungsmodells von dem Speichermittel 314. Das Erkennungsmodell (oder die Erkennungsmodelle) werden abgerufen, die der Benutzeridentifizierung zugeordnet sind, die durch die Benutzerstation zur Serverstation übertragen wurden. Das Abrufmittel 310 fügt das abgerufene Erkennungsmodell in eine Modellsammlung von mindestens einem Erkennungsmodell ein. Die Modellsammlung wird von einer Erkennungseinheit 322 dazu verwendet, das von der Benutzerstation 350 empfangene Eingabemuster zu erkennen.
4 zeigt den Gesamtinformationsaustausch zwischen der Benutzerstation 350 und der Serverstation 310. Bei der Registrierungsphase 400 überträgt die Benutzerstation die Benutzeridentifizierung (engl. user identifier, UI) und Modellverbesserungsdaten (engl. model improvement data, MID) zur Serverstation 310. Es ist anzumerken, dass die genaue Reihenfolge, in der die Elemente übertragen werden, und die Anzahl der Übertragungsrahmen oder -pakete, die zur Übertragung der Elemente verwendet werden, irrelevant sind. Während jeder Erkennungssitzung (dargestellt sind die beiden Sitzungen 410 und 420) werden die Benutzeridentifizierung (UI) und das Signal (SGN) zur Serverstation 310 übertragen.
Bei einem weiteren erfindungsgemäßen Ausführungsbeispiel besteht die Vielzahl von Erkennungsmodellen des gleichen Typs aus einem grundlegenden Erkennungsmodell und einer Vielzahl von Anpassungsprofilen. Vorzugsweise werden das grundlegende Modell und die Anpassungsprofile im selben Speicher, beispielsweise dem Speichermittel 314, gespeichert. Das Auswahlmittel 316 wählt ein Erkennungsmodell aus, indem es mindestens eines der Anpassungsprofile in Abhängigkeit von den dem Benutzer der Benutzerstation zugeordneten Modellverbesserungsdaten auswählen. Die Speichermittel 318 werden dazu verwendet, eine Angabe des ausgewählten Anpassungsprofils zusammen mit der Benutzeridentifizierung zu speichern. Das Abrufmittel 320 ruft ein Erkennungsmodell von den Speichermitteln 314 ab, indem es ein der Benutzeridentifizierung zugeordnetes Anpassungsmodell abruft und das grundlegende Erkennungsmodell gesteuert von dem Anpassungsprofil anpasst. Verfahren zum Anpassen eines Erkennungsmodells sind allgemein bekannt. Beispiele für derartige Verfahren für spezielle Erkennungsmodelle sind unten aufgeführt. Das Abrufmittel 320 fügt das angepasste Erkennungsmodell in die Modellsammlung ein, die von der Spracherkennungseinheit 322 genutzt wird.
Bei einem weiteren Ausführungsbeispiel umfasst das Eingabemuster Sprache darstellende Daten. Die Modellverbesserungsdaten umfassen akustische Trainingsdaten. Der Umfang der akustischen Trainingsdaten kann sehr begrenzt sein. Wo bei bekannten Systemen ungefähr eine Stunde mit Sprachdaten erforderlich ist, um ein akustisches Modell vollständig zu trainieren, und ungefähr eine Viertelstunde mit Sprachdaten erforderlich ist, um ein akustisches Standardmodell an einen neuen Benutzer anzupassen, stellen die akustischen Trainingsdaten bei dem erfindungsgemäßen System wesentlich weniger als eine Viertelstunde Sprache dar. Die akustischen Trainingsdaten sind vorzugsweise darauf beschränkt, akustische Aspekte von weniger als fünf Minuten Sprache darzustellen. Vorteilhafterweise ist der Umfang der Sprachdaten auf lediglich ein paar Sätze (z. B. weniger als fünf Sätze) oder sogar nur ein paar vom Benutzer der Benutzerstation 350 gesprochene Wörter begrenzt. Der Benutzer kann ausdrücklich aufgefordert werden, vorher festgelegte Wörter oder Sätze zu sprechen (der zu sprechende Text kann dem Benutzer angezeigt werden). Als Alternative kann das Training implizit sein. Beispielsweise könnte das Erkennungssystem sofort funktionsbereit sein, indem ein akustisches Standardmodell verwendet wird. Eine vorher festgelegte Zeitspanne oder ein vorher festgelegter Umfang der Spracheingabe wird dann als akustische Trainingsdaten verwendet. Ein für den Benutzer geeignetes akustisches Modell wird aus einer Vielzahl verschiedener akustischer Modelle ausge wählt. Bei einem bevorzugten Ausführungsbeispiel umfassen die akustischen Trainingsdaten akustische Daten wie akustische Beobachtungsvektoren (die akustische Abtastwerte darstellen), und die akustischen Daten werden separat erkannt, indem jedes der akustischen Modelle verwendet wird. Das akustische Modell, das das beste Erkennungsergebnis lieferte, wird dann als am besten mit dem Benutzer übereinstimmend ausgewählt. Als Alternative zur Zuführung der tatsächlichen akustischen Daten zur Serverstation 310 kann die Benutzerstation 350 auch gewisse akustische Merkmale für die Serverstation 310 extrahieren, wie beispielsweise Tonlage oder mittlere Sprechgeschwindigkeit. Die Serverstation 310 kann für jedes der Erkennungsmodelle derartige akustischen Merkmale speichern und ein am besten übereinstimmendes Modell auf der Grundlage der Merkmale auswählen. Es ist zu beachten, dass die verschiedenen akustischen Modelle auch aus einem grundlegenden akustischen Modell bestehen können, wobei Anpassungsprofile eingesetzt werden, um das grundlegende akustische Modell (vorzugsweise ein vollständig trainiertes sprecherunabhängiges Modell) an verschiedene akustische Modelle anzupassen. In einem derartigen Fall beinhaltet die Auswahl eines akustischen Modells die Auswahl eines akustischen Modellanpassungsprofils. Das Anpassungsprofil kann beispielsweise ein akustisches Modell sein, das akustische Daten von einem oder mehreren Sprechern darstellt, die eine spezielle Kategorie von Sprechern repräsentieren, beispielsweise männlich/weiblich, schnell/langsam sprechend oder mit verschiedenen Akzenten. Zur Erkennung wird das ausgewählte akustische Modellanpassungsprofil verwendet, um das grundlegende akustische Modell anzupassen. Allgemein bekannte Verfahren zum Anpassen eines akustischen Modells beinhalten das MLLR-Verfahren (Maximum Likelihood Linear Regression), bei dem eine lineare Transformation des akustischen Bezugswerteraums erfolgt, und das MAP-Verfahren (Maximum A Posteriori probability) oder Bayessche Anpassungsverfahren (siehe „Fundamentals of speech recognition" von L. Rabiner, B.-H. Juang, erschienen 1993 bei Prentice Hall, auf den Seiten 373 bis 375). Offensichtlich können akustische Bezugswerte eines Anpassungsprofils auch mit akustischen Bezugswerten verknüpft werden, die für das Training des grundlegenden akustischen Modells verwendet werden, gefolgt von einem erneuten Training für die verknüpfte Gruppe von Bezugswerten.
Bei einem weiteren oder alternativen Ausführungsbeispiel umfassen die Modellverbesserungsdaten Sprachmodell-Trainingsdaten. Die Sprachmodell-Trainingsdaten können Informationen umfassen, die direkt Informationen entsprechen, wie sie in dem Sprachmodell der Spracherkennungseinheit 322 verwendet werden. Die Trai ningsdaten könnten beispielsweise Bigramme oder Trigramme und ihre entsprechenden Wahrscheinlichkeiten für spezielle vom Benutzer verwendete Sprachelemente enthalten. Als Alternative umfassen oder geben die Trainingsdaten Textdaten (beispielsweise Textdateien) an, die von der Serverstation analysiert werden können. Die Serverstation 310 wählt ein Sprachmodell aus einer Vielzahl verschiedener Sprachmodelle in der Serverstation auf der Grundlage der dem Benutzer zugeordneten Sprachmodell-Trainingsdaten aus. Die Serverstation 310 wählt zum Beispiel ein Sprachmodell aus, das am besten einer Analyse eines Textes entspricht, der vom Benutzer angegeben oder geliefert wird. Die Sprachmodell-Trainingsdaten umfassen vorzugsweise mindestens eine Kontextidentifizierung. Die Kontextidentifizierung gibt vorzugsweise einen Interessenbereich des Benutzers an. In diesem Fall wählt die Serverstation ein Sprachmodell aus, das am besten mit dem geäußerten Interesse übereinstimmt. Dies kann auf verschiedene Arten erfolgen. Das Sprachmodell in der Serverstation 310 kann beispielsweise für spezielle Kontexte entwickelt worden sein, und dem Benutzer kann die Möglichkeit angeboten werden, zwischen diesen Modellen zu wählen. Als Alternative könnte die Serverstation Textdaten sammeln, die der Kontextidentifizierung entsprechen. In diesem Fall ist die Kontextidentifizierung vorzugsweise ein Schlüsselwort oder umfasst oder zeigt eine Folge von Wörtern, beispielsweise ein Satzglied, einen Satz oder ein Dokument, an, von der die Serverstation 310 automatisch ein oder mehrere repräsentative Schlüsselwörter extrahiert. Die Gruppe von Dokumenten, aus denen die Textdaten gesammelt werden, kann aus einem Dokumentendateisystem bestehen, wie es beispielsweise in Computersystemen verwendet wird. Wenn herkömmliche Dokumente verwendet werden, kann die Auswahl durch Durchsuchen des Inhalts des Dokuments erfolgen. Vorteilhafterweise besteht die Gruppe von Dokumenten aus einer Dokumentendatenbank, beispielsweise einem Dokumentenverwaltungssystem. Bei einem derartigen System können als Alternative oder zusätzlich zum Durchsuchen des Inhalts der Dokumente auch Attribute, die den Inhalt der Dokumente beschreiben, dazu verwendet werden zu bestimmen, ob ein Dokument relevant ist. Vorteilhafterweise besteht die Gruppe von Dokumenten aus Dokumenten in einem verteilten Rechnersystem. Das verteilte Rechnersystem kann sich von einer Gruppe lokaler Computer in einem Gebäude oder einem Werk eines Unternehmens, die über ein lokales Netzwerk miteinander verbunden sind, bis zu einem weltweiten Netzwerk von Computern verschiedener Unternehmen erstrecken, die über ein Weitbereichsnetz, wie das Internet, miteinander verbunden sind. Das verteilte System umfasst mehrere Dokumentenspeicher, die normalerweise als Server bezeichnet werden. Die Ver wendung eines verteilten Systems und im Besonderen des Internets stellt sicher, dass eine große Datenmenge und im Allgemeinen aktuelle Daten zur Verfügung stehen. Auf diese Weise kann das Sprachmodell neue Sprachelemente enthalten, die zum Zeitpunkt der Auslieferung des Systems unbekannt waren oder selten verwendet wurden, ohne dass der Benutzer alle neuen Elemente zu trainieren braucht.
Vorteilhafterweise durchsucht die Serverstation 310 selbst ein Netz wie das Internet nach aktuellen Textdaten, die der Kontextidentifizierung entsprechen. Es können auch spezialisierte Suchmaschinen oder Suchagenten eingesetzt werden, um die Textdaten zu finden. Auf der Grundlage der Textdaten erstellt die Serverstation ein Sprachmodell, das mit der Kontextidentifizierung übereinstimmt. Dieses Modell steht dann auch für die Verwendung durch andere Nutzer mit dem gleichen Interesse zur Verfügung.
Wird eine Suchmaschine verwendet, durchsucht die Netzsuchmaschine die Dokumentenspeicher in dem verteilten System nach Dokumenten, die dem von der Serverstation 310 (oder direkt durch die Benutzerstation 350) zugeführten Suchkriterium entsprechen. Typischerweise durchsucht die Netzsuchmaschine regelmäßig das verteilte System um zu ermitteln, welche Dokumente zur Verfügung stehen und Attribute wie Schlüsselwörter aus den Dokumenten zu extrahieren. Das Ergebnis der Durchsuchung wird dann in einer Datenbank der Suchmaschine gespeichert. Die Suche wird dann in der Datenbank durchgeführt. Wird ein Suchagent verwendet, besteht die Aufgabe des Suchagenten darin, die Speicher des verteilten Systems zu durchsuchen. Zu diesem Zweck liefert die Serverstation 310 (oder die Benutzerstation 350) dem Suchagenten das Suchkriterium. Der Suchagent durchsucht autonom Speicher in dem verteilten System. Immer wenn ein Dokument gefunden wird, das das Suchkriterium erfüllt, kann der Agent dieses zu der anfragenden Station beispielsweise über reguläre E-Mails übertragen. Zahlreiche Formen von Suchagenten sind insbesondere für das Internet bekannt. Beispielsweise kann der Agent nur in der anfragenden Station aktiv sein, wo er der Reihe nach (oder parallel) auf Speicher in dem verteilten System zugreift, die auf Anfragen des Agenten antworten. Als Alternative kann der Agent sich durch das verteilte System bewegen, z.B. indem er von einem Server zum anderen springt, wobei der Agent bei dem Server aktiviert wird, den er zu dem Zeitpunkt „besucht".
Es ist zu beachten, dass anstelle der Speicherung mehrerer vollständiger Sprachmodelle auch ein grundlegendes Sprachmodell verwendet werden kann, das die allgemein verwendete Sprache darstellt, wobei Sprachmodell-Anpassungsprofile eingesetzt werden, um das grundlegende Modell auch an spezielle Interessenbereiche anzupassen.
Zahlreiche Arten der Anpassung eines Sprachmodells sind bekannt. Bei einem N-Gramm-Modell kann der Term P(w_j|w_j–N+1 ... w_j–1) durch ein Häufigkeitsverfahren geschätzt werden: P(wj|wj–N+1 ... wj–1) = F(wj–N+1 ... wj–1wj)/F(wj–N+1 ... wj–1)wobei F angibt, wie oft die Folge in ihrem Argument in dem gegebenen Trainingskorpus auftritt. Damit die Schätzung zuverlässig ist, muss F(w_j–N+1 ... w_j–1w_j) im Trainingskorpus substantiell sein. Um zu verhindern, dass der Trainingskorpus unverhältnismäßig groß sein muss und bei vielen möglichen Wortfolgen F(w_j–N+1 ... w_j–1w_j) = 0, können wohlbekannte Glättungsverfahren eingesetzt werden. Beispielsweise kann die Glättung für ein Trigramm erfolgen, indem die zu Trigrammen, Bigrammen und Unigrammen gehörigen Häufigkeiten interpoliert werden: P(w3|w2w1) = p1·F(w1w2w3)/F(w1w2) + p2·F(w1w2)/(F(w1) + p3·F(w1)/Summe(F(w1))wobei die nicht negativen Gewichtungen die Gleichung p₁ + p₂ + p₃ = 1 erfüllen und Summe (F(w₁)) die Größe des Trainingskorpus ist. Die Gewichtungen hängen von den Werten von F(w₁w₂) und F(w₁) ab und können erzielt werden, indem das Prinzip der Kreuzvalidierung angewendet wird. Auf diese Weise kann eine Anpassung durchgeführt werden, indem das grundlegende Sprachmodell mit einem Anpassungsprofil interpoliert wird, das eine begrenzte Anzahl von Unigrammen, Bigrammen bzw. Trigrammen spezifiziert. Geeignete andere Verfahren zum Anpassen eines Sprachmodells wurden in den nicht vorher veröffentlichten Deutschen Patentanmeldungen DE 197 08 183.5 und DE 197 08 184.3 beschrieben, die beide der vorliegenden Anmelderin zugewiesen sind, und den Dokumenten „Speaker adaptation in the Philips System for Large Vocabulary Continuous Speech Recognition" von E. Thelen, X. Aubert, und P. Beyerlein, erschienen in Proceeding ICASSP 1997, Band 2, auf den Seiten 1035–1038, und „Long Term On-line Speaker Adaptation for Large Vocabulary Dictation" von E. Thelen, erschienen in Proceedings ICSLP 1996, auf den Seiten 2139–2142, beschrieben.
Bei einem weiteren oder alternativen erfindungsgemäßen Ausführungsbeispiel umfassen die Modellverbesserungsdaten Vokabulartrainingsdaten. Die Serverstation 310 wählt ein Vokabular aus einer Vielzahl verschiedener in der Serverstation 310 gespeicherter (oder der Serverstation 310 zur Verfügung stehender) Vokabulare aus. Als Alternative kann die Serverstation 310 ein Vokabularanpassungsprofil auswählen und das ausgewählte Vokabularanpassungsprofil dazu verwenden, ein grundlegendes Vokabular anzupassen. Das Vokabularanpassungsprofil kann beispielsweise eine Liste mit zusätzlichen Wör tern umfassen oder angeben, die einfach zu dem grundlegenden Vokabular hinzugefügt werden, das die Wörter abdecken kann, die normalerweise in einer Sprache verwendet werden. Es ist zu beachten, dass das Hinzufügen eines neuen Wortes zu einem Vokabular selbst nicht ausreichen kann um sicherzustellen, dass das Wort erkannt werden kann. Bei einem Spracherkennungssystem ist zusätzlich eine Transkription in akustische Bezugswerte erforderlich. Bei vielen Sprachen kann eine verhältnismäßig genaue Transkription für die meisten Wörter automatisch erzielt werden. Durch den Vergleich eines neuen Wortes mit Wörtern, die bereits im Vokabular existieren, und eine Transkription kann eine geeignete Transkription erzeugt werden. Beispielsweise kann eine phonetische Transkription mit einer verhältnismäßig hohen Genauigkeit für ein Wort auf der Basis phonetischer Transkriptionen bekannter Wörter erfolgen. Auch wenn die Transkription nur eine mittelmäßige Qualität aufweist, liegt das neue Wort in dem Vokabular und vorzugsweise auch in dem Sprachmodell vor. Dadurch wird die Erkennung des Wortes ermöglicht (die sonst nicht möglich wäre), und mit Hilfe des Sprachmodells kann die Erkennung des Wortes in seinem Kontext einen annehmbaren Grad aufweisen. Ist das Wort einmal erkannt, kann die Transkription automatisch angepasst werden, um besser mit der tatsächlichen Äußerung überein zu stimmen, für die das Wort erkannt wird.
Bei einem weiteren Ausführungsbeispiel umfassen die Vokabulartrainingsdaten mindestens eine Kontextidentifizierung, und die Serverstation 310 funktioniert so, dass sie ein Vokabular oder ein Vokabularanpassungsprofil auswählt, das der Kontextidentifizierung entspricht. Ähnlich wie bei dem für das Sprachmodell beschriebenen Vorgehen, funktioniert die Serverstation 310 so, dass sie Text in Abhängigkeit von der Kontextidentifizierung findet. Aus einem gefundenen Text extrahiert die Serverstation 310 Wörter. Zahlreiche Verfahren sind für die Extraktion von Wörtern, beispielsweise Schlüsselwörtern, aus einem Text bekannt. Für die Spracherkennung kann die Serverstation 310 ein getrenntes „phonetisches" Wörterbuch verwenden, um die Wörter in eine akustische Darstellung zu transkribieren. Als Alternative erfolgt dies automatisch, wie es oben dargelegt wurde.

Claims

Verfahren zum Erkennen eines in einer Benutzerstation gespeicherten Eingabemusters, die eine Erkennungseinheit einer Serverstation nutzt, wobei die Serverstation und die Benutzerstation über ein Netzwerk verbunden sind, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, und wobei das Verfahren Folgendes umfasst: Durchführen eines Anfangsschrittes der Erkennungsregistrierung, der Folgendes beinhaltet: die Übertragung von einem Benutzer der Benutzerstation zugeordneten Modellverbesserungsdaten von der Benutzerstation zur Erkennungseinheit und die Zuordnung einer Benutzeridentifizierung zum Benutzer der Benutzerstation; und für eine Erkennungssitzung zwischen der Benutzerstation und der Serverstation die Übertragung einer einem Benutzer der Benutzerstation zugeordneten Benutzeridentifizierung und eines Eingabemusters, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, von der Benutzerstation zur Serverstation; und den Einsatz der Erkennungseinheit zum Erkennen des Eingabemusters durch Einfügen mindestens eines Erkennungsmodells in die Modellsammlung, die die dem Benutzer zugeordneten Modellverbesserungsdaten darstellt, dadurch gekennzeichnet, dass der Server eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs umfasst, der Schritt der Erkennungsregistrierung Folgendes umfasst: die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle des gleichen Typs in Abhängigkeit von den Modellverbesserungsdaten, die dem Benutzer zugeordnet sind, und das Speichern einer Angabe des ausgewählten Erkennungsmodells zusammen mit der Benutzeridentifizierung, und der Schritt des Erkennens des Eingabemusters Folgendes umfasst: das Abrufen des Erkennungsmodells, das der zur Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und das Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Vielzahl von Erkennungsmodellen des gleichen Typs aus einem grundlegenden Erkennungsmodell und einer Vielzahl von Anpassungsprofilen besteht, der Schritt des Auswählens eines Erkennungsmodells in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten die Auswahl von mindestens einem der Anpassungsprofile in Abhängigkeit von den Modellverbesserungsdaten umfasst, und dass der Schritt der Erkennungsregistrierung die Speicherung einer Angabe des ausgewählten Anpassungsprofils zusammen mit der Benutzeridentifizierung umfasst, und dass der Schritt des Abrufens eines der Benutzeridentifizierung zugeordneten Erkennungsmodells das Abrufen eines der Benutzeridentifizierung zugeordneten Anpassungsprofils und das Anpassen des grundlegenden Erkennungsmodells mit Hilfe des Anpassungsprofils umfasst.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Eingabemuster Sprache darstellende Daten umfasst, dass die Modellverbesserungsdaten akustische Trainingsdaten umfassen und dass die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle basierend auf den dem Benutzer zugeordneten akustischen Trainingsdaten das Auswählen eines akustischen Modells aus einer Vielzahl verschiedener akustischer Modelle oder das Auswählen eines Anpassungsprofils für das akustische Modell und Verwenden des ausgewählten Anpassungsprofils für das akustische Modell zum Anpassen eines grundlegenden akustischen Modells umfasst.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das Anpassungsprofil für das akustische Modell eine Matrix zum Umwandeln eines akustischen Bezugswerteraums oder eine Gruppe von akustischen Bezugswerten umfasst, die mit von dem grundlegenden akustischen Modell verwendeten akustischen Bezugswerten kombiniert werden sollen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Modellverbesserungsdaten Sprachmodell-Trainingsdaten umfassen und dass das Auswählen eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle auf der Basis der dem Benutzer zugeordneten Sprachmodell-Trainingsdaten die Auswahl eines Sprachmodells aus einer Vielzahl verschiedener Sprachmodelle oder die Auswahl eines Sprachmodell-Anpassungsprofils und die Verwendung des ausgewählten Sprachmodell-Anpassungsprofils zum Anpassen eines grundlegenden Sprachmodells umfasst.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Sprachmodell-Trainingsdaten mindestens eine Kontextidentifizierung umfassen und dass das Verfahren den Schritt des Auswählens in der Serverstation eines Sprachmodells oder eines Sprachmodell-Anpassungsprofils umfasst, das der Kontextidentifizierung entspricht.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Modellverbesserungsdaten Vokabular-Trainingsdaten umfassen und dass die Auswahl eines Erkennungsmodells aus der Vielzahl verschiedener Erkennungsmodelle auf der Basis der dem Benutzer zugeordneten Vokabular-Trainingsdaten das Auswählen eines Vokabulars aus einer Vielzahl verschiedener Vokabulare oder das Auswählen eines Vokabular-Anpassungsprofils und das Verwenden des ausgewählten Vokabular-Anpassungsprofils zum Anpassen eines grundlegenden Vokabulars umfasst.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Vokabular-Trainingsdaten mindestens eine Kontextidentifizierung umfassen und dass das Verfahren den Schritt des Auswählens in der Serverstation eines Vokabulars oder eines Vokabular-Anpassungsprofils umfasst, das der Kontextidentifizierung entspricht.
Verfahren nach Anspruch 6 oder 8, dadurch gekennzeichnet, dass die Kontextidentifizierung ein Schlüsselwort umfasst.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die Kontextidentifizierung eine Folge von Wörtern umfasst oder angibt und dass das Verfahren die Extraktion mindestens eines Schlüsselwortes aus der Folge von Wörtern und die Durchführung der Auswahl auf der Grundlage des/der extrahierten Schlüsselwortes/Schlüsselwörter umfasst.
Mustererkennungssystem, das mindestens eine Benutzerstation, die ein Eingabemuster speichert, und eine Serverstation umfasst, die eine Erkennungseinheit beinhaltet, wobei die Erkennungseinheit so funktioniert, dass sie das Eingabemuster erkennt, indem sie eine Modellsammlung von mindestens einem Erkennungsmodell verwendet, wobei die Serverstation mit der Benutzerstation über ein Netzwerk verbunden ist, wobei die Benutzerstation Mittel umfasst, um anfangs einem Benutzer der Benutzerstation zugeordnete Modellverbesserungsdaten und eine dem Benutzer zugeordnete Benutzeridentifizierung zur Serverstation zu übertragen, und um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation eine einem Benutzer der Benutzerstation zugeordnete Benutzeridentifizierung und ein Eingabemuster, das die vom Benutzer erzeugte zeitsequentielle Eingabe darstellt, zur Serverstation zu übertragen, und wobei die Serverstation Mittel umfasst, um für jede Erkennungssitzung zwischen der Benutzerstation und der Serverstation mindestens ein Erkennungsmodell in die Modellsammlung einzufügen, die die Modellverbesserungsdaten darstellt, die einem Benutzer zugeordnet sind, von dem das Eingabemuster ausging, und die Spracherkennungseinheit dazu einzusetzen, das von der Benutzerstation empfangene Eingabemuster zu erkennen, dadurch gekennzeichnet, dass die Serverstation Folgendes umfasst: eine Vielzahl verschiedener Erkennungsmodelle des gleichen Typs, Mittel zum Auswählen eines Erkennungs modells aus der Vielzahl unterschiedlicher Erkennungsmodelle des gleichen Typs in Abhängigkeit von den dem Benutzer zugeordneten Modellverbesserungsdaten, und zum Speichern einer Angabe zu dem ausgewählten Erkennungsmodell zusammen mit der Benutzeridentifizierung, und Mittel zum Abrufen des Erkennungsmodells, das der der Serverstation übertragenen Benutzeridentifizierung zugeordnet ist, und zum Einfügen des abgerufenen Erkennungsmodells in die Modellsammlung.