DE69823644T2

DE69823644T2 - Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis

Info

Publication number: DE69823644T2
Application number: DE69823644T
Authority: DE
Inventors: Louis Allen GORIN; Giuseppe Riccardi; Huntley Jeremy WRIGHT
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-10-29
Filing date: 1998-10-23
Publication date: 2005-04-28
Anticipated expiration: 2018-10-24
Also published as: CA2275774C; EP0950240B1; DE69823644D1; WO1999022363A1; CA2275774A1; EP0950240A1; US6044337A

Description

HINTERGRUND DER ERFINDUNG
1. GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft die Auswahl von Superwörtern und bedeutungstragenden Phrasen auf der Grundlage eines Kriteriums, das sowohl für Spracherkennung als auch für Sprachverständnis relevant ist.
2. BESCHREIBUNG DES STANDES DER TECHNIK
Gegenwärtig gibt es Anwendungen für Spracherkennungen, die eine Methodologie für eine automatisierte Auftragswahl aufweisen, wobei der Ziel-Auftrag in der natürlichen Sprache eines Anwenders erkannt wird, der eine solche Wahl trifft. Ein fundamentaler Aspekt dieses Verfahrens ist eine Bestimmung einer Gruppe von bedeutungstragenden Phrasen. Solche bedeutungstragende Phrasen werden durch einen grammatischen Interferenzalgorithmus bestimmt, der einen vorbestimmten Korpus von Sprachäußerungen verarbeitet, wobei jede Äußerung einem spezifischen Auftragsziel zugeordnet ist und wobei jede Äußerung mit ihrem zugeordneten Auftragsziel markiert ist.
Die oben beschriebenen Merkmale sind in US-A-5 794 193 und US-A-5 675 707 behandelt.
Die Bestimmung der bedeutungstragenden Phrasen, die in der oben beschriebenen Anwendung verwendet werden, gründet sich auf das Konzept der Kombination eines Maßes der Gemeinsamkeit der Wörter und/oder der Struktur in der Sprache – nämlich wie oft Gruppierungen von Dingen miteinander auftreten – mit einem Maß der Signifikanz für einen definieren Auftrag für eine solche Gruppierung. Das Gemeinsamkeitsmaß in der Sprache kann als die gemeinsame Information in n-Grammen manifestiert werden, die von einer Datenbasis von Trainingssprachäußerungen abgeleitet sind, und das Maß der Brauchbarkeit für einen Auftrag wird als Salienzmaß manifestiert.
Die gemeinsame Information ("MI"), die die Wahrscheinlichkeit der Kookkurenz (gemeinsames Auftreten) für zwei oder mehr Wörter mißt, bezieht sich nur auf die Sprache selbst. Beispielsweise könnte man, wenn man 'Krieg' und 'Frieden' in russischer Originalsprache annimmt, die gemeinsame Information für alle möglichen Paarungen von Wörtern in diesem Text berechnen, ohne überhaupt ein Wort der Sprache zu verstehen, in der dies geschrieben ist. Im Gegensatz dazu erfordert die Berechnung der Salienz sowohl die Sprache als auch ihre außerlinguistischen Assoziationen mit der Umgebung einer Vorrichtung. Durch die Verwendung einer solchen Kombination aus MI und einem Salienzfaktor werden bedeutungstragende Phrasen ausgewählt, die sowohl eine positive MI (die eine relativ starke Assoziation zwischen den Wörtern anzeigt, die die Phrasen umfassen) als auch einen hohen Salienzwert haben.
Solche Verfahren beruhen auf der Wahrscheinlichkeit, daß getrennte Gruppen von salienten Wörtern in der bestimmten eingegebenen Äußerung auftreten. Beispielsweise würden die salienten Phrasen "eine lange Strecke gefahren" von diesem grammatischen Interferenzalgorithmus aufgrund ihrer individuellen gemeinsamen Information und ihrer Salienzwerte als bedeutungstragende Phrasen bestimmt werden.
Das Dokument 'Phrase bigrams for continuous speech recognition' (Giachin E.P., Proc. of ICASSP 1995, IEEE) offenbart eine Prozedur zum automatischen Bestimmen häufiger Phrasen in einer nichtbezeichneten Trainingsgruppe von geschriebenen Sätzen.
Obwohl das Auftragsziel die Erkennung bedeutungstragender Wörter und Phrasen erfordert, wird dies normalerweise über eine große Vokabularerkennungseinrichtung erreicht, die durch stochastische Sprachmodelle eingeschränkt ist, zum Beispiel ein n-Gramm-Modell. Eine Methode für eine solche Modellierung zur Einschränkung der Erkennungseinrichtung besteht darin, eine stochastische Grammatik der finiten Zustände zu trainieren, die durch einen variablen stochastischen n-Gramm-Automaten (VNSA) dargestellt ist. Ein VNSA ist ein nichtdeterministischer Automat, der die Syntaxanalyse jeder möglichen Sequenz von Wörtern ermöglicht, die aus einem gegebenen Vokabular stammen.
Traditionell nehmen solche n-Gramm-Sprachmodelle zur Spracherkennung Wörter als die grundlegende lexikalische Einheit an. Die Größenordnung eines VNSA-Netzwerks ist die maximale Anzahl von Wörtern, von denen vorhergesagt werden kann, daß sie nach dem Auftreten eines bestimmten Wortes in einer Äußerung auftreten. Unter Verwendung bedingter Wahrscheinlichkeiten sind also bisher VNSAs verwendet worden, um standardisierte n-Gramm-Sprachmodelle zu approximieren, die ein ähnliches Verhalten zeigen wie standardisierte Bi-Gramm- und Tri-Gramm-Modelle. Wenn das "n" im n-Gramm jedoch zu groß wird, wird eine Datenbasis zur Vorhersage des Auftretens von Wörtern als Antwort auf das Auftreten eines Wortes in einer Äußerung zu groß und nicht mehr handhabbar. Außerdem kann das Auftreten von Wörtern, die in der Sprache nur mit geringer Wiederholung auftreten, fälschlicherweise hohen Wahrscheinlichkeiten zugeordnet werden, und es kann somit eine Anzahl von Falsch-Ermittlungen in der erkannten Sprache erfolgen.
Ein Verfahren zur Erzeugung längerer Einheiten zur Sprachmodellierung ist also notwendig, um die effiziente Anwendung von n-Gramm-Sprachmodellen zur Erkennung der gesprochenen Sprache und zur Verwendung dieser längeren Einheiten zusammen mit bedeutungstragenden Wörtern und Phrasen zur Spracherkennung und zum Sprachverständnis zu fördern.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung wird ein Verfahren und eine Vorrichtung zur Bestimmung von Superwörtern und bedeutungstragenden Phrasen bereitgestellt, wie in den beigefügten Ansprüchen ausgeführt.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die Erfindung wird nachstehend ausführlich mit Bezug auf die folgenden Zeichnungen beschrieben, in denen gleiche Bezugszeichen gleiche Elemente bezeichnen und in denen folgendes gezeigt wird:
1A und 1B sind Floßdiagramme zur Erzeugung und Auswahl von Superwörtern und bedeutungstragenden Phrasen;
2 ist ein Diagramm, das die Falschzurückweisungsrate für entropiebasierte und salienzbasierte Phrasen zeigt;
3 ist ein Blockschaltbild einer Spracherkennungseinrichtung; und
4 ist ein Funktionsblockschaltbild eines Systems, in dem das Verfahren zur Auswahl von Superwörtern angewendet werden kann.
AUSFÜHRLICHE BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
n-Gramm-Sprachmodelle zur Spracherkennung werden gegenwärtig unter Verwendung von Wörtern als die grundlegende lexikalische Einheit implementiert. Es gibt jedoch verschiedene Motivationen zur Auswahl längerer Einheiten für eine Sprachmodellierung. Erstens haben nicht alle Sprachen eine vordefinierte Worteinheit (zum Beispiel das Chinesische). Zweitens können Wortgruppen oder Phrasen in der Sprache mit großen Wiederholungen auftreten und können als ein einziger lexikalischer Eintrag angesehen werden, zum Beispiel 'area code', 'I would like to' oder 'New Jersey'. Drittens können wir für jedes Modell mit einer festen Ordnung die bedingten Wahrscheinlichkeiten unter Verwendung variabel langer Einheiten selektiv verbessern, um weitreichende Abhängigkeiten zu erfassen. Die Verwendung dieser längeren lexikalischen Einheiten ist die Grundlage für die Erzeugung von Superwörtern.
Das Verfahren zur automatischen Erzeugung und Auswahl solcher variabel langer Einheiten oder Superwörter beruht auf der Minimierung der Sprachperplexität PP(T) anhand eines Trainingskorpus T.
Perplexität kann folgendermaßen beschrieben werden. Natürliche Sprache kann als eine Informationsquelle W angesehen werden, deren Erzeugnis eine Wortsequenz ist. Wir können also W der Entropie H(W) zuordnen, nämlich:
wobei w₁, w₂,..., w_n der tatsächliche Textkorpus ist.
Perplexität (PP) wird in der Spracherkennung verwendet, um die Schwierigkeit eines Erkennungsauftrags in bezug auf ein gegebenes Sprachmodell zu messen. Im einzelnen mißt die Perplexität den "durchschnittlichen Verzweigungsfaktor" (das heißt, die durchschnittliche Anzahl von Wörtern, Symbolen oder Tönen, die irgendeinem gegebenen Wort, Symbol oder Ton folgen können). Je größer die Anzahl der Wörter ist, die möglicherweise einem oder mehreren Wörtern, Symbolen oder Tönen folgen könnten, um so höher ist der Perplexitätswert. Es gibt beispielsweise viel mehr Wörter, die dem Wort "to" folgen könnten (höherer Perplexitätswert), als solche, die der Phrase "I would like to" folgen können (niedrigerer Perplexitätswert).
Die Perplexität eines Sprachmodells ist folgendermaßen definiert:
PP = 2^LP
wobei LP die 'logprob' ist:
wobei n die Größe des Korpus W = w₁, w₂,..., w_n ist, der verwendet wird, um PP zu schätzen, und P ^ (w₁, w₂,..., w_n) der Wahrscheinlichkeitsschätzwert des Korpus W ist. Es hat bisher zwar auch andere Forschungen in bezug auf automatische Erfassung von entropiereduzierenden Phrasen gegeben, aber diese Arbeit unterscheidet sich deutlich in den Sprachmodellkomponenten und den Optimierungsparametern.
Dagegen gründet sich die Bestimmung von verwendeten bedeutungstragenden Phrasen in dem Konzept der Kombination eines Maßes der Gemeinsamkeit von Wörtern und/oder einer Struktur in der Sprache – das heißt, wie oft Gruppierungen von Dingen gemeinsam auftreten – mit einem Maß der Signifikanz für einen definierten Auftrag bei einer solchen Gruppierung. Dieses Gemeinsamkeitsmaß innerhalb der Sprache kann als gemeinsame Information in n-Grammen manifestiert werden, die von einer Datenbasis von Trainingssprachäußerungen abgeleitet werden, und das Maß der Brauchbarkeit für einen Auftrag wird als Salienzmaß manifestiert.
Wie in 1A und 1B gezeigt, ist das Phrasenerfassungsverfahren ein iterativer Prozeß, der eine Gruppe von entropiebasierten Superwörtern (Ephr) und eine Gruppe von salienzbasierten bedeutungstragenden Wörtern und Phrasen (Sphr) erzeugt. Insbesondere wenn eine feste Modellgrößenordnung n und ein Trainingskorpus T gegeben sind, läuft das Verfahren folgendermaßen ab.
In einem Schritt S100 werden die Anfangsparameter festgelegt, so daß K der Anzahl von in Betracht kommenden Superwörtern entspricht, die bei jeder Iteration erzeugt werden, und M der Anzahl der Iterationen entspricht, T_II wird als Anfangstrainingskorpus festgelegt, und λ_II wird als das Sprachmodell der Größenordnung n festgelegt, das einem stochastischen n-Gramm-Modell bei den trainierten Wörtern aus diesem Korpus entspricht. Im Schritt S105 wird ein Zähler m von 1 bis M schrittweise erhöht, wobei M die Anzahl der Iterationen ist, die in den Parametern im Schritt S100 festgelegt sind.
Im Schritt S110 werden in Frage kommende Symbolpaare (x, y) bei jeder Iteration auf der Grundlage eines Korrelationskoeffizienten mit einer Rangordnung versehen und erzeugt.
p(x,y) = P(x,y)/[P(x) + P(Y)] (3)wobei P(x) die Wahrscheinlichkeit des Ereignisses x bezeichnet und P(x,y) die Wahrscheinlichkeit, mit der die Symbole x und y nacheinander auftreten. Bei der ersten Iteration sind x und y zwei Wörter, in nachfolgenden Iterationen sind es potentiell größere Einheiten. Man beachte, daß 0 ≤ p(x,y) ≤ 0,5. Dieses Korrelationsmaß hat Vorteile in bezog auf die Einfachheit und Skalierung und Schwellwertbildung.
Im Schritt S115 wird ein Zähler bei jeder in Betracht kommenden Phrase schrittweise erhöht, so daß k = 1 bis K, wobei K die Gruppe der in Betracht kommenden Superwörter ist. Im Schritt S120 wird der aktuelle Trainingskorpus T_m,k–1 gefiltert, indem jedes Auftreten eines Superwortes durch die Superworteinheit (x_y)_k ersetzt wird. Die neu gefilterte Superwort-Gruppe wird mit T_mk bezeichnet.
Im Schritt S125 wird ein neues Sprachmodell (immer noch mit der Größenordnung n) aus T_mk trainiert. Das neu trainierte Modell wird mit λ_mk bezeichnet. Im Schritt S130 wird ein Test durchgeführt, um zu bestimmen, ob das Hinzufügen des in Betracht kommenden Superwortes die Perplexität verringert (das heißt, ob PP(λ_mk, T_mk) < PP(λ_m,k–1, T_m,k–1)). Wenn die Perplexität verringert wird, geht der Prozeß weiter. Wenn die Perplexität nicht verringert wird, wird das in Betracht kommende Superwort im Schritt S135 zurückgewiesen, indem T_mk = T_m,k–1 gesetzt wird. Eine Phrase x_y wird nur gewählt, wenn P(x,y) ≅ P(x) ≅ P(y) (das heißt, wenn P(y|x)≅I)I und die Trainingsgruppenperplexität verringert wird, indem diese größere lexikalische Einheit in das Modell aufgenommen wird.
Im Schritt S140 testet das Verfahren, ob zusätzliche in Betracht kommende Superwörter k geprüft werden müssen. Im Schritt S145 wird, nachdem alle in Betracht kommende Superwörter geprüft worden sind, die nächste Iteration durchgeführt, nämlich m bis m = M. Die resultierende Gruppe von erzeugten Superwörtern wird als Ephr bezeichnet.
Als nächstes wird im Schritt S150 eine Gruppe von salienzbasierten Phrasen Sphr als in Betracht kommende Phrasen gewählt. Im Schritt S155 wird der Trainingskorpus T₁ initialisiert und als T_mk festgelegt. Im Schritt S160 wird ein Zähler m von 1 bis M schrittweise erhöht, wobei M die Anzahl der Iterationen ist, die für jede in Frage kommende Phrase in Sphr durchzuführen ist.
Im Schritt S165 wird der aktuelle Trainingskorpus T_m gefiltert, indem jedes Auftreten der Phrase durch die Phraseneinheit (x_y)_m ersetzt wird. Diese neue gefilterte Menge wird mit T_m+1 bezeichnet. Im Schritt S170 wird die nächste in Betracht kommende Phrase aufgerufen, bis m = M. Die resultierende Menge von salzienzbasierten bedeutungstragenden Phrasen wird mit Sphr bezeichnet.
Schließlich wird im Schritt S175 ein letztes Sprachmodell aus dem gefilterten Korpus T_M plus dem ursprünglichen T trainiert, wobei das Lexikon alle ursprünglichen Wörter plus die Phrasen in den Gruppen Ephr und Sphr umfaßt. Dadurch bleibt die Granularität des ursprünglichen Lexikons erhalten, wobei alternative Wege entstehen, die die neuen Phrasen plus deren ursprünglichen Wortsequenzen umfassen. Das heißt, wenn die Wörter "long" und "distance" im Korpus nur zusammen auftreten, was zur Erfassung der Phrase "long distance" führt, dann bleibt in diesem letzten Schritt die Möglichkeit erhalten, daß die erkannten Wörter in einer bestimmten Testäußerung getrennt auftreten können.
Es wird dann eine Entscheidung getroffen, wie eine Äußerung auf eine besonders einfache Art und Weise klassifiziert werden kann. Eine Spracherkennungseinrichtung wird auf eine Äußerung angewendet, wobei eine Erkennungsergebnis erzeugt wird, nämlich ein einzelnes bestes Wort. Diese ASR-Ergebnis wird dann nach Fällen des Auftretens der salienten Phrasenfragmente durchsucht. Bei Fragmentüberlappung ist eine bestimmte Syntaxanalyse erforderlich. Das Verfahren zur Syntaxanalyse ist insofern ein einfaches Verfahren, als längere Fragmente gegenüber kürzeren gewählt werden, die in der Äußerung von links nach rechts laufen. Dies führt zu einer Umwandlung der Äußerung s in eine Sequenz von zugeordneten Ruf-Typen. Jedem dieser Fragmente f, ist der Spitzenwert und die Lage einer a-posteriori-Verteilung zugeordnet. P1 = maxk P(Ck|f1) (4) k1 = arg maxk P(Ck|fi) (5)
Für jede Äußerung s haben wir also eine Sequenz {f_i, k₁, p_i}. Die Entscheidungsregel besteht darin, den Ruf-Typ des Fragments mit maximalem p_i zu wählen, das heißt C_K(s) zu wählen, wobei gilt: i(s) = arg maxip1 (6) K(s) = ki(s) (7)
Wenn diese Gesamtspitze kleiner ist als eine bestimmte Schwelle P_τ, dann wird die Äußerung zurückgewiesen und anders klassifiziert, das heißt, wenn p_i(s) < P_τ.
2 zeigt den Unterschied bei der "Falschzurückweisungsrate" (die Anzahl von Transaktionen, die fehlgeleitet oder von einer Maschine auf der Grundlage von Eingaben von einem Anwender mißverstanden worden sind) für Spracherkennungseinrichtungen unter Verwendung eines Lexikons mit erzeugten Superwörtern im Vergleich zu einem Lexikon unter Verwendung erzeugter Superwörter und bedeutungstragender Phrasen. Das Lexikon, das die erzeugten Superwörter plus bedeutungstragende Phrasen enthält, erzeugt weniger Falschzurückweisung als das Lexikon nur mit erzeugten Superwörtern und führt daher zu einem besseren Verständnis von Sprachmustern eines Anwenders.
3 zeigt eine Konfiguration für eine Spracherkennungseinrichtung 315, die sowohl Superwörter als auch bedeutungstragende Phrasen empfängt. Sowohl der bedeutungstragende Phrasenselektor 300 als auch der Superwortselektor 305 werden unter Verwendung von Testsprachäußerungen trainiert und wählen bedeutungstragende Phrasen und Superwörter entsprechend den oben ausgeführten Verfahren aus. Wenn die bedeutungstragenden Phrasen und Superwörter gewählt worden sind, werden sie in ein Lexikon 310 eingegeben. Das Lexikon 310 ist im wesentlichen eine normale Datenbasis und kann in jeder bekannten internen oder externen Speichervorrichtung gespeichert sein. Das Lexikon 310 dient als Quelle von bedeutungstragenden Phrasen und Superwörtern, die die Spracherkennungseinrichtung 315 in der eingegebenen Sprache sucht. Die Spracherkennungseinrichtung 315 kann jede normale Spracherkennungseinrichtung sein, die dem Fachmann bekannt ist.
4 zeigt eine Struktur, bei der das resultierende Lexikon der bedeutungstragenden Phrasen und Superwörter implementiert sein kann. Wie man anhand der Zeichnungen sehen kann, umfaßt die Struktur zwei verwandte Teilsysteme: das Teilsystem zur Erzeugung von Superwörtern und bedeutungstragenden Phrasen 400 und das Teilsystem zur Klassifikation der eingegebenen Sprache 410.
Das Teilsystem zur Erzeugung von Superwörtern und bedeutungstragenden Phrasen 400 arbeitet auf der Grundlage einer Datenbasis oder eines Lexikons mit einer großen Anzahl von Äußerungen, wobei jede solche Äußerung mit einem zugehörigen Vermittlungsziel gekennzeichnet ist. Der Betrieb dieses Teilsystems wird im wesentlichen vom Selektor für bedeutungstragende Phrasen 300 und vom Superwortselektor 305 durchgeführt, die als Ergebnis eine Gruppe von bedeutungstragenden Phrasen und Superwörtern mit einer Wahrscheinlichkeitsbeziehung zu einer oder mehreren Gruppen von vorbestimmten Vermittlungszielen wählen, denen die eingegebenen Sprachäußerungen zugeordnet sind. Die gewählten bedeutungstragenden Phrasen und Superwörter werden dann in das Lexikon 310 eingegeben, das die bedeutungstragenden Phrasen und Superwörter zur Verwendung durch das Teilsystem zur Klassifikation der eingegebenen Sprache 410 speichert. Der Betrieb des Selektors für bedeutungstragende Phrasen 300 und des Superwortselektors 305 wird allgemein durch irgendeinen bekannten Algorithmus zum Auswählen bedeutungstragender Phrasen und Superwörter bestimmt, einschließlich der hier offenbarten Verfahren.
Der Betrieb des Teilsystems zur Klassifikation der eingegebenen Sprache 410 beginnt mit dem Eingeben einer Auftragszielanfrage des Anwenders in die Eingabespracherkennungseinrichtung 315 in der natürlichen Sprache eines rufenden Teilnehmers. Die Eingabespracherkennungseinrichtung 315 kann jeden bekannten Aufbau haben und erfüllt die Funktion der Erkennung oder Erfassung des Vorhandenseins einer oder mehrerer bedeutungstragender Phrasen in der eingegebenen Sprache. Wie man in der Figur sehen kann, werden die bedeutungstragenden Phrasen und Superwörter, die vom Teilsystem zur Erzeugung von Superwörtern und bedeutungstragenden Phrasen 400 entwickelt werden, als Eingabe in die Eingabespracherkennungseinrichtung 315 bereitgestellt, um die Vermittlungsziele, die sich auf die bedeutungstragenden Phrasen und Superwörter beziehen, zu definieren und um die Wahrscheinlichkeitswerte für eine Beziehung solcher eingegebenen bedeutungstragenden Phrasen und Superwörter für ein bestimmtes Vermittlungsziel festzulegen.
Das Ergebnis der Eingabespracherkennungseinrichtung 315, das die bedeutungstragenden Phrasen und Superwörter aufweist, die in der Auftragszielanfrage des rufenden Teilnehmers erscheinen, werden an ein Interpretationsmodul 420 übergeben. Das Interpretationsmodul 420 kompiliert eine Liste von wahrscheinlichen Vermittlungszielen auf der Grundlage der Wahrscheinlichkeitsbeziehung zwischen den erkannten bedeutungstragenden Phrasen und Superwörtern und den gewählten Vermittlungszielen. Das Interpretationsmodul 420 gibt dann eine Liste von möglichen Vermittlungsaufträgen in die Dialogverwaltungseinrichtung 430 ein. In der Dialogverwaltungseinrichtung 430 wird eine Entscheidung getroffen, entweder das gewählte Vermittlungsziel mit einer Ansage an den rufenden Teilnehmer, daß ein solches Ziel implementiert wird (wenn nur ein Ziel möglich ist), zu implementieren oder zusätzliche Information und/oder eine Bestätigung vom rufenden Teilnehmer zu erbitten (wenn kein Ziel oder mehr als ein Ziel möglich ist). Der Dialog geht weiter, bis entweder eine eindeutige Entscheidung getroffen werden kann, ein bestimmtes Vermittlungsziel zu implementieren, oder eine Festlegung erfolgt, daß keine solche Entscheidung wahrscheinlich ist, wobei der anrufende Teilnehmer dann im Zuge einer Standardvorgabe zu einem Telefonistenplatz weitergeleitet wird.
Obwohl die Erfindung in Verbindung mit ihren spezifischen Ausführungsformen beschrieben worden ist, ist es deutlich geworden, daß viele Alternativen, Modifikationen und Variationen für den Fachmann möglich sind. Demzufolge tragen die bevorzugten Ausführungsformen der Erfindung, die hier ausgeführt sind, lediglich darstellenden, aber keinen einschränkenden Charakter. Verschiedene Änderungen sind möglich, ohne den Schutzbereich der Erfindung zu verlassen, wie er in den beigefügten Ansprüchen definiert ist.

Claims

Verfahren zur Bestimmung von Superwörtern und bedeutungstragenden Phrasen mit den folgenden Schritten: Bestimmen von Superwörtern aus einer Gruppe von in Betracht kommenden Phrasen, die in einem Trainingskorpus von Sequenzen von Wörtern, Symbolen und/oder Tönen vorhanden sind, auf der Grundlage der Minimierung einer Perplexität eines Lexikons, gekennzeichnet durch den Schritt: Bestimmen von bedeutungstragenden Phrasen aus dem Trainingskorpus auf der Grundlage eines Gemeinsamkeitsmaßes und eines Maßes der Signifikanz für einen Auftrag; und Aufnehmen der bestimmten Superwörter und der bedeutungstragenden Phrasen in das Lexikon.
Verfahren nach Anspruch 1, wobei der Schritt zur Bestimmung von Superwörtern bestimmt, wie jede in Betracht kommende Phrase den Perplexitätswert des Lexikons beeinflußt, so daß, wenn der Perplexitätswert abnimmt, die in Betracht kommende Phrase dem Lexikon als Superwort hinzugefügt wird, und wenn der Perplexitätswert nicht abnimmt, die in Betracht kommende Phrase dem Lexikon nicht hinzugefügt wird.
Verfahren nach Anspruch 1, wobei der Schritt zur Bestimmung von bedeutungstragenden Phrasen bedeutungstragende Phrasen auf der Grundlage von Salienz- und gemeinsamen Informationsmessungen bestimmt.
Verfahren nach Anspruch 1, ferner gekennzeichnet durch den Schritt: Trainieren einer Spracherkennungseinrichtung unter Verwendung des Lexikons.
Verfahren nach Anspruch 1, ferner gekennzeichnet durch den Schritt: Interpretieren einer Eingabe eines Anwenders unter Verwendung des Lexikons.
Verfahren nach Anspruch 5, ferner dadurch gekennzeichnet, daß: das Implementieren einer oder mehrerer Gruppen von Auftragszielen auf der Eingabe eines Anwenders beruht.
Vorrichtung, die Superwörter und bedeutungstragende Phrasen bestimmt, mit: einem Trainingskorpus von Sequenzen von Wörtern, Symbolen und/oder Tönen; einem Superwortselektor (305), der Superwörter aus einer Gruppe von in Betracht kommenden Phrasen, die im Trainingskorpus enthalten sind, auf der Grundlage der Minimierung einer Perplexität eines Lexikons (310) wählt, wobei der Superwortselektor (305) die selektierten Superwörter in das Lexikon (310) aufnimmt, gekennzeichnet durch einen Selektor für bedeutungstragende Phrasen (300), der bedeutungstragende Phrasen auf der Grundlage eines Gemeinsamkeitsmaßes und eines Maßes der Signifikanz für einen Auftrag wählt, wobei der Selektor für bedeutungstragende Phrasen (300) die gewählten bedeutungstragenden Phrasen in das Lexikon (310) aufnimmt.
Vorrichtung nach Anspruch 7, wobei der Superwortselektor eine geordnete Gruppe von in Betracht kommenden Phrasen aus dem Trainingskorpus erzeugt.
Vorrichtung nach Anspruch 8, wobei der Superwortselektor jede getrennte, in Betracht kommende rase in das Lexikon einfügt und bestimmt, ob die eingefügte, in Betracht kommende Phrase den Perplexitätswert des Lexikons verringert.
Vorrichtung nach Anspruch 9, wobei der Superwortselektor bestimmt, daß, wenn sich der Perplexitätswert verringert, die in Betracht kommende Phrase dem Lexikon als Superwort hinzugefügt wird, und wenn sich der Perplexitätswert nicht verringert, die in Betracht kommende Phrase dem Lexikon nicht hinzugefügt wird.
Vorrichtung nach Anspruch 7, wobei der Selektor für bedeutungstragende Phrasen eine Gruppe von bedeutungstragenden Phrasen auf der Grundlage von Salienz- und gemeinsamen Informationsmessungen wählt.
Vorrichtung nach Anspruch 7, ferner dadurch gekennzeichnet, daß: eine Erkennungseinrichtung, die anhand einer Eingabe eines Anwenders zumindest eines) der gewählten bedeutungstragenden Phrasen und Superwörter erkennt, die in dem Lexikon enthalten sind.
Vorrichtung nach Anspruch 12, wobei das Lexikon die Erkennungseinrichtung trainiert.
Vorrichtung nach Anspruch 12, ferner dadurch gekennzeichnet, daß ein Interpretationsmodul eine Klassifikationsentscheidung auf der Grundlage der erkannten bedeutungstragenden Phrasen und Superwörter trifft.
Vorrichtung nach Anspruch 14, wobei das Interpretationsmodul eine oder mehrere Auftragsziele auf der Grundlage der Eingabe eines Anwenders implementiert.
Vorrichtung nach Anspruch 15, wobei eine Dialogverwaltungseinrichtung eine zusätzliche Eingabe vom Anwender erlangt, um einen oder mehrere der Aufträge zu implementieren.