DE69634239T2

DE69634239T2 - Erkennung kontinuierlich gesprochener Texte und Befehle

Info

Publication number: DE69634239T2
Application number: DE69634239T
Authority: DE
Inventors: Joel M. Winchester Gould; Jonathan H. Cambridge Young
Original assignee: L&H Holdings USA Inc
Current assignee: L&H Holdings USA Inc
Priority date: 1995-11-13
Filing date: 1996-11-11
Publication date: 2006-01-12
Anticipated expiration: 2016-11-12
Also published as: US6088671A; US5799279A; DE69634239D1; EP0785540B1; EP0785540A2; EP0785540A3

Description

Diese Erfindung betrifft kontinuierliche Spracherkennung.
Viele Spracherkennungssysteme erkennen gesprochenen Text in einer Betriebsart und gesprochene Befehle in einer anderen Betriebsart. In einem Beispiel erfordert die Diktatbetriebsart diskrete Sprache, während die Befehlsbetriebsart durch kontinuierliche/diskrete Sprache bedient werden kann. In einer Diktatbetriebsart wird die diskrete Sprache eines Benutzers als z.B. englische Worte erkannt, und die erkannten Worte werden dem Benutzer angezeigt. Der Benutzer kann irgendein Wort diktieren, das sich in einem Wörterverzeichnis befindet, das im System gehalten wird, ohne irgendeiner besonderen Struktur folgen zu müssen. Dies wird als diskrete Sprache mit „freiem Kontext" bezeichnet. In der Befehlsbetriebsart erkennt das System entweder kontinuierliche oder diskrete Sprache und führt die Befehle aus. Wenn der Benutzer zum Beispiel „underline last three words" sagt, erkennt das System den Befehl und unterstreicht dann die letzten drei Worte, die der Benutzer in der Diktatbetriebsart gesprochen hat. Der Benutzer spricht Befehle als strukturierte Sprache gemäß einer besonderen Struktur oder Schablone. Zum Beispiel kann der Benutzer „underline last three words" sagen, aber nicht „underline the last three words" oder „please underline the last three words". Der Benutzer schaltet zwischen der Befehlsbetriebsart und Diktatbetriebsart um, indem er „Command Mode" sagt, auf ein Piktogramm doppelklickt, das die Betriebsart repräsentiert, in die der Benutzer umschalten will, oder einen Betriebsartumschaltungsbefehl tippt.
US 5,231,670 beschreibt ein Spracherkennungssystem, in dem jedes Sprachelement in ein Diktatereignis und ein Textereignis unterteilt wird. Es wird eine Datenstruktur zur Speicherung einer Information bereitgestellt, die jedes Ereignis betrifft. Dieser ermöglicht es dem System, Diktatereignisse leicht voneinander und Textereignisse voneinander zu unterscheiden.
Gemäß einem ersten Aspekt der vorliegenden Erfindung weist ein Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache auf:
Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen;
Erkennung der Sprachelemente;
Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden:
Pausen vor und nach, oder nur vor dem Sprachelement, und
Sprachmodellinformationen; und
Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob die Sprachelemente Textelemente oder Befehlselemente repräsentieren.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung weist ein Medium, das Software zur Verwendung füe die Spracherkennung enthält, auf:
Instruktionen zur Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen;
Instruktionen zur Erkennung der Sprachelemente;
Instruktionen zur Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vor dem Sprachelement,
einer Sprachmodellinformation; und
Instruktionen zur Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob sie Textelemente oder Befehlselemente repräsentieren.
Im allgemeinen zeichnet sich die Erfindung in einem Aspekt durch ein Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache aus.
Es werden Signale angenommen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen. Die erkannten Elemente werden in einer Weise behandelt, die davon abhängt, ob sie Text oder Befehle repräsentieren.
Implementierungen der Erfindung können eines oder mehreres des folgenden einschließen. Der Text kann behandelt werden, indem es einer Textverarbeitungsanwendung zur Verfügung gestellt wird. Die Befehle können behandelt werden, indem eine Anwendung veranlaßt wird, einen Schritt auszuführen. Die Erkennung kann auf natürlichen Eigenschaften gesprochenen Textes gegenüber gesprochenen Befehlen beruhen. Die Erkennung kann eine Bewertung der Wahrscheinlichkeit einschließen, daß ein gegebenes Element entweder ein Befehlselement oder ein Textelement ist. Die Erkennung kann zugunsten eines gegebenen Elements beeinflußt werden, das ein Text oder ein Befehl ist. Die Beeinflussung kann eine Bestimmung einschließen, ob ein gegebenes der Elemente eine Befehlsrückweisung widerspiegelt oder einer Befehlsschablone entspricht; oder das Vergleichen von Erkennungsbewertungen des gegebenen Elements als Befehl oder als Text; oder eine Bestimmung der Länge des Schweigens zwischen aufeinanderfolgenden der Elemente oder ob die Aktionen des Benutzers darauf schließen lassen, daß ein gegebenes der Elemente kein Text sein kann.
Die Erkennung kann parallel einschließen: Erkennung der Elemente, als ob sie Textelemente wären, und Erkennung der Elemente, als ob sie Befehlselemente wären. Die Erkennung von Elementen, als ob sie Text (oder Befehle) wären, kann auf die Bestimmung hin, daß das Element ein Befehlselement (oder ein Textelement) ist, zeitweilig gestoppt werden. Die Ergebnisse der Erkennung können einem Benutzer angezeigt werden. Die Ergebnisse können Teilergebnisse sein. Dem Benutzer kann es ermöglicht werden, eine erneute Erkennung zu veranlassen, wenn das Element falsch als Text oder als Befehl erkannt wird. Der Benutzer kann eine erneute Erkennung veranlassen, wenn ein Befehlselement als Textelement erkannt wird, und als Reaktion auf die erneute Erkennung kann eine Textverarbeitungsanwendung die Aufnahme des Textelements in den Text rückgängig machen, der bearbeitet wird. Vor der Behandlung eines erkannten Befehlselements können einem Benutzer Informationen angezeigt werden, die mit dem Befehlselement verbunden sind; eine Anweisung kann vom Benutzer angenommen werden, vorhergehende oder nachfolgende Sprachelemente entweder als Textelemente oder Befehlselemente zu betrachten, aber nicht als beides.
Die Vorteile der Erfindung können eines oder mehreres des folgenden aufweisen. Die Erkennung gesprochener Befehle innerhalb des diktierten Textes gestattet es Benutzern, mit Unterbrechungen Befehle auszuführen, die den Text beeinflussen (z.B. Unterstreichen oder Fettdruck besonderer Worte) ohne daß es erforderlich ist, daß der Benutzer zwischen getrennten Befehls- und Diktatbetriebsarten umschaltet. Außerdem wird die Verwirrung des Benutzers reduziert, da es nicht erforderlich ist, daß der Benutzer sich erinnert, in welcher Betriebsart sich das System befindet.
Andere Vorteile und Merkmale werden aus der folgenden Beschreibung und aus den Ansprüchen deutlich.
1 ist ein Blockdiagramm eines Spracherkennungssystems.
2 ist ein Blockdiagramm einer Spracherkennungssoftware und Anwendungssoftware.
3 ist ein Blockdiagramm einer Spracherkennungssoftware und von Wörterverzeichnissen, die im Speicher gespeichert sind.
4 ist ein Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text.
5 ist eine Computerbildschirmanzeige von Wortverarbeitungsbefehlen.
6 ist eine Computerbildschirmanzeige von Beispielen von Wortverarbeitungsbefehlen.
7 ist ein Blockdiagramm von Wortverarbeitungsbefehlen.
8a, 8b, 9a und 9b sind Computerbildschirmanzeigen von Teilergebnissen und Befehlsausführungsergebnissen.
10 ist ein weiterer Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text.
11 ist ein Blockdiagramm einer Spracherkennungssoftware und Wörterverzeichnissen, die im Speicher gespeichert sind.
12 ist ein Ablaufplan einer strukturierten, kontinuierlichen Befehlsspracherkennung.
13 ist ein Blockdiagramm von Tabellenkalkulationsbefehlen.
14 ist ein weiterer Ablaufplan der Erkennung sowohl von Befehlen als auch diktiertem Text.
15a – 15d sind Computerbildschirmanzeigen, die den Prozeß der Korrektur eines falsch erkannten Befehls darstellen.
Das System erkennt sowohl kontinuierlich gesprochene Befehle als auch kontinuierlich diktierten Text, indem es Eigenschaften ausnutzt, die der natürlichen Sprache der meisten Benutzer gemeinsam sind. Zum Beispiel pausieren Benutzer typischerweise (z.B. 0,5 s) vor und nach dem Aussprechen eines Befehls. Entsprechend beginnen Benutzer anschließend an eine Pause Befehle, indem sie Aktionsbefehlsworte (z.B. underline, bold, delete) aussprechen und beginnen diktierten Text, indem sie Substantive aussprechen. Um diese und andere Eigenschaften auszunutzen, erwartet das System, daß der Benutzer vor und nach dem Sprechen eines Befehls pausiert, und einer besonderen Struktur oder Schablone folgt, wenn er einen Befehl ausspricht (z.B. alle Befehle beginnen mit Aktionsbefehlsworten). Diese Anforderung verbessert die Genauigkeit, mit der das System zwischen diktiertem Text und Befehlen unterscheidet.
Bezugnehmend auf 1, weist ein typisches Spracherkennungssystem 10 ein Mikrofon 12 zur Umwandlung der Sprache eines Benutzers in ein analoges Datensignal 14 und eine Tonkarte 16 auf. Die Tonkarte weist einen digitalen Signalprozessor (DSP) 19 und einen Analog-Digital-(A/D)-Wandler 17 auf, zur Umwandlung des analogen Datensignals in ein digitales Datensignal 18 durch Abtastung des analogen Datensignals mit etwa 11 khz, um 220 digitale Abtastwerte während einer Zeitspanne von 20 ms zu erzeugen. Jede Zeitspanne von 20 ms entspricht einem getrennten Sprachrahmen. Der DSP verarbeitet die Abtastwerte entsprechend jedem Sprachrahmen, um während der Zeitspanne von 20 ms eine Gruppe von Parametern zu erzeugen, die mit dem analogen Datensignal verbunden ist. Im allgemeinen repräsentieren die Parameter die Amplitude der Sprache in jedem eines Satzes von Frequenzbändern.
Der DSP überwacht auch die Lautstärke der Sprachrahmen, um Benutzeräußerungen zu detektieren. Wenn die Lautstärke von drei aufeinanderfolgenden Sprachrahmen innerhalb eines Fensters von fünf aufeinanderfolgenden Sprachrahmen eine vorbestimmte Sprachschwelle überschreitet, zum Beispiel 20 dB, dann stellt der DSP fest, daß das analoge Signal Sprache repräsentiert, und der DSP beginnt, einen Stapel von z.B. drei Sprachrahmen von Daten aufeinmal über ein digitales Datensignal 23 an eine Zentraleinheit (CPU) 20 zu senden. Der DSP macht ein Äußerungssignal (Utt) 22 gültig, um der CPU jedesmal mitzuteilen, daß ein Stapel von Sprachrahmen, die eine Äußerung repräsentieren, über das digitale Datensignal gesendet wird.
Wenn ein Unterbrechungs-Behandler 24 an der CPU Geltendmachungen des Utt-Signals 22 empfängt, wird die normale Ausführungsabfolge der CPU unterbrochen. Das Unterbrechungssignal 26 bewirkt, daß die Betriebssystemsoftware 28 eine Speicherroutine 29 aufruft. Die Speicherroutine 29 speichert den ankommenden Stapel von Sprachrahmen in einem Puffer 30. Wenn fünfzehn aufeinanderfolgende Sprachrahmen innerhalb eines Fensters von neunzehn aufeinanderfolgenden Sprachrahmen unter eine vorbestimmte Schweigeschwelle fallen, z.B. 6 dB, dann stoppt die DSP die Sendung von Sprachrahmen an die CPU und macht ein End_Utt-Signal 21 gültig. Das End_Utt-Signal veranlaßt die Speicherroutine, die Stapel zuvor gespeicherter Sprachrahmen in einem Sprachpaket 39 zu erkennen, das der Benutzeräußerung entspricht.
Das Unterbrechungssignal 26 bewirkt auch, daß die Betriebssystemsoftware eine Überwachungssoftware 32 aufruft. Die Überwachungssoftware 32 hält einen Zählwert 34 der Anzahl der Sprachpakete, die gespeichert, jedoch noch nicht verarbeitet worden sind. Eine Anwendung 36, zum Beispiel ein Wortprozessor, der durch die CPU periodisch ausgeführt wird, prüft auf eine Benutzereingabe hin, indem er den Zählwert der Überwachungssoftware untersucht. Wenn der Zählwert null ist, dann gibt es keine Benutzereingabe. Wenn der Zählwert nicht null ist, dann ruft die Anwendung eine Spracherkennungssoftware 38 auf, und übergibt einen Zeiger 37 auf die Speicheradresse des Sprachpakets im Puffer 30. Der Spracherkenner kann direkt durch die Anwendung aufgerufen werden oder kann im Auftrag der Anwendung durch ein getrenntes Programm, wie DragonDictate^TM von Dragon Systems of West Newton, Massachusetts, als Reaktion auf die Anforderung der Anwendung einer Eingabe von einer Maus oder Tastatur aufgerufen werden.
Für eine detailliertere Beschreibung, wie Benutzeräußerungen in einem Spracherkennungssystem empfangen und gespeichert werden, siehe das US-Patent Nr. 5,027,406 mit dem Titel „Method for Interactive Speech Recognition and Training".
Bezugnehmend auf 2, veranlaßt die Spracherkennungssoftware 38, um festzustellen, welche Worte gesprochen worden sind, die CPU, Sprachrahmen innerhalb des Sprachpakets 39 aus dem Puffer 30 abzurufen und die Sprachrahmen mit Sprachmodellen zu vergleichen, die in einem oder mehreren Wörterverzeichnissen 40 gespeichert sind. Für eine detailliertere Beschreibung kontinuierlicher Spracherkennung, siehe das US-Patent Nr. 5,202,952, mit dem Titel „Large-Vocabulary Continuous Speech Prefiltering and Processing System".
Die Erkennungssoftware verwendet eine gemeinsame Skriptspracheninterpreiersoftware, um mit der Anwendung 36 zu kommunizieren, die die Erkennungssoftware aufrief. Die gemeinsame Skriptspracheninterpretersoftware ermöglicht es dem Benutzer, direkt in die Anwendung diktieren, entweder durch Emulation der Computertastatur und Umwandlung der Erkennungsergebnisse in anwendungsabhängige Tastenanschläge oder durch Senden anwendungsabhängiger Befehle direkt an die Anwendung unter Verwendung der Anwendungskommunikationseinrichtung des Systems (z.B. verwendet Microsoft Windows^TM Dynamic Data Exchange^TM). Die erwünschten Anwendungen umfassen zum Beispiel Textverarbeitungsprogramme 44 (z.B. Word Perfect oder Microsoft Word^TM), Tabellenkalkulationen 46 (z.B. Lotus 1-2-3^TM oder Excel^TM) und Spiele 48 (z.B. Solitaire^TM).
Als eine Alternative zum direkten Diktieren in eine Anwendung diktiert der Benutzer Text in ein Spracherkennerfenster, und nach dem Diktieren eines Dokuments übeträgt der Benutzer das Dokument (manuell oder automatisch) in die Anwendung.
Wenn eine Anwendung zum erstenmal die Spracherkennungssoftware aufruft, wird sie, bezugnehmend auf 3, von einem Plattenlaufwerk in den lokalen Speicher 42 des Computers geladen. Ein oder mehrere Wörterverzeichnisse, zum Beispiel das gemeinsame Wörterverzeichnis 48 und das Wörterverzeichnis 50 aus Microsoft Office^TM werden ebenfalls von einem entfernten Speicher in den Speicher 42 geladen. Die Wörterverzeichnisse 48, 52, und 54 umfassen alle Worte 48b, 50b und 54b (Text und Befehle), und die entsprechenden Sprachmodelle 48a, 50a und 54a, die ein Benutzer sprechen kann.
Das Ausbreiten der Sprachmodelle und Warte über unterschiedliche Wörterverzeichnisse läßt es zu, daß die Sprachmodelle und Worte in lieferantenabhängige (z.B. Microsoft^TM und Novell^TM) Wörterverzeichnisse gruppiert werden, die nur in den Speicher geladen werden, wenn eine Anwendung, die einem besonderen Lieferant entspricht, zum erstenmal nach dem Einschalten ausgeführt wird. Zum Beispiel repräsentieren viele der Sprachmodelle und Worte im Wörterverzeichnis 54 von Novell PerfectOffice^TM Worte, die nur ausgesprochen werden, wenn ein Benutzer eine Novell PerfectOffice^TM-Anwendung ausführt, z.B. WordPerfect. Als Ergebnis werden diese Sprachmodelle und Worte nur benötigt, wenn der Benutzer eine Novell^TM-Anwendung ausführt. Um die Verschwendung von wertvollen Speicherplatz zu vermeiden, wird das Novell PerfectOffice^TM-Wörterverzeichnis 54 nur in den Speicher geladen, falls benötigt (d.h. wenn der Benutzer eine Novell^TM-Anwendung ausführt).
Alternativ können die Sprachmodelle und Worte in anwendungsabhängige Wörterverzeichnisse geladen werden. Zum Beispiel können getrennte Wörterverzeichnisse für Microsoft Word^TM, Microsoft Excel^TM und Novell WordPerfect^TM vorhanden sein. Als eine andere Alternative wird nur ein einziges Wörterverzeichnis, das alle Worte und entsprechende Sprachmodelle umfaßt, die ein Benutzer sprechen kann, in den lokalen Speicher geladen und durch die Spracherkennungssoftware verwendet, um die Sprache eines Benutzers zu erkennen.
Bezugnehmend auf 4, ruft eine Anwendung, sobald die Wörterverzeichnisse im lokalen Speicher gespeichert sind, die Erkennungssoftware auf, und in einem Verfahren vergleicht die CPU Sprachrahmen, die die Sprache des Benutzers repräsentieren, mit Sprachmodellen in den Wörterverzeichnissen, um die Sprache des Benutzers zu erkennen (Schnitt 60). Die CPU stellt dann fest (Schritte 62 und 64), ob die Ergebnisse einen Befehl oder Text darstellen. Befehle umfassen einzelne Worte und Ausdrücke und Sätze, die durch Schablonen (d.h. Einschränkungsregeln) definiert sind. Die Schablonen definieren die Worte, die in Befehlssätzen gesagt werden können, und die Reihenfolge, in der die Worte gesprochen werden. Die CPU vergleicht (Schritt 62) die Erkennungsergebnisse mit den möglichen Befehlsworten und Ausdrücken und mit Befehlsschablonen, und wenn die Ergebnisse zu einem Befehlswort oder Ausdruck oder einer Befehlsschablone passen (Schritt 64), dann sendet die CPU (Schritt 65a) der Anwendung, die die Spracherkennungssoftware aufgerufen hat, Tastenanschläge oder eine Skriptsprache, die die Anwendung veranlassen, den Befehl auszuführen, und wenn die Ergebnisse nicht zu einem Befehlswort oder Ausdruck oder eine Befehlsschablone passen, sendet die CPU (Schritt 65b) der Anwendung Tastenanschläge oder Skriptsprache, die die Anwendung veranlassen, die Ergebnisse als Text zu tippen.
Bezugnehmend auf 5, kann der Benutzer, während er einen Text diktiert, den Computer durch einen Tastenanschlag, eine Mausauswahl oder eine Äußerung (z.B. indem er den Ausdruck „What can I say" 68 in das Mikrofon spricht) veranlassen, einen Befehlsbrowser 66 anzuzeigen. Der Befehlsbrowser zeigt mögliche Befehle für die Anwendung an, die ausgeführt wird. Zum Beispiel weist eine Textverarbeitungsanwendung einzelne Befehlsworte auf, z.B. [Bold] 70 und [Center] 72, Befehlsausdrücke, z.B. [Close Document) 74 und [Cut This Paragraph] 76, und flexible Satzbefehle, z.B. [<Action> <2 to 20> <Text Objects>] 78 und [Move <Direction> <2 to 20> <Text Objects>) 80. Außerdem auf 6 bezugnehmend, kann der Benutzer einen Befehl auswählen, der im Befehlsbrowser gezeigt wird, um Beispiele 82 des ausgewählten Befehls 80 anzuzeigen.
Bezugnehmend auf 7, werden die Befehlssätze, z.B. 78, 80, 84, und 88, gemäß einer Schablone und ohne lange, z.B. länger als 0,5 Sekunden, Pausen zwischen den Worten des Satzes gesprochen. (Die Länge der Pause kann eingestellt werden, um einen besonderen Sprachfehler des Benutzers auszugleichen.) Zum Beispiel erfordert es der Befehl 80, daß der Benutzer das feste Wort „Move" 88 gefolgt durch eine Anweisungsvariable 90 ausspricht (d.h. <Direction>: „Up", „Down", „Left", „Right", „Back" oder „Forward"), eine Zahlenvariable 92 (d.h. <2 to 20>: „2", „3", „4" ... oder „20"), und optional (gestrichelte Linie 94) eine Mehrfachtextobjektvariable 96 (d.h. <Text Objects>: „Character", „Words", „Lines", „Sentences" oder „Paragraphs"). Wenn sich der Benutzer um zwei Zeilen im vorher diktierten Text nach oben bewegen will, sagt der Benutzer „Move Up 2 Lines". Der Benutzer kann nicht „Move up 2", „Please Move Up 2 Lines", oder „Muve up last 2 Lines" sagen, da diese Sprache nicht der Schablone für den Bewegungsbefehl 80 folgt.
Erneut auf 3 bezugnehmend, weisen die Wörterverzeichnisse zusätzlich dazu, daß sie Worte (und Ausdrücke) und entsprechende Sprachmodelle aufweisen, anwendungsabhängige (z.B. Microsoft Word^TM 100 und Microsoft Excel^TM 102) Befehlssätze 48c, 50c und 54c, die dem Benutzer zur Verfügung stehen, und anwendungabhängige Gruppen 48d, 50d und 54d auf, auf die durch Sätze gezeigt wird und die auf Gruppen von variablen Worten in den Befehlsschablonen zeigen.
Außer daß sie auf Gruppen variabler Worte zeigen, definieren die Gruppen die anwendungabhängigen Tastenanschläge (oder Skriptsprache) für jedes Wort, das gesprochen werden kann. Wenn der Benutzer zum Beispiel einen Befehlssatz ausspricht, der mit „Capitalize" beginnt, während er Microsoft Word^TM ausführt, zeigt die Aktionsgruppe auf das Wort „Capitalize" und liefert die folgenden Tastenanschläge:
{Alt+O}et{Enter}.
Wenn er Novell WordPerfect^TM ausführt, zeigt die Aktionsgruppe ebenfalls auf das Wort „Capitalize", liefert jedoch die folgenden Tastenanschläge:
{Alt+e}vi{RightO}.
Jeder Befehlssatz in den geladenen Wörferverzeichnissen 48, 50, und 54 weist Zeiger auf verschiedene Komponenten des Satzes auf. Zum Beispiel weist der Befehlssatz 102 einen Zeiger auf das feste Wort Bewege (und sein entsprechendes Sprachmodell) und Zeiger auf die Gruppen, z.B. <Direction> 120, <2 to 20> 122 und <Text objects> 124 auf. Die Gruppen weisen Zeiger auf die Worte in den Gruppen (und die entsprechenden Sprachmodelle) auf, z.B. Anweisungsworte 126, Zahlen 128 und Textobjektworte 130.
Der Zeiger läßt es zu, daß sich Komponenten jedes Satzes über mehrere gespeicherte Wörterverzeichnisse ausbreiten und durch die Sätze unterschiedlicher Wörterverzeichnisse genutzt werden. Zum Beispiel ist der Befehlssatz 136 ([Print Pages <Number/1 to 99> bis <Number/1 to 99>) 5) sowohl im (nicht gezeigten) Microsoft Office^TM-Wörterverzeichnis 50 und im (nicht gezeigten) Novell PerfectOffice^TM-Wörterverzeichnis 54 gespeichert, während die Sprachmodelle und Worte (d.h. Zahlen 1 bis 99) im Zahlwörterverzeichnis 138 gespeichert sind. Um eine „Quer-Wörterverzeichniserkennung" zuzulassen, bezeichnen die Zeiger in den Wörterverzeichnissen 48, 50, und 54 das Wörterverzeichnis dem Namen nach, in dem die Worte gefunden werden können. Zum Beispiel können die variablen Worte 1, 2, 3,... 99 im Zahlenwörterverzeichnis gefunden werden (z.B. <Number/1 to 99>). Sobald die Wörterverzeichnisse in den lokalen Speicher kopiert sind, werden die Namensverweise aufgelöst und durch die tatsächlichen Speicheradressen der Worte im lokalen Speicher ersetzt.
Durch die Quer-Wörterverzeichniserkennung kann ein Wort zu einer variablen Gruppe von Worten (z.B. <1 to 99>) in nur einem Wörterverzeichnis anstelle zu jedem Wörterverzeichnis hinzugefügt werden, das die Gruppe enthält. Zusätzlich wird die variable Gruppe von Worten nicht über mehrere Wörterverzeichnisse wiederholt, Während die Sprache eines Benutzers erkannt wird, sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, Teilergebnisse (d.h. erkannte Worte innerhalb einer Äußerung, bevor die gesamte Äußerung betrachtet worden ist) innerhalb des Dokuments anzuzeigen, das auf dem Anzeigeschirm (oder in einem Statusfenster auf dem Anzeigeschirm) angezeigt wird. Wenn die CPU feststellt, daß die die Sprache des Benutzers Text ist und die Teilergebnisse zu den Endergebnissen passen, dann ist die CPU fertig. Wenn jedoch die CPU feststellt, daß die Sprache des Benutzers Text ist, aber daß die Teilergebnisse nicht zu den Endergebnissen passen, dann sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um den angezeigten Text zu korrigieren. Wenn die CPU entsprechend feststellt, daß die Sprache des Benutzers ein Befehl war, dann sendet die CPU Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, die Teilergebnisse vom Bildschirm zu löschen und den Befehl auszuführen.
Zum Beispiel ist die Anwendung, die durch das System ausgeführt wird, ein Terminplaner (8a, 8b, 9a, und 9b). Nachdem das System Teilergebnisse 302 „schedule this meeting in room 507" (8a) anzeigt, stellt das System fest, daß die Äußerung ein Befehl war und entfernt den Text vom Anzeigeschirm (8b) und führt den Befehl aus, indem es das Treffen im Raum 507 plant 304. Entsprechend stellt das System fest, nachdem das System Teilergebnisse 304 anzeigt „underline last three words" (9a), daß die Äußerung ein Befehl war und entfernt den Text vom Anzeigeschirm (9b) und führt den Befehl durch Unterstreichen 306 der letzten drei Worte aus.
Die Teilergebnisse gestatten es dem Benutzer, zu erkennen, wie die Erkennung vor sich geht. Wenn die Spracherkennung nicht genau ist, kann der Benutzer das Sprechen stoppen und fortfahren, indem er langsamer oder klarer spricht, oder der Benutzer oder ein Techniker können die Teilergebnisinformation nutzen, um Spracherkennungssystemfehler zu diagnostizieren.
Eine Schwierigkeit bei der Erkennung sowohl von Befehlen als auch Text gegen den selben Satz von Wörterverzeichnissen (d.h. einem oder mehreren) ist es, daß eine Sprachmodellinformation in den Wörterverzeichnissen die CPU veranlassen kann, einen gesprochenen Befehl eines Benutzers eher als Text als einen Befehl zu erkennen. Typischerweise umfassen die Sprachmodelle für diktierte Worte eine Sprachmodellinformation über die Art, in der ein Benutzer eine gegebene Sprache natürlich spricht. Zum Beispiel folgt dem Wort „bold" im allgemeinen ein Substantiv, z.B. „That was a bold presentation". Andererseits sind Befehlssätze absichtlich gestelzt oder unnatürlich (z.B. sie beginnen mit Aktionsbefehlsworten anstelle von Substantiven), um sie von Text zu unterscheiden und die Spracherkennungsgenauigkeit zu verbessern. Zum Beispiel folgt dem Befehl „bold" im allgemeinen eine Anweisung (z.B. next, last), eine Zahl (z.B. 2, 3, 4) oder ein Textobjekt (z.B. Character, Paragraph), z.B. „Bold last Paragraph." Wenn die Sprache eines Benutzers gegenüber demselben Satz von Wörterverzeichnissen als Befehle und Text erkannt wird, neigt jede Sprachmodellinformation in den Wörterverzeichnissen dazu, das System zu veranlassen, die Erkennung von Text gegenüber Befehlen zu bevorzugen.
Bezugnehmend auf die 10 und 11, ist es eine Alternative, zwei serielle Erkennungen durchzuführen. Die CPU beginnt mit der Erkennung (Schritt 140, 10) der Sprache des Benutzers, wobei sie ein oder mehrere diktierte Wörterverzeichnisse 150 (11) verwendet, die Worte (und entsprechende Sprachmodelle) enthalten, die ein Benutzer sagen kann, während er Text diktiert. Dieses Wörterverzeichnis enthält eine Sprachmodellinformation, jedoch keine Befehlssätze. Die CPU erkennt dann (Schritt 142) die Sprache des Benutzers, wobei sie ein oder mehrere Befehlswörterverzeichnisse 152 verwendet, die nur Befehlsworte, Ausdrücke und Sätze (und entsprechende Sprachmodelle und Gruppen) enthalten. Jede Erkennung (Schritte 140 und 142) weist jeder Erkennung beruhend darauf eine Bewertung zu, wie gut die die Sprache des Benutzers mit den Sprachmodellen zusammenpaßt, die dem erkannten Wort oder Worten entsprechen. Die Bewertungen beider Erkennungen werden dann verglichen, und die CPU stellt fest (Schritt 144), ob die Sprache des Benutzers ein Befehl oder Text war.
Zur Befehlserkennung vergleicht die CPU die Anfangssprachrahmen nur mit einer ersten Gruppe möglicher Sprachmodelle, die die ersten Worte von Befehlen repräsentieren, und vergleicht die Anfangssprachrahmen nicht mit jedem Sprachmodell in den Befehlswörterverzeichnissen. Als Beispiel werden die Anfangssprachrahmen nicht mit den Anweisungsvariablen „Up", „Down", „Left", „Right", „Back" und „Forward" verglichen. Eine Begrenzung der Zahl der Sprachmodelle, mit denen die Sprachrahmen verglichen werden, reduziert die Zeit für den Vergleich und erhöht die Genauigkeit der Befehlserkennung.
Außerdem auf 12 bezugnehmend, beginnt die Erkennermaschine zur kontinuierlichen Spracherkennung im Zustand 1 und wartet 60, bis der Benutzer zu sprechen beginnt. Wenn der Benutzer zu sprechen beginnt, erkennt die CPU den Anfang des ersten Wortes des Benutzers und filtert die erste Gruppe von Sprachmodellen nach jenen Sprachmodellen vor, die ähnliche Tonanfänge aufweisen, z.B. „Select", „Center", „Single Space", „Set Font", „Set Size". Die vorgefilterten Sprachmodelle stellen eine mögliche Befehlssatzliste von zum Beispiel zwanzig möglichen Befehlssätzen bereit, die der Benutzer sprechen kann.
Der Erkenner fährt fort, indem er die aufeinanderfolgenden Sprachrahmen mit den vorgefilterten Sprachmodellen vergleicht, jedoch nicht mit anderen Sprachmodellen (z.B. „Bold"). Die mögliche Befehlsliste wird in der Reihenfolge der höchsten zur niedrigsten Wahrscheinlichkeit geordnet, wobei der Befehl, der das Sprachmodell aufweist, das mit den Sprachrahmen am nächsten zusammenpaßt, die höchste Wahrscheinlichkeit (bester Kandidat) aufweist. Wenn die CPU fortfährt, aufeinanderfolgende Sprachrahmen mit den vorgefilterten Sprachmodellen zu vergleichen, ordnet die CPU aktiv die Befehlsliste neu an, wenn sich die Wahrscheinlichkeiten ändern.
Wenn die CPU feststellt, daß die Sprachrahmen im wesentlichen mit den Sprachmodellen für eines oder mehrere erste Worte in einem oder mehreren Befehlen zusammenpassen, verwendet die CPU den Zeiger in jedem Befehl auf die nächste Befehlskomponente (d.h. zweites Wort), um zu beginnen, die aufeinanderfolgenden Sprachrahmen mit Gruppen von Sprachmodellen zu vergleichen, die mögliche zweite Worte repräsentieren. Wenn zum Beispiel die Spracherkennungsmaschine das Wort Copy 202 als eines der zwanzig möglichen ersten gesprochenen Worte erkennt, dann verwendet die Spracherkennermaschine die Verweise in den <Action>-Befehlssätzen 78 (7), um damit zu beginnen (Zustand 2), die aufeinanderfolgenden Sprachrahmen mit den Sprachmodellen zu vergleichen, die die Worte in der <Next or Previous>-Gruppe 204 repräsentieren, einschließlich „Previous", „Last", „Back", „Next" und „Forward", das feste Wort „Selction" 206, die <2 to 20>-Gruppe 208, und die <Text Objects>-Gruppe 210. Der Spracherkenner kann auch den Anfang des zweiten Wortes identifizieren, um die Sprachmodelle vorzufiltern, die mögliche zweite Befehlssatzworte repräsentieren.
Da einige Worte länger brauchen ausgesprochen zu werden als andere, fährt die Spracherkennungsmaschine gleichzeitig fort, die aufeinanderfolgenden Sprachrahmen mit längeren vorgefilterten Sprachmodellen zu vergleichen. Wenn folglich der Spracherkenner die aufeinanderfolgenden Sprachrahmen mit Gruppen von Sprachmodellen vergleicht (Zustand 2), die mögliche zweite Worte in den Befehlssätzen repräsentieren, die mit dem Wort „Copy" beginnen, fährt der Spracherkenner fort, die aufeinanderfolgenden Sprachmodelle mit längeren Sprachmodellen zu vergleichen, die die Worte „Capitalize" 212 und „Quote" 214 repräsentieren. Der fortgesetzte Vergleich kann die CPU veranlassen, eine dieser Möglichkeiten als eine höhere Wahrscheinlichkeit als „Copy" 202 aufzulisten, dem ein zweites Befehlssatzwort folgt.
Die Befehlssätze sind in ihrer Grammatik ähnlich und in ihrer Zahl begrenzt, um das Ausmaß der Verwirrung des Benutzers zu reduzieren und es dem Benutzer zu gestatten, sich leicht an die möglichen Befehle zu erinnern. Die Variablen (z.B. <Action>, <Style>, <Next or Prev>) in den Befehlssätzen versehen den Benutzer mit einer breiten Vielfalt von Befehlen, ohne eine große Zahl einzelner Befehlssätze einzuführen.
Zusätzliche Befehlssätze können für andere Arten von Anwendungen bereitgestellt werden. Zum Beispiel zeigt 13 mögliche Befehlssätze für Tabellenkalkulationsanwendungen (z.B. Lotus 1-2-3^TM und Excel^TM). Die Befehlssatzschablonen sind über Tabellenkalkulationsanwendungen allgemein. Jedoch sind Tastenanschläge von der Befehlserkennersoftware zur Anwendung anwendungabhängig (d.h. die Tastenanschläge, die für Lotus 1-2-3^TM erforderlich sind, können sich von den Tastenanschlägen unterscheiden, die von Excel^TM benötigt werden).
Die CPU bevorzugt diktierten Text gegenüber ähnlich bewerteten Befehlen, da es für den Benutzer leichter ist, falsch erkannte Befehle zu löschen, die in ein Dokument getippt werden, als es für einen Benutzer ist, Text rückgängig zu machen, der falsch erkannt und als Befehl ausgeführt wird. Wenn zum Beispiel der Benutzer „belated fall flies" diktiert, und das System den Text „belated fall flies" und den Befehl „delete all files" erkennt, ist es für den Benutzer einfacher, den getippten Befehl „delete all files" zu löschen, als es für den Benutzer ist, alle gelöschten Dateien wieder herzustellen.
Bei der Bevorzugung von Text stellt das System zuerst fest, ob es eine Befehlsrückweisung gab. Befehlsrückweisungen umfassen Geräusche, die durch das Systemmikrofon aufgenommen werden. Die Sprachrahmen können dann als Geräusche identifiziert werden, wenn sie mit Sprachmodellen zusammenpassen, die Hintergrundgeräuschen, Telefonklingeln oder anderen üblichen Geräuschen entsprechen, oder die Benutzeräußerung kann als eine Befehlsrückweisung betrachtet werden, wenn die Befehlserkennungsbewertungen unter einer empirisch eingestellten Schwelle liegen. Dem Benutzer kann die Fähigkeit gegeben werden, die Schwelle zu verändern, um den Benutzer mit einer gewissen Kontrolle über die Präzision gesprochener Befehle zu versehen. Andere Befehlsrückweisungen umfassen eine ungenügende Lautstärke oder übermäßige Lautstärke, Hardwarefehler oder Pufferüberlauffehler. Verschiedene Befehlsrückweisungen können ebenso als Textrückweisungen betrachtet werden.
Bei der Bevorzugung von Text stellt das System danach fest, ob die Sprache des Benutzers mit einer Befehlsschablone übereinstimmt. Die Sprache des Benutzers, die nicht mit einer Befehlsschablone übereinstimmt, liefert keinen gültigen erkannten Befehl. Die Sprache eines Benutzers stimmt nicht mit einer Schablone überein, wenn der Benutzer keine erlaubten Worte in der vorbestimmten Reihefolge ausspricht oder wenn der Benutzer Pausen zwischen die Worte eines Befehls setzt. Wenn zum Beispiel der Benutzer sagt bold last 3 (Pause) words", werden die Worte „bold last 3" als eine Äußerung betrachtet, während das Wort words" als einen andere Äußerung betrachtet wird. Keine Äußerung stimmt mit der Befehlsschablone überein, und folglich liefert keine Äußerung ein gültiges erkanntes Befehlsergebnis.
Das System bevorzugt außerdem Text, indem es die Erkennungsbewertung des Befehls mit der Erkennungsbewertung des Textes vergleicht. Wenn die Textbewertung höher ist, dann erkennt das System die Sprache des Benutzers als Text. Wenn die Text- und Befehlsbewertungen gleich sind oder die Befehlsbewertung innerhalb eines empirisch eingestellten Bereichs der Textbewertung liegt, dann bevorzugt das System den Text, indem es die Sprache des Benutzers als Text erkennt. Zum Beispiel kann der empirisch eingestellte Bereich bestimmt werden, indem die Zahl der Worte in der Äußerung mit einer empirisch bestimmten Zahl, z.B. 100 multipliziert wird. Da jedoch die Befehle gestelzt oder unnatürlich sind, wird die Erkennungsbewertung eines korrekt gesprochenen Befehls im allgemeinen beträchtlich außerhalb der Bewertung der Texterkennung liegen.
Diktierter Text wird nicht bevorzugt, wo es nicht sein kann, daß der Benutzer Text diktiert. Wenn zum Beispiel der Benutzer ein Fenstermenü heruntergezogen hat, dann kann eine gesprochene Äußerung des Benutzers nur ein Befehl sein, und folglich wird die Befehlserkennung bevorzugt oder nur eine Befehlserkennung ausgeführt.
Wenn die CPU feststellt, daß die Sprache des Benutzers Text ist, sendet die CPU (Schritt 146) Tastenanschläge oder Skriptsprache, die die erkannten Worte repräsentieren, an die Anwendung, die die Spracherkennungssoftware aufrief. Wenn die CPU feststellt, daß die Sprache des Benutzers ein Befehl ist, sendet die CPU (Schritt 148) Tastenanschläge oder Skriptsprachenbefehie an die Anwendung, die die Anwendung veranlassen, den Befehl auszuführen.
Die Erkennung diktierten Textes braucht länger (z.B. 1,2 Echtzeit) als die Erkennung von Befehlen (z.B. 0,1 Echtzeit). Ein Grund für die Zunahme der Zeit ist es, daß das Wörterverzeichnis für diktierten Text sehr viel größer als das Befehlswörterverzeichnis ist. Die Erkennung von diktiertem Text vor der Erkennung von Befehlen nutzt die Sprechzeit aus, die durch den Benutzer benötigt wird.
Da die Wörterverzeichnisse für diktierten Text und Befehle getrennt sind, können sie für ihre jeweiligen Zwecke optimiert werden, ohne die Genauigkeit einer Erkennung zu reduzieren. Wie erläutert, kann das Wörterverzeichnis für diktierten Text eine Sprachmodellinformation umfassen. Entsprechend kann das Befehlswörterverzeichnis eine Modellinformation umfassen, die die Befehlserkennung optimiert. Zum Beispiel kann das Wort „sentence" eine höhere Wahrscheinlichkeit als das Wort „character" aufweisen (d.h. eine höhere Bewertung erhalten).
Eine andere Alternative ist die parallele Spracherkennung von sowohl diktierten Text als auch Befehlen. Bezugnehmend auf 14, erkennt die CPU gleichzeitig (Schritte 160 und 162) diktierten Text und Befehle, indem sie gleichzeitig die Sprachrahmen der Benutzeräußerung mit einem oder mehreren Wörterverzeichnissen 150 für diktierten Text und einem oder mehreren Befehlswörterverzeichnissen 152 vergleicht. Die CPU vergleicht dann (Schritt 164) die Ergebnisse beider Erkennungen und stellt fest (Schritt 166), ob die Benutzeräußerung ein Befehl oder Text ist. Wieder bevorzugt die CPU die Texterkennung gegenüber der Befehlserkennung. Wenn die CPU feststellt, daß die Benutzeräußerung ein Befehl ist, dann sendet die CPU (Schritt 168) Tastenanschläge oder Skriptsprache an die Anwendung, die die Spracherkennungssoftware aufrief, um die Anwendung zu veranlassen, den erkannten Befehl auszuführen. Wenn die CPU feststellt, daß die Benutzeräußerung diktierter Text ist, dann sendet die CPU (Schritt 170) Tastenanschläge oder Skriptsprache an die Anwendung, um die Anwendung zu veranlassen, den erkannten Text zu tippen.
Wenn das erste Wort einer Benutzeräußerung als ein erstes Wort eines Befehlssatzes erkannt wird, dann kann die CPU die Erkennung des diktierten Textes stoppen und nur die Befehlserkennung vollenden. Entsprechend kann dann, wenn das erste Wort einer Benutzeräußerung nicht als ein erstes Wort eines Befehlssatzes erkannt wird, die CPU die Befehlserkennung stoppen und nur die Erkennung des diktierten Textes stoppen. Zusätzliche Spracherkennungsoptimierungen und Optimierungen zur Unterscheidung von Text von Befehlen sind ebenfalls möglich.
Befehlskorrektur
Bezugnehmend auf die 15a–15c, kann der Benutzer, wenn das Spracherkennungssystem einen gesprochenen Befehl 310 falsch als diktierten Text erkennt, die CPU (durch Tastenanschlag, Mausauswahl oder einen gesprochenen Befehl, z.B. „That was a command" 312, 15b) veranlassen, die Spracherkennungssoftware erneut auszuführen. Die CPU erkennt dann die vorhergehende Äußerung des Benutzers neu und erzeugt Tastenanschläge oder Skriptsprachenbefehle, um die Anwendung zu veranlassen, die die Spracherkennungssoftware aufrief, den vorher geschriebenen Text zu löschen (15c). Wo ein getrenntes Befehlswörterverzeichnis verfügbar ist, wird die erneute Erkennung nur an diesem Wörterverzeichnis ausgeführt, um die Wahrscheinlichkeit zu erhöhen, daß der gesprochene Befehl korrekt erkannt wird. Wenn die erneute Erkennung ein Befehlsergebnis mit einer Bewertung liefert, die die empirisch eingestellte Schwelle überschreitet, dann erzeugt die CPU Tastenanschläge oder Skriptsprachenbefehle, die bewirken, daß die Anwendung den Befehl erneut ausführt (z.B. unterstrichenen Text 314, 15c).
Bezugnehmend auf 15d, zeigt die CPU dann, wenn die erneute Erkennung kein Befehlsergebnis liefert oder die Bewertung des Befehlsergebnisses ungenügend ist, den erneut erkannten Text 310 in einem Befehlsfenster 220 auf dem Anzeigeschirm des Systems an. Alternativ wird das Befehlsfenster jedesmal angezeigt, wenn der Benutzer die erneute Erkennung auswählt, oder der Benutzer bestimmt für jede Auswahl einer erneuten Erkennung, wann das Befehlsfenster angezeigt wird. Wie vorhergehend beschrieben, kann es viele Gründe geben, warum ein Befehl falsch erkannt werden kann. Wenn der Benutzer zum Beispiel einen Befehl nicht gemäß einer Befehlsschablone ausspricht, dann kann die CPU die Sprache des Benutzers nicht als einen Befehl erkennen. Entsprechend kann die CPU dann, wenn die Umgebung des Benutzers besonders geräuschvoll ist oder der Benutzer zu schnell oder undeutlich spricht, die Sprache des Benutzers nicht als einen Befehl erkennen. Die erneut erkannte Sprache dem Benutzer anzuzeigen, läßt es zu, daß der Benutzer seine eigenen Fehler ebenso wie Umgebungsprobleme bemerkt. Diese Information kann auch verwendet werden, um Systemprobleme zu diagnostizieren.
Die Erkennung eines "gefährlichen" (d.h. schwierig zu widerrufenden) Befehls kann ebenfalls die CPU veranlassen, den erneut erkannten Befehl im Befehlsfenster anzuzeigen. Wenn zum Beispiel die CPU den Befehl „delete all files" erkennt, zeigt die CPU, bevor sie diesen „gefährlichen" Befehl ausführt, den Befehl für den Benutzer. Die CPU kann auch niedrig bewertete Befehle für den Benutzer anzeigen. Wenn der Benutzer zustimmt, daß der angezeigte Befehl im Befehlsfenster der Befehl ist, den der Benutzer ausführen will, dann fordert der Benutzer (durch Tastenanschlag, Mausauswahl oder die Äußerung „OK") die Ausführung des Befehls an. Wenn der Benutzer dem angezeigten Befehl nicht zustimmt oder der angezeigte Text nicht mit einem gültigen Befehl zusammenpaßt, dann kann der Benutzer den zuvor ausgesprochenen Befehl editieren, indem er zum Beispiel den korrekten Befehl in das Befehlsfenster tippt oder indem er „Edit" sagt, wiederum gefolgt durch den beabsichtigten gesprochenen Befehl. Das System führt dann erkannte gültige Befehle aus oder zeigt erneut irgendeine erkannte Sprache an, die nicht mit einer Befehlsschablone übereinstimmt.
Um das falsche Erkennen von Befehlen zu vermeiden, kann der Benutzer dem System im voraus mitteilen, daß der Benutzer dabei ist, einen Befehl zu sprechen. Zum Beispiel kann der Benutzer „Simon Says" sagen (oder einen anderen ungewöhnlichen Ausdruck), bevor er einen Befehl ausspricht oder die Control- Taste gedrückt hält, wenn er einen Befehl ausspricht. Wenn das System „Simon Says" erkennt, tippt es das nicht als Text, sondern verwendet es als eine Mitteilung, daß die nächste Äußerung ein Befehl ist oder daß die folgenden Worte in derselben Äußerung ein Befehl sind. Die Befehlsmitteilung kann verwendet werden, um zu verhindern, daß die CPU einen erkannten diktierten Text als das Ergebnis auswählt oder die Äußerung nur mit einem Befehlswörterverzeichnis vergleicht (falls verfügbar), um die Spracherkennungsgenauigkeit weiter zu verbessern. Die Bereitstellung einer Befehlsmitteilung ist besonders nützlich, wenn der Benutzer dabei ist, einen Befehl auszusprechen, den das System regelmäßig falsch als Text erkennt. Für andere leicht erkannte Befehle kann der Benutzer wählen, die Mitteilung nicht bereitzustellen.
Anstatt dem System mitzuteilen, daß der Benutzer dabei ist, einen Befehl auszusprechen, kann dem System mitgeteilt werden, daß der Benutzer dabei ist, einen Text zu diktieren.
Zusätzlich kann der Benutzer dann, wenn das Spracherkennungssystem einen diktierten Text falsch als einen Befehl erkennt, die CPU (durch Tastenanschlag, Mausauswahl oder einen gesprochen Befehl, z.B. „Type That") veranlassen, die Spracherkennungssoftware erneut auszuführen.
Andere Ausführungsformen liegen im Rahmen der folgenden Ansprüche.
Zum Beispiel weist die CPU, anstatt einen digitalen Signalprozessor (DSP) die Abtastwerte verarbeiten zu lassen, die jedem Sprachrahmen entsprechen, um während jeder 20 ms-Zeitspanne eine Gruppe von Parametern zu erzeugen, die mit dem analogen Datensignal verbunden sind, eine Vorfeld-Verarbeitungssoftware auf, die es zuläßt, daß die CPU die Parameter erzeugt.

Claims

Verfahren zur Verwendung bei der Erkennung kontinuierlicher Sprache, das aufweist: Annahme von Signalen (Schritt 23), die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen; Erkennung der Sprachelemente (Schritt 60; 140,142; 160,162); Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert (Schritt 64;144,166), beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vordem Sprachelement, und Sprachmodellinformationen; und Behandlung der erkannten Sprachelemente (Schritte 65a,65b; 146,148; 168,170) in einer Weise, die davon abhängt, ob die Sprachelemente Textelemente oder Befehlselemente repräsentieren.
Verfahren nach Anspruch 1, in dem Textelement behandelt wird (Schritt 65b; 146; 170), indem es einer Textverarbeitungsanwendung zur Verfügung gestellt wird.
Verfahren nach Anspruch 1 oder 2, in dem Befehlselement behandelt wird (Schritt 65a; 148; 168), indem eine Anwendung veranlagt wird, einen Schritt auszuführen.
Verfahren nach einem der vorhergehenden Ansprüche, in dem die Sprachmodellinformationen Befehlsschablonen enthalten und in dem Bestimmung das Vergleichen des erkannten Sprachelements und der Befehlsschablone umfaßt.
Verfahren nach einem der vorhergehenden Ansprüche, in dem die Bestimmung die Bewertung der Wahrscheinlichkeit umfaßt, daß ein gegebenes Sprachelement entweder ein Befehlselement oder ein Textelement ist.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner die Beeinflussung der Erkennung zugunsten dessen aufweist, daß ein gegebenes Sprachelements ein Textelement oder ein Befehlselement ist.
Verfahren nach Anspruch 6, in dem die Beeinflussung die Bestimmung aufweist, ob das gegebene Sprachelement eine Befehlsrückweisung widerspiegelt.
Verfahren nach Anspruch 6 oder Claim 7, in dem die Beeinflussung die Bestimmung umfaßt, ob das gegebene Sprachelement einer Befehlsschablone entspricht.
Verfahren nach einem der Ansprüche 6 bis 8, in dem die Beeinflussung das Vergleichen von Erkennungsbewertungen des gegebenen Sprachelements als Befehlselement oder als Textelement umfaßt.
Verfahren nach einem der Ansprüche 6 bis 9, in dem die Beeinflussung die Bestimmung der Länge des Schweigens zwischen aufeinanderfolgenden Sprachelementen umfaßt.
Verfahren nach einem der Ansprüche 6 bis 10, in dem die Beeinflussung die Bestimmung umfaßt, ob die Aktionen des Benutzers darauf schließen lassen, daß das Sprachelement kein Text sein kann.
Verfahren nach einem der vorhergehenden Ansprüche, in dem die Erkennung aufweist: parallele Erkennung der Sprachelemente, als ob sie Textelemente wären (Schritt 160), und Erkennung der Sprachelemente, als ob sie Befehlselemente wären (Schritt 162).
Verfahren nach Anspruch 12, das ferner aufweist, die Erkennung von Sprachelementen zeitweilig zu stoppen, als ob sie Textelemente (oder Befehlselemente) wären, auf die Bestimmung hin, daß das Sprachelement ein Befehlselement (oder ein Textelement) ist.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist, einem Benutzer die Ergebnisse der Erkennung anzuzeigen.
Verfahren nach Anspruch 14, wobei die Ergebnisse Teilergebnisse sind.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist, es dem Benutzer zu ermöglichen, eine erneute Erkennung zu veranlassen, wenn das Sprachelement falsch als Textelement oder als Befehlselement erkannt wird.
Verfahren nach Anspruch 16, in dem der Benutzer eine erneute Erkennung veranlassen kann, wenn ein Befehlselement als ein Textelement erkannt wird, und als Reaktion auf die erneute Erkennung eine Textverarbeitungsanwendung die Aufnahme des Textelements in Text rückgängig machen kann, der bearbeitet wird.
Verfahren nach einem der vorhergehenden Ansprüche, in dem vor der Behandlung eines erkannten Befehlselements einem Benutzer Informationen angezeigt werden, die mit dem Befehlselement verbunden sind.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Annanhme von einem Benutzer einer Anweisung, vorhergehende oder nachfolgende Sprachelemente entweder als Textelemente oder Befehlselemente zu betrachten, aber nicht als beides.
Medium, das Software zur Verwendung bei der Spracherkennung enthält, die aufweist: Instruktionen zur Annahme von Signalen, die eingestreuten Sprachelementen entsprechen, die Textelemente, die zu erkennenden Text entsprechen, und Befehlselemente enthalten, die auszuführenden Befehlen entsprechen; Instruktionen zur Erkennung der Sprachelemente; Instruktionen zur Bestimmung, ob ein erkanntes Sprachelement ein Textelement oder ein Befehlselement repräsentiert, beruhend auf mindestens einem des folgenden: Pausen vor und nach, oder nur vor dem Sprachelement, einer Sprachmodellinformation; und Instruktionen zur Behandlung der erkannten Sprachelemente in einer Weise, die davon abhängt, ob sie Textelemente oder Befehlselemente repräsentieren.