WO2002018897A1 - Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung - Google Patents

Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung Download PDF

Info

Publication number
WO2002018897A1
WO2002018897A1 PCT/EP2001/009475 EP0109475W WO0218897A1 WO 2002018897 A1 WO2002018897 A1 WO 2002018897A1 EP 0109475 W EP0109475 W EP 0109475W WO 0218897 A1 WO0218897 A1 WO 0218897A1
Authority
WO
WIPO (PCT)
Prior art keywords
vocabulary
voice
level
devices
loaded
Prior art date
Application number
PCT/EP2001/009475
Other languages
English (en)
French (fr)
Inventor
Meinrad Niemöller
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to DE50113127T priority Critical patent/DE50113127D1/de
Priority to EP01969601A priority patent/EP1314013B1/de
Publication of WO2002018897A1 publication Critical patent/WO2002018897A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Definitions

  • the invention relates to a voice-controlled arrangement with a plurality of devices according to the preamble of claim 1 and to a method for voice input and recognition which can be used in such an arrangement.
  • Devices of this type are already known (for example some types of mobile telephones) in which simple speech recognition for control functions is implemented on the device itself. An example is only the voice-controlled establishment of connections by voice input of a name into a mobile phone, which is stored in an electronic phone book on the phone.
  • primitive to simple voice controls are also known for other devices in everyday life, for example for remote controls for audio systems or lighting systems. All known devices of this type each have their own, dedicated speech recognition system.
  • the devices each have a device vocabulary memory for storing a device-specific vocabulary and a vocabulary transmission unit for transmitting the stored vocabulary to the voice input unit.
  • the voice input unit comprises a vocabulary reception unit for receiving the vocabulary transmitted by a device or the vocabulary transmitted by devices. If the voice input unit comes into close proximity to one or more devices, so that a communication link is established between the voice input unit and the devices, the devices transmit their vocabulary to the voice input unit, which temporarily stores them. As soon as the communication link between one or more devices and the voice input unit breaks down, for example if the spatial distance becomes too great, the voice input unit can reject one or more temporarily stored vocabulary. The voice input unit then dynamically manages the vocabulary of the end devices.
  • the invention is therefore based on the object of proposing an arrangement of this type which in particular avoids the aforementioned problems and, above all, further develops the selection of the terminals to be controlled by voice.
  • the arrangement is also said to be characterized by low cost and an efficient voice input and recognition process.
  • the invention further develops the above-mentioned voice-controlled arrangement with a plurality of devices and a mobile voice input unit connected to the devices via a wireless communication link, in particular in that the voice input unit provides selection means for the selection of vocabulary to be loaded into the voice input unit.
  • the selection means evaluate direction information of received signals that were sent by the devices.
  • the principle applied here stems from human communication: a person communicates with another by turning to it. Talks around the two communicating people are "hidden". Accordingly, other people, to whom the communicating people do not turn, do not feel addressed.
  • the selection means preferably comprise a detector, in particular an antenna, with a directional characteristic.
  • the direction-dependent selection takes place by aligning the detector to the devices to be controlled, since the level of a received signal from a device changes with the alignment of the detector with respect to a device sending the signal.
  • the selection means comprise an infrared detector which, for example, has a limited detection range due to a lens in front, so that infrared signals outside the detection range do not lead to the loading of a corresponding vocabulary.
  • the voice input unit preferably has a device for level evaluation and control. This determines the level of at least one received signal and, depending on this, controls the loading of a vocabulary, which is transmitted by the signal, by means of the vocabulary reception unit into the vocabulary buffer (s).
  • the orientation of the voice input unit determines which of the devices is addressed.
  • the communication between the voice input unit and devices preferably takes place in accordance with the Bluetooth standard.
  • the vocabulary transmission unit or vocabulary transmission units and vocabulary reception unit are designed as radio transmission or reception units according to the Bluetooth standard.
  • the Bluetooth standard is particularly well suited for this purpose, since it is intended in particular for the transmission of control commands (for example between a PC and a printer).
  • commands or vocabulary are mainly exchanged between the voice input unit and the devices.
  • Higher-quality transmission protocols and description standards such as WAP or XML can also be used as standards for the transmission of vocabulary in the system.
  • the vocabulary transmission unit or vocabulary transmission units and word estimation reception unit can be designed as an infrared transmission or reception unit.
  • a typical embodiment of the voice-controlled arrangement works in such a way that for the direction-dependent selection of signals which are sent by devices, the detector is directed at certain devices, so that only the signals of these devices are received. The level of the received signals is then determined in the voice input unit by the device for level evaluation and control. Depending on how the voice input unit - in the case of a radio connection, the antenna with directional characteristic - is oriented in relation to the devices, some of the signals received have a higher field strength and thus a higher level than the other signals.
  • the device for level evaluation and control controls the vocabulary reception unit on the basis of the determined level of the received signals in such a way that only vocabularies are received by devices whose signals are from the device for level evaluation and control have been determined to be sufficient, ie in particular are above a predetermined threshold value. Even if the voice input unit, more precisely the detector, is in the transmission or radio range of several devices, this only loads the vocabulary of a part of the devices. The recognition rate in the voice input unit therefore does not decrease if the voice input unit is in the transmission or radio range of many devices and accordingly many vocabularies would be loaded according to the invention without direction-dependent selection.
  • a vocabulary contains command words or phrases in orthographic or phonetic transcription and possibly additional information for speech recognition. After a suitable conversion, the vocabulary is loaded into the speech recognition system at the speech input unit, and advantageously into a vocabulary buffer, which is preferably connected between the vocabulary reception unit and the speech recognition stage.
  • the size of the vocabulary buffer which is preferably designed as a volatile memory (eg DRAM, SRAM, etc.), is expediently adapted to the number of vocabularies to be processed or the number of devices to be controlled simultaneously.
  • vocabulary buffers can be saved in that the selection means for level evaluation and control are designed such that, for example, a maximum of two vocabularies for controlling two devices can be loaded into the voice input unit at the same time.
  • a programmable version of the selection means for level evaluation would also be conceivable, which can be set accordingly to control a plurality of devices when the vocabulary buffer is enlarged.
  • the selection means can in particular have an arithmetic unit which, from the level of a received signal, the distance of a device sending the signal from the speech input unit calculated. Furthermore, a threshold value corresponding to a predetermined distance is stored in a threshold value memory. The calculated distance is then compared with the stored threshold value using a comparison device. Depending on the comparison result, the vocabulary reception unit and the speech recognition level in particular are activated or blocked. For this purpose, the comparison device generates a lock / release signal.
  • the criteria for enabling and disabling can be specified via the threshold value, which can also be adapted by the user, for example, by programming or setting. For example, the user could specify that only devices within a radius of 2 m are enabled for the voice input unit. Devices that are further away, on the other hand, should be blocked.
  • the voice-controlled arrangement according to the invention offers the advantages that
  • the vocabulary to be processed in the voice input unit is optimized not only with regard to its size, but also with regard to probabilities, -
  • the vocabulary of the various devices does not have to be coordinated with one another, d. H. may contain identical commands, and
  • a user can control different devices with the same commands and can only determine which of the devices should be addressed by aligning the voice input unit.
  • the overall vocabulary that is to be kept in the voice input unit can be kept low overall. This also enables the language modeling of the speech recognition level to be optimized. at the same time the problem of possible overlapping of vocabulary is solved.
  • the arrangement according to the invention can advantageously be used in the case of wireless communication links with a short range, such as, for example, in Bluetooth systems or also infrared systems.
  • Fig.l is a sketch-like functional block diagram of a device configuration from several voice-controlled devices.
  • FIG. 2 shows a functional block diagram of an exemplary embodiment of a voice input unit.
  • the device configuration 1 shown in a sketch-like functional block diagram in FIG. 1 comprises several voice-controlled devices, namely a television set 3, an audio system 5, a lighting unit 7 and a kitchen stove 9 with a voice input unit 11 (hereinafter referred to as a mobile voice control terminal).
  • voice-controlled devices namely a television set 3, an audio system 5, a lighting unit 7 and a kitchen stove 9 with a voice input unit 11 (hereinafter referred to as a mobile voice control terminal).
  • the devices 3 to 9 to be controlled each have a device vocabulary memory 3a to 9a, a vocabulary transmission unit 3b to 9b operating according to the Bluetooth standard, a control command reception unit 3c to 9c and a microcontroller 3d to 9c.
  • the mobile voice control terminal 11 has a speech capsule 11a, a display unit 11b, a speech recognition stage 11c connected to the speech capsule 11a, to which a vocabulary buffer lld is assigned, a vocabulary reception unit III, a control command transmission unit 11f, an antenna
  • the level evaluation and control device 13 determines the level from the field strength of all received signals by measuring the amplitude of the output signals corresponding to the received signals on an antenna amplifier connected downstream of the antenna 12. The corresponding digitized output signals can then be further processed by means of a microcontroller in the voice control terminal 11.
  • a computing unit 13a of the level evaluation and control device calculates from the output signals of the antenna amplifier which of the vocabularies corresponding to the signals are to be loaded into the vocabulary buffer lld via the vocabulary receiving unit III.
  • the computing unit 13a determines that the field strength of the signals received by the devices 3 and 5 is greater than the field strength of the signals received by the devices 7 and 9, and then controls the vocabulary.
  • the level evaluation and control device 13 controls the speech recognition stage 11c so that it interprets the received vocabulary.
  • the field strength of the received signals from devices 3 to 9 is measured continuously.
  • the computing unit 13a of the level evaluation and control device 13 determines a control signal 14 which is transmitted to the speech recognition stage 11c and, in proportion to the measured field strength of a received signal, the probabilities for the occurrence of a word or several words and / or transition probabilities between words of the corresponding one Vocabulary increases (if the field strength of the received signal increases) or decreases (if the field strength of the received signal U ) LO to to H ⁇ >
  • the signal sending device The supplied signal is then compared by means of the comparison device 13c with a (threshold) value stored in the threshold value memory 13b which corresponds to a predetermined distance. As a result, the signals received via the / antenna are selected again depending on the distance of their sources.
  • At least one blocking / enabling signal 15 is formed, which is fed to the vocabulary receiving unit III, the vocabulary buffer lld and the speech recognition stage 11c and either blocks or releases it.
  • the release takes place in the event that the signal supplied to the level evaluation and control device 13 lies above the value stored in the threshold value memory 13b, otherwise the signal is blocked. If the aforementioned units are blocked, the vocabulary of the device that sent the signal cannot be loaded. In this case, the device is outside the range for voice control or the reception range covered by the antenna 12.
  • the computing unit 13a also serves to generate the threshold value.
  • the signal at the output of the receiving amplifier 17 is fed to the computing unit 13a.
  • the latter can internally compare the supplied signal with the calculated and current threshold value and, if necessary, form a new threshold value from the signal and store it in the threshold value memory 13b.
  • the direct supply of the signal also serves to generate a control signal 14 which is used by the speech recognition stage to set the speech recognition.
  • the computing unit 13a calculates how the probabilities for the occurrence of a word or several words and / or transition probabilities between words are to be influenced.
  • the following description of a typical constellation serves to explain: A subscriber moves away from a device to be controlled, the vocabulary of which is loaded into the voice control terminal 11, or pivots the voice control terminal 11 in such a way that the signal transmitted by the device receives weakly from the antenna with directional characteristic becomes. Overall, the reception field strength of the signal transmitted by the device at the voice control terminal 11 decreases.
  • the signal is still received via the antenna 12 and fed to the computing unit 13a via the transceiver 16 and the reception amplifier 17.
  • This calculates the field strength from the signal level and detects that it is weaker than before (but larger than the threshold value, since otherwise the corresponding vocabulary would be removed from the vocabulary buffer in favor of another vocabulary).
  • the computing unit 13a now calculates the control signal 14 from the difference between the current field strength and the previous field strength, which in the speech recognition stage reduces the probabilities for the occurrence of a word or several words and / or transition probabilities between words of the vocabulary of the device in proportion to the difference (vice versa can also be increased if the field strength has increased).
  • a particularly advantageous implementation of the voice control terminal results in the form of a mobile phone, the voice input and computing power (at least in modern devices) can be used for voice control by other devices.
  • a mobile phone usually has a level evaluation and control device or field strength measuring device and an analog / digital converter for digitizing the antenna output signals, so that only the selection means for speech recognition have to be implemented.
  • Modern mobile phones are also equipped with very powerful microcontrollers (usually 32-bit microcontrollers) which are used to control the user interface, such as the display unit 11b, the keyboard, Phonebook functions, etc. are used.
  • Such a microcontroller can at least partially also use speech recognition functions or at least the functions of the computing unit 13a of the level evaluation and control device 13 as well as the overall control of the release and blocking of the vocabulary receiving unit III, the vocabulary buffer store lld and the speech recognition stage 11c and take over the generation of the control signal 14.
  • Cordless phones advantageously as a voice input unit, in particular cordless phones according to the DECT standard.
  • the DECT standard itself can be used for communication with the controlling devices.
  • a particularly comfortable design of the voice input terminal results - in particular for certain professional applications, but possibly also in the household or motor vehicle sector - with the design of the voice input unit as a microphone headphone unit (headset).
  • a user drives his car home from the office.
  • he selects a desired station on the car radio using the hands-free system of his mobile phone by speaking a station name.
  • the mobile phone used as a voice input terminal is aimed only at one device, namely the car radio.
  • the mobile phone Upon arrival at the garage, the mobile phone enters the radio area of a garage door control and loads the vocabulary transmitted by it into its vocabulary buffer.
  • the user can now open the garage door by voice input of the "open garage” command.
  • the user After the user has parked the car and closed the garage by saying the appropriate control command, he takes the mobile phone, goes to the front door and points the cell phone at a front door opening system.
  • the user After loading the vocabulary of the front door opening system into the mobile phone, the user can speak the control command "open door” into the speech recognition system in the mobile phone, whereby the door is opened.
  • the mobile phone When entering a living room, the mobile phone enters the radio area of a television, an audio system and a lighting system.
  • the user first points the cell phone at the lighting system, so that the vocabulary is loaded into the cell phone, the now superfluous vocabulary of the car radio and the garage door opener being discarded. After loading the vocabulary of the lighting system, the user can control it by voice commands.
  • the user now points the mobile phone at the television, which is located in the immediate vicinity of the audio system.
  • the mobile phone is therefore in the radio range of both the television and the audio system and receives two signals, namely one from the television and one from the audio system.
  • the signal from the lighting system is weaker than the two signals mentioned above, so that only the vocabulary of the television and the audio system are loaded into the mobile phone. The user can thus control both the television and the audio system.
  • Loading a vocabulary depends on the size of the vocabulary, but requires only a fraction of a second due to the few control commands required for the television, audio system, lighting system or stove. the.
  • the loading of a vocabulary can be shown on the display of the mobile phone, for example. After the vocabulary has been loaded into the mobile phone, this can be indicated, for example, by a short signal tone, an LED display which switches, for example, from red to green.
  • a short signal tone an LED display which switches, for example, from red to green.
  • the user recognizes that the vocabulary is loaded, he can control the lighting system by voice.
  • the television and audio system have at least some of the same commands (for example to adjust the pitch and volume).
  • the measured field strength of the signals from the television and the audio system will be
  • Probability determines which device the user wants to control. For example, if the user speaks the "increase volume” command in the mobile phone and holds it more in the direction of the TV than in the direction of the audio system, the antenna with the directional characteristic of the mobile phone will produce a higher field strength for the TV signal than for the signal Audio system measured and accordingly the command "increase volume" assigned to the television.

Abstract

Sprachgesteuerte Anordnung (1) mit einer Mehrzahl von zu steuernden Geräten (3 bis 9) und einer mobilen, mit den Geräten über eine drahtlose Nachrichtenverbindung verbundene Spracheingabeeinheit (11) wobei mindestens ein Teil der Geräte jeweils einen Geräte-Wortschatzspeicher (3a bis 9a) und eine Wortschatz-Sendeeinheit (3b bis 9b) und die Spracheingabeeinheit Selektionsmittel zur richtungsabhängigen Selektion der zu ladenden Wortschätze aufweist.

Description

Beschreibung
Sprachgesteuerte /Anordnung und Verfahren zur Spracheingabe und -erkennung
Die Erfindung betrifft eine sprachgesteuerte Anordnung mit einer Mehrzahl von Geräten nach dem Oberbegriff von Anspruch 1 sowie ein in einer solchen Anordnung anwendbares Verfahren zur Spracheingabe und Spracherkennung.
Nachdem Spracherkennungssysteme sich mehr und mehr zu einer Standardkomponente leistungsfähiger Computer für den professionellen und privaten Bedarf, bis hin zu PC's und Notebooks im mittleren und unteren Preissegment, entwickelt haben, wird zunehmend an Einsatzmöglichkeiten solcher Systeme bei Geräten aus dem täglichen Lebensumfeld gearbeitet. Elektronische Geräte wie Mobiltelefone, Schnurlostelefone, PDAs und Fernbedienungen für Audio- und Videosysteme etc. verfügen üblicherweise über eine Eingabetastatur, die mindestens ein Ziffern- eingabefeld und eine Reihe von Funktionstasten umfaßt.
Manche dieser Geräte - insbesondere natürlich die verschiedenen Telefone, aber auch zunehmend Fernbedienungen und weitere Geräte - sind zudem mit Sprech- und gegebenenfalls auch Hör- kapseln zur Spracheingabe und -ausgäbe ausgestattet. Es sind auch bereits Geräte dieser Art (beispielsweise einige Typen von Mobiltelefonen) bekannt, bei denen eine einfache Spracherkennung für Steuerungsfunktionen auf dem Gerät selbst implementiert ist. Als Beispiel sei hier nur das sprachgesteuer- te Aufbauen von Verbindungen durch Spracheingabe eines Namens in ein Mobiltelefon genannt, der in einem elektronischen Telefonbuch des Telefons abgespeichert ist. Weiterhin sind primitive bis einfache Sprachsteuerungen auch für andere Geräte des täglichen Lebensumfeldes bekannt, beispielsweise bei Fernsteuerungen für Audioanlagen oder Beleuchtungssysteme. Alle bekannten derartigen Geräte haben jeweils ein eigenes, dediziertes Spracherkennungssystem. Es ist eine Entwicklung absehbar, in deren Verlauf eine zunehmende Anzahl von technischen Geräten und Systemen des täglichen Lebensumfeldes, insbesondere im Haushalt und in Kraft- fahrzeugen, mit jeweils eigenen Spracherkennungssystemen ausgerüstet sein wird. Da derartige Systeme, sofern sie einen akzeptablen Bedienungskomfort und hinreichende Erkennungssicherheit bieten sollen, hard- und softwaremäßig relativ aufwendig und somit teuer sind, ist diese Entwicklung im Grunde kostentreibend und aus Sicht des Verbrauchers nur bedingt sinnvoll . Vorrangiges Ziel ist daher eine weitere Reduzierung des Hard- und Softwareaufwandes, um möglichst preisgünstige Lösungen bereitstellen zu können.
Es wurden bereits Anordnungen vorgeschlagen, bei denen mehreren technischen Geräten eine einzelne Spracheingabeeinheit zugeordnet ist, über die verschiedene Funktionen dieser Geräte per Sprachsteuerung gesteuert werden. Die Steuerungsinformation wird hierbei vorzugsweise drahtlos an (stationäre oder selbst mobile) Endgeräte übertragen. Hier taucht jedoch das technische Problem auf, daß die Spracheingabeeinheit einen sehr großen Wortschatz für die Spracherkennung vorhalten muß, um verschiedene Endgeräte steuern zu können. Die Handhabung eines großen Wortschatzes ist jedoch mit Einbußen in der Er- kennungsgeschwindigkeit und -genauigkeit verbunden. Zudem hat eine derartige Anordnung den Nachteil, daß spätere, nicht bei der Realisierung der Spracheingabeeinheit vorhergesehene Ergänzungen um zusätzliche Geräte nicht ohne weiteres möglich sind. Nicht zuletzt ist eine solche Lösung noch immer recht teuer, insbesondere bedingt durch den hohen Speicherbedarf aufgrund des sehr großen Wortschatzes.
In einer auf die Anmelderin zurückgehenden unveröffentlichten deutschen Patentanmeldung wird eine sprachgesteuerte Anord- nung mit einer Mehrzahl von zu steuernden Geräten und einer mobilen, mit den Geräten über eine insbesondere drahtlose Nachrichtenverbindung verbundene Spracheingabeeinheit offen- bart, bei der in den einzelnen Geräten der Anordnung jeweils ein gerätespezifischer Wortschatz, jedoch keine Verarbeitungsmittel für die Spracherkennung vorgesehen sind. Die Verarbeitungskomponenten eines SpracherkennungsSystems sind hin- gegen in der Spracheingabeeinheit (neben den Spracheingabe- mittein) implementiert.
Mindestens ein Teil der Geräte weist jeweils einen Geräte- Wortschatzspeicher zur Speicherung eines gerätespezifischen Wortschatzes und eine Wortschatz-Sendeeinheit zur Übertragung des gespeicherten Wortschatzes an die Spracheingabeeinheit auf. Die Spracheingabeeinheit umfaßt dem gegenüber eine Wortschatz-Empfangseinheit zum Empfangen des von einem Gerät ü- bertragenen Wortschatzes bzw. der von Geräten übertragenen Wortschätze. Gelangt die Spracheingabeeinheit in die räumliche Nähe eines oder mehrerer Geräte, so daß eine Nachrichtenverbindung zwischen Spracheingabeeinheit und Geräten aufgebaut wird, übertragen die Geräte ihre Wortschätze an die Spracheingabeeinheit, die diese zwischenspeichert. Sobald die Nachrichtenverbindung zwischen einem oder mehreren Geräten und der Spracheingabeeinheit abbricht, wenn beispielsweise die räumliche Entfernung zu groß wird, kann die Spracheingabeeinheit einen oder mehrere zwischengespeicherte Wortschätze wieder verwerfen. Die Spracheingabeeinheit, verwaltet demanch dynamisch die Wortschätze der Endgeräte.
Der Vorteil dieser Anordnung ist vor allem darin zu sehen, daß zur Speicherung der Wortschätze in der Spracheingabeeinheit Mittel mit einer verhältnismäßig kleinen Speicherkapazi- tat ausreichen, da aufgrund der räumlichen Trennung der Wortschätze von der eigentlichen Spracherkennungskapazität diese nicht fortwährend in der Spracheingabeeinheit vorgehalten werden müssen. Dies steigert auch die Erkennungsrate in der Spracheingabeeinheit, da weniger Wortschätze zu verarbeiten sind. Allerdings kann es bei einer Vielzahl von räumlich eng benachbarten Geräten, insbesondere wenn sich deren Sendebereiche überschneiden, dazu kommen, daß die Spracheingabeeinheit doch eine große Anzahl von Wortschätzen speichern und verar- beiten muß oder bei begrenzter Speicherkapazität nicht alle Endgeräte bedienen kann. Gerade letzterer Fall ist für einen Anwender unkomfortabel, da dieser keinen Einfluß darauf hat, welche Wortschätze von Endgeräten in die Spracheingabeeinheit geladen und welche verworfen werden. Selbst wenn die Sendebe- reiche der Endgeräte verhältnismäßig klein sind - beispielsweise Durchmesser von nur wenigen Metern besitzen - kann es gerade bei einer Konzentration vieler verschiedener Endgeräte auf engem Raum wie im Haushalt oder im Büro vorkommen, daß der Anwender aufgrund der vorgenannten Probleme nur einen Teil dieser Endgeräte sprachsteuern kann.
Der Erfindung liegt daher die Aufgabe zugrunde, eine Anordnung dieser Art vorzuschlagen, die insbesondere die vorgenannten Probleme vermeidet und vor allem die Auswahl der sprachzusteuernden Endgeräte weiterbildet. Die Anordnung soll sich ferner durch niedrige Kosten und ein effizientes Spracheingabe- und -erkennungsverfahren auszeichnen.
Diese Aufgabe wird durch eine Anordnung mit den Merkmalen von Patentanspruch 1 und durch ein Verfahren mit den Merkmalen von Patentanspruch 13 gelöst .
Die Erfindung bildet die eingangs genannte sprachgesteuerte Anordnung mit einer Mehrzahl von Geräten und einer mobilen, mit den Geräten über eine drahtlose Nachrichtenverbindung verbundene Spracheingabeeinheit insbesondere dadurch weiter, daß in der Spracheingabeeinheit Selektionsmittel zur Selektion von in die Spracheingabeeinheit zu ladenden Wortschätzen vorgesehen sind. Die Selektionsmittel werten hierzu eine Richtungsinformation empfangener Signale, die von den Geräten gesendet wurden, aus. Das hier angewandte Prinzip entstammt der menschlichen Kommunikation: Ein Mensch kommuniziert mit einem anderen, indem er sich diesem zuwendet. Gespräche in der Umgebung der beiden kommunizierenden Menschen werden "ausgeblendet". Andere Menschen, denen sich die kommunizierenden Menschen nicht zuwenden, fühlen sich dementsprechend auch nicht angesprochen.
Durch die Erfindung wird erreicht, daß nur bestimmte Wortschätze von Geräten geladen werden, die durch die Selektions- mittel ausgewählt wurden. Dadurch wird die Erkennungsrate bei räumlich eng benachbarten Endgeräten wesentlich verbessert, da in die Spracheingabeeinheit aufgrund der richtungsabhängigen Auswahl weniger Wortschätze geladen werden und daher zu verarbeiten sind. Als drahtlose Übertragungsverfahren zwischen den Geräten und der Spracheingabeeinheit kommen bei- spielsweise Funk- oder auch Infraro -Übertragungsstrecken in Frage .
Die Selektionsmittel umfassen vorzugsweise einen Detektor, insbesondere eine Antenne, mit einer Richtcharakteristik. Die richtungsabhängige Selektion findet durch eine Ausrichtung des Detektors auf die zu steuernden Geräte statt, da sich der Pegel eines empfangenen Signals eines Gerätes mit der Ausrichtung des Detektors in Bezug auf ein das Signal sendendes Gerät ändert. Bei einer Infrarotübertragungsstrecke umfassen die Selektionsmittel einen Infrarot-Detektor, der beispielsweise durch eine vorgesetzte Linse einen begrenzten Detekti- onsbereich besitzt, so daß Infrarot-Signale außerhalb des De- tektionsbereiches nicht zum Laden eines entsprechenden Wortschatzes führen.
Um den Pegel empfangener Signale auswerten zu können, weist die Spracheingabeeinheit vorzugsweise eine Einrichtung zur Pegelauswertung und Steuerung auf. Diese bestimmt den Pegel mindestens eines empfangenen Signals und steuert davon abhän- gig das Laden eines Wortschatzes, der durch das Signal übertragen wird, mittels der Wortschatz-Empfangseinheit in den bzw. die Wortschatz-Zwischenspeicher. Vorzugsweise ist die
Figure imgf000008_0001
J Pi N CD H- p. _*! ü m ω P Φ P. Ω H φ P. tn P. ω cn ti cn φ P. μ- I-1 tQ td ≤ cn P. l?_
P H- -* Ω P P Φ H Φ Ω Ω Φ H- Φ Φ P H- H- •d φ μ- φ PJ= Ω μ- Φ P p) P> φ μ- Ω Φ μ- cn Φ Φ cn H H- cn tr tr P P P H P P ü ü tQ rt rt tr P rt Pi tr μ- H - rt P
10 Ω PJ p. Hl rr ti PJ PJ: φ tQ IQ φ P N Φ PJ IQ - Pi φ Φ Pi PJ ti φ M Ϊ rr φ P= tr Φ Ω Φ rr *ü φ S! rr H- PJ rt Ω cn P) Φ 01 rt PJ μ- P Φ φ rr μ- tr H- 13 N H tr Φ H φ H- N Φ 3 o Φ P tr tr •d t-1 P N tr P- φ . μ- μ- N Pi Ω
H- P P)_ H ti H- H rt IQ •d H m φ Φ P. Φ H 01 P. Φ φ J 03 P P J tr ti IΛ> IQ ω P Φ φ P>_ φ P= φ Hl rt ti Φ H- P PJ φ μ- Φ φ &> φ ö tr φ Φ w rt * H- H- φ • P H- P rt rr tr PJ 01 1- H- Φ P_ Ω P= P P H μ- H μ- Φ H ti P
Φ Ω 10 ti tQ rr . φ P Ω P -S! P cn Φ tr tr Φ 01 P Pi Φ μ- cn φ P et U Φ PJ PJ cn cn N IQ ti P IQ tr φ tr φ φ 2! P φ tr φ rt tr rt μ- (Q
•• r ti Cb Ω Hi P Φ ω rt P Φ J (^ H- Φ Φ < H- K 0 rr φ H t? φ P
P £ Φ tr o LQ 3 ι-i o H P P r H- rt H- H- H- P 01 H <! N μ- cn μ- 3 < tr N
Pi P Φ P Φ H Φ H- tr PJ Φ N Φ Φ rt P Φ IQ Ω rt O rt rt S! Hi P Φ 0 Φ Pi P
Φ IQ H- H- 3 tr" Ω fu IQ 0 0. ti • Φ PJ tr cn ti ~ 0 P= H tr ti μ- P ti
3 cn H- P P) P> tr Φ * Φ Cß tr P N tr ti Ω LQ iQ ti tr μ- ti N H
N φ oi iQ H- pi & rr p. P Φ ω H- •d H- PJ Φ Φ tr Φ CD φ rt H Ω Φ P
PJ ω Φ Φ Φ P* ι-i H- P S= Ω td
P- P er H h-1 φ tr Φ μ- PJ tQ 0 cn d tr ti IQ tr tr Φ
0 ti H- . tr rt P P rr PJ Φ (Q φ PJ P H- ΓT rt Φ tr J Ω P rt φ rt Φ IQ cn Φ Φ P P. P ω Ω P rt P Φ N tr PJ Pi tr tQ P Φ ι-i Φ Φ
Pi ) rr Φ H- H- £, ω Φ J tr P tn <! tr rt φ φ PJ 01 P 2! P cn μ-
H- Φ H- P SJ P H- o tr P s: Φ tQ *d o φ . P= P ü P rt Hl tQ O Ω P PJ
Φ IQ tr P cn O H N Φ H- H P μ- tr φ N 0 ri : tr P
Φ Φ tr tr ti P- Pi P, S 0 P. H- P Ϊ Φ rt t Φ P P. s- H N rt P H Φ 03
CO H- Φ Φ rr H- H- Φ φ rt tQ P) Ω Ω cn ti P) μ- Φ 3 P cn 01 Φ
•ö PJ H- ω 03 Φ Φ IQ m Φ P) P tr Φ <! rt td cn ti μ- H Ω Hl μ- •d φ n P p. rt o Ω m P. Φ H σ P Φ H O ^ H Φ Pi P N tr P= rt Hl H
P» cn Φ P tr ω O W H- s; Φ Φ P P)= H φ PJ IQ Φ φ £, »τj : tr Φ PJ rr
Ω ≤ ti N Q. ) •d •d Φ Φ P Φ P rt tQ H IQ Φ 3 P tn Φ Φ rr t P P P tr Φ P φ rr H P- ti tn α H- H- P φ Φ φ P- Φ •d P Ω IQ ISI P LQ P σ φ t ! H N P) P) PJ φ Φ rr Q P P P P tr Φ P Hi Pi s: ? Φ φ P Φ Φ tQ
H- ΓT O o Φ Ω ( ) Ω 3 ω Φ Φ tr P) P f P PJ φ 3 tQ μ- P
P P ti φ Φ tr tr ti H Φ IQ o 01 Φ P P Φ μ- PJ= J < cn P Φ P ω P t tr μ- H Φ P. φ ISl P. Φ P)= H- Φ *d rt rt cn P & IQ μ- rt IΛ) P O Hi Φ 01 P
PJ to φ Φ 3 ω H- φ H- P Φ P rr rt P Φ Φ Φ O Φ P φ μ- 03 P O 03 Pi t H P φ P ω P IQ P Φ PJ H- P P 3 tr 0 P Φ H tQ 3 H ω
Φ P m IQ et IQ CD (Q Φ O ω tQ P Ω Φ μ- N Φ P Φ Φ Φ Ω 3 tr μ- ω
Φ P φ Φ N PJ Φ P) 0 N Φ Φ tr ti rt $. Φ P H H Φ Φ iQ rt
H- 0. tr i ti rr tr P tr t P H Φ φ Φ tr cn ti CD P. ≤: rr ti 03 01 P φ
P Φ PJ H- . Φ Φ P. P)= ti J H- H P> O 3 μ- 0 Ω Φ P PJ= μ- rt p) P tr ω P P Φ tQ Φ P φ rt tn P. P tr H Φ P- P- tQ H Φ μ- P rt P μ- (- Φ
Φ rt & H- IQ ü H- Φ H- Φ ti Φ Φ Φ Φ P. tr μ- μ- P rt H n IQ Φ Pi 3 t
H- φ Φ 3 Φ Φ P 0. P rr ω 01 rt P s; P. H- PJ H Φ φ PJ PJ= φ P 3 P= P rr P P 3 P ti tr φ tr Φ φ N 0 PJ 01 cΛ Φ cn IQ rt P μ- rt tr P
Φ Φ Φ P Φ P rt Φ rt n M ti rr ti φ Ό Φ Φ α P (Q P Φ Φ IQ
10 •i H ω < H- P. H- ISI H- Φ rt Hi PJ Φ 3 Φ Pi 03 φ P. I-" P H
Φ P P •d 0 et Φ rr ω Φ P g; H- 0- P (Q Φ PJ ti Φ Pi rt ü
P co P Φ H rr H- P Φ H- P Ω H- > Ω s: N Φ 01 Pi μ- P) ω μ- μ- TJ H PJ fu IQ Hi P H- rr φ Φ P) IQ P- P H tr P -> tr 0 P Φ P ti rt Ω Φ φ P N
P, P= H Ω Φ i tn P P Φ & P) ti (Q S P rt Φ tr IQ tQ P
Φ h tr tr H- Hi Hi J P <J P- rt P. Φ Φ rt Φ & φ Φ i P tj cn φ φ
P Φ t Φ Φ h-1 P= Ω t-1 o φ N φ ti μ- 01 O Φ μ- P μ- PJ φ Φ V P PJ
Φ H P H- H M- Φ 01 s. ti 01 H ti & P Ω ti cn rt φ φ P ti μ- ti 01 Φ P
P P P P tr Pi iQ H- o IQ o Φ H- φ tr P Φ P 03 P rt PJ ti 01
Φ to Φ H- rr 0 P P= ti Φ tr P- H- Ω P suP N ti C tQ P μ- Ω tQ IQ
S! l-S cn s. p. φ - PJ σ rt tQ ) P P •d tQ Φ rr Φ P φ S! td Φ IQ iQ tr Φ s: Φ
O Hi 0 J to I-1 PJ φ 1 Φ H Φ H tn P ISI rr P 0 ti tr Φ o tr
H P. 0 fi Ü φ 3 P H tr P- Ω m PJ rt φ Φ Φ ti PJ μ- μ- tQ μ- J H μ- rr PJ t er Hi ti H- P^ P. 1 Φ tr Ω tr 1 P ti Ω rt Ω 03 φ P Pi rt N 3 1 ti H- φ 1 tr φ μ- Φ 1 tr 1 rt 1 1 φ 1 P p. Φ 1 1 1 0 1 1 P
Figure imgf000009_0001
bei der Anwender durch die Ausrichtung der Spracheingabeeinheit bestimmt, welches der Geräte angesprochen wird.
Vorzugsweise findet die Kommunikation zwischen Spracheingabe- einheit und Geräten gemäß dem Bluetooth-Standard statt. Hierzu sind die Wortschatz-Sendeeinheit bzw. Wortschatz- Sendeeinheiten und Wortschatz-Empfangseinheit als Funksendebzw, -empfangseinheit nach dem Bluetooth-Standard ausgebildet. Der Bluetooth-Standard eignet sich besonders gut für diesen Einsatzzweck, da er insbesondere zur Übertragung von Steuerbefehlen (beispielsweise zwischen einem PC und einem Drucker) vorgesehen ist. Gerade im vorliegenden Fall werden hauptsächlich Befehle oder Wortschätze zwischen der Spracheingabeeinheit und den Geräten ausgetauscht. Als Standards für die Übertragung der Wortschätze im System können auch hö- herwertige Übertragungsprotokolle und Beschreibungsstandards, wie beispielsweise WAP oder XML, benutzt werden. In einer dazu alternativen bevorzugten Ausführungsform können die Wortschatz-Sendeeinheit bzw. Wortschatz-Sendeeinheiten und Wort- schätz-Empfangseinheit als Infrarotsende- bzw. -empfangseinheit ausgebildet sein.
Eine typische Ausführung der sprachgesteuerten Anordnung funktioniert derart, daß zur richtungsabhängigen Selektion von Signalen, die von Geräten gesendet werden, der Detektor auf bestimmte Geräte gerichtet wird, so daß nur die Signale dieser Geräte empfangen werden. Dann werden in der Spracheingabeeinheit die Pegel der empfangenen Signale durch die Einrichtung zur Pegelauswertung und Steuerung bestimmt. Je nach dem, wie die Spracheingabeeinheit - im Falle einer Funkverbindung die Antenne mit Richtcharakteristik - in Bezug auf die Geräte ausgerichtet ist, haben einige der empfangenen Signale eine höhere Feldstärke und damit einen größeren Pegel als die übrigen Signale. Die Einrichtung zur Pegelauswertung und Steuerung steuert anhand der bestimmten Pegel der empfangenen Signale die Wortschatz-Empfangseinheit derart, daß nur Wortschätze von Geräten empfangen werden, deren Signale von der Einrichtung zur Pegelauswertung und Steuerung als ausreichend bestimmt wurden, d. h. insbesondere über einem vorgegebenen Schwellwert liegen. Auch wenn sich die Spracheingabeeinheit, genauer der Detektor, im Sende- bzw. Funkbereich meh- rerer Geräte befindet, werden hierdurch nur die Wortschätze eines Teils der Geräte geladen. Die Erkennungsrate in der Spracheingabeeinheit sinkt daher nicht, wenn sich die Spracheingabeeinheit im Sende- bzw. Funkbereich vieler Geräte befindet und demnach ohne richtungsabhängige Selektion gemäß der Erfindung viele Wortschätze geladen würden.
Ein Wortschatz enthält Befehlsworte oder -phrasen in ortho- grafischer oder phonetischer Transkription und eventuell zusätzliche Informationen für die Spracherkennung. Der Wort- schätz wird an der Spracheingabeeinheit nach einer geeigneten Wandlung in das Spracherkennungssystem geladen, und zwar vorteilhafterweise in einen Wortschatz-Zwischenspeicher desselben, der vorzugsweise zwischen die Wortschatz-Empfangseinheit und die Spracherkennungsstufe geschaltet ist. Die Größe des Wortschatz-Zwischenspeichers, der vorzugsweise als flüchtiger Speicher (z. B. DRAM, SRAM, etc.) ausgebildet ist, ist zweckmäßigerweise an die Anzahl der zu verarbeitenden Wortschätze bzw. die Anzahl der gleichzeitig zu steuernden Geräte angepaßt. Um eine billige Spracheingabeeinheit zur Verfügung zu stellen, kann Wortschatz-Zwischenspeicher dadurch eingespart werden, daß die Selektionsmittel zur Pegelauswertung und Steuerung so ausgelegt sind, daß beispielsweise in die Spracheingabeeinheit gleichzeitig höchstens zwei Wortschätze zur Steuerung zweier Geräte geladen werden können. Denkbar wäre auch eine programmierbare Ausführung der Selektionsmittel zur Pegelauswertung, die bei einer Vergrößerung des Wortschatz-Zwischenspeichers zur Steuerung mehrerer Geräte entsprechend eingestellt werden können.
Die Selektionsmittel können insbesondere eine Recheneinheit aufweisen, die aus dem Pegel eines empfangenen Signals die Entfernung eines das Signal sendenden Gerätes von der Sprach- eingabeeinheit berechnet. Ferner ist in einem Schwellwertspeicher ein Schwellwert entsprechend einer vorgegebenen Entfernung abgelegt. Die berechnete Entfernung wird nun mittels einer Vergleichseinrichtung mit dem gespeicherten Schwellwert verglichen. Abhängig von dem Vergleichsergebnis werden insbesondere die Wortschatz-Empfangseinheit und die Spracherken- nungsstufe freigeschaltet oder gesperrt. Hierzu erzeugt die Vergleichseinrichtung ein Sperr-/Freigabesignal . Die Kriterien zum Freischalten und Sperren sind über den Schwellwert vorgebbar, der beispielsweise auch vom Anwender mittels Programmierung oder Einstellung angepaßt werden kann. Beispielsweise könnte der Anwender vorgeben, daß nur Geräte in einem Umkreis von 2 m für die Spracheingabeeinheit freigeschaltet werden. Weiter entfernte Geräte sollen dagegen gesperrt wer- den.
Zusammenfassend bietet die erfindungsgemäße sprachgesteuerte Anordnung die Vorteile, daß
- die Erkennung bei räumlich nahen und miteinander konkurrierenden Geräten verbessert wird,
- der in der Spracheingabeeinheit zu verarbeitende Wortschatz nicht nur hinsichtlich seiner Größe, sondern auch hinsichtlich von Wahrscheinlichkeiten optimiert wird, - die Wortschätze der verschiedenen Geräte nicht aufeinander abgestimmt sein müssen, d. h. identische Befehle enthalten können, und
- ein Anwender mit den gleichen Befehlen verschiedene Geräte steuern und nur durch die Ausrichtung der Spracheingabeein- heit bestimmen kann, welches der Geräte angesprochen werden soll .
Durch die Nutzung von richtungsabhängigen Informationen von empfangenen Signalen kann also der Gesamtwortschatz, der in der Spracheingabeeinheit vorgehalten werden soll, insgesamt gering gehalten werden. Dadurch kann auch die Sprachmodellierung der Spracherkennungsstufe optimiert werden. Zugleich wird das Problem der möglichen Überschneidung von Wortschätzen gelöst . Vorteilhaft kann die erfindungsgemäße Anordnung bei drahtlosen Nachrichtenverbindungen mit kurzer Reichweite eingesetzt werden, wie beispielsweise bei Bluetooth-Systemen oder auch Infrarot-Systemen.
Vorteile und Zweckmäßigkeiten der Erfindung ergeben sich im übrigen aus den abhängigen Ansprüchen sowie der nachfolgenden Beschreibung eines bevorzugten Ausführungsbeispiels anhand der Zeichnung. In dieser zeigt
Fig.l ein skizzenartiges Funktions-Blockschaltbild einer Gerätekonfiguration aus mehreren sprachgesteuerten Geräten, und
Fig.2 ein Funktions-Blockschaltbild eines Ausführungsbei- spiels einer Spracheingabeeinheit.
Die in Fig.l in einem skizzenartigen Funktions-Blockschalt- bild gezeigte Gerätekonfiguration 1 umfaßt mehrere sprachgesteuerte Geräte, nämlich ein Fernsehgerät 3, eine Audio-Anlage 5, eine Beleuchtungseinheit 7 und einen Küchenherd 9 mit einer Spracheingabeeinheit 11 (nachfolgend als mobiles Sprachsteuerterminal bezeichnet) .
Die zu steuernden Geräte 3 bis 9 weisen jeweils einen Geräte- Wortschatzspeicher 3a bis 9a, eine nach dem Bluetooth-Standard arbeitende Wortschatzsendeeinheit 3b bis 9b, eine Steuerbefehl-Empfangseinheit 3c bis 9c und einen Mikrocontroller 3d bis 9c auf.
Das mobile Sprachsteuerterminal 11 hat eine Sprechkapsel 11a, eine Anzeigeeinheit 11b, eine mit der Sprachkapsel 11a verbundene Spracherkennungsstufe 11c, der ein Wortschatz-Zwi- schenspeicher lld zugeordnet ist, eine Wortschatz-Empfangs- einheit lle, eine Steuerbefehl-Sendeeinheit llf , eine Antenne
Figure imgf000014_0001
Feldstärke der von den Geräten 7 und 9 gesendeten Signale ist .
Die Pegelauswerte- und Steuereinrichtung 13 ermittelt den Pe- gel aus der Feldstärke aller empfangenen Signale durch eine Amplitudenmessung der den empfangenen Signalen entsprechenden AusgangsSignale an einem der Antenne 12 nachgeschalteten Antennenverstärker. Eine Weiterverarbeitung der entsprechenden digitalisierten Ausgangssignale kann dann mittels eines Mik- rocontrollers im Sprachsteuerterminal 11 erfolgen. Eine Recheneinheit 13a der Pegelauswerte- und Steuereinrichtung berechnet aus den Ausgangssignalen des Antennenverstärkers, welche der den Signalen entsprechenden Wortschätze über die Wortschatz-Empfangseinheit lle in den Wortschatz- Zwischenspeicher lld geladen werden sollen.
Im vorliegenden Fall ermittelt die Recheneinheit 13a, daß die Feldstärke der von den Geräten 3 und 5 empfangenen Signale größer als die Feldstärke der von den Geräten 7 und 9 empfan- genen Signale ist, und steuert daraufhin die Wortschatz-
Empfangseinheit lle und den Wortschatz-Zwischenspeicher lld derart, daß die Wortschätze der Geräte 3 und 5 empfangen und geladen werden. Ferner steuert die Pegelauswerte- und Steuereinrichtung 13 die Spracherkennungsstufe 11c, so daß diese die empfangenen Wortschätze interpretiert. Die Feldstärke der empfangenen Signale der Geräte 3 bis 9 wird fortlaufend gemessen. Anhand der Meßergebnisse ermittelt die Recheneinheit 13a der Pegelauswerte- und Steuereinrichtung 13 ein Steuersignal 14, das an die Spracherkennungsstufe 11c übertragen wird und proportional zu der gemessenen Feldstärke eines Empfangssignals die Wahrscheinlichkeiten für das Auftreten eines Wortes oder mehrerer Worte und/oder Übergangswahrscheinlichkeiten zwischen Worten des entsprechenden Wortschatzes anhebt (wenn die Feldstärke des empfangenen Signales steigt) oder absenkt (wenn die Feldstärke des empfangenen U) LO to to H μ>
LΠ O tn 0 ( l 0 LΠ
Figure imgf000016_0001
das Signal sendenden Gerätes. Das zugeführte Signal wird dann mittels der Vergleichseinrichtung 13c mit einem in dem Schwellwertspeicher 13b gespeicherten (Schwell-) Wert verglichen, der einer vorgegebenen Entfernung entspricht. Hierdurch werden die über die /Antenne empfangenen Signale nochmals in - Abhängigkeit von der Entfernung ihrer Quellen selektiert .
Abhängig vom Vergleich wird mindestens ein Sperr-/Freigabesignal 15 gebildet, das der Wortschatz-Empfangseinheit lle, dem Wortschatz-Zwischenspeicher lld und der Spracherkennungsstufe 11c zugeführt wird und diese entweder sperrt oder freigibt. Die Freigabe erfolgt für den Fall, daß das der Pegel- auswerte- und Steuereinrichtung 13 zugeführte Signal über dem in dem Schwellwertspeicher 13b gespeicherten Wert liegt, an- dernfalls erfolgt eine Sperrung. Sind die vorgenannten Einheiten gesperrt, kann der Wortschatz des Gerätes, welches das Signal gesendet hat, nicht geladen werden. In diesem Fall befindet sich das Gerät außerhalb der Reichweite zur Sprachsteuerung oder des von der Antenne 12 abgedeckten Empfangsbe- reiches.
Die Recheneinheit 13a dient auch zur Erzeugung des Schwell- wertes. Hierzu wird das Signal am Ausgang des Empfangsverstärkers 17 der Recheneinheit 13a zugeführt. Diese kann das zugeführte Signal mit dem berechneten und aktuellen Schwellwert intern vergleichen und gegebenenfalls aus dem Signal einen neuen Schwellwert bilden sowie diesen im SchwellwertSpeicher 13b abspeichern.
Die direkte Zuführung des Signals dient ferner zur Erzeugung eines Steuersignals 14, das der Spracherkennungsstufe zur Einstellung der Spracherkennung dient. /Abhängig von der Feldstärke eines empfangenen Signals berechnet die Recheneinheit 13a, wie die Wahrscheinlichkeiten für das Auftreten eines Wortes oder mehrerer Worte und/oder Übergangswahrscheinlichkeiten zwischen Worten beeinflußt werden soll. Zur Erläuterung dient folgende Beschreibung einer typischen Konstellation: Ein Teilnehmer bewegt sich von einem zu steuernden Gerät, dessen Wortschatz in das Sprachsteuerterminal 11 geladen ist, weg oder schwenkt das Sprachsteuerterminal 11 derart, daß das von dem Gerät gesendete Signal schwächer von der Antenne mit Richtcharakteristik empfangen wird. Insgesamt verringert sich die Empfangsfeldstärke des von dem Gerät ausgesendeten Signals am Sprachsteuerterminal 11. Das Signal wird allerdings noch immer über die Antenne 12 empfangen und über den Transceiver 16 und den Empfangsverstärker 17 der Recheneinheit 13a zugeführt. Diese errechnet aus dem Signalpegel etwa die Feldstärke und detektiert, daß diese schwächer als vorher ist (jedoch größer als der Schwellwert, da ansonsten der entsprechende Wortschatz zugunsten eines anderen Wortschatzes aus dem Wortschatz-Zwischenspeicher entfernt würde) . Nun errechnet die Recheneinheit 13a aus der Differenz zwischen der aktuellen Feldstärke und der vorherigen Feldstärke das Steuersignal 14, das in der Spracherkennungsstufe die Wahrscheinlichkeiten für das Auftreten eines Wortes oder mehrerer Worte und/oder Übergangswahrscheinlichkeiten zwischen Worten des Wortschatzes des Gerätes proportional zur Differenz absenkt (umgekehrt kann auch eine Anhebung erfolgen, wenn sich die Feldstärke größer geworden ist) .
Eine besonders vorteilhafte Implementierung des Sprachsteuerterminals ergibt sich in Gestalt eines Mobiltelefons, dessen Spracheingabemöglichkeit und Rechenleistung sich (jedenfalls bei modernen Geräten) durchaus für die Sprachsteuerung von anderen Geräten nutzen läßt. In einem Mobiltelefon sind übli- cherweise bereits eine Pegelauswerte- und Steuereinrichtung bzw. Feldstärkemeßeinrichtung und Analog/Digital-Wandler zum Digitalisieren der Antennenausgangssignale vorhanden, so daß lediglich noch die Selektionsmittel zur Spracherkennung implementiert werden müssen. Moderne Mobiltelefone sind zudem mit sehr leistungsfähigen Mikrocontrollern (üblicherweise 32 Bit-Mikrocontroller) ausgestattet, die zur Steuerung der Benutzerschnittstelle wie der Anzeigeeinheit 11b, der Tastatur, Telefonbuchfunktionen, etc. dienen. Ein derartiger Mikrocont- roller kann zumindest teilweise auch Spracherkennungsfunktio- nen oder zumindest die Funktionen der Recheneinheit 13a der Pegelauswerte- und Steuereinrichtung 13 sowie der gesamten Steuerung der Freigabe und des Sperrens von der Wortschatz- Empfangseinheit lle, des Wortschatz-Zwischenspeichers lld und der Spracherkennungsstufe 11c sowie die Erzeugung des Steuersignals 14 übernehmen.
Neben Mobiltelefonen eignen sich selbstverständlich auch
Schnurlostelefone vorteilhaft als Spracheingabeeinheit, insbesondere Schnurlostelefone gemäß dem DECT-Standard. Hierbei kann der DECT-Standard selbst zur Kommunikation mit den steuernden Geräten genutzt werden. Eine besonders komfortable Ausführung des Spracheingabeterminals ergibt sich - insbesondere für bestimmte professionelle Anwendungen, ggf. aber auch im Haushalts- bzw. Kraftfahrzeugbereich - mit der Ausführung der Spracheingabeeinheit als Mikrofon-Kopfhδrereinheit (Head- set) .
Nachfolgend sei die Anwendung der vorgeschlagenen Lösung in einem Benutzer-Szenario kurz skizziert:
Ein Nutzer fährt mit seinem Auto vom Büro nach Hause. Im Auto wählt er über die Freisprecheinrichtung seines Mobiltelefons durch Einsprechen eines Sendernamens einen gewünschten Sender auf dem Autoradio aus. In diesem Fall ist das als Spracheingabeterminal verwendete Mobiltelefon nur auf ein Gerät, nämlich das Autoradio gerichtet.
Bei Ankunft an der Garage gelangt das Mobiltelefon in den Funkbereich einer Garagentorsteuerung und lädt den von dieser übertragenen Wortschatz in seinen Wortschatz-Zwischenspeicher. Der Nutzer kann nun durch Spracheingabe des Befehls "Garage öffnen" das Garagentor öffnen. Nachdem der Nutzer das Auto abgestellt und durch Einsprechen des entsprechenden Steuerbefehls die Garage geschlossen hat, nimmt er das Mobil- telefon, geht zur Haustür und richtet das Mobiltelefon auf eine Haustüröffnungsanlage. Nach Laden des Wortschatzes der Haustüröffnungsanlage in das Mobiltelefon kann der Nutzer den Steuerbefehl "Tür öffnen" in das Spracherkennungssystem im Mobiltelefon sprechen, wodurch die Tür geöffnet wird.
Beim Eintreten in ein Wohnzimmer gelangt das Mobiltelefon in den Funkbereich eines Fernsehers, einer Audio-Anlage und einer Beleuchtungsanlage. Der Nutzer richtet das Mobiltelefon zuerst auf die Beleuchtungsanlage, so daß der Wortschatz dieser in das Mobiltelefon geladen wird, wobei die nun überflüssigen Wortschätze des Autoradios und des Garagentoröffners verworfen werden. Nach Laden des Wortschatzes der Beleuchtungsanlage kann der Nutzer durch Spracheingabe entsprechen- der Befehle diese steuern.
Um den Fernseher bedienen zu können, richtet nun der Nutzer das Mobiltelefon auf den Fernseher, der in unmittelbarer Nähe zur Audio-Anlage plaziert ist. Das Mobiltelefon befindet sich daher im Funkbereich sowohl des Fernsehers als auch der Audio-Anlage und empfängt zwei Signale, nämlich eines vom Fernseher und eines von der Audio-Anlage. Das Signal der Beleuchtungsanlage ist im Vergleich zu den beiden vorgenannten Signalen schwächer, so daß in das Mobiltelefon nur die Wort- schätze des Fernsehers und der Audio-Anlage geladen werden. Der Nutzer kann somit sowohl Fernseher als auch Audio-Anlage steuern.
Will er das Licht beim Fernsehen etwas abdunkeln, muß der Nutzer das Mobiltelefon wieder in Richtung der Beleuchtungsanlage halten, so daß der entsprechende Wortschatz in das Mobiltelefon geladen wird.
Das Laden eines Wortschatzes hängt von der Größe desselben ab, benötigt allerdings aufgrund der nur wenigen erforderlichen Steuerbefehle für den Fernseher, die Audio-Anlage, die Beleuchtungsanlage oder einen Herd nur Bruchteile von Sekun- den. Das Laden eines Wortschatzes kann beispielsweise im Display des Mobiltelefons angezeigt werden. Nachdem der Wortschatz in das Mobiltelefon geladen ist, kann dies beispielsweise durch einen kurzen Signalton, eine LED-Anzeige ange- zeigt werden, welche beispielsweise von Rot auf Grün umschaltet. Sobald der Nutzer erkennt, daß der Wortschatz geladen ist, kann er die Beleuchtungsanlage sprachsteuern. Zur Steuerung des Fernsehers oder der Audio-Anlage muß er das Mobiltelefon auf diese Geräte richten. Üblicherweise besitzen Fern- seher und Audio-Anlage zumindest teilweise dieselben Befehle (beispielsweise zum Einstellen der Tonhöhe und der Lautstärke) . Je nach dem in welche Richtung der Nutzer das Mobiltelefon nun hält, also mehr in Richtung zum Fernseher oder in Richtung zur Audio-Anlage, wird anhand der gemessenen Feld- stärke der Signale des Fernsehers und der Audio-Anlage die
Wahrscheinlichkeit bestimmt, welches Gerät der Nutzer steuern möchte. Spricht der Nutzer beispielsweise den Befehl "Lautstärke erhöhen" in das Mobiltelefon und hält er dieses mehr in Richtung des Fernsehers als in Richtung der Audio-Anlage, so wird aufgrund der Antenne mit Richtcharakteristik des Mobiltelefons eine höhere Feldstärke des Signals des Fernsehers als des Signals der Audio-Anlage gemessen und dementsprechend der Befehl "Lautstärke erhöhen" dem Fernseher zugeordnet.
Die Ausführung der Erfindung ist nicht auf oben beschriebenen Beispiele und Anwendungsfälle beschränkt, sondern ebenso in einer Vielzahl von Abwandlungen möglich, die im Rahmen fachgemäßen Handelns liegen.

Claims

LO LO to to H H
LΠ O LΠ o LΠ o LΠ
^
SU rt
Φ
P rt su
P
03
»d
H
P=
Ω tr
Φ
N
Figure imgf000022_0001
LO LO to to μ» I-1
LΠ σ LΠ o LΠ o LΠ
01 Φ to
Ω ä rr tr •d Φ
PJ Hl P rt SU φ tsi P ti
1 LQ P td Φ P ä P LQ
*ü φ
Hi P . — .
SU H
P to J
LQ μ- ^^-
CD LQ
Φ P P μ- SU 3
P Hi tr cn su φ cn μ- tr cn rt φ φ
03 P
_ — . rt * μ> μ-
H 3 S φ 3 Φ rr l-1
P P & [
P P φ
P. Pi
- — . i
0 Pi φ
Pi PJ P φ <!
H O •d
P Φ
Pi LQ
Φ J φ
P tr -• tr tr PJ: 3 tsi P μ- s; LQ P
• μ- i
LQ Φ
P- cn μ- Pi rt φ μ- Φ φ P
21 03
O 2. ii O Φ rt ti μ-
1 rt P
1 Φ
03
Figure imgf000023_0001
d a d u r c h g e k e n n z e i c h n e t, daß die Einrichtung zur Pegelauswertung und Steuerung (13) dazu ausgebildet ist, den in die Spracheingabeeinheit (11) geladenen Wortschätzen unterschiedliche Prioritäten zuzuweisen, wobei die Zuweisung von Prioritäten in Abhängigkeit von den Verhältnissen der Pegel der die Wortschätze übertragenden bzw. diesen zugeordneten Signale erfolgt, derart, daß ein stärkerer Pegel eine höhere Priorität als ein schwächerer Pegel bewirkt .
8. Sprachgesteuerte Anordnung nach einem der Ansprüche 3 bis 7, d a d u r c h g e k e n n z e i c h n e t, daß die Einrichtung zur Pegelauswertung und Steuerung (13) dazu ausgebildet ist, mindestens ein Steuersignal (14) zu erzeugen, das in Abhängigkeit von dem ausgewerteten Pegel mindestens eines empfangenen Signals eines Gerätes gebildet wird und die Erkennungsfunktion der Spracherkennungsstufe (11c) derart steuert, daß Wahrscheinlichkeiten für das Auftreten eines Wortes oder mehrerer Worte und/oder Übergangswahrscheinlichkeiten zwischen Worten des dem Gerät zugeordneten und geladenen Wortschatzes insbesondere proportional zum Pegel angehoben oder abgesenkt werden.
9. Sprachgesteuerte Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß die Wortschatz-Sendeeinheit bzw. Wortschatz-Sendeeinheiten (3b bis 9b) und die Wortschatz-Empfangseinheit (lle) als Funksende- bzw. -empfangseinheit , insbesondere nach dem Bluetooth-Standard, ausgebildet sind.
10. Sprachgesteuerte Anordnung nach einem der Ansprüche 1 bis 8, d a d u r c h g e k e n n z e i c h n e t, daß die Wortschatz-Sendeeinheit bzw. Wortschatz -Sendeeinheiten (3b bis 9b) und die Wortschatz-Empfangseinheit (lle) als Infrarot-Sende- bzw. -Empfangseinheit ausgebildet sind.
11. Sprachgesteuerte Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß in den Geräte-Wortschatzspeichern (3a bis 9a) im wesentlichen Steuerbefehle für das jeweilige Gerät (3 bis 9) sowie Begleitvokabular zu diesen gespeichert sind.
12. Sprachgesteuerte Anordnung nach einem der vorangehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß mindestens ein Teil der Geräte (3 bis 9) als stationäres Ge- rät ausgebildet ist.
13. Verfahren zur Spracheingabe und -erkennung, insbesondere in einer Anordnung nach einem der vorangehenden Ansprüche, wobei gerätespezifische Wortschätze dezentral gespeichert werden und eine zentrale Spracheingabe und -erkennung vorgenommen wird, wobei mindestens ein dezentral gespeicherter Wortschatz vorab an den Ort der Spracherkennung mittels einer drahtlosen Nachrichtenverbindung übermittelt wird, d a d u r c h g e k e n n z e i c h n e t, daß der übermittelte Wortschatz bzw. die übermittelten Wortschätze in Abhängigkeit von der Auswertung der Richtungsinformation eines den Wortschatz übermittelnden Signals bzw. von die Wortschätze übermittelnden Signalen am Ort der Spracherkennung gespeichert und eingesetzt wird bzw. werden.
14. Verfahren nach Anspruch 13, d a d u r c h g e k e n n z e i c h n e t, daß der übermittelte Wortschatz bzw. die übermittelten Wortschätze in Abhängigkeit von der Auswertung des Pegel eines den Wortschatz übermittelnden Signals bzw. von die Wortschätze übermittelnden Signalen am Ort der Spracherkennung gespeichert und eingesetzt wird bzw. werden.
15. Verfahren nach Anspruch 14, d a d u r c h g e k e n n z e i c h n e t, daß mehrere Wortschätze von Geräten gleichzeitig geladen sind und der Wortschatz eines weiteren Gerätes in die Spracheingabe- einheit geladen wird und einen dort geladenenen Wortschatz ersetzt, sobald das empfangene Signal des weiteren Gerätes einen vorgegebenen Pegel und/oder den Pegel des den zu ersetzenden Wortschatz übertragenden bzw. diesem zugeordneten Sig- nals überschreitet.
16. Verfahren nach Anspruch 15, d a d u r c h g e k e n n z e i c h n e t, daß genau ein Wortschatz eines Gerätes geladen ist und der gela- dene Wortschatz durch den Wortschatz eines weiteren Gerätes ersetzt wird, sobald ein empfangenes Signal des weiteren Gerätes den vorgegebenen Pegel und/oder den Pegel des den zu ersetzenden Wortschatzes übertragenden bzw. diesem zugeordneten Signals überschreitet.
17. Verfahren nach einem der Ansprüche 13 bis 16, d a d u r c h g e k e n n z e i c h n e t, daß den in die Spracheingabeeinheit (11) geladenen Wortschätzen unterschiedliche Prioritäten zugewiesen werden, wobei die Zu- Weisung von Prioritäten in Abhängigkeit von den Verhältnissen der Pegel der die Wortschätze übertragenden Signale erfolgt, derart, daß ein stärkerer Pegel eine höhere Priorität als ein schwächerer Pegel bewirkt .
18. Verfahren nach einem der Ansprüche 13 bis 17, d a d u r c h g e k e n n z e i c h n e t, daß mindestens ein Steuersignal (14) in Abhängigkeit von dem ausgewerteten Pegel mindestens eines empfangenen Signals eines Gerätes gebildet wird und die Erkennungsfunktion der Spracherkennungsstufe (11c) derart steuert, daß Wahrscheinlichkeiten für das Auftreten eines Wortes oder mehrerer Worte und/oder Übergangswahrscheinlichkeiten zwischen Worten des dem Gerät zugeordneten und geladenen Wortschatzes insbesondere proportional zum Pegel angehoben oder abgesenkt werden.
PCT/EP2001/009475 2000-08-31 2001-08-16 Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung WO2002018897A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE50113127T DE50113127D1 (de) 2000-08-31 2001-08-16 Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung
EP01969601A EP1314013B1 (de) 2000-08-31 2001-08-16 Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00118895A EP1184841A1 (de) 2000-08-31 2000-08-31 Sprachgesteuerte Anordnung und Verfahren zur Spracheingabe und -erkennung
EP00118895.2 2000-08-31

Publications (1)

Publication Number Publication Date
WO2002018897A1 true WO2002018897A1 (de) 2002-03-07

Family

ID=8169713

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2001/009475 WO2002018897A1 (de) 2000-08-31 2001-08-16 Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung

Country Status (4)

Country Link
US (1) US20030182132A1 (de)
EP (2) EP1184841A1 (de)
DE (1) DE50113127D1 (de)
WO (1) WO2002018897A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005059630A1 (de) * 2005-12-14 2007-06-21 Bayerische Motoren Werke Ag Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10021389A1 (de) 2000-05-03 2001-11-08 Nokia Mobile Phones Ltd Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20050137877A1 (en) * 2003-12-17 2005-06-23 General Motors Corporation Method and system for enabling a device function of a vehicle
EP1562180B1 (de) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Sprachdialogsystem und Verfahren zum Steuern eines elektronischen Gerätes
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
US7482923B2 (en) 2005-01-27 2009-01-27 The Chamberlain Group, Inc. Alarm system interaction with a movable barrier operator method and apparatus
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (de) 2005-08-31 2010-10-27 Voicebox Technologies Inc Dynamische sprachverschärfung
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20080061926A1 (en) * 2006-07-31 2008-03-13 The Chamberlain Group, Inc. Method and apparatus for utilizing a transmitter having a range limitation to control a movable barrier operator
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8175591B2 (en) * 2006-12-04 2012-05-08 The Chamerlain Group, Inc. Barrier operator system and method using wireless transmission devices
US8643465B2 (en) * 2006-12-04 2014-02-04 The Chamberlain Group, Inc. Network ID activated transmitter
US8260618B2 (en) * 2006-12-21 2012-09-04 Nuance Communications, Inc. Method and apparatus for remote control of devices through a wireless headset using voice activation
DE602007004185D1 (de) * 2007-02-02 2010-02-25 Harman Becker Automotive Sys System und Verfahren zur Sprachsteuerung
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9549717B2 (en) 2009-09-16 2017-01-24 Storz Endoskop Produktions Gmbh Wireless command microphone management for voice controlled surgical system
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
DE102011109932B4 (de) * 2011-08-10 2014-10-02 Audi Ag Verfahren zum Ansteuern funktioneller Einrichtungen in einem Fahrzeug bei Sprachbefehl-Bedienung
US9698997B2 (en) 2011-12-13 2017-07-04 The Chamberlain Group, Inc. Apparatus and method pertaining to the communication of information regarding appliances that utilize differing communications protocol
US9235565B2 (en) * 2012-02-14 2016-01-12 Facebook, Inc. Blending customized user dictionaries
US9122254B2 (en) 2012-11-08 2015-09-01 The Chamberlain Group, Inc. Barrier operator feature enhancement
KR20140060040A (ko) 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9396598B2 (en) 2014-10-28 2016-07-19 The Chamberlain Group, Inc. Remote guest access to a secured premises
US9367978B2 (en) 2013-03-15 2016-06-14 The Chamberlain Group, Inc. Control device access method and apparatus
US10229548B2 (en) 2013-03-15 2019-03-12 The Chamberlain Group, Inc. Remote guest access to a secured premises
US20150278737A1 (en) * 2013-12-30 2015-10-01 Google Inc. Automatic Calendar Event Generation with Structured Data from Free-Form Speech
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和系统
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9912977B2 (en) * 2016-02-04 2018-03-06 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
DE212017000226U1 (de) * 2016-10-05 2019-05-13 Gentex Corporation Fahrzeugbasiertes Fernsteuerungssystem
EP3467819A1 (de) * 2017-10-05 2019-04-10 Harman Becker Automotive Systems GmbH Vorrichtung und verfahren mit verwendung mehrerer sprachsteuerungsvorrichtungen
DE102018108867A1 (de) 2018-04-13 2019-10-17 Dewertokin Gmbh Steuereinrichtung für einen Möbelantrieb und Verfahren zum Steuern eines Möbelantriebs

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0911808A1 (de) * 1997-10-23 1999-04-28 Sony International (Europe) GmbH Sprachschnittstelle für ein Hausnetzwerk
EP0952040A2 (de) * 1998-04-23 1999-10-27 Volkswagen Aktiengesellschaft Verfahren und Einrichtung zum Betrieb bzw. zum Bedienen verschiedener Geräte in einem Fahrzeug
EP0971330A1 (de) * 1998-07-07 2000-01-12 Otis Elevator Company Verbale Fernsteuerungseinrichtung

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109222A (en) * 1989-03-27 1992-04-28 John Welty Remote control system for control of electrically operable equipment in people occupiable structures
WO1993001664A1 (en) * 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US6006077A (en) * 1997-10-02 1999-12-21 Ericsson Inc. Received signal strength determination methods and systems
US6563430B1 (en) * 1998-12-11 2003-05-13 Koninklijke Philips Electronics N.V. Remote control device with location dependent interface
US6407779B1 (en) * 1999-03-29 2002-06-18 Zilog, Inc. Method and apparatus for an intuitive universal remote control system
US6812881B1 (en) * 1999-06-30 2004-11-02 International Business Machines Corp. System for remote communication with an addressable target using a generalized pointing device
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US6654720B1 (en) * 2000-05-09 2003-11-25 International Business Machines Corporation Method and system for voice control enabling device in a service discovery network
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
KR20020043635A (ko) * 2000-08-21 2002-06-10 요트.게.아. 롤페즈 다운로드가능한 음성 명령 세트를 구비하는 음성 제어형원격제어기

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0911808A1 (de) * 1997-10-23 1999-04-28 Sony International (Europe) GmbH Sprachschnittstelle für ein Hausnetzwerk
EP0952040A2 (de) * 1998-04-23 1999-10-27 Volkswagen Aktiengesellschaft Verfahren und Einrichtung zum Betrieb bzw. zum Bedienen verschiedener Geräte in einem Fahrzeug
EP0971330A1 (de) * 1998-07-07 2000-01-12 Otis Elevator Company Verbale Fernsteuerungseinrichtung

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005059630A1 (de) * 2005-12-14 2007-06-21 Bayerische Motoren Werke Ag Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl

Also Published As

Publication number Publication date
US20030182132A1 (en) 2003-09-25
EP1184841A1 (de) 2002-03-06
EP1314013A1 (de) 2003-05-28
DE50113127D1 (de) 2007-11-22
EP1314013B1 (de) 2007-10-10

Similar Documents

Publication Publication Date Title
WO2002018897A1 (de) Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung
DE102018128006B4 (de) Verfahren zum erzeugen von ausgaben natürlichsprachlicher generierung basierend auf dem benutzersprachstil
EP1324314B1 (de) Spracherkennungssystem und Verfahren zum Betrieb eines solchen
DE112010002210T5 (de) Ausführen von Freihand-Bedienung einer elektronischen Kalenderanwendung in einem Fahrzeug
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
EP0852051A1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
EP1052834A2 (de) Kommunikationssystem eines Kraftfahrzeuges
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE102019200956A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
EP3962784A1 (de) Verfahren zur personalisierung eines kraftfahrzeugs
EP2047668A1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
DE3300053A1 (de) Auf sprache ansprechende mobile statuseinheit
EP1342229A1 (de) Zugangssteueranordnung und verfahren zur zugangssteuerung
DE10333896A1 (de) Verfahren und System zum Bereitstellen einer Freisprechfunktionalität bei mobilen Telekomunikationsendeinrichtungen
DE10063331C2 (de) Sprachsteuerungssystem
EP4027333B1 (de) Virtueller sprachassistent mit verbesserter erkennungsgenauigkeit
DE102006058758A1 (de) Verfahren und Vorrichtung zum Steuern einer Telekommunikationsendeinrichtung
DE19957267A1 (de) Vorrichtung und Verfahren zur Fernbedienung eines Autoradios
DE2933476A1 (de) Vorrichtung zur uebertragung von daten zu einem fernsprechapparat
WO1998011706A1 (de) Funktelefon
DE102004021030B3 (de) Kommunikationssystem zur mobilen Anlagensteuerung mittels Spracherkennung
WO2000060833A1 (de) Kommunikationsendgerät
DE10003529A1 (de) Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung
DE102021212375A1 (de) Fahrzeug und verfahren zur steuerung desselben

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2001969601

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10363121

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2001969601

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2001969601

Country of ref document: EP