DE19750439A1 - Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation - Google Patents
Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der SprachkommunikationInfo
- Publication number
- DE19750439A1 DE19750439A1 DE19750439A DE19750439A DE19750439A1 DE 19750439 A1 DE19750439 A1 DE 19750439A1 DE 19750439 A DE19750439 A DE 19750439A DE 19750439 A DE19750439 A DE 19750439A DE 19750439 A1 DE19750439 A1 DE 19750439A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- processor
- visual
- reproduction
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/04—Devices for conversing with the deaf-blind
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Description
Die vorliegende Erfindung bezieht sich ganz allgemein auf die Ton- und Bild
kommunikation und insbesondere auf eine Vorrichtung, ein Verfahren und ein System
zur visuellen Wiedergabe von Sprache in der Kommunikation.
Herkömmliche Geräte und Verfahren zur visuellen Wiedergabe gesprochener
Sprache wie beispielsweise die sogenannten TDD-Systeme für Hörbehinderte bzw. Hör
geschädigte setzen im typischen Fall sowohl spezielle Systeme als auch eine Eingabe
des anzuzeigenden Materials für die visuelle Wiedergabe durch den Benutzer voraus.
Beispielsweise wird für Telephongespräche oder Kommunikationssitzungen für den Hör
behinderten ein spezielles TDD-System für die visuelle Anzeige von Buchstaben, Wör
tern und Sätzen vorausgesetzt, und dabei müssen alle Teilnehmer an der Kommunikati
onsverbindung ein solches speziell hierfür vorgesehenes System benutzen. Außerdem
muß jeder Teilnehmer bei dem Telefongespräch bei Verwendung eines TDD-Systems
jeden Buchstaben, jedes Wort und jeden Satz physikalisch auf einer Tastatur eingeben,
damit diese Informationen dann zur Anzeige auf einem TDD-System am entfernt liegen
den Ende übermittelt werden.
Bei anderen konventionellen Systemen ist außerdem besonders ein Eingreifen
von Hand erforderlich, wobei das anzuzeigende visuelle Material separat körperlich ein
gegeben werden muß. Beispielsweise ist es bei vielen Untertiteldiensten für geschlos
sene Benutzergruppen, wie sie auf vielen Fernsehkanälen zur Verfügung stehen, erfor
derlich, daß die hörbaren gesprochenen Wörter von einem Diensteanbieter übersetzt
und zur Übertragung als Teil der Ton-/Bildsendung oder einer anderen Fernsehsendung
in das Untertitelsystem für die geschlossene Benutzergruppe mittels Tastatur eingege
ben werden.
Diese konventionellen Systeme zur visuellen Anzeige gesprochener Sprache
setzen im allgemeinen zweckbestimmte Spezialsysteme sowohl vor Ort wie auch am
entfernten Punkt der Verbindung voraus und erfordern einen erheblichen Umfang ma
nueller Eingriffe für den Betrieb. Infolgedessen sind derartige Systeme relativ kostspielig
und schwierig zu bedienen. Außerdem unterliegen Systeme dieser Art Beschränkungen
hinsichtlich ihrer Verfügbarkeit und Aufstellung; beispielsweise können diese TDD-Sy
steme auf Reisen nur mit Schwierigkeiten aufgestellt oder lokalisiert werden, so daß die
Kommunikation mit einer hörbehinderten Person über das Telefon unmöglich wird. Au
ßerdem kann der Benutzer, der auf ein derartiges System angewiesen ist, nicht mit ei
nem anderen Teilnehmer kommunizieren, dem ein spezielles System für diesen Zweck
nicht zur Verfügung steht.
Dementsprechend blieb Bedarf an einem solchen Gerät, Verfahren und System
zur visuellen Sprachanzeige, bei denen spezielle Geräte und Systeme nicht an beiden
Enden der Kommunikationsverbindung vorhanden sein müssen. Außerdem sollten ein
Gerät und ein System dieser Art keinen erheblichen Aufwand an manueller Betätigung
für den Betrieb erfordern, sie sollten vergleichsweise kostengünstig und außerdem be
nutzerfreundlich sein.
Fig. 1 zeigt ein Blockschaltbild zur Darstellung eines erfindungsgemäßen Geräts
und Systems zur visuellen Sprachwiedergabe;
Fig. 2 ist ein Blockschaltbild mit der Darstellung eines ersten bevorzugten Aus
führungsbeispiels eines erfindungsgemäßen Geräts und Systems zur visuellen Sprach
wiedergabe;
Fig. 3 zeigt ein Blockschaltbild zur Darstellung eines zweiten bevorzugten Aus
führungsbeispiels eines erfindungsgemäßen Geräts und Systems zur visuellen Sprach
wiedergabe; und
Fig. 4 ist ein Ablaufdiagramm zur Veranschaulichung eines erfindungsgemäßen
Verfahrens zur visuellen Sprachwiedergabe und Spracherzeugung.
Wie vorstehend bereits angesprochen blieben verschiedene Bedürfnisse für
Möglichkeiten zur visuellen Sprachwiedergabe, beispielsweise unter anderem in einem
Textformat oder einem Untertitelformat, als Hilfsmittel für Hörbehinderte bestehen. Die
erfindungsgemäße Vorrichtung mit zugehörigem Verfahren und System baut auf den
verwandten und damit zusammenhängenden Anmeldungen auf und sorgt für die visuelle
Wiedergabe gesprochener Sprache, ohne daß hierfür vor Ort und am entfernten Ende
der Kommunikationsverbindung hierzu spezielle Geräte und Systeme erforderlich sind.
Außerdem setzen auch die verschiedenen Ausführungsbeispiele der Erfindung ebenfalls
keinerlei erhebliche Betätigungseingriffe von Hand für den Betrieb voraus und sind dabei
vergleichsweise kostengünstig und benutzerfreundlich.
Die in den verschiedenen hiermit zusammenhängenden Anmeldungen be
schriebenen Erfindungen beziehen sich sowohl auf die Telefonkonferenztechnik als
auch auf audiovisuelle Konferenztechnik und arbeiten mit einer Vorrichtung für den Zu
griff auf Video- bzw. Bildinformationen, welche über einen Kommunikationskanal mit ei
nem Telekommunikationsnetz gekoppelt werden kann. In der zweiten und drillen hiermit
zusammenhängenden Anmeldung bezieht sich das dort bevorzugte Ausführungsbeispiel
auf die Vorrichtung für den Zugriff auf Bildinformationen sowie für audiovisuelle Konfe
renztechnik unter Heranziehung eines sogenannten CACS-Protokolls (Cable ACcess
System; Kabelzugangssystem) zur Kommunikation mit einer Hauptstation über ein ko
axiales Hybrid-Koaxkabel, wobei die Primärstation ihrerseits für die Anschlußmöglichkei
ten an ein Telekommunikationsnetz und eine Infrastruktur für Kabelfernsehdienste sorgt.
Bei der hiermit zusammenhängenden vierten und fünften Anmeldung sieht die Vorrich
tung für den Zugriff auf Bildinformationen sowohl Telekonferenzmöglichkeiten als auch
Möglichkeiten für Audio-/Video-Konferenzen mit direkten festverdrahteten Anschlußmög
lichkeiten an ein Telekommunikationsnetz vor, wobei eine festverkabelte Netzschnitt
stelle eingesetzt wird, die sich beispielsweise für den Anschluß an ein ISDN-Netz
(Integrated Services Digital Network; digitales Netz mit integrierten Diensten) und/oder
an ein PSTN-Netz (Public Switched Telephone Network; öffentliches Telefonnetz mit
Wählsystem) eignet.
Bei den bevorzugten Ausführungsbeispielen der hiermit zusammenhängenden
zweiten und vierten Anmeldung ist die Möglichkeit für Videokonferenzen unter Verwen
dung üblicher oder allgemein bekannter Geräte und Vorrichtungen vorgesehen, wie sie
typischerweise in Räumen oder bei Teilnehmern zu finden sind, z. B. Telefone, Fernseher
und Videokameras (Video-Camcorder). Bei der hiermit zusammenhängenden dritten und
fünften Anmeldung ist eine solche Möglichkeit zur Videokonferenz unter Verwendung ei
nes oder mehrerer Bildtelefongeräte vorgesehen. Was allerdings allen diesen hiermit zu
sammenhängenden Anmeldungen gemeinsam ist, ist die Verwendung einer physikali
schen Schnittstelle (z. B. in Form eines Telefons oder einer Tastatur) für die Auswahl und
die Ansteuerung der verschiedenen Medieneinsatzgebiete, z. B. zur Auswahl eines nor
malen Telefonmodus oder eines Videokonferenzmodus. Bei den bevorzugten Ausfüh
rungsbeispielen können ein oder mehrere Telefone zur Eingabe verschiedener Steuersi
gnale in eine Benutzertonschnittstelle des Videozugriffsgeräts eingesetzt werden, um die
jeweilige Betriebsart des Geräts für den Zugriff auf Bildinformationen anzuwählen. Bei
dem bevorzugten Ausführungsbeispiel wird beispielsweise mit der Eingabe einer vorge
gebenen Abfolge (z. B. "**" der DTMF-Töne eines Telefons) gearbeitet, um einen Video
konferenzmodus anzuwählen, wobei dann, wenn diese vorgegebene Abfolge nicht ein
gegeben wurde, automatisch ein Telefonbetrieb in transparenter Weise gewählt wird.
Bei der hiermit zusammenhängenden sechsten Anmeldung sind eine Vorrich
tung und ein Verfahren zur Ansteuerung mehrerer unterschiedlicher Multimedia-Anwen
dungen vorgesehen, neben Möglichkeiten für Videokonferenzen und Telefonbetrieb. Bei
dem bevorzugten Ausführungsbeispiel der Erfindung gemäß dieser sechsten Anmeldung
sorgt die Vorrichtung zur Multimedia-Ansteuerung für die Kontrolle über eine Vielzahl von
Medienanwendungen, unter anderem Telefon, Videokonferenz, analoge und digitale Vi
deotechnik sowie Signalabgabe über die Wechselstromleitungen (zur Ansteuerung und
Überwachung von Geräten im Raum oder beim Teilnehmer, z. B. Heizung, Lüftung, Kli
maanlage, Beleuchtung, Sicherheitseinrichtungen und Unterhaltungstechnik). Darüber
hinaus kann bei dem bevorzugten Ausführungsbeispiel der Multimediasteuerung jedes
angeschlossene Telefon zum Telefon für mehrere Betriebsarten werden, wobei es die
physikalische Schnittstelle für Telefonfunktionen und für Multimedia-Steuerfunktionen
bildet.
Auf diesen hiermit zusammenhängenden Anmeldungen bauen die erfindungs
gemäße Vorrichtung, das Verfahren und das System auf und sehen eine visuelle Wie
dergabe gesprochener Sprache vor, beispielsweise bei einem Sprachtelefongespräch
oder dem Audioteil einer audiovisuellen Konferenz. Die Kommunikation kann über jedes
Telekommunikationsnetz oder auch jedes andere Netz ablaufen, wobei am entfernten
Punkt der Verbindung kein besonderes oder spezielles Gerät erforderlich ist. Wie im fol
genden noch ausführlicher beschrieben ist, wird ein aus einem Netz ankommendes
Tonsignal empfangen und in eine Darstellung in Textform umgewandelt, die dann in ein
Bildsignal umgesetzt wird, das in jedes angeschlossene Fernsehgerät oder ein anderes
Bildschirmgerät übertragen wird, wo es der Benutzer betrachten kann, vorzugsweise im
Untertitelformat oder im Bildschirmformat. Dieses Gerät zur visuellen Wiedergabe ge
sprochener Sprache kann auch ein Teilsystem zur Sprachgenerierung für die Benutzer
umfassen, die vielleicht auch eine Sprachbehinderung haben. Das erfindungsgemäße
Gerät zur visuellen Wiedergabe gesprochener Sprache kann als Abwandlung der ver
schiedenen Bildzugriffsgeräte angesehen werden oder auch als Sonderfall bzw. spezi
elle Medienanwendung des Multimediasteuergeräts gemäß den hiermit zusammenhän
genden Anmeldungen gelten. Wie im folgenden noch ausführlicher beschrieben ist,
umfaßt die Vorrichtung zur visuellen Wiedergabe gesprochener Sprache viele derselben
Bauelemente und Teilsysteme der Bildzugriffsgeräte und des Multimediasteuergeräts, so
daß hier hinsichtlich der entsprechenden ausführlichen Beschreibungen und der techni
schen Angaben zu den bevorzugten Bauelementen auf die hiermit zusammenhängen
den Anmeldungen verwiesen werden kann.
Fig. 1 ist ein Blockschaltbild mit der Darstellung eines erfindungsgemäßen Ge
räts 101 zur visuellen Wiedergabe gesprochener Sprache und eines erfindungsgemäßen
Systems 100 zur visuellen Sprachwiedergabe. Entsprechend der Darstellung in Fig. 1
umfaßt das System 100 zur visuellen Sprachwiedergabe das Gerät 101 zur visuellen
Sprachwiedergabe, sowie mindestens ein Bildschirmgerät 225 und mindestens eine
physikalische Schnittstelle 155, beispielsweise in Form eines Telefons 150, einer Tasta
tur 160, einer Maus 170 oder eines Rechners 175. Das Gerät 101 zur visuellen Sprach
wiedergabe läßt sich über eine Netzschnittstelle 110 an einen ersten Kommunikations
kanal (bzw. einem Netzkommunikationskanal) 103 zur Kommunikation mit einem Netz
104 ankoppeln. Der erste bzw. Netz-Kommunikationskanal 103 wird hier auch als Netz
kommunikationskanal 03 bezeichnet, um ihn von anderen Kommunikationskanälen des
Systems 100 zur visuellen Sprachwiedergabe zu unterscheiden, z. B. vom zweiten Kom
munikationskanal 227, der zur Kommunikation mit den verschiedenen Bildschirmgeräten
225 verwendet wird, oder vom dritten Kommunikationskanal 228, der zur Kommunikation
mit der Tastatur 160 oder den anderen physikalischen Schnittstellen 155 verwendet wird.
Der erste Kommunikationskanal 103 kann fest verdrahtet sein, z. B. kann er aus einem
oder mehreren verdrillten Drahtpaaren bestehen, oder es kann sich dabei um ein Kabel
handeln, z. B. ein hybrides Glasfaser-Koaxkabel, auch um eine schnurlose Verbindung
wie sie beispielsweise bei Mobiltelefonen oder für andere Hochfrequenz-Übertragungen
verwendet wird, oder auch um jedes andere geeignete Kommunikationsmedium. Das
Netz 104 kann, wie in der hiermit zusammenhängenden vierten und fünften Anmeldung
beschrieben, beispielsweise ein sogenanntes PSTN-Netz (öffentliches Telefonnetz mit
Wählbetrieb) für den normalen Telefonverkehr und analogen Datenverkehr sein (diese
Einsatzgebiete werden hier als POTS bezeichnet; Plain Old Telephone Service, einfa
cher alter Telefondienst) oder ein sogenanntes ISDN-Netz für die digitale Übermittlung
von Sprache und Daten, oder es kann sich dabei um eine Kombination aus derartigen
schon bestehenden oder künftigen Telekommunikationsnetzen handeln. Bei solchen
festverdrahteten Netzen wird der Netzkommunikationskanal 103 normalerweise über
eine lokale digitale oder analoge (hier nicht dargestellte) Weiche an das Netz 104 ange
koppelt. Außerdem kann, wie in der hiermit zusammenhängenden zweiten und dritten
Anmeldung beschrieben, der Netzkommunikationskanal 103 bei Realisierung eines
CACS-Kommunikationsprotokolls über eine Primärstation an das Netz 104 angekoppelt
werden, die unter anderem mindestens eine Netzschnittstelle bietet, die mit anderen
oder zusätzlichen Protokollen - z. B. den verschiedenen ISDN-Protokollen - arbeitet und
außerdem für den Anschluß an eine Infrastruktur für Kabelfernsehdienste (CATV-Dien
ste) sorgt.
Das in Fig. 1 dargestellte Gerät 101 zur visuellen Sprachwiedergabe weist ver
schiedene Merkmale oder Bauelemente auf, die in den hiermit zusammenhängenden
Anmeldungen ausführlich beschrieben werden, unter anderem die Netzschnittstelle 110,
die Prozessorengruppe 130 (wobei verstanden wird, daß eine Prozessorengruppe auch
nur einen Prozessor aufweisen kann) und die Benutzerschnittstelle 120. In den
zugehörigen Anmeldungen sind außerdem detaillierte Blockschaltbilder und technische
Angaben zu den bevorzugten Bauelementen enthalten. Je nach der jeweiligen
Realisierungsform des Systems 100 zur visuellen Sprachwiedergabe, z. B. in
festverdrahteter, verkabelter oder schnurloser Form, ist die Netzschnittstelle 110 des
Geräts 101 zur visuellen Sprachwiedergabe unterschiedlich aufgebaut. Bei Kabeltechnik
ist beispielsweise die Netzschnittstelle 110 eine Kabelnetzschnittstelle mit einem CATV-Sende-
Empfänger und einer ASIC-Schaltung für Kommunikationszwecke
(anwendungsspezifische integrierte Schaltung), die verschiedene Funktionen erfüllt wie
zum Beispiel jeweils die Hochfrequenzmodulation (HF-Modulation) und -Demodulation
und die Kodierung und Dekodierung nach dem CACS-Protokoll, wie in der zugehörigen
zweiten und dritten Anmeldung beschrieben ist. Bei schnurlosen Einsatzgebieten, z. B.
gemäß der Beschreibung in der zugehörigen vierten und fünften Anmeldung, umfaßt die
Netzschnittstelle 110 eine Telefonschnittstelle (POTS-Schnittstelle für den traditionellen
Telefonverkehr) und/oder eine ISDN-Schnittstelle, die jeweils verschiedene Funktionen
hat, z. B. jeweils die analoge Telefontechnik (und ebenso analoge Modemfunktionen, z. B.
nach den ITU-Protokollen (International Telecommunications Union) V.34 und V.342),
neben der Realisierung verschiedener digitaler (ISDN-) Protokolle für Sprach- und
Datenübermittlung (z. B. Protokolle zur digitalisierten Datenverbindung nach ITU Q.921
LAPD und für physikalische Layers (Interface-Protokolle) nach Q.910). Gemäß den
zugehörigen Anmeldungen wird die Netzschnittstelle 110 zur Übertragung und zum
Empfang analoger oder digitaler Bild-, Ton- und anderer Informationen und Daten (die
ganz allgemein hier als Daten bezeichnet werden) in jedem gegebenen Format, mit
jedem Protokoll oder nach jedem Modulationsschema eingesetzt, die mit dem Netz 104
kompatibel sind, wobei auch jede beliebige Form des Netzanschlusses oder der
Schaltungen Verwendung findet. Wenn beispielsweise über den ersten
Kommunikationskanal 103 der Anschluß an ein digitales Netz (z. B. ISDN-Netz)
vorgesehen ist, übermittelt und empfängt die Netzschnittstelle 110 Daten in Form eines
Tonsignals für den Telefonverkehr, oder als gemäß der ISDN-Protokollserie (z. B. Serie
Q.x) kodierte und formatierte digitale Information. Bei Anschluß an ein herkömmliches
bzw. PSTN-Netz über den ersten Netzkommunikationskanal 103 übermittelt und
empfängt die Netzschnittstelle 110 beispielsweise auch Daten wie Tonsignale, z. B. ein
normales analoges Tonsignal in POTS-Technik.
Aus Fig. 1 ist weiterhin ersichtlich, daß an die Netzschnittstelle 110, an eine Be
nutzerschnittstelle 120 und an einen Hochfrequenz- bzw. HF-Modulator 270 eine Pro
zessorengruppe 130 angeschlossen ist. Die Netzschnittstelle 110, die Benutzerschnitt
stelle 120 und der HF-Modulator 270 sind im wesentlichen identisch mit den Gruppen
ausgelegt, wie sie in den zugehörigen Anmeldungen beschrieben und ausführlich dar
gestellt sind. Verschiedene Funktionen jeder dieser Systemkomponenten werden nach
stehend außerdem noch ausführlicher erläutert. Bei dem in Fig. 1 dargestellten Ausfüh
rungsbeispiel weist die Vorrichtung 101 zur visuellen Sprachwiedergabe beispielsweise
zunächst eine Netzschnittstelle 110 auf, die sich zum Empfangen eines ersten Tonsi
gnals von einem Netz 104 an einen ersten Kommunikationskanal 103 ankoppeln läßt
woraufhin sie aus diesem Signal ein Tonempfangssignal bildet; zum anderen weist sie
einen Hochfrequenzmodulator 270 auf, der ein Bildausgangssignal (aus der Prozesso
rengruppe 130) im Basisband in ein Hochfrequenz-Bildausgangssignal umwandelt und
das Hochfrequenz-Bildausgangssignal zu einem zweiten Kommunikationskanal 227 zur
Videodarstellung überträgt, z. B. über eines der Bildschirmgeräte 225; und zum dritten
umfaßt sie eine Prozessorengruppe 130, die an die Netzschnittstelle 110 und den Hoch
frequenzmodulator 270 angekoppelt ist und über einen Satz Programmbefehle in nach
stehend noch erläuterter Weise so angesteuert wird, daß sie das empfangene Tonsignal
in eine Textdarstellung der gesprochenen Sprache umsetzt und außerdem die Textdar
stellung der Sprache in ein Bildausgangssignal im Basisband umwandelt (das dann vom
HF-Modulator 270 noch moduliert und dann übertragen werden muß). Im folgenden wird
außerdem noch erläutert, daß die Vorrichtung zur visuellen Sprachwiedergabe vorzugs
weise die Benutzerschnittstelle 120 zur Eingabe von Steuersignalen umfaßt, die zur An
steuerung verschiedener Betriebsarten - z. B. normaler Telefonbetrieb oder Modus mit vi
sueller Sprachwiedergabe - verwendet werden.
Die Benutzerschnittstelle 120 dient zum Empfangen eines Steuersignals von
aus einer Vielzahl von Steuersignalen, z. B. in Form einer Anforderung für ein Telefonge
spräch, einer Anforderung für die visuelle Darstellung der gesprochenen Sprache wäh
rend eines Telefongesprächs, oder ein Anruf in einer Audio-/Video-Konferenz, einer An
forderung von Sprachgenerierung aus einem eingegebenen Text, und weitere Steuersi
gnale wie zum Beispiel Meldesignale zur Ankündigung eines ankommenden Anrufs oder
von Anrufen bei einer audiovisuellen Konferenz. Bei dem bevorzugten Ausführungsbei
spiel ist die Benutzerschnittstelle 120 in Form einer Benutzer-Tonschnittstelle 255 ausge
führt, wie sie in Fig. 2 und 3 und ausführlich in den hiermit zusammenhängenden An
meldungen dargestellt ist. Der HF-Modulator 270 setzt ein Bildausgangssignal in ein
Hochfrequenz-Bildausgangssignal um, wie in den zugehörigen Anmeldungen beschrie
ben und dargestellt, und überträgt dieses zum zweiten Kommunikationskanal 227 und
bringt es zur Anzeige auf den Bildschirmgeräten 225. Bei dem bevorzugten Ausfüh
rungsbeispiel handelt es sich bei dem zweiten Kommunikationskanal 227 um ein
Koaxkabel, wie es für Kabelfernsehen vorgesehen ist und im Raum beim Benutzer bzw.
Teilnehmer an einer oder mehreren Stellen verlegt ist.
Die Prozessorengruppe 130 sorgt für die Umsetzung des empfangenen Tonsi
gnals (aus der Netzschnittstelle 110) in eine visuelle Darstellung der gesprochenen
Sprache bzw. in deren Darstellung in Textform, die ihrerseits dann in die Form des Bild
ausgangssignals im Basisband umgesetzt wird (das vom HF-Modulator 270 noch modu
liert und an die Bildschirmgeräte 225 übertragen werden muß. Die Prozessorengruppe
130 kann auch für die Sprachgenerierung aus einem eingegebenen Text sorgen (wobei
die Sprachsignale dann über die Netzschnittstelle 110 an das Netz 104 übermittelt wer
den sollen). Wie in den zugehörigen Anmeldungen dargestellt und nachstehend noch
ausführlicher erläutert wird, kann die Prozessorengruppe 130 aus einer einzigen inte
grierten Schaltung ("IC") bestehen oder eine Vielzahl integrierter Schaltungen bzw. ande
rer Bauelemente aufweisen, die miteinander verbunden bzw. zu Gruppen zusammenge
faßt sind, z. B. Mikroprozessoren, digitale Signalprozessoren, ASIC-Schaltungen, zuge
hörige Speicher (z. B. RAM- und ROM-Speicher) und weitere ICs und Baugruppen. Infol
gedessen ist der hier verwendete Begriff "Prozessorengruppe" als gleichbedeutend mit
einem einzelnen Prozessor oder mit einer Anordnung von Prozessoren, Mikroprozesso
ren, Steuerungen oder irgendwelchen anderen Gruppierungen integrierter Schaltungen
zu verstehen, welche die nachstehend noch näher beschriebenen Funktionen ausfüh
ren. Bei dem bevorzugten Ausführungsbeispiel ist zum Beispiel die Prozessorengruppe
130 gemäß Darstellung in Fig. 2 und 3 als Mikroprozessor-Teilsystem 260 ausgeführt
(wie sie auch in den zugehörigen Anmeldungen dargestellt wird), neben einem Teilsy
stem zur visuellen Sprachwiedergabe (300 bzw. 310) und kann außerdem ein Teilsystem
zur Sprachgenerierung (320) umfassen.
Aus Fig. 1 ist weiterhin zu entnehmen, daß das Gerät 101 zur visuellen
Sprachwiedergabe über die Benutzerschnittstelle 120 an mindestens eine physikalische
Schnittstelle 155 gekoppelt ist, damit der Benutzer zur Eingabe eines oder mehrerer
Steuersignale und auch für die Eingabe von Text zur Sprachgenerierung physikalischen
Zugang zu der Vorrichtung zur visuellen Sprachwiedergabe hat. Die physikalischen
Schnittstellen 155 umfassen im typischen Fall mindestens ein Telefon 150, eine Tastatur
160, eine Computermaus 170 oder einen Rechner 175. Die Telefone 150 können auch
als Bildtelefon ausgeführt sein. Sind Telefone 150 in das System geschaltet, so erfolgt
die physikalische Eingabe der Vielzahl von Steuersignalen über eine Telefontastatur in
Form eines DTMF-Signals (Zweiton-Mehrfrequenzsignal) oder Impulswahlsignals, wobei
für den normalen Eingang und Ausgang der Tonsignale eine Sprechmuschel und ein Hö
rerteil bei den verschiedenen Telefonen 150 (bzw. Bildtelefonen) vorgesehen sind. Zu
sätzlich zu den Telefonen 150, oder auch anstelle derselben, können auch die Tastatur
160, die Maus 170, und/oder der Rechner 175 zur Eingabe der Vielzahl von Steuersigna
len eingesetzt werden. Die Tastatur 160 bzw. der Rechner 175 dienen vorzugsweise für
die Eingabe eines Textes für die Sprachgenerierung über den dritten Kommunikations
kanal 228 (auch wenn andere Eingabeverfahren wie beispielsweise das DTMF-Wählver
fahren ebenfalls herangezogen werden könnten). Der dritte Kommunikationskanal 228
wird hier als Kanal mit direkter Verbindung zwischen den physikalischen Schnittstellen
155 und der Prozessorengruppe 130 dargestellt, auch wenn andere Möglichkeiten der
Verbindung zur Verfügung stehen; beispielsweise kann der dritte Kommunikationskanal
228 auch völlig entfallen (Fig. 2), wobei dann die Eingabe der Steuersignale über eine
Verbindung (z. B. Leitung 294 in Fig. 2) mit der Benutzerschnittstelle 120 oder eine Be
nutzer-Tonschnittstelle 25 (statt mit der Prozessorengruppe 130) erfolgt.
Fig. 1 zeigt weiterhin, daß der HF-Modulator 270 ein Bildausgangssignal im Ba
sisband von der Prozessorengruppe 130 - z. B. in Form eines kombinierten NTSC/PAL-Video
signals - in ein Hochfrequenz-Bildausgangssignal umsetzt, z. B. ein amplitudenmo
duliertes Restseitenband-HF-Signal, das über ein Bildschirmgerät 225 betrachtet werden
kann, oder, wie Fig. 2 und 3 dies zeigen, beispielsweise über ein Fernsehgerät 240 des
Benutzers, wenn dieser auf Kanal 3 oder 4 eingestellt wird. Der HF-Modulator 270 kann
auf vielerlei Weise realisiert werden, unter anderem unter Verwendung eines
Bildmodulators, z. B. Motorola MC1373, an den sich eine Verstärkungsstufe anschließt,
die bei dem bevorzugten Ausführungsbeispiel dazu eingesetzt wird, Verluste aus einem
Richtkoppler 290 (in Fig. 2 dargestellt) auszugleichen, die gegebenenfalls das HF-Bild
ausgangssignal in den zweiten Kommunikationskanal 227 einspeisen, z. B. in das
Koaxkabelsystem in den Räumen des Benutzers.
Wie nachstehend noch ausführlicher erläutert wird, läßt sich die erfindungsge
mäße Verfahrensweise in Form eines Satzes Programmbefehle zur anschließenden
Ausführung in der Prozessorengruppe 130 und dem zugehörigen Speicher und anderen
äquivalenten Bauelementen programmieren und abspeichern. Der Satz Programmbe
fehle kann auch in jeder Speichereinrichtung abgelegt werden, z. B. in Form eines Spei
cherbausteins in Form einer integrierten Schaltung, einer Diskette, einer CD-ROM oder
in Form jedes anderen lesbaren oder abarbeitbaren Mediums. Bei dem bevorzugten
Ausführungsbeispiel wird die Prozessorengruppe 130 in Verbindung mit einem abge
speicherten Satz Programmanweisungen und im Ansprechen auf alle vom Benutzer ein
gegebenen oder aus dem Netz 104 empfangenen Steuersignale für viele verschiedene
Funktionen eingesetzt werden. Infolgedessen weist das bevorzugte Ausführungsbeispiel
der Prozessorengruppe 130 eine Vielzahl von Betriebsarten auf, z. B. Betriebsarten zur
visuellen Sprachwiedergabe, für normalen Telefonbetrieb (POTS-Betrieb), für die
Übermittlung synthetisierter Sprache und auch bei Audio- und Video-Konferenzen (bei
einem bevorzugten Ausführungsbeispiel).
Das Blockschaltbild in Fig. 2 zeigt ein erstes bevorzugtes Ausführungsbeispiel
einer Vorrichtung 201 zur visuellen Sprachwiedergabe sowie ein erstes bevorzugtes
Ausführungsbeispiel eines Systems 200 zur visuellen Sprachwiedergabe, beide gemäß
der vorliegenden Erfindung. Das System 200 zur visuellen Sprachwiedergabe 200 um
faßt ein Gerät 201 zur visuellen Sprachwiedergabe 201, mindestens ein Telefon 150 (in
Form der physikalischen Schnittstellen 155) und mindestens ein Fernsehgerät 240 (als
eine Art des Bildschirmgeräts 225), die über den zweiten Kommunikationskanal 227 mit
der Vorrichtung 201 zur visuellen Sprachwiedergabe gekoppelt sind. Über die vorste
hend angesprochene Netzschnittstelle 110 läßt sich die Vorrichtung 201 zur visuellen
Sprachwiedergabe auch an ein (hier nicht dargestelltes) Netz 104 ankoppeln. Die Vor
richtung 201 zur visuellen Sprachwiedergabe umfaßt außerdem einen HF-Modulator
270, der mit einem Richtkoppler 290 gekoppelt ist, der in vorstehend erläuterter Weise
das HF-Bildausgangssignal vom HF-Modulator 270 in den zweiten Kommunikationskanal 227
überträgt, beispielsweise in Form einer in den Räumen des Benutzers verlegten
Koaxkabelanlage.
Wie in den hierzu gehörigen Anmeldungen im einzelnen erläutert ist, wird die
Benutzertonschnittstelle 255 in der Weise ausgelegt, daß sie den Übergang zu üblichen
Haushaltstelefonapparaten bildet, worunter auch schnurlose Apparate und Freisprechge
räte wie die Telefone 150 fallen. Die Benutzertonschnittstelle 255 soll sowohl für bisher
übliche Gespräche in POTS-Technik als auch für Bildtelefonie geeignet sein und in Ver
bindung mit der Netzschnittstelle 110 auch analoge Modemfunktionen unterstützen. Dar
über hinaus sorgt die Benutzertonschnittstelle in Verbindung mit einer der physikalischen
Schnittstellen 155 - beispielsweise dem Telefon 150 (bzw. der Tastatur 160, der Maus
170 oder dem Rechner 175, die in Fig. 1 dargestellt sind) - für die Eingabe der verschie
denen Steuersignale, wie sie beispielsweise zur Anwahl einer Anwendung mit visueller
Sprachwiedergabe oder zur Telefonanwahl oder Bildtelefonanwahl verwendet werden.
Bei dem bevorzugten Ausführungsbeispiel wird jedes der Telefone 150 zur Eingabe der
verschiedenen Steuersignale verwendet, und Anrufe in normaler POTS-Technik werden
in "transparenter" Form verarbeitet, was bedeutet, daß ausgehende und ankommende
Telefonanrufe so ablaufen, als ob die Funktionen zur visuellen Sprachwiedergabe, für
Videokonferenz oder andere Multimediafunktionen nicht vorhanden wären. Darüber hin
aus werden bei dem bevorzugten Ausführungsbeispiel die Funktionen mit visueller
Sprachwiedergabe, mit Bildtelefonanrufen und Multimediafunktionen als Ausnahmefälle
bearbeitet, wobei der Benutzer eine jeweilige spezielle bzw. vorgegebene Wählfolge
eingeben muß, um die visuelle Sprachwiedergabe, einen Bildtelefonanruf oder eine an
dere Medienfunktion anzusteuern. Die bei dem bevorzugten Ausführungsbeispiel ver
wendeten verschiedenen Telefone 150 können in jeder Art normaler Telefone ausgeführt
sein, einschließlich schnurloser (tragbarer) Telefone, der üblichen Telefone mit Schnur
anschluß, DTMF- oder Impulswahltelefone, Bildtelefone oder Freisprechtelefone.
Wie auch in den zugehörigen Anmeldungen beschrieben, weist die Benutzer
tonschnittstelle 255 vorzugsweise eine SLIC-Schaltung auf (Subscriber Loop Interface
Circuit; Teilnehmer-Schleifenschnittstellenschaltung), die sogenannte "BORSHT"-Funk
tionen für Telefondienste innerhalb der Räume des Benutzers bietet, sowie eine Ringbil
dungsschaltung; einen Tonkodierer/-dekodierer für den Audioanteil eines Bildtelefonge
sprächs oder normalen Telefongesprächs, wobei dieses Teil für die Analog-Digital-Um
setzungen zur Digitalisierung eines Sprach- bzw. Toneingangssignals aus dem Sprech
muschelteil eines oder mehrerer der Telefone 150 und die Digital-Analog-Umsetzung für
die Stimmenwiedergabe aus den Datenstrom bzw. Signal eines digitalisierten Sprach
ausgangssignals sorgt (um ein Tonausgangssignal daraus zu bilden, das dem Sprechteil
der Telefone 150 zugeleitet wird); und schließlich einen programmierbaren digitalen Si
gnalprozessor (DSP) mit zugehörigem Speicher (der als DSP zur Stimmverarbeitung in
den zugehörigen Anmeldungen bezeichnet wird, im Unterschied zu einem anderen DSP-Ele
ment, das als DSP-Teil zur Bildverarbeitung bezeichnet wird). Das DSP-Element in
der Benutzertonschnittstelle 255 enthält einen Programmspeicher und einen Datenspei
cher zur Ausführung von Funktionen zur Signalverarbeitung, beispielsweise die Erfas
sung von DTMF/Wählimpulswahl und Impulserzeugung, für analoge Modemfunktionen,
zur Bildung von Rufablauftönen (Wählton, Belegttonzeichen), für die PCM-Linear-Um
setzung und die Linear-PCM-Umsetzung (Impulskodemodulation) und die Abspielung der
Sprechaufforderung. Der dem DSP-zugeordnete Speicher weist bei dem bevorzugten
Ausführungsbeispiel einen Festspeicher (als Sprach-ROM-Speicher bezeichnet) hoher
Dichte mit PCM-kodierten (bzw. komprimierten) Sprachsegmenten auf, die zur Interaktion
mit dem Benutzer verwendet werden, z. B. zur Aufforderung des Benutzers zur Eingabe
des DTMF- oder Impulswahlverfahrens über die Tastatur, wenn die Verbindung über die
Bildtelefoniefunktion oder eine in einem anderen Multimediamodus hergestellt werden
soll. Daneben kann bei Bedarf ein Sprach-RAM-Speicher für Speicherfunktionen zur
Sprachspeicherung durch den Benutzer verwendet werden, sowie ein elektrisch verän
derbarer programmierbarer leistungsloser (schnell löschbarer) Speicher zur Abspeiche
rung von Programmen (und Programmerweiterungen) oder Algorithmen.
Die Prozessorengruppe 130 (gemäß Fig. 1) ist bei dem Gerät 201 zur visuellen
Sprachwiedergabe in Form eines Mikroprozessor-Teilsystems 260 und eines Teilsystems
(bzw. Prozessors) 305 zur visuellen Sprachwiedergabe ausgeführt, der in Fig. 2 darge
stellt ist. Wie ausführlich in den hierzu gehörigen Anmeldungen dargestellt, besteht das
Mikroprozessor-Teilsystem 260 aus einem Mikroprozessor oder einer anderen Verarbei
tungseinheit, beispielsweise in Form des Motorola-Bauteils MC68LC302, und einem
Speicher, der einen Direktzugriffsspeicher (RAM) und einen Festwertspeicher (ROM) und
bei dem bevorzugten Ausführungsbeispiel auch einen sogenannten programmierbaren
Flash-Speicher (z. B. Flash-EPROM bzw. E2PROM) umfaßt, wobei die Kommunikations
verbindung über die Busleitung 261 mit der Netzschnittstelle 110, der Benutzerton
schnittstelle 255 und über die Busleitung 263 mit dem Teilsystem 305 zur visuellen
Sprachwiedergabe hergestellt wird. Für den Festwertspeicher wird ebenfalls ein pro
grammierbarer Flash-Speicher verwendet, so daß der Speicherinhalt aus dem Netz 104
heruntergeladen werden kann. Infolgedessen können verschiedene Versionen der Be
triebssoftware (Programmbefehle) wie z. B. Programmverbesserungen realisiert werden,
ohne daß an dem Gerät 201 zur visuellen Sprachwiedergabe Veränderungen vorge
nommen werden müssen und ohne daß der Benutzer eingreifen muß. Das Mikroprozes
sor-Teilsystem 260 sorgt für die Steuerung und Konfigurierung des Prozessors 305 zur
visuellen Sprachwiedergabe, für die Verarbeitung normaler Telefongespräche, von Tele
fongesprächen in Digitaltechnik und wird außerdem zur Implementierung eines ISDN-
Stapels oder eines anderen Protokollstapels eingesetzt, wenn dies für analoge oder digi
tale Bildtelefonieverbindungen erforderlich ist, z. B. bei Meldungsübermittlung mit ITU
Q.931-Protokoll.
Das Teilsystem 305 zur visuellen Sprachwiedergabe, das auch als Prozessor
zur visuellen Sprachwiedergabe bezeichnet wird, kann außerdem aus einem Mikropro
zessor bzw. einer anderen Verarbeitungseinheit wie beispielsweise dem Motorola-Bau
stein MC68LC302 und aus einem Speicher bestehen, der bei dem bevorzugten Ausfüh
rungsbeispiel einen RAM- und einen ROM-Speicher und außerdem einen programmier
baren Flash-Speicher (z. B. Flash-EPROM bzw. E2PROM) umfaßt. Wie Fig. 2 zeigt, gehö
ren zu dem Teilsystem 305 zur visuellen Sprachwiedergabe auch zwei Funktionsblöcke,
und zwar ein Teilsystem (bzw. Prozessor) 307 zur Spracherkennung und ein Teilsystem
(bzw. Prozessor) 309 zur Bildschirmdarstellung.
Je nach Art der Netzschnittstelle 110 und dem zugehörigen bzw. entsprechen
den Netz 104 können die aus dem Netz 104 ankommenden Sprachsignale verschiedene
Formate aufweisen. Beispielsweise werden bei Anschluß an das PSTN-Netz die an
kommenden Sprachsignale in Form analoger Signale von der Netzschnittstelle 110
empfangen und vorzugsweise in ein digitales Format umgewandelt, z. B. in ein impuls
kodemoduliertes (PCM) digitales Sprachsignal. Bei Anschluß an ein Kabelnetz werden
die ankommenden Sprachsignale von der Netzschnittstelle 110 als CACS-Signale oder
als Signale nach einem anderen Empfangsprotokoll empfangen, die dann zur Bildung
eines digital kodierten Sprachsignals, z. B. eines PCM-kodierten Sprachsignals, demodu
liert werden können. Sind die Sprachsignale Teil einer Audio-/Video-Konferenz, so trennt
das Mikroprozessor-Teilsystem 260 das digitale Sprachsignal vom Bildsignalanteil zur
separaten Verarbeitung (wie nachstehend anhand von Fig. 3 erläutert wird). Das digitale
Sprachsignal wird dann zum Teilsystem 307 zur Spracherkennung übermittelt. Bei dem
bevorzugten Ausführungsbeispiel ist das Teilsystem 307 zur Spracherkennung mit einer
Spracherkennungs-Software programmiert, die eine Eigenentwicklung oder auch eine im
Handel erhältliche Software sein kann, z. B. das Softwaresystem zur Spracherkennung
von IBM oder Lexicus (einer Tochtergesellschaft von Motorola, Inc.). Bei dem bevorzug
ten Ausführungsbeispiel kann das Spracherkennungs-Teilsystem 307 im Laufe der Zeit
trainiert werden, um so die Präzision bei der Spracherkennung bei häufigen Anrufern zu
erhöhen. Das Teilsystem 307 zur Spracherkennung generiert aus dem digitalen Sprach
signal eine Textdarstellung der gesprochenen Sprache, die unterschiedlich formatiert
sein kann, d. h. in Form eines Textes im ASCII-Format oder eines Textes in einer ande
ren entsprechend kodierten bzw. formatierten Form. Die Textdarstellung der gesproche
nen Sprache wird dann zum Teilsystem 309 zur Bildschirmdarstellung übertragen, das
ebenfalls mit einer handelsüblichen oder speziell entwickelten Software programmiert ist.
Das Teilsystem 309 zur Bildschirmdarstellung kann auch unter Verwendung einer sepa
raten integrierten Schaltung, z. B. OSD PCA855D von Philips, realisiert werden. Das Teil
system 309 zur Bildschirmdarstellung setzt die Textdarstellung der gesprochenen Spra
che in ein Format zur Bildschirmdarstellung um, das dann als Bildausgangssignal im Ba
sisband an den HF-Modulator 270 ausgegeben wird. Es können auch andere Bildfor
mate herangezogen werden, z. B. das nachstehend anhand von Fig. 3 erläuterte Unter
titelformat. Der HF-Modulator setzt das Bildausgangssignal im Basisband in ein Hochfre
quenz-Bildausgangssignal um, das dann beispielsweise auf Kanal 3 oder 4 über den
zweiten Kommunikationskanal 227 zur Anzeige auf den verschiedenen Fernsehgeräten
240 übertragen wird. Infolgedessen setzt das Gerät 201 zur visuellen Sprachwiedergabe
das empfangene Tonsignal - z. B. in Form eines aus einem Netz kommenden Sprachsi
gnals - in ein Hochfrequenz-Bildausgangssignal um, das dann zu einem oder mehreren
Bildschirmgeräten (z. B. zum Fernsehgerät 240) zur visuellen Anzeige des gesprochenen
Textes übertragen wird.
Wie vorstehend und auch in den hierzu gehörigen Anmeldungen dargestellt,
leitet der Benutzer bei dem bevorzugten Ausführungsbeispiel einen Multimedia-Modus-
z. B. die visuelle Darstellung des Sprachmodus oder eines Videokonferenzmodus - da
durch ein, daß er im Unterschied zum normalen bzw. gewöhnlichen Telefonbetrieb eine
spezielle vorgegebene Folge eintippt, die von dem DSP-Element in der Benutzerton
schnittstelle 255 als Folge für einen Multimedia-Modus erkannt wird. Alternativ kann eine
Vielzahl von Signalfolgen für einen Multimediamodus verwendet werden, wobei jede
vorgegebene Folge speziell für einen gewählten Multimediamodus gilt, z. B. Videomodus
oder Betriebsart mit visueller Sprachwiedergabe. Diese Methodik wird auch im folgenden
anhand des Ablaufdiagramms in Fig. 4 noch erläutert. Für einen Multimedia-Modus sind
bei dem bevorzugten Ausführungsbeispiel die ersten beiden Ziffern der spezifischen
vorgegebenen Folge beispielsweise nur für diese Anwendung reserviert und werden bei
einem üblichen Anruf in POTS-Technik nicht verwendet, z. B. "**"; infolgedessen können
sie speziell dem DSP-Element mitteilen, daß statt eines normalen Telefonbetriebsmodus
nun in einen Multimedia-Modus umgeschaltet werden soll. Alternativ könnte der Benutzer
auch andere spezifische vorgegebene Folgen als Kennung für einen Multimedia-Modus
einprogrammieren. Die verschiedenen Medien-Betriebsarten könnten lokal über eine der
physikalischen Schnittstellen 155 oder aus der Entfernung über einen Anschluß über das
Netz 104 und die Netzschnittstelle eingegeben werden. Unmittelbar nach Dekodierung
der beiden speziellen Ziffern oder einer anderen spezifischen vorgegebenen Folge als
Hinweis auf einen Multimedia-Modus leitet das Gerät 201 zur visuellen Sprachwieder
gabe den Ablauf zur Ansteuerung der visuellen Sprachwiedergabe (bzw. der Multimedia-
Anwendung) ein, beispielsweise dadurch, daß das DSP-Element eine Abfolge zur Auf
forderung in gesprochener Sprache oder per Videodarstellung generiert, abspielt oder
anzeigt, z. B. "Bitte wählen Sie eine Anrufoption oder drücken Sie Taste "#" zur Hilfestel
lung", die im ROM-Teil des Speichers in der Benutzertonschnittstelle 255 abgespeichert
ist. Was das DSP-Element unternimmt erfolgt dann im Ansprechen auf die eingegebene
Folge oder auf den Tastendruck des Benutzers nach der ersten Aufforderung und hängt
davon ab. Wird beispielsweise die Taste "#" gedrückt, kann der Benutzer ein Befehls
menü sehen oder hören, zum Beispiel in dieser Form:
- - "zur Eingabe der visuellen Darstellung gesprochener Sprache - 1 drücken"
- - "zur Eingabe des Videokonferenz-Modus - 2 drücken"
- - "zur Eingabe der Automatisierung im Haus - 3 drücken"
- - "zur Eingabe gesprochener Nachrichten - 4 drücken"
- - "zum nochmaligen Abspielen dieses Menüs - # drücken"
Nach Auswahl des besonderen oder speziellen Medien-Modus durch den Be
nutzer, z. B. Bilddarstellung gesprochener Sprache, generieren das Gerät 201 bzw. das
System 200 zur visuellen Sprachwiedergabe ein Untermenü mit Befehlen oder bringen
dies auf den Bildschirm. Hat beispielsweise der Benutzer eine Betriebsart mit visueller
Anzeige gesprochener Sprache gewählt, kann er ein Untermenü mit Befehlen sehen
oder hören, wie zum Beispiel das folgende:
- - "für Anruf über Rufnummernverzeichnis - * drücken"
- - "für Aktualisierung des Rufnummernverzeichnisses - 2 drücken"
- - "für manuellen Bildtelefonanruf - 3 drücken"
- - "für Zuschaltung der Sprachgenerierung - 4 drücken"
- - "zum nochmaligen Abspielen dieses Menüs - # drücken".
Einer der Vorteile des Rufnummernverzeichnisses des Benutzers besteht bei
dem bevorzugten Ausführungsbeispiel darin, daß durch die Vorauswahl des anzurufen
den Teilnehmers dem Teilsystem 307 für die Spracherkennung mitgeteilt werden kann,
daß ein Teilnehmer angerufen werden soll, den es bereits "gelernt" hat, also ein Teil
nehmer, mit dem das Teilsystem 307 zur Spracherkennung bereits ein gewisses Training
absolviert hat. Infolgedessen kann das Teilsystem 307 zur Spracherkennung im wesent
lichen noch feiner abgestimmt werden, um die Sprechweise einer bestimmten Person zu
erkennen, wodurch die Präzision bei der visuellen Darstellung der hörbaren Sprache
noch verbessert wird. Außerdem kann der Benutzer auch durch Eingabe dieser unter
schiedlichen Steuersignale bei ankommenden Gesprächen dem Teilsystem 307 zur
Spracherkennung einen Hinweis darauf übermitteln, daß ein bestimmter Teilnehmer an
gerufen hat, und zwar wiederum zur Aktivierung dieser Feinabstimmung des Teilsystems
307 zur Spracherkennung auf ein zuvor im Zusammenhang mit dem anrufenden ande
ren Teilnehmer erlerntes Muster.
Damit wird bei dem bevorzugten Ausführungsbeispiel eine automatisierte benut
zerfreundliche Abfolge von Aufforderungen verwendet, um den Benutzer durch den Ab
lauf bzw. die Sequenz zur visuellen Sprachwiedergabe über eine einzige (bzw. inte
grierte) physikalische Schnittstelle, z. B. ein Telefon 150, zu führen, statt über mehrere
und unterschiedliche (und außerdem häufig verwirrende) Schnittstellen. Zu weiteren
noch besser entwickelten Systemen zur Interaktion mit dem Benutzer können auch die
Benutzung des Fernsehgeräts 240 oder eines anderen Bildschirmgeräts zur visuellen
Bildschirmdarstellung eines Menüs mit Optionen gehören, wobei die Steuersignale vom
Benutzer entsprechend eingegeben werden, z. B. als Anrufsteuerinformation oder als
Informationen für einen vorzunehmenden Anruf, was auf unterschiedliche Weise ge
schehen kann, z. B. über die Tastatur auf den Telefonen 150, über eine Verbindung zur
Infrarot-Fernsteuerung mit dem Gerät 201 zur visuellen Sprachwiedergabe, oder mittels
des zweiten Kommunikationskanals 227 (in Fig. 3 dargestellt) über einen Bildeingabe
pfad.
Das Blockschaltbild in Fig. 3 zeigt ein zweites bevorzugtes Ausführungsbeispiel
des erfindungsgemäßen Geräts 301 zur visuellen Sprachwiedergabe und des erfin
dungsgemäßen Systems 300 zur visuellen Sprachwiedergabe (und Sprachgenerierung).
Dabei umfaßt das System 300 zur visuellen Sprachwiedergabe (und Sprachgenerierung)
ein Gerät 301 zur visuellen Sprachwiedergabe und Spracherkennung, mindestens ein
Telefon 150 und eine Tastatur 160 (als physikalische Schnittstellen 155), mindestens ein
Fernsehgerät 240 (als eine Art Bildschirmgerät 225), das über den zweiten Kommunika
tionskanal 227 mit dem Gerät 301 zur visuellen Sprachwiedergabe und Sprachgenerie
rung gekoppelt ist, eine Videokamera 230 und eine Kameraschnittstelle 235. Die Video
kamera 230 und die Kameraschnittstelle 235 werden in den hiermit zusammenhängen
den Anmeldungen im einzelnen beschrieben und hier zum Zwecke der umfassenden
Möglichkeit zur Videokonferenz herangezogen; dies geschieht in der Form, daß ein Vi
deo- bzw. Bildsignal aus der Videokamera 230 und der Kameraschnittstelle 235 in den
Räumen des Benutzers (durch den Demodulator 275) demoduliert und (im Teilsystem
265 zur Audio-/Video-Kompression und -Dekompression) zur Übertragung durch das Ge
rät 301 zur visuellen Sprachwiedergabe und Sprachgenerierung über den ersten Kom
munikationskanal 103 zu einem (hier nicht dargestellten) Netz 104 verarbeitet werden
kann.
Aus Fig. 3 ist des weiteren zu entnehmen, daß das Gerät 301 zur visuellen
Sprachwiedergabe und Sprachgenerierung viele derselben Bauelemente und Baugrup
pen umfaßt, die vorstehend unter Bezugnahme auf Fig. 2 erläutert wurde, z. B. eine
Netzschnittstelle 110, eine Benutzertonschnittstelle 255, ein Mikroprozessor-Teilsystem
260, einen HF-Modulator 270 und einen Richtkoppler 290. Die Vorrichtung zur visuellen
Sprachwiedergabe und Sprachgenerierung umfaßt einen zweiten Typus eines Teilsy
stems (Prozessors) zur visuellen Sprachwiedergabe, nämlich das Teilsystem (bzw. den
Prozessor) 310 zur visuellen Sprachwiedergabe, der dazu eingesetzt wird, für die visu
elle Darstellung gesprochener Sprache ein Untertitelformat zu bilden; des weiteren um
faßt das System auch ein Teilsystem (einen Prozessor) 320 zur Sprachgenerierung, wel
ches eingegebenen Text in hörbare Sprachsignale zur Übertragung in das Netz 104 um
setzt. Die Vorrichtung zur visuellen Sprachwiedergabe und Sprachgenerierung ist außer
dem mit mindestens einem Telefon 150 zur Eingabe von Steuersignalen und einer Ta
statur 160 zur Texteingabe (für die anschließende Sprachgenerierung) gekoppelt. Das
Gerät zur visuellen Sprachwiedergabe und Sprachgenerierung wird ebenfalls in der
Weise gesteuert, wie sie vorstehend anhand des Geräts 201 zur visuellen Sprachwie
dergabe erläutert wurde, und zwar durch Eingabe von Steuersignalen (vorzugsweise
über ein Telefon 150).
Wie in den zugehörigen Anmeldungen ausführlich dargestellt, führt das Teilsy
stem 265 zur Audio-/Video-Kompression und -Dekompression die Kompression und De
kompression von Ton- und Bildsignalen vor, vorzugsweise unter Verwendung von Proto
kollen aus der Serie ITU H.32x; dieses Teilsystem wird in erster Linie für Videokonfe
renzschaltungen eingesetzt. Für die visuelle Darstellung gesprochener Sprache aus dem
Audioteil eines Videokonferenzanrufs (der über ein Netz 04 übertragen wird) dekompri
miert das Teilsystem 265 zur Audio-/Video-Kompression und -Dekompression das Ton
signal und trennt es vom Bildanteil des Videokonferenzanrufs ab. Dabei wird auch der
Bildanteil des Videokonferenzanrufs dekomprimiert und in ein Bildausgangssignal im
Basisband umgewandelt (was in den hierzu gehörenden Anmeldungen im einzelnen be
schrieben wird). Das Tonsignal wird dann vom Teilsystem 307 zur Spracherkennung
verarbeitet, um eine Darstellung der gesprochenen Sprache in Form eines geschriebe
nen Textes zu bilden, wie vorstehend anhand von Fig. 2 erläutert wurde. Die Textdarstel
lung der gesprochenen Sprache wird dann vom Untertitel-Kodierer 311 verarbeitet, in
dem die Textdarstellung in ein Untertitelformat umgesetzt wird, was beispielsweise in der
vertikalen Austastlücke geschehen kann. Der Untertitel-Kodierer 311 kann unter Ver
wendung eines handelsüblichen oder speziell hierfür entwickelten Untertitel-Kodierers
bzw. Prozessors realisiert werden. Das Untertitel-Bildsignal im Basisband wird dann in
einer Mischerstufe 313 mit dem Bildausgangssignal im Basisband (aus dem Bildteil des
Videokonferenzanrufs) gemischt. Das gemischte Bildsignal, das nun die reine Bildinfor
mation und die Untertitelinformation enthält, wird anschließend im HF-Modulator 270 zur
Darstellung auf einem der Fernsehgeräte 240 moduliert und übertragen. Bei diesem
Ausführungsbeispiel mit dem System 301 umfaßt ein Fernsehgerät 240 vorzugsweise
einen Untertiteldekoder zur Dekodierung und Darstellung des Untertitelsignals.
Die zur Darstellung auf den verschiedenen Fernsehern oder anderen Bild
schirmgeräten übertragenen Informationen zur visuellen Sprachwiedergabe können auch
noch weitere Informationen enthalten. Beispielsweise läßt sich auch eine Lautstärkein
formation einbeziehen und darstellen, auch unter Verwendung einer Darstellung mit Si
nuswellen zum Beispiel, wobei eine Amplitude mit der Lautstärke korreliert oder diese
darstellt, oder unter Verwendung eines Fettdruck- oder Unterstreichungsformats, das
ebenfalls mit der Lautstärke oder anderen Hervorhebungen in der gesprochenen Spra
che korreliert.
Die Vorrichtung 301 zur visuellen Sprachwiedergabe und Sprachgenerierung
umfaßt außerdem ein Teilsystem (einen Prozessor) 320 zur Sprachgenerierung, der mit
einer Tastatur 160 zur Texteingabe für die anschließende Umsetzung in gesprochene
Sprache und Übermittlung an ein Netz 104 gekoppelt ist. Bei dem bevorzugten Ausfüh
rungsbeispiel ist das Teilsystem 320 zur Sprachgenerierung, das auch als Sprachgene
rator-Prozessor bezeichnet wird, mit einer Software zur Sprachgenerierung program
miert, die eine Sonderentwicklung für diesen Zweck oder eine handelsübliche Software
sein kann oder unter Verwendung von handelsüblichen integrierten oder anderen
Schaltungselementen realisierbar ist. Wie vorstehend im Hinblick auf ein ankommendes
Signal in gesprochener Sprache erläutert wurde, kann das in das Netz 104 zu übertra
gende Ton- bzw. Sprachsignal je nach Art des Netzanschlusses unterschiedlich gebildet
sein, wobei es sich zum Beispiel um ein analoges Tonsignal zu Übermittlung an ein
PSTN-Netz, ein digitales Sprachsignal zur Übertragung in ein ISDN-Netz oder um ein
Sprachsignal nach CACS-Protokoll zur Übertragung an eine Primärstation und anschlie
ßende Netzkommunikation handeln kann. Vorzugsweise wird zur Generierung von ge
sprochener Sprache Text über die Tastatur 160 in ein Teilsystem 321 zum Festhalten
von Text beispielsweise in ASCII-Kodierung oder in anders kodierter oder auch binärer
Form eingegeben und dann wird der Text aus diesem Format in Sprachformat umgesetzt
(in Wörtern und Satzteilen), was in dem Teilsystem 322 zur Umsetzung von Text in Spra
che geschieht. Das Sprachformatsignal wird dann in dem Sprachsynthesizer 323 in
synthetisierte Sprache umgewandelt und kann danach in jedem geeigneten analogen,
digitalen oder kodierten Format in ein Netz 104 übertragen werden.
Fig. 4 zeigt ein Ablaufdiagramm zur Veranschaulichung eines erfindungsgemä
ßen Verfahrens zur visuellen Sprachwiedergabe und zur Sprachgenerierung. Fig. 4 zeigt
dabei auch die verschiedenen Aufgaben bzw. Betriebsarten eines Telefons - z. B. des
Telefons 150 - bei dem erfindungsgemäßen System auf, unter anderem für den norma
len Telefonbetrieb (in POTS-Technik) zur für Multimedia-Steuerungszwecke, wozu auch
Steuersignale zur Anwahl der Betriebsarten zur visuellen Sprachwiedergabe und zur Vi
deokonferenzschaltung gehören. Gemäß Fig. 4 beginnt das Verfahren mit dem Start
schritt 400 und im Schritt 405 wird eine Bedienungsanforderung erfaßt, zum Beispiel Ab
heben oder Empfangen eines Meldesignals für einen ankommenden Anruf. Als nächstes
erfolgt im Schritt 410 ein Hinweis bzw. eine Meldung an den Benutzer, z. B. mit visuell er
kennbarem oder hörbarem Wählton, ein Läutesignal für einen ankommenden Anruf oder
ein sichtbares Signal zur Meldung eines ankommenden Anrufs, und es werden
Meldeinformationen zusammengefaßt z. B. DTMF-Ziffern für eine Telefonnummer oder
"**". Wurde in Schritt 415 der Betriebsmodus zur visuellen Sprachdarstellung gewählt,
z. B. durch Eingabe von "**" oder wird eine ankommende Meldung aus dem Netz 104
empfangen, verzweigt das Verfahren zum Schritt 435. Wurde im Schritt 415 die Be
triebsart zur visuellen Sprachdarstellung nicht angefordert, so läuft das Verfahren mit der
Anforderung bzw. Anwahl eines normalen Telefongesprächs weiter, z. B. mit Generierung
von DTMF-Tönen und Verbindung eines Audioschaltwegs zwischen dem Telefon des
Benutzers und dem Netz 104 - Schritt 420 - woraufhin in den transparenten Telefonmo
dus geschaltet wird und Audiodaten (im typischen Fall PCM-Daten) im Schritt 425 zum
Netz 104 übermittelt werden. Die Audiodaten wurden zuvor von der Benutzertonschnitt
stelle 255 PCM-kodiert und von der Netzschnittstelle 110 in ein entsprechendes digitales
oder analoges Format (z. B. ISDN, POTS, etc.) zur Weiterleitung in das Netz 104 umge
wandelt. Nach Beendigung des Telefongesprächs im Schritt 430 kann das Verfahren mit
dem Rückkehrschritt 500 beendet sein.
Aus Fig. 4 ist des weiteren ersichtlich, daß bei Anforderung der Betriebsart zur
visuellen Sprachwiedergabe im Schritt 415 das Verfahren zum Schritt 435 verzweigt und
nun feststellt, ob auch Sprachgenerierung angefordert wird. Wurde im Schritt 435 auch
die Sprachgenerierung verlangt so verzweigt das Verfahren auch weiter zum Schritt 475
zur Sprachgenerierung gleichzeitig mit visueller Sprachdarstellung. Wurde im Schritt 415
unabhängig von der Anforderung von Sprachgenerierung im Schritt 435 nur die visuelle
Sprachwiedergabe angefordert, so schaltet das Verfahren zum Schritt 440 weiter und
initialisiert das System zur visuellen Sprachwiedergabe, zum Beispiel durch Abspielen
einer einleitenden gesprochenen oder visuell dargestellten Aufforderung, wie vorstehend
bereits erläutert wurde. Als nächstes wird im Schritt 445 ein Tonsignal empfangen, und
das empfangene Tonsignal wird nun im Schritt 450 in eine Darstellung der gesprochenen
Sprache in Textform umgewandelt. Die Textdarstellung der gesprochenen Sprache wird
anschließend im Schritt 455 in ein Bildausgangssignal im Basisband umgewandelt und
so moduliert, daß im Schritt 460 ein Hochfrequenz-Bildausgangssignal gebildet wird. Das
Hochfrequenz-Bildausgangssignal wird anschließend im Schritt 465 zu einem Bild
schirmgerät übertragen. Nach Beendigung des Schrilles der visuellen Sprachdarstellung
im Schritt 470 kann das Verfahren zur visuellen Sprachwiedergabe mit dem Rückkehr
schritt 500 beendet werden.
Wurde im Schritt 435 auch gleichzeitig mit dem Arbeitsgang zur visuellen
Sprachwiedergabe in den vorstehend erläuterten Schritten 440 bis 470 die Sprachgene
rierung angefordert, so verzweigt das Verfahren zum Schritt 475, um das Teilsystem zur
Sprachgenerierung zu initialisieren, was ebenfalls über die vorstehend dargestellten
sichtbaren oder hörbaren Aufforderungen geschieht. Als nächstes wird im Schritt 480
eingegebener Text empfangen und im Schritt 485 wird der empfangene Eingabetext in
ein Sprachsignal umgesetzt, das ein analog oder ein digital kodiertes Sprachsignal sein
kann. Im Schritt 490 wird dann das Sprachsignal beispielsweise zu einem Telekommuni
kationsnetz übertragen; wenn dann der Arbeitsgang zur Sprachgenerierung im Schritt
495 beendet ist, kann das Verfahren mit dem Rückkehrschritt 500 beendet sein.
Zahlreiche Vorteile der verschiedenen erfindungsgemäßen Vorrichtungen, Ver
fahrensweisen und Systeme liegen klar auf der Hand. Zunächst sorgen die verschiede
nen Geräte, Verfahren und Vorrichtungen gemäß der vorliegenden Erfindung für die vi
suelle Darstellung bzw. Wiedergabe von gesprochener Sprache, ohne daß lokal und am
entfernt liegenden Ort bei einer Kommunikationsverbindung speziell nur für diesen
Zweck vorgesehene Geräte und Systeme vorausgesetzt werden. Dabei kann jedes Tele
fon am entfernten bzw. weit abliegenden anderen Ende eingesetzt werden, wobei die
übermittelten Informationen in gesprochener Sprache auf jedem angeschlossenen Fern
sehgerät oder einem anderen Bildschirmgerät überall in den Räumen lokal beim Benut
zer angezeigt werden können. Außerdem ist bei den verschiedenen Ausführungsbeispie
len der vorliegenden Erfindung kein größerer Aufwand an manueller Betätigung für den
Betrieb erforderlich. Beispielsweise ist es im Gegensatz zu Geräten nach dem Stand der
Technik nicht erforderlich, den visuell darzustellenden Text über eine Tastatur einzuge
ben. Außerdem entfällt die Notwendigkeit Systeme doppelt vorzusehen, so daß Gerät
zur visuellen Sprachwiedergabe nur lokal am Kommunikationsort benötigt wird und sich
damit die vorliegende Erfindung vergleichsweise kostengünstig realisieren läßt. Außer
dem sind die erfindungsgemäßen Vorrichtungen und Systeme benutzerfreundlich, indem
sie den Benutzer systematisch durch das Verfahren zum Einsatz und zur Steuerung des
Arbeitsgangs zur visuellen Sprachdarstellung führen.
Ein weiteres wichtiges Merkmal der erfindungsgemäßen Vorrichtung, des Ver
fahrens und der Systeme besteht darin, daß es sich um ein offenes System handelt, so
daß jeder Benutzer des Geräts zur visuellen Sprachdarstellung mit jedem anderen kom
munizieren kann, der Zugang zu einem Telefon hat, wodurch ein Kommunikationsmodell
geschaffen wird, bei dem jeder mit allen kommunizieren kann, da ein modernes Telefon
überall anzutreffen ist. Dieser Vorteil steht in deutlichem Kontrast zu den geschlossenen
Systemen nach dem Stand der Technik, bei denen speziell nur für diese Zwecke aus
gebildete Systeme an allen Kommunikationspunkten vorhanden sein müssen, wodurch
ein Kommunikationsmodell entsteht, bei dem einer nur mit jenen paar anderen kommu
nizieren kann, die zu diesen spezialisierten zweckgebundenen Geräten und Systemen
Zugang haben. Gemäß der vorliegenden Erfindung kann jeder Hörbehinderte über ein
normales Telekommunikationsnetz mit jedem anderen Teilnehmer kommunizieren, ohne
daß an einem dieser entfernten Orte, an denen sich der andere Teilnehmer befindet,
eine besondere Ausrüstung benötigt wird. Dieses Merkmal eines offenen Systems ist
wirklich revolutionär und bisher einmalig, da es erstmals eine universelle Möglichkeit zur
Kommunikation mit Hörbehinderten über ein ganz normales Telekommunikationsnetz
bietet, das sich irgendwo auf der Welt befindet.
Claims (10)
1. Vorrichtung zur visuellen Wiedergabe von Sprache, dadurch gekennzeichnet,
daß sie folgendes aufweist:
eine Netzschnittstelle (110), die mit einem ersten Kommunikationskanal (103) zum Empfangen eines ersten Tonsignals zur Bildung eines Tonempfangssignals koppel bar ist;
einen Hochfrequenzmodulator (270) zur Umwandlung eines Bildausgangs signals im Basisband in ein Hochfrequenz-Bildausgangssignal auf einem zweiten Kom munikationskanal (227) zur Bildanzeige; und
eine Prozessorengruppe (130), welche mit der Netzschnittstelle (110) und dem Hochfrequenzmodulator (270) gekoppelt ist und unter Ansteuerung durch einen Satz Programmbefehle in der Weise anspricht, daß sie das Tonempfangssignal in eine Sprachwiedergabe in Text:form umsetzt und weiterhin die Textdarstellung gesprochener Sprache in das Bildausgangssignal im Basisband umsetzt.
eine Netzschnittstelle (110), die mit einem ersten Kommunikationskanal (103) zum Empfangen eines ersten Tonsignals zur Bildung eines Tonempfangssignals koppel bar ist;
einen Hochfrequenzmodulator (270) zur Umwandlung eines Bildausgangs signals im Basisband in ein Hochfrequenz-Bildausgangssignal auf einem zweiten Kom munikationskanal (227) zur Bildanzeige; und
eine Prozessorengruppe (130), welche mit der Netzschnittstelle (110) und dem Hochfrequenzmodulator (270) gekoppelt ist und unter Ansteuerung durch einen Satz Programmbefehle in der Weise anspricht, daß sie das Tonempfangssignal in eine Sprachwiedergabe in Text:form umsetzt und weiterhin die Textdarstellung gesprochener Sprache in das Bildausgangssignal im Basisband umsetzt.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß sie eine mit der
Netzschnittstelle (110) und der Prozessorengruppe (130) gekoppelte Benutzerschnitt
stelle (120) zum Empfangen eines Steuersignals aus einer Vielzahl von Steuersignalen
aufweist.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Benutzer
schnittstelle außerdem mit einer physikalischen Schnittstelle für die Eingabe der Vielzahl
von Steuersignalen koppelbar ist.
4. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die physikalische
Schnittstelle ein Telefon ist.
5. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die physikalische
Schnittstelle eine Tastatur ist.
6. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die physikalische
Schnittstelle ein Rechner ist.
7. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß in der Prozessor
anordnung (130) eine Vielzahl von Betriebsarten vorgesehen ist, zu denen eine Telefon
betriebsart und eine Betriebsart mit visueller Sprachwiedergabe gehören, und daß die
Prozessorengruppe (130) des weiteren mit Auswahl der Betriebsart mit visueller Sprach
darstellung auf ein Steuersignal anspricht.
8. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Prozessoran
ordnung folgendes umfaßt:
ein Mikroprozessor-Teilsystem (260);
einen mit dem Mikroprozessor-Teilsystem (260) gekoppelten Speicher; und
einen mit dem Mikroprozessor-Teilsystem (260) und dem Speicher gekoppelten Prozessor (305) zur visuellen Sprachwiedergabe.
ein Mikroprozessor-Teilsystem (260);
einen mit dem Mikroprozessor-Teilsystem (260) gekoppelten Speicher; und
einen mit dem Mikroprozessor-Teilsystem (260) und dem Speicher gekoppelten Prozessor (305) zur visuellen Sprachwiedergabe.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Prozessor
(305) zur visuellen Sprachwiedergabe weiterhin folgendes umfaßt:
einen Prozessor (307) zur Spracherkennung; und
einen mit dem Prozessor (307) zur Spracherkennung gekoppelten Prozessor (309) für die Wiedergabe auf einem Bildschirm.
einen Prozessor (307) zur Spracherkennung; und
einen mit dem Prozessor (307) zur Spracherkennung gekoppelten Prozessor (309) für die Wiedergabe auf einem Bildschirm.
10. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Prozessor
(305) zur visuellen Sprachwiedergabe weiterhin folgendes umfaßt:
einen Prozessor (307) zur Spracherkennung; und
einen mit dem Prozessor (307) zur Spracherkennung gekoppelten Untertitelko dierer (311).
einen Prozessor (307) zur Spracherkennung; und
einen mit dem Prozessor (307) zur Spracherkennung gekoppelten Untertitelko dierer (311).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/751,048 US5774857A (en) | 1996-11-15 | 1996-11-15 | Conversion of communicated speech to text for tranmission as RF modulated base band video |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19750439A1 true DE19750439A1 (de) | 1998-05-20 |
Family
ID=25020251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19750439A Withdrawn DE19750439A1 (de) | 1996-11-15 | 1997-11-14 | Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation |
Country Status (8)
Country | Link |
---|---|
US (1) | US5774857A (de) |
CN (1) | CN1190840A (de) |
AU (1) | AU4443697A (de) |
BR (1) | BR9705853A (de) |
DE (1) | DE19750439A1 (de) |
GB (1) | GB2319390A (de) |
ID (1) | ID18881A (de) |
RU (1) | RU97119737A (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10045081A1 (de) * | 2000-09-12 | 2002-03-28 | Mende Speech Solutions Gmbh & | Vorrichtung und Verfahren zum graphischen Darstellen und zum Übertragen von Informationen |
DE10031832C2 (de) * | 2000-06-30 | 2003-04-30 | Cochlear Ltd | Hörgerät zur Rehabilitation einer Hörstörung |
Families Citing this family (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240392B1 (en) * | 1996-08-29 | 2001-05-29 | Hanan Butnaru | Communication device and method for deaf and mute persons |
US6181736B1 (en) * | 1997-03-25 | 2001-01-30 | Nxi Communications, Inc. | Network communication system |
US7194083B1 (en) | 2002-07-15 | 2007-03-20 | Bellsouth Intellectual Property Corporation | System and method for interfacing plain old telephone system (POTS) devices with cellular networks |
US7149514B1 (en) | 1997-07-30 | 2006-12-12 | Bellsouth Intellectual Property Corp. | Cellular docking station |
US20080207197A1 (en) * | 1997-07-30 | 2008-08-28 | Steven Tischer | Apparatus, method, and computer-readable medium for interfacing devices with communications networks |
US6868226B1 (en) * | 1997-08-12 | 2005-03-15 | Index Systems, Inc. | Apparatus and methods for voice titles |
US20020031331A1 (en) * | 1997-08-12 | 2002-03-14 | Index Systems, Inc. | Apparatus and methods for voice titles |
US5961589A (en) * | 1997-09-09 | 1999-10-05 | Intel Corporation | Emulation of analog modem signaling over IDSN for translation-less interoperability with PSTN based H.324 system |
US6009383A (en) * | 1997-10-30 | 1999-12-28 | Nortel Networks Corporation | Digital connection for voice activated services on wireless networks |
DE19754297A1 (de) * | 1997-12-08 | 1999-06-10 | Thomson Multimedia Sa | Audiodatendekoder |
US6452640B1 (en) * | 1997-12-24 | 2002-09-17 | E Guide Inc. | Sound bite augmentation |
JP2000023132A (ja) * | 1998-07-06 | 2000-01-21 | Canon Inc | データ通信制御装置及びその制御方法、及びデータ通信システム |
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US7137126B1 (en) * | 1998-10-02 | 2006-11-14 | International Business Machines Corporation | Conversational computing via conversational virtual machine |
US6754631B1 (en) | 1998-11-04 | 2004-06-22 | Gateway, Inc. | Recording meeting minutes based upon speech recognition |
US6243676B1 (en) * | 1998-12-23 | 2001-06-05 | Openwave Systems Inc. | Searching and retrieving multimedia information |
US6411802B1 (en) * | 1999-03-15 | 2002-06-25 | Bellsouth Intellectual Property Management Corporation | Wireless backup telephone device |
US6377822B1 (en) * | 1999-04-28 | 2002-04-23 | Avaya Technology Corp. | Wireless telephone for visually displaying progress messages |
US7016835B2 (en) * | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
US7385940B1 (en) * | 1999-12-15 | 2008-06-10 | Cisco Technology, Inc. | System and method for using a plurality of processors to support a media conference |
US6377925B1 (en) | 1999-12-16 | 2002-04-23 | Interactive Solutions, Inc. | Electronic translator for assisting communications |
US7047191B2 (en) * | 2000-03-06 | 2006-05-16 | Rochester Institute Of Technology | Method and system for providing automated captioning for AV signals |
US8868769B2 (en) * | 2000-03-14 | 2014-10-21 | Noah Prywes | System and method for obtaining responses to tasks |
JP2002297496A (ja) * | 2001-04-02 | 2002-10-11 | Hitachi Ltd | メディア配信システム及びマルチメディア変換サーバ |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US20030046710A1 (en) * | 2001-09-05 | 2003-03-06 | Moore John F. | Multi-media communication system for the disabled and others |
US6763089B2 (en) * | 2001-10-12 | 2004-07-13 | Nortel Networks Limited | System for enabling TDD communication in a telephone network and method for using same |
CN1218574C (zh) * | 2001-10-15 | 2005-09-07 | 华为技术有限公司 | 交互式视频设备及其字幕叠加方法 |
JP2003143256A (ja) | 2001-10-30 | 2003-05-16 | Nec Corp | 端末装置と通信制御方法 |
US6690770B2 (en) | 2001-11-08 | 2004-02-10 | Sbc Technology Resources, Inc. | TTY enhancement of busy condition prompt |
US7120454B1 (en) | 2001-12-26 | 2006-10-10 | Bellsouth Intellectual Property Corp. | Auto sensing home base station for mobile telephone with remote answering capabilites |
US8265931B2 (en) | 2002-01-22 | 2012-09-11 | At&T Intellectual Property Ii, L.P. | Method and device for providing speech-to-text encoding and telephony service |
US7027986B2 (en) * | 2002-01-22 | 2006-04-11 | At&T Corp. | Method and device for providing speech-to-text encoding and telephony service |
US7847864B1 (en) * | 2002-03-01 | 2010-12-07 | Broadcom Corporation | All digital radio frequency modulator |
US6693663B1 (en) | 2002-06-14 | 2004-02-17 | Scott C. Harris | Videoconferencing systems with recognition ability |
US8416804B2 (en) | 2002-07-15 | 2013-04-09 | At&T Intellectual Property I, L.P. | Apparatus and method for providing a user interface for facilitating communications between devices |
US7200424B2 (en) | 2002-07-15 | 2007-04-03 | Bellsouth Intelectual Property Corporation | Systems and methods for restricting the use and movement of telephony devices |
US8275371B2 (en) | 2002-07-15 | 2012-09-25 | At&T Intellectual Property I, L.P. | Apparatus and method for providing communications and connection-oriented services to devices |
US8000682B2 (en) | 2002-07-15 | 2011-08-16 | At&T Intellectual Property I, L.P. | Apparatus and method for restricting access to data |
US8526466B2 (en) | 2002-07-15 | 2013-09-03 | At&T Intellectual Property I, L.P. | Apparatus and method for prioritizing communications between devices |
US8554187B2 (en) | 2002-07-15 | 2013-10-08 | At&T Intellectual Property I, L.P. | Apparatus and method for routing communications between networks and devices |
US8543098B2 (en) | 2002-07-15 | 2013-09-24 | At&T Intellectual Property I, L.P. | Apparatus and method for securely providing communications between devices and networks |
WO2004029935A1 (en) * | 2002-09-24 | 2004-04-08 | Rad Data Communications | A system and method for low bit-rate compression of combined speech and music |
US7072684B2 (en) * | 2002-09-27 | 2006-07-04 | International Business Machines Corporation | Method, apparatus and computer program product for transcribing a telephone communication |
WO2005003902A2 (en) * | 2003-06-24 | 2005-01-13 | Johnson & Johnson Consumer Companies, Inc. | Method and system for using a database containing rehabilitation plans indexed across multiple dimensions |
WO2005002433A1 (en) * | 2003-06-24 | 2005-01-13 | Johnson & Johnson Consumer Compagnies, Inc. | System and method for customized training to understand human speech correctly with a hearing aid device |
US20050085343A1 (en) * | 2003-06-24 | 2005-04-21 | Mark Burrows | Method and system for rehabilitating a medical condition across multiple dimensions |
US7567908B2 (en) | 2004-01-13 | 2009-07-28 | International Business Machines Corporation | Differential dynamic content delivery with text display in dependence upon simultaneous speech |
US8954844B2 (en) * | 2004-01-13 | 2015-02-10 | Nuance Communications, Inc. | Differential dynamic content delivery with text display in dependence upon sound level |
WO2005125281A1 (en) * | 2004-06-14 | 2005-12-29 | Johnson & Johnson Consumer Companies, Inc. | System for and method of optimizing an individual’s hearing aid |
US20080253579A1 (en) * | 2004-06-14 | 2008-10-16 | Johnson & Johnson Consumer Companies, Inc. | At-Home Hearing Aid Testing and Clearing System |
WO2005125278A2 (en) * | 2004-06-14 | 2005-12-29 | Johnson & Johnson Consumer Companies, Inc. | At-home hearing aid training system and method |
EP1767058A4 (de) * | 2004-06-14 | 2009-11-25 | Johnson & Johnson Consumer | Hörgerät-tonsimulationssystem und verfahren zur verwendung des systems |
WO2005125282A2 (en) * | 2004-06-14 | 2005-12-29 | Johnson & Johnson Consumer Companies, Inc. | System for and method of increasing convenience to users to drive the purchase process for hearing health that results in purchase of a hearing aid |
EP1769412A4 (de) * | 2004-06-14 | 2010-03-31 | Johnson & Johnson Consumer | Audiologen-geräteschnittstellen-benutzerdatenbank zur bereitstellung auraler rehabilitierung von hörverlust über mehrere hördimensionen hinweg |
EP1765153A4 (de) * | 2004-06-14 | 2009-07-22 | Johnson & Johnson Consumer | System und verfahren zur bequemen und automatischen prüfung des gehörs einer person |
WO2005125275A2 (en) * | 2004-06-14 | 2005-12-29 | Johnson & Johnson Consumer Companies, Inc. | System for optimizing hearing within a place of business |
EP1767061A4 (de) * | 2004-06-15 | 2009-11-18 | Johnson & Johnson Consumer | Kostengünstige, programmierbare, zeitlich begrenzte hörgerätevorrichtung, benutzungsverfahren und system zu ihrer programmierung |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
KR100735700B1 (ko) * | 2005-06-03 | 2007-07-06 | 엘지전자 주식회사 | 방송용 단말기 및 이를 이용한 문자음성통화 방법 |
US7561178B2 (en) * | 2005-09-13 | 2009-07-14 | International Business Machines Corporation | Method, apparatus and computer program product for synchronizing separate compressed video and text streams to provide closed captioning and instant messaging integration with video conferencing |
US7830408B2 (en) | 2005-12-21 | 2010-11-09 | Cisco Technology, Inc. | Conference captioning |
CN101309390B (zh) | 2007-05-17 | 2012-05-23 | 华为技术有限公司 | 视讯通信系统、装置及其字幕显示方法 |
US8180644B2 (en) | 2008-08-28 | 2012-05-15 | Qualcomm Incorporated | Method and apparatus for scrolling text display of voice call or message during video display session |
US10032455B2 (en) | 2011-01-07 | 2018-07-24 | Nuance Communications, Inc. | Configurable speech recognition system using a pronunciation alignment between multiple recognizers |
CN104769668B (zh) | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
US9344562B2 (en) * | 2012-11-30 | 2016-05-17 | At&T Intellectual Property I, Lp | Apparatus and method for managing interactive television and voice communication services |
EP2899957A1 (de) * | 2014-01-22 | 2015-07-29 | Phonetica Lab S.R.L. | System zur Integration von Videoanrufen in Fernsprechzentren |
US20150371655A1 (en) * | 2014-06-19 | 2015-12-24 | Yang Gao | Acoustic Echo Preprocessing for Speech Enhancement |
KR102281341B1 (ko) * | 2015-01-26 | 2021-07-23 | 엘지전자 주식회사 | 싱크 디바이스 및 그 제어 방법 |
US10250846B2 (en) * | 2016-12-22 | 2019-04-02 | T-Mobile Usa, Inc. | Systems and methods for improved video call handling |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN108428454A (zh) * | 2017-12-27 | 2018-08-21 | 广州音书科技有限公司 | 一种用于实时语音识别的音频线及系统 |
US11601548B2 (en) * | 2019-05-17 | 2023-03-07 | Beryl Burcher | Captioned telephone services improvement |
CN110223575A (zh) * | 2019-05-20 | 2019-09-10 | 西安电子科技大学 | 一种虚实一体无线通信系统的综合测定系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4181813A (en) * | 1978-05-08 | 1980-01-01 | John Marley | System and method for speech recognition |
US4707858A (en) * | 1983-05-02 | 1987-11-17 | Motorola, Inc. | Utilizing word-to-digital conversion |
JPS61252596A (ja) * | 1985-05-02 | 1986-11-10 | 株式会社日立製作所 | 文字音声通信方式及び装置 |
AT390685B (de) * | 1988-10-25 | 1990-06-11 | Philips Nv | System zur textverarbeitung |
US5212551A (en) * | 1989-10-16 | 1993-05-18 | Conanan Virgilio D | Method and apparatus for adaptively superimposing bursts of texts over audio signals and decoder thereof |
US5146502A (en) * | 1990-02-26 | 1992-09-08 | Davis, Van Nortwick & Company | Speech pattern correction device for deaf and voice-impaired |
US5659793A (en) * | 1994-12-22 | 1997-08-19 | Bell Atlantic Video Services, Inc. | Authoring tools for multimedia application development and network delivery |
US5677739A (en) * | 1995-03-02 | 1997-10-14 | National Captioning Institute | System and method for providing described television services |
US5543851A (en) * | 1995-03-13 | 1996-08-06 | Chang; Wen F. | Method and apparatus for translating closed caption data |
-
1996
- 1996-11-15 US US08/751,048 patent/US5774857A/en not_active Expired - Lifetime
-
1997
- 1997-11-10 AU AU44436/97A patent/AU4443697A/en not_active Abandoned
- 1997-11-13 GB GB9723879A patent/GB2319390A/en not_active Withdrawn
- 1997-11-14 RU RU97119737/09A patent/RU97119737A/ru not_active Application Discontinuation
- 1997-11-14 BR BR9705853A patent/BR9705853A/pt not_active Application Discontinuation
- 1997-11-14 DE DE19750439A patent/DE19750439A1/de not_active Withdrawn
- 1997-11-14 CN CN97122679.2A patent/CN1190840A/zh active Pending
- 1997-11-14 ID IDP973678A patent/ID18881A/id unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10031832C2 (de) * | 2000-06-30 | 2003-04-30 | Cochlear Ltd | Hörgerät zur Rehabilitation einer Hörstörung |
US7376563B2 (en) | 2000-06-30 | 2008-05-20 | Cochlear Limited | System for rehabilitation of a hearing disorder |
DE10045081A1 (de) * | 2000-09-12 | 2002-03-28 | Mende Speech Solutions Gmbh & | Vorrichtung und Verfahren zum graphischen Darstellen und zum Übertragen von Informationen |
Also Published As
Publication number | Publication date |
---|---|
BR9705853A (pt) | 1999-03-16 |
GB2319390A (en) | 1998-05-20 |
RU97119737A (ru) | 1999-09-20 |
ID18881A (id) | 1998-05-20 |
US5774857A (en) | 1998-06-30 |
AU4443697A (en) | 1998-05-21 |
GB9723879D0 (en) | 1998-01-07 |
CN1190840A (zh) | 1998-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19750439A1 (de) | Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation | |
DE69935829T2 (de) | Sprachmenüsystem mit Textunterstützung | |
DE3823219C1 (de) | ||
DE19543870B4 (de) | Mensch/Maschine-Schnittstelle für den Telefonmerkmalabruf | |
EP0440063B1 (de) | Breitbandnebenstellenanlage | |
DE19741241A1 (de) | Bildtelefongerät, Verfahren und System für Ton- und Bildkonferenzschaltung und Telefonie | |
DE2418391A1 (de) | Elektronisches fernmelde-endgeraet | |
DE2719827A1 (de) | System zur auswahl und wiedergabe von bildschirmtext | |
DE69831536T2 (de) | Verfahren zur Steuerung eines Telekommunikationsdienst und eines Endgerät | |
DE19923958A1 (de) | System und Verfahren zur automatisierten Rückkehr zu einer Nachrichten-Mailbox | |
EP0823819A2 (de) | Digitaler ISDN-Video-Server | |
US5903302A (en) | Automated video call distribution | |
DE19707878B4 (de) | Verfahren und Vorrichtung zur Übertragung von alphanumerischen Zeichen zwischen wenigstens zwei Telekommunikations-Endeinrichtungen | |
DE19744056A1 (de) | Videotelefonvorrichtung, Verfahren und System für Drahtleitungs-Audio- und Videokonferenzen und Telefongespräche | |
EP0975182B1 (de) | Telekommunikationsgerät mit Schnittstelle zu einem Fernsehgerät als Monitor für Telekommunikations-Anwendungen | |
DE3223769A1 (de) | Datenfaehiges fernsprechendgeraet | |
DE19751870A1 (de) | Gerät, Verfahren und System für drahtlose Ton- und Bildkonferenzschaltung und Telefonie | |
EP1252766B1 (de) | Telekommunikationsanlage | |
DE4326826C2 (de) | MFV-Sendeeinrichtung und Telekommunikationsanordnung zur Fernbedienung von Anrufbeantwortern | |
DE19618785B4 (de) | Verfahren zum automatischen Verbinden eines ankommenden Rufs mit einem auswärtigen Platz in einem automatischen Antworttelefon, in dem der Dienst "Makeln" zugelassen ist | |
DE69533346T2 (de) | Tragbares Vielfach-Nachrichtenübertragungsgerät | |
DE19534746C2 (de) | Schnittstelleneinrichtung zur Verbindung eines Computers mit dem ISDN-Netz | |
DE3347047A1 (de) | Telefoneinrichtung mit einem teilnehmergeraet zum abfragen von informationen, eingeben von antworten und zum erzeugen von nachrichten digitalcodierter art | |
DE19943742B4 (de) | Verfahren zum Zurverfügungstellen zusätzlicher Dienste an einem Teilnehmeranschluß | |
WO1993005606A1 (de) | Fernsprecheinrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8139 | Disposal/non-payment of the annual fee |