DE19750439A1 - Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation - Google Patents

Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation

Info

Publication number
DE19750439A1
DE19750439A1 DE19750439A DE19750439A DE19750439A1 DE 19750439 A1 DE19750439 A1 DE 19750439A1 DE 19750439 A DE19750439 A DE 19750439A DE 19750439 A DE19750439 A DE 19750439A DE 19750439 A1 DE19750439 A1 DE 19750439A1
Authority
DE
Germany
Prior art keywords
speech
processor
visual
reproduction
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19750439A
Other languages
English (en)
Inventor
Douglas J Newlin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE19750439A1 publication Critical patent/DE19750439A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/04Devices for conversing with the deaf-blind
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich ganz allgemein auf die Ton- und Bild­ kommunikation und insbesondere auf eine Vorrichtung, ein Verfahren und ein System zur visuellen Wiedergabe von Sprache in der Kommunikation.
Stand der Technik
Herkömmliche Geräte und Verfahren zur visuellen Wiedergabe gesprochener Sprache wie beispielsweise die sogenannten TDD-Systeme für Hörbehinderte bzw. Hör­ geschädigte setzen im typischen Fall sowohl spezielle Systeme als auch eine Eingabe des anzuzeigenden Materials für die visuelle Wiedergabe durch den Benutzer voraus. Beispielsweise wird für Telephongespräche oder Kommunikationssitzungen für den Hör­ behinderten ein spezielles TDD-System für die visuelle Anzeige von Buchstaben, Wör­ tern und Sätzen vorausgesetzt, und dabei müssen alle Teilnehmer an der Kommunikati­ onsverbindung ein solches speziell hierfür vorgesehenes System benutzen. Außerdem muß jeder Teilnehmer bei dem Telefongespräch bei Verwendung eines TDD-Systems jeden Buchstaben, jedes Wort und jeden Satz physikalisch auf einer Tastatur eingeben, damit diese Informationen dann zur Anzeige auf einem TDD-System am entfernt liegen­ den Ende übermittelt werden.
Bei anderen konventionellen Systemen ist außerdem besonders ein Eingreifen von Hand erforderlich, wobei das anzuzeigende visuelle Material separat körperlich ein­ gegeben werden muß. Beispielsweise ist es bei vielen Untertiteldiensten für geschlos­ sene Benutzergruppen, wie sie auf vielen Fernsehkanälen zur Verfügung stehen, erfor­ derlich, daß die hörbaren gesprochenen Wörter von einem Diensteanbieter übersetzt und zur Übertragung als Teil der Ton-/Bildsendung oder einer anderen Fernsehsendung in das Untertitelsystem für die geschlossene Benutzergruppe mittels Tastatur eingege­ ben werden.
Diese konventionellen Systeme zur visuellen Anzeige gesprochener Sprache setzen im allgemeinen zweckbestimmte Spezialsysteme sowohl vor Ort wie auch am entfernten Punkt der Verbindung voraus und erfordern einen erheblichen Umfang ma­ nueller Eingriffe für den Betrieb. Infolgedessen sind derartige Systeme relativ kostspielig und schwierig zu bedienen. Außerdem unterliegen Systeme dieser Art Beschränkungen hinsichtlich ihrer Verfügbarkeit und Aufstellung; beispielsweise können diese TDD-Sy­ steme auf Reisen nur mit Schwierigkeiten aufgestellt oder lokalisiert werden, so daß die Kommunikation mit einer hörbehinderten Person über das Telefon unmöglich wird. Au­ ßerdem kann der Benutzer, der auf ein derartiges System angewiesen ist, nicht mit ei­ nem anderen Teilnehmer kommunizieren, dem ein spezielles System für diesen Zweck nicht zur Verfügung steht.
Dementsprechend blieb Bedarf an einem solchen Gerät, Verfahren und System zur visuellen Sprachanzeige, bei denen spezielle Geräte und Systeme nicht an beiden Enden der Kommunikationsverbindung vorhanden sein müssen. Außerdem sollten ein Gerät und ein System dieser Art keinen erheblichen Aufwand an manueller Betätigung für den Betrieb erfordern, sie sollten vergleichsweise kostengünstig und außerdem be­ nutzerfreundlich sein.
Kurzbeschreibung der Zeichnung
Fig. 1 zeigt ein Blockschaltbild zur Darstellung eines erfindungsgemäßen Geräts und Systems zur visuellen Sprachwiedergabe;
Fig. 2 ist ein Blockschaltbild mit der Darstellung eines ersten bevorzugten Aus­ führungsbeispiels eines erfindungsgemäßen Geräts und Systems zur visuellen Sprach­ wiedergabe;
Fig. 3 zeigt ein Blockschaltbild zur Darstellung eines zweiten bevorzugten Aus­ führungsbeispiels eines erfindungsgemäßen Geräts und Systems zur visuellen Sprach­ wiedergabe; und
Fig. 4 ist ein Ablaufdiagramm zur Veranschaulichung eines erfindungsgemäßen Verfahrens zur visuellen Sprachwiedergabe und Spracherzeugung.
Ausführliche Beschreibung der Erfindung
Wie vorstehend bereits angesprochen blieben verschiedene Bedürfnisse für Möglichkeiten zur visuellen Sprachwiedergabe, beispielsweise unter anderem in einem Textformat oder einem Untertitelformat, als Hilfsmittel für Hörbehinderte bestehen. Die erfindungsgemäße Vorrichtung mit zugehörigem Verfahren und System baut auf den verwandten und damit zusammenhängenden Anmeldungen auf und sorgt für die visuelle Wiedergabe gesprochener Sprache, ohne daß hierfür vor Ort und am entfernten Ende der Kommunikationsverbindung hierzu spezielle Geräte und Systeme erforderlich sind. Außerdem setzen auch die verschiedenen Ausführungsbeispiele der Erfindung ebenfalls keinerlei erhebliche Betätigungseingriffe von Hand für den Betrieb voraus und sind dabei vergleichsweise kostengünstig und benutzerfreundlich.
Die in den verschiedenen hiermit zusammenhängenden Anmeldungen be­ schriebenen Erfindungen beziehen sich sowohl auf die Telefonkonferenztechnik als auch auf audiovisuelle Konferenztechnik und arbeiten mit einer Vorrichtung für den Zu­ griff auf Video- bzw. Bildinformationen, welche über einen Kommunikationskanal mit ei­ nem Telekommunikationsnetz gekoppelt werden kann. In der zweiten und drillen hiermit zusammenhängenden Anmeldung bezieht sich das dort bevorzugte Ausführungsbeispiel auf die Vorrichtung für den Zugriff auf Bildinformationen sowie für audiovisuelle Konfe­ renztechnik unter Heranziehung eines sogenannten CACS-Protokolls (Cable ACcess System; Kabelzugangssystem) zur Kommunikation mit einer Hauptstation über ein ko­ axiales Hybrid-Koaxkabel, wobei die Primärstation ihrerseits für die Anschlußmöglichkei­ ten an ein Telekommunikationsnetz und eine Infrastruktur für Kabelfernsehdienste sorgt. Bei der hiermit zusammenhängenden vierten und fünften Anmeldung sieht die Vorrich­ tung für den Zugriff auf Bildinformationen sowohl Telekonferenzmöglichkeiten als auch Möglichkeiten für Audio-/Video-Konferenzen mit direkten festverdrahteten Anschlußmög­ lichkeiten an ein Telekommunikationsnetz vor, wobei eine festverkabelte Netzschnitt­ stelle eingesetzt wird, die sich beispielsweise für den Anschluß an ein ISDN-Netz (Integrated Services Digital Network; digitales Netz mit integrierten Diensten) und/oder an ein PSTN-Netz (Public Switched Telephone Network; öffentliches Telefonnetz mit Wählsystem) eignet.
Bei den bevorzugten Ausführungsbeispielen der hiermit zusammenhängenden zweiten und vierten Anmeldung ist die Möglichkeit für Videokonferenzen unter Verwen­ dung üblicher oder allgemein bekannter Geräte und Vorrichtungen vorgesehen, wie sie typischerweise in Räumen oder bei Teilnehmern zu finden sind, z. B. Telefone, Fernseher und Videokameras (Video-Camcorder). Bei der hiermit zusammenhängenden dritten und fünften Anmeldung ist eine solche Möglichkeit zur Videokonferenz unter Verwendung ei­ nes oder mehrerer Bildtelefongeräte vorgesehen. Was allerdings allen diesen hiermit zu­ sammenhängenden Anmeldungen gemeinsam ist, ist die Verwendung einer physikali­ schen Schnittstelle (z. B. in Form eines Telefons oder einer Tastatur) für die Auswahl und die Ansteuerung der verschiedenen Medieneinsatzgebiete, z. B. zur Auswahl eines nor­ malen Telefonmodus oder eines Videokonferenzmodus. Bei den bevorzugten Ausfüh­ rungsbeispielen können ein oder mehrere Telefone zur Eingabe verschiedener Steuersi­ gnale in eine Benutzertonschnittstelle des Videozugriffsgeräts eingesetzt werden, um die jeweilige Betriebsart des Geräts für den Zugriff auf Bildinformationen anzuwählen. Bei dem bevorzugten Ausführungsbeispiel wird beispielsweise mit der Eingabe einer vorge­ gebenen Abfolge (z. B. "**" der DTMF-Töne eines Telefons) gearbeitet, um einen Video­ konferenzmodus anzuwählen, wobei dann, wenn diese vorgegebene Abfolge nicht ein­ gegeben wurde, automatisch ein Telefonbetrieb in transparenter Weise gewählt wird.
Bei der hiermit zusammenhängenden sechsten Anmeldung sind eine Vorrich­ tung und ein Verfahren zur Ansteuerung mehrerer unterschiedlicher Multimedia-Anwen­ dungen vorgesehen, neben Möglichkeiten für Videokonferenzen und Telefonbetrieb. Bei dem bevorzugten Ausführungsbeispiel der Erfindung gemäß dieser sechsten Anmeldung sorgt die Vorrichtung zur Multimedia-Ansteuerung für die Kontrolle über eine Vielzahl von Medienanwendungen, unter anderem Telefon, Videokonferenz, analoge und digitale Vi­ deotechnik sowie Signalabgabe über die Wechselstromleitungen (zur Ansteuerung und Überwachung von Geräten im Raum oder beim Teilnehmer, z. B. Heizung, Lüftung, Kli­ maanlage, Beleuchtung, Sicherheitseinrichtungen und Unterhaltungstechnik). Darüber hinaus kann bei dem bevorzugten Ausführungsbeispiel der Multimediasteuerung jedes angeschlossene Telefon zum Telefon für mehrere Betriebsarten werden, wobei es die physikalische Schnittstelle für Telefonfunktionen und für Multimedia-Steuerfunktionen bildet.
Auf diesen hiermit zusammenhängenden Anmeldungen bauen die erfindungs­ gemäße Vorrichtung, das Verfahren und das System auf und sehen eine visuelle Wie­ dergabe gesprochener Sprache vor, beispielsweise bei einem Sprachtelefongespräch oder dem Audioteil einer audiovisuellen Konferenz. Die Kommunikation kann über jedes Telekommunikationsnetz oder auch jedes andere Netz ablaufen, wobei am entfernten Punkt der Verbindung kein besonderes oder spezielles Gerät erforderlich ist. Wie im fol­ genden noch ausführlicher beschrieben ist, wird ein aus einem Netz ankommendes Tonsignal empfangen und in eine Darstellung in Textform umgewandelt, die dann in ein Bildsignal umgesetzt wird, das in jedes angeschlossene Fernsehgerät oder ein anderes Bildschirmgerät übertragen wird, wo es der Benutzer betrachten kann, vorzugsweise im Untertitelformat oder im Bildschirmformat. Dieses Gerät zur visuellen Wiedergabe ge­ sprochener Sprache kann auch ein Teilsystem zur Sprachgenerierung für die Benutzer umfassen, die vielleicht auch eine Sprachbehinderung haben. Das erfindungsgemäße Gerät zur visuellen Wiedergabe gesprochener Sprache kann als Abwandlung der ver­ schiedenen Bildzugriffsgeräte angesehen werden oder auch als Sonderfall bzw. spezi­ elle Medienanwendung des Multimediasteuergeräts gemäß den hiermit zusammenhän­ genden Anmeldungen gelten. Wie im folgenden noch ausführlicher beschrieben ist, umfaßt die Vorrichtung zur visuellen Wiedergabe gesprochener Sprache viele derselben Bauelemente und Teilsysteme der Bildzugriffsgeräte und des Multimediasteuergeräts, so daß hier hinsichtlich der entsprechenden ausführlichen Beschreibungen und der techni­ schen Angaben zu den bevorzugten Bauelementen auf die hiermit zusammenhängen­ den Anmeldungen verwiesen werden kann.
Fig. 1 ist ein Blockschaltbild mit der Darstellung eines erfindungsgemäßen Ge­ räts 101 zur visuellen Wiedergabe gesprochener Sprache und eines erfindungsgemäßen Systems 100 zur visuellen Sprachwiedergabe. Entsprechend der Darstellung in Fig. 1 umfaßt das System 100 zur visuellen Sprachwiedergabe das Gerät 101 zur visuellen Sprachwiedergabe, sowie mindestens ein Bildschirmgerät 225 und mindestens eine physikalische Schnittstelle 155, beispielsweise in Form eines Telefons 150, einer Tasta­ tur 160, einer Maus 170 oder eines Rechners 175. Das Gerät 101 zur visuellen Sprach­ wiedergabe läßt sich über eine Netzschnittstelle 110 an einen ersten Kommunikations­ kanal (bzw. einem Netzkommunikationskanal) 103 zur Kommunikation mit einem Netz 104 ankoppeln. Der erste bzw. Netz-Kommunikationskanal 103 wird hier auch als Netz­ kommunikationskanal 03 bezeichnet, um ihn von anderen Kommunikationskanälen des Systems 100 zur visuellen Sprachwiedergabe zu unterscheiden, z. B. vom zweiten Kom­ munikationskanal 227, der zur Kommunikation mit den verschiedenen Bildschirmgeräten 225 verwendet wird, oder vom dritten Kommunikationskanal 228, der zur Kommunikation mit der Tastatur 160 oder den anderen physikalischen Schnittstellen 155 verwendet wird. Der erste Kommunikationskanal 103 kann fest verdrahtet sein, z. B. kann er aus einem oder mehreren verdrillten Drahtpaaren bestehen, oder es kann sich dabei um ein Kabel handeln, z. B. ein hybrides Glasfaser-Koaxkabel, auch um eine schnurlose Verbindung wie sie beispielsweise bei Mobiltelefonen oder für andere Hochfrequenz-Übertragungen verwendet wird, oder auch um jedes andere geeignete Kommunikationsmedium. Das Netz 104 kann, wie in der hiermit zusammenhängenden vierten und fünften Anmeldung beschrieben, beispielsweise ein sogenanntes PSTN-Netz (öffentliches Telefonnetz mit Wählbetrieb) für den normalen Telefonverkehr und analogen Datenverkehr sein (diese Einsatzgebiete werden hier als POTS bezeichnet; Plain Old Telephone Service, einfa­ cher alter Telefondienst) oder ein sogenanntes ISDN-Netz für die digitale Übermittlung von Sprache und Daten, oder es kann sich dabei um eine Kombination aus derartigen schon bestehenden oder künftigen Telekommunikationsnetzen handeln. Bei solchen festverdrahteten Netzen wird der Netzkommunikationskanal 103 normalerweise über eine lokale digitale oder analoge (hier nicht dargestellte) Weiche an das Netz 104 ange­ koppelt. Außerdem kann, wie in der hiermit zusammenhängenden zweiten und dritten Anmeldung beschrieben, der Netzkommunikationskanal 103 bei Realisierung eines CACS-Kommunikationsprotokolls über eine Primärstation an das Netz 104 angekoppelt werden, die unter anderem mindestens eine Netzschnittstelle bietet, die mit anderen oder zusätzlichen Protokollen - z. B. den verschiedenen ISDN-Protokollen - arbeitet und außerdem für den Anschluß an eine Infrastruktur für Kabelfernsehdienste (CATV-Dien­ ste) sorgt.
Das in Fig. 1 dargestellte Gerät 101 zur visuellen Sprachwiedergabe weist ver­ schiedene Merkmale oder Bauelemente auf, die in den hiermit zusammenhängenden Anmeldungen ausführlich beschrieben werden, unter anderem die Netzschnittstelle 110, die Prozessorengruppe 130 (wobei verstanden wird, daß eine Prozessorengruppe auch nur einen Prozessor aufweisen kann) und die Benutzerschnittstelle 120. In den zugehörigen Anmeldungen sind außerdem detaillierte Blockschaltbilder und technische Angaben zu den bevorzugten Bauelementen enthalten. Je nach der jeweiligen Realisierungsform des Systems 100 zur visuellen Sprachwiedergabe, z. B. in festverdrahteter, verkabelter oder schnurloser Form, ist die Netzschnittstelle 110 des Geräts 101 zur visuellen Sprachwiedergabe unterschiedlich aufgebaut. Bei Kabeltechnik ist beispielsweise die Netzschnittstelle 110 eine Kabelnetzschnittstelle mit einem CATV-Sende- Empfänger und einer ASIC-Schaltung für Kommunikationszwecke (anwendungsspezifische integrierte Schaltung), die verschiedene Funktionen erfüllt wie zum Beispiel jeweils die Hochfrequenzmodulation (HF-Modulation) und -Demodulation und die Kodierung und Dekodierung nach dem CACS-Protokoll, wie in der zugehörigen zweiten und dritten Anmeldung beschrieben ist. Bei schnurlosen Einsatzgebieten, z. B. gemäß der Beschreibung in der zugehörigen vierten und fünften Anmeldung, umfaßt die Netzschnittstelle 110 eine Telefonschnittstelle (POTS-Schnittstelle für den traditionellen Telefonverkehr) und/oder eine ISDN-Schnittstelle, die jeweils verschiedene Funktionen hat, z. B. jeweils die analoge Telefontechnik (und ebenso analoge Modemfunktionen, z. B. nach den ITU-Protokollen (International Telecommunications Union) V.34 und V.342), neben der Realisierung verschiedener digitaler (ISDN-) Protokolle für Sprach- und Datenübermittlung (z. B. Protokolle zur digitalisierten Datenverbindung nach ITU Q.921 LAPD und für physikalische Layers (Interface-Protokolle) nach Q.910). Gemäß den zugehörigen Anmeldungen wird die Netzschnittstelle 110 zur Übertragung und zum Empfang analoger oder digitaler Bild-, Ton- und anderer Informationen und Daten (die ganz allgemein hier als Daten bezeichnet werden) in jedem gegebenen Format, mit jedem Protokoll oder nach jedem Modulationsschema eingesetzt, die mit dem Netz 104 kompatibel sind, wobei auch jede beliebige Form des Netzanschlusses oder der Schaltungen Verwendung findet. Wenn beispielsweise über den ersten Kommunikationskanal 103 der Anschluß an ein digitales Netz (z. B. ISDN-Netz) vorgesehen ist, übermittelt und empfängt die Netzschnittstelle 110 Daten in Form eines Tonsignals für den Telefonverkehr, oder als gemäß der ISDN-Protokollserie (z. B. Serie Q.x) kodierte und formatierte digitale Information. Bei Anschluß an ein herkömmliches bzw. PSTN-Netz über den ersten Netzkommunikationskanal 103 übermittelt und empfängt die Netzschnittstelle 110 beispielsweise auch Daten wie Tonsignale, z. B. ein normales analoges Tonsignal in POTS-Technik.
Aus Fig. 1 ist weiterhin ersichtlich, daß an die Netzschnittstelle 110, an eine Be­ nutzerschnittstelle 120 und an einen Hochfrequenz- bzw. HF-Modulator 270 eine Pro­ zessorengruppe 130 angeschlossen ist. Die Netzschnittstelle 110, die Benutzerschnitt­ stelle 120 und der HF-Modulator 270 sind im wesentlichen identisch mit den Gruppen ausgelegt, wie sie in den zugehörigen Anmeldungen beschrieben und ausführlich dar­ gestellt sind. Verschiedene Funktionen jeder dieser Systemkomponenten werden nach­ stehend außerdem noch ausführlicher erläutert. Bei dem in Fig. 1 dargestellten Ausfüh­ rungsbeispiel weist die Vorrichtung 101 zur visuellen Sprachwiedergabe beispielsweise zunächst eine Netzschnittstelle 110 auf, die sich zum Empfangen eines ersten Tonsi­ gnals von einem Netz 104 an einen ersten Kommunikationskanal 103 ankoppeln läßt woraufhin sie aus diesem Signal ein Tonempfangssignal bildet; zum anderen weist sie einen Hochfrequenzmodulator 270 auf, der ein Bildausgangssignal (aus der Prozesso­ rengruppe 130) im Basisband in ein Hochfrequenz-Bildausgangssignal umwandelt und das Hochfrequenz-Bildausgangssignal zu einem zweiten Kommunikationskanal 227 zur Videodarstellung überträgt, z. B. über eines der Bildschirmgeräte 225; und zum dritten umfaßt sie eine Prozessorengruppe 130, die an die Netzschnittstelle 110 und den Hoch­ frequenzmodulator 270 angekoppelt ist und über einen Satz Programmbefehle in nach­ stehend noch erläuterter Weise so angesteuert wird, daß sie das empfangene Tonsignal in eine Textdarstellung der gesprochenen Sprache umsetzt und außerdem die Textdar­ stellung der Sprache in ein Bildausgangssignal im Basisband umwandelt (das dann vom HF-Modulator 270 noch moduliert und dann übertragen werden muß). Im folgenden wird außerdem noch erläutert, daß die Vorrichtung zur visuellen Sprachwiedergabe vorzugs­ weise die Benutzerschnittstelle 120 zur Eingabe von Steuersignalen umfaßt, die zur An­ steuerung verschiedener Betriebsarten - z. B. normaler Telefonbetrieb oder Modus mit vi­ sueller Sprachwiedergabe - verwendet werden.
Die Benutzerschnittstelle 120 dient zum Empfangen eines Steuersignals von aus einer Vielzahl von Steuersignalen, z. B. in Form einer Anforderung für ein Telefonge­ spräch, einer Anforderung für die visuelle Darstellung der gesprochenen Sprache wäh­ rend eines Telefongesprächs, oder ein Anruf in einer Audio-/Video-Konferenz, einer An­ forderung von Sprachgenerierung aus einem eingegebenen Text, und weitere Steuersi­ gnale wie zum Beispiel Meldesignale zur Ankündigung eines ankommenden Anrufs oder von Anrufen bei einer audiovisuellen Konferenz. Bei dem bevorzugten Ausführungsbei­ spiel ist die Benutzerschnittstelle 120 in Form einer Benutzer-Tonschnittstelle 255 ausge­ führt, wie sie in Fig. 2 und 3 und ausführlich in den hiermit zusammenhängenden An­ meldungen dargestellt ist. Der HF-Modulator 270 setzt ein Bildausgangssignal in ein Hochfrequenz-Bildausgangssignal um, wie in den zugehörigen Anmeldungen beschrie­ ben und dargestellt, und überträgt dieses zum zweiten Kommunikationskanal 227 und bringt es zur Anzeige auf den Bildschirmgeräten 225. Bei dem bevorzugten Ausfüh­ rungsbeispiel handelt es sich bei dem zweiten Kommunikationskanal 227 um ein Koaxkabel, wie es für Kabelfernsehen vorgesehen ist und im Raum beim Benutzer bzw. Teilnehmer an einer oder mehreren Stellen verlegt ist.
Die Prozessorengruppe 130 sorgt für die Umsetzung des empfangenen Tonsi­ gnals (aus der Netzschnittstelle 110) in eine visuelle Darstellung der gesprochenen Sprache bzw. in deren Darstellung in Textform, die ihrerseits dann in die Form des Bild­ ausgangssignals im Basisband umgesetzt wird (das vom HF-Modulator 270 noch modu­ liert und an die Bildschirmgeräte 225 übertragen werden muß. Die Prozessorengruppe 130 kann auch für die Sprachgenerierung aus einem eingegebenen Text sorgen (wobei die Sprachsignale dann über die Netzschnittstelle 110 an das Netz 104 übermittelt wer­ den sollen). Wie in den zugehörigen Anmeldungen dargestellt und nachstehend noch ausführlicher erläutert wird, kann die Prozessorengruppe 130 aus einer einzigen inte­ grierten Schaltung ("IC") bestehen oder eine Vielzahl integrierter Schaltungen bzw. ande­ rer Bauelemente aufweisen, die miteinander verbunden bzw. zu Gruppen zusammenge­ faßt sind, z. B. Mikroprozessoren, digitale Signalprozessoren, ASIC-Schaltungen, zuge­ hörige Speicher (z. B. RAM- und ROM-Speicher) und weitere ICs und Baugruppen. Infol­ gedessen ist der hier verwendete Begriff "Prozessorengruppe" als gleichbedeutend mit einem einzelnen Prozessor oder mit einer Anordnung von Prozessoren, Mikroprozesso­ ren, Steuerungen oder irgendwelchen anderen Gruppierungen integrierter Schaltungen zu verstehen, welche die nachstehend noch näher beschriebenen Funktionen ausfüh­ ren. Bei dem bevorzugten Ausführungsbeispiel ist zum Beispiel die Prozessorengruppe 130 gemäß Darstellung in Fig. 2 und 3 als Mikroprozessor-Teilsystem 260 ausgeführt (wie sie auch in den zugehörigen Anmeldungen dargestellt wird), neben einem Teilsy­ stem zur visuellen Sprachwiedergabe (300 bzw. 310) und kann außerdem ein Teilsystem zur Sprachgenerierung (320) umfassen.
Aus Fig. 1 ist weiterhin zu entnehmen, daß das Gerät 101 zur visuellen Sprachwiedergabe über die Benutzerschnittstelle 120 an mindestens eine physikalische Schnittstelle 155 gekoppelt ist, damit der Benutzer zur Eingabe eines oder mehrerer Steuersignale und auch für die Eingabe von Text zur Sprachgenerierung physikalischen Zugang zu der Vorrichtung zur visuellen Sprachwiedergabe hat. Die physikalischen Schnittstellen 155 umfassen im typischen Fall mindestens ein Telefon 150, eine Tastatur 160, eine Computermaus 170 oder einen Rechner 175. Die Telefone 150 können auch als Bildtelefon ausgeführt sein. Sind Telefone 150 in das System geschaltet, so erfolgt die physikalische Eingabe der Vielzahl von Steuersignalen über eine Telefontastatur in Form eines DTMF-Signals (Zweiton-Mehrfrequenzsignal) oder Impulswahlsignals, wobei für den normalen Eingang und Ausgang der Tonsignale eine Sprechmuschel und ein Hö­ rerteil bei den verschiedenen Telefonen 150 (bzw. Bildtelefonen) vorgesehen sind. Zu­ sätzlich zu den Telefonen 150, oder auch anstelle derselben, können auch die Tastatur 160, die Maus 170, und/oder der Rechner 175 zur Eingabe der Vielzahl von Steuersigna­ len eingesetzt werden. Die Tastatur 160 bzw. der Rechner 175 dienen vorzugsweise für die Eingabe eines Textes für die Sprachgenerierung über den dritten Kommunikations­ kanal 228 (auch wenn andere Eingabeverfahren wie beispielsweise das DTMF-Wählver­ fahren ebenfalls herangezogen werden könnten). Der dritte Kommunikationskanal 228 wird hier als Kanal mit direkter Verbindung zwischen den physikalischen Schnittstellen 155 und der Prozessorengruppe 130 dargestellt, auch wenn andere Möglichkeiten der Verbindung zur Verfügung stehen; beispielsweise kann der dritte Kommunikationskanal 228 auch völlig entfallen (Fig. 2), wobei dann die Eingabe der Steuersignale über eine Verbindung (z. B. Leitung 294 in Fig. 2) mit der Benutzerschnittstelle 120 oder eine Be­ nutzer-Tonschnittstelle 25 (statt mit der Prozessorengruppe 130) erfolgt.
Fig. 1 zeigt weiterhin, daß der HF-Modulator 270 ein Bildausgangssignal im Ba­ sisband von der Prozessorengruppe 130 - z. B. in Form eines kombinierten NTSC/PAL-Video­ signals - in ein Hochfrequenz-Bildausgangssignal umsetzt, z. B. ein amplitudenmo­ duliertes Restseitenband-HF-Signal, das über ein Bildschirmgerät 225 betrachtet werden kann, oder, wie Fig. 2 und 3 dies zeigen, beispielsweise über ein Fernsehgerät 240 des Benutzers, wenn dieser auf Kanal 3 oder 4 eingestellt wird. Der HF-Modulator 270 kann auf vielerlei Weise realisiert werden, unter anderem unter Verwendung eines Bildmodulators, z. B. Motorola MC1373, an den sich eine Verstärkungsstufe anschließt, die bei dem bevorzugten Ausführungsbeispiel dazu eingesetzt wird, Verluste aus einem Richtkoppler 290 (in Fig. 2 dargestellt) auszugleichen, die gegebenenfalls das HF-Bild­ ausgangssignal in den zweiten Kommunikationskanal 227 einspeisen, z. B. in das Koaxkabelsystem in den Räumen des Benutzers.
Wie nachstehend noch ausführlicher erläutert wird, läßt sich die erfindungsge­ mäße Verfahrensweise in Form eines Satzes Programmbefehle zur anschließenden Ausführung in der Prozessorengruppe 130 und dem zugehörigen Speicher und anderen äquivalenten Bauelementen programmieren und abspeichern. Der Satz Programmbe­ fehle kann auch in jeder Speichereinrichtung abgelegt werden, z. B. in Form eines Spei­ cherbausteins in Form einer integrierten Schaltung, einer Diskette, einer CD-ROM oder in Form jedes anderen lesbaren oder abarbeitbaren Mediums. Bei dem bevorzugten Ausführungsbeispiel wird die Prozessorengruppe 130 in Verbindung mit einem abge­ speicherten Satz Programmanweisungen und im Ansprechen auf alle vom Benutzer ein­ gegebenen oder aus dem Netz 104 empfangenen Steuersignale für viele verschiedene Funktionen eingesetzt werden. Infolgedessen weist das bevorzugte Ausführungsbeispiel der Prozessorengruppe 130 eine Vielzahl von Betriebsarten auf, z. B. Betriebsarten zur visuellen Sprachwiedergabe, für normalen Telefonbetrieb (POTS-Betrieb), für die Übermittlung synthetisierter Sprache und auch bei Audio- und Video-Konferenzen (bei einem bevorzugten Ausführungsbeispiel).
Das Blockschaltbild in Fig. 2 zeigt ein erstes bevorzugtes Ausführungsbeispiel einer Vorrichtung 201 zur visuellen Sprachwiedergabe sowie ein erstes bevorzugtes Ausführungsbeispiel eines Systems 200 zur visuellen Sprachwiedergabe, beide gemäß der vorliegenden Erfindung. Das System 200 zur visuellen Sprachwiedergabe 200 um­ faßt ein Gerät 201 zur visuellen Sprachwiedergabe 201, mindestens ein Telefon 150 (in Form der physikalischen Schnittstellen 155) und mindestens ein Fernsehgerät 240 (als eine Art des Bildschirmgeräts 225), die über den zweiten Kommunikationskanal 227 mit der Vorrichtung 201 zur visuellen Sprachwiedergabe gekoppelt sind. Über die vorste­ hend angesprochene Netzschnittstelle 110 läßt sich die Vorrichtung 201 zur visuellen Sprachwiedergabe auch an ein (hier nicht dargestelltes) Netz 104 ankoppeln. Die Vor­ richtung 201 zur visuellen Sprachwiedergabe umfaßt außerdem einen HF-Modulator 270, der mit einem Richtkoppler 290 gekoppelt ist, der in vorstehend erläuterter Weise das HF-Bildausgangssignal vom HF-Modulator 270 in den zweiten Kommunikationskanal 227 überträgt, beispielsweise in Form einer in den Räumen des Benutzers verlegten Koaxkabelanlage.
Wie in den hierzu gehörigen Anmeldungen im einzelnen erläutert ist, wird die Benutzertonschnittstelle 255 in der Weise ausgelegt, daß sie den Übergang zu üblichen Haushaltstelefonapparaten bildet, worunter auch schnurlose Apparate und Freisprechge­ räte wie die Telefone 150 fallen. Die Benutzertonschnittstelle 255 soll sowohl für bisher übliche Gespräche in POTS-Technik als auch für Bildtelefonie geeignet sein und in Ver­ bindung mit der Netzschnittstelle 110 auch analoge Modemfunktionen unterstützen. Dar­ über hinaus sorgt die Benutzertonschnittstelle in Verbindung mit einer der physikalischen Schnittstellen 155 - beispielsweise dem Telefon 150 (bzw. der Tastatur 160, der Maus 170 oder dem Rechner 175, die in Fig. 1 dargestellt sind) - für die Eingabe der verschie­ denen Steuersignale, wie sie beispielsweise zur Anwahl einer Anwendung mit visueller Sprachwiedergabe oder zur Telefonanwahl oder Bildtelefonanwahl verwendet werden. Bei dem bevorzugten Ausführungsbeispiel wird jedes der Telefone 150 zur Eingabe der verschiedenen Steuersignale verwendet, und Anrufe in normaler POTS-Technik werden in "transparenter" Form verarbeitet, was bedeutet, daß ausgehende und ankommende Telefonanrufe so ablaufen, als ob die Funktionen zur visuellen Sprachwiedergabe, für Videokonferenz oder andere Multimediafunktionen nicht vorhanden wären. Darüber hin­ aus werden bei dem bevorzugten Ausführungsbeispiel die Funktionen mit visueller Sprachwiedergabe, mit Bildtelefonanrufen und Multimediafunktionen als Ausnahmefälle bearbeitet, wobei der Benutzer eine jeweilige spezielle bzw. vorgegebene Wählfolge eingeben muß, um die visuelle Sprachwiedergabe, einen Bildtelefonanruf oder eine an­ dere Medienfunktion anzusteuern. Die bei dem bevorzugten Ausführungsbeispiel ver­ wendeten verschiedenen Telefone 150 können in jeder Art normaler Telefone ausgeführt sein, einschließlich schnurloser (tragbarer) Telefone, der üblichen Telefone mit Schnur­ anschluß, DTMF- oder Impulswahltelefone, Bildtelefone oder Freisprechtelefone.
Wie auch in den zugehörigen Anmeldungen beschrieben, weist die Benutzer­ tonschnittstelle 255 vorzugsweise eine SLIC-Schaltung auf (Subscriber Loop Interface Circuit; Teilnehmer-Schleifenschnittstellenschaltung), die sogenannte "BORSHT"-Funk­ tionen für Telefondienste innerhalb der Räume des Benutzers bietet, sowie eine Ringbil­ dungsschaltung; einen Tonkodierer/-dekodierer für den Audioanteil eines Bildtelefonge­ sprächs oder normalen Telefongesprächs, wobei dieses Teil für die Analog-Digital-Um­ setzungen zur Digitalisierung eines Sprach- bzw. Toneingangssignals aus dem Sprech­ muschelteil eines oder mehrerer der Telefone 150 und die Digital-Analog-Umsetzung für die Stimmenwiedergabe aus den Datenstrom bzw. Signal eines digitalisierten Sprach­ ausgangssignals sorgt (um ein Tonausgangssignal daraus zu bilden, das dem Sprechteil der Telefone 150 zugeleitet wird); und schließlich einen programmierbaren digitalen Si­ gnalprozessor (DSP) mit zugehörigem Speicher (der als DSP zur Stimmverarbeitung in den zugehörigen Anmeldungen bezeichnet wird, im Unterschied zu einem anderen DSP-Ele­ ment, das als DSP-Teil zur Bildverarbeitung bezeichnet wird). Das DSP-Element in der Benutzertonschnittstelle 255 enthält einen Programmspeicher und einen Datenspei­ cher zur Ausführung von Funktionen zur Signalverarbeitung, beispielsweise die Erfas­ sung von DTMF/Wählimpulswahl und Impulserzeugung, für analoge Modemfunktionen, zur Bildung von Rufablauftönen (Wählton, Belegttonzeichen), für die PCM-Linear-Um­ setzung und die Linear-PCM-Umsetzung (Impulskodemodulation) und die Abspielung der Sprechaufforderung. Der dem DSP-zugeordnete Speicher weist bei dem bevorzugten Ausführungsbeispiel einen Festspeicher (als Sprach-ROM-Speicher bezeichnet) hoher Dichte mit PCM-kodierten (bzw. komprimierten) Sprachsegmenten auf, die zur Interaktion mit dem Benutzer verwendet werden, z. B. zur Aufforderung des Benutzers zur Eingabe des DTMF- oder Impulswahlverfahrens über die Tastatur, wenn die Verbindung über die Bildtelefoniefunktion oder eine in einem anderen Multimediamodus hergestellt werden soll. Daneben kann bei Bedarf ein Sprach-RAM-Speicher für Speicherfunktionen zur Sprachspeicherung durch den Benutzer verwendet werden, sowie ein elektrisch verän­ derbarer programmierbarer leistungsloser (schnell löschbarer) Speicher zur Abspeiche­ rung von Programmen (und Programmerweiterungen) oder Algorithmen.
Die Prozessorengruppe 130 (gemäß Fig. 1) ist bei dem Gerät 201 zur visuellen Sprachwiedergabe in Form eines Mikroprozessor-Teilsystems 260 und eines Teilsystems (bzw. Prozessors) 305 zur visuellen Sprachwiedergabe ausgeführt, der in Fig. 2 darge­ stellt ist. Wie ausführlich in den hierzu gehörigen Anmeldungen dargestellt, besteht das Mikroprozessor-Teilsystem 260 aus einem Mikroprozessor oder einer anderen Verarbei­ tungseinheit, beispielsweise in Form des Motorola-Bauteils MC68LC302, und einem Speicher, der einen Direktzugriffsspeicher (RAM) und einen Festwertspeicher (ROM) und bei dem bevorzugten Ausführungsbeispiel auch einen sogenannten programmierbaren Flash-Speicher (z. B. Flash-EPROM bzw. E2PROM) umfaßt, wobei die Kommunikations­ verbindung über die Busleitung 261 mit der Netzschnittstelle 110, der Benutzerton­ schnittstelle 255 und über die Busleitung 263 mit dem Teilsystem 305 zur visuellen Sprachwiedergabe hergestellt wird. Für den Festwertspeicher wird ebenfalls ein pro­ grammierbarer Flash-Speicher verwendet, so daß der Speicherinhalt aus dem Netz 104 heruntergeladen werden kann. Infolgedessen können verschiedene Versionen der Be­ triebssoftware (Programmbefehle) wie z. B. Programmverbesserungen realisiert werden, ohne daß an dem Gerät 201 zur visuellen Sprachwiedergabe Veränderungen vorge­ nommen werden müssen und ohne daß der Benutzer eingreifen muß. Das Mikroprozes­ sor-Teilsystem 260 sorgt für die Steuerung und Konfigurierung des Prozessors 305 zur visuellen Sprachwiedergabe, für die Verarbeitung normaler Telefongespräche, von Tele­ fongesprächen in Digitaltechnik und wird außerdem zur Implementierung eines ISDN- Stapels oder eines anderen Protokollstapels eingesetzt, wenn dies für analoge oder digi­ tale Bildtelefonieverbindungen erforderlich ist, z. B. bei Meldungsübermittlung mit ITU Q.931-Protokoll.
Das Teilsystem 305 zur visuellen Sprachwiedergabe, das auch als Prozessor zur visuellen Sprachwiedergabe bezeichnet wird, kann außerdem aus einem Mikropro­ zessor bzw. einer anderen Verarbeitungseinheit wie beispielsweise dem Motorola-Bau­ stein MC68LC302 und aus einem Speicher bestehen, der bei dem bevorzugten Ausfüh­ rungsbeispiel einen RAM- und einen ROM-Speicher und außerdem einen programmier­ baren Flash-Speicher (z. B. Flash-EPROM bzw. E2PROM) umfaßt. Wie Fig. 2 zeigt, gehö­ ren zu dem Teilsystem 305 zur visuellen Sprachwiedergabe auch zwei Funktionsblöcke, und zwar ein Teilsystem (bzw. Prozessor) 307 zur Spracherkennung und ein Teilsystem (bzw. Prozessor) 309 zur Bildschirmdarstellung.
Je nach Art der Netzschnittstelle 110 und dem zugehörigen bzw. entsprechen­ den Netz 104 können die aus dem Netz 104 ankommenden Sprachsignale verschiedene Formate aufweisen. Beispielsweise werden bei Anschluß an das PSTN-Netz die an­ kommenden Sprachsignale in Form analoger Signale von der Netzschnittstelle 110 empfangen und vorzugsweise in ein digitales Format umgewandelt, z. B. in ein impuls­ kodemoduliertes (PCM) digitales Sprachsignal. Bei Anschluß an ein Kabelnetz werden die ankommenden Sprachsignale von der Netzschnittstelle 110 als CACS-Signale oder als Signale nach einem anderen Empfangsprotokoll empfangen, die dann zur Bildung eines digital kodierten Sprachsignals, z. B. eines PCM-kodierten Sprachsignals, demodu­ liert werden können. Sind die Sprachsignale Teil einer Audio-/Video-Konferenz, so trennt das Mikroprozessor-Teilsystem 260 das digitale Sprachsignal vom Bildsignalanteil zur separaten Verarbeitung (wie nachstehend anhand von Fig. 3 erläutert wird). Das digitale Sprachsignal wird dann zum Teilsystem 307 zur Spracherkennung übermittelt. Bei dem bevorzugten Ausführungsbeispiel ist das Teilsystem 307 zur Spracherkennung mit einer Spracherkennungs-Software programmiert, die eine Eigenentwicklung oder auch eine im Handel erhältliche Software sein kann, z. B. das Softwaresystem zur Spracherkennung von IBM oder Lexicus (einer Tochtergesellschaft von Motorola, Inc.). Bei dem bevorzug­ ten Ausführungsbeispiel kann das Spracherkennungs-Teilsystem 307 im Laufe der Zeit trainiert werden, um so die Präzision bei der Spracherkennung bei häufigen Anrufern zu erhöhen. Das Teilsystem 307 zur Spracherkennung generiert aus dem digitalen Sprach­ signal eine Textdarstellung der gesprochenen Sprache, die unterschiedlich formatiert sein kann, d. h. in Form eines Textes im ASCII-Format oder eines Textes in einer ande­ ren entsprechend kodierten bzw. formatierten Form. Die Textdarstellung der gesproche­ nen Sprache wird dann zum Teilsystem 309 zur Bildschirmdarstellung übertragen, das ebenfalls mit einer handelsüblichen oder speziell entwickelten Software programmiert ist. Das Teilsystem 309 zur Bildschirmdarstellung kann auch unter Verwendung einer sepa­ raten integrierten Schaltung, z. B. OSD PCA855D von Philips, realisiert werden. Das Teil­ system 309 zur Bildschirmdarstellung setzt die Textdarstellung der gesprochenen Spra­ che in ein Format zur Bildschirmdarstellung um, das dann als Bildausgangssignal im Ba­ sisband an den HF-Modulator 270 ausgegeben wird. Es können auch andere Bildfor­ mate herangezogen werden, z. B. das nachstehend anhand von Fig. 3 erläuterte Unter­ titelformat. Der HF-Modulator setzt das Bildausgangssignal im Basisband in ein Hochfre­ quenz-Bildausgangssignal um, das dann beispielsweise auf Kanal 3 oder 4 über den zweiten Kommunikationskanal 227 zur Anzeige auf den verschiedenen Fernsehgeräten 240 übertragen wird. Infolgedessen setzt das Gerät 201 zur visuellen Sprachwiedergabe das empfangene Tonsignal - z. B. in Form eines aus einem Netz kommenden Sprachsi­ gnals - in ein Hochfrequenz-Bildausgangssignal um, das dann zu einem oder mehreren Bildschirmgeräten (z. B. zum Fernsehgerät 240) zur visuellen Anzeige des gesprochenen Textes übertragen wird.
Wie vorstehend und auch in den hierzu gehörigen Anmeldungen dargestellt, leitet der Benutzer bei dem bevorzugten Ausführungsbeispiel einen Multimedia-Modus- z. B. die visuelle Darstellung des Sprachmodus oder eines Videokonferenzmodus - da­ durch ein, daß er im Unterschied zum normalen bzw. gewöhnlichen Telefonbetrieb eine spezielle vorgegebene Folge eintippt, die von dem DSP-Element in der Benutzerton­ schnittstelle 255 als Folge für einen Multimedia-Modus erkannt wird. Alternativ kann eine Vielzahl von Signalfolgen für einen Multimediamodus verwendet werden, wobei jede vorgegebene Folge speziell für einen gewählten Multimediamodus gilt, z. B. Videomodus oder Betriebsart mit visueller Sprachwiedergabe. Diese Methodik wird auch im folgenden anhand des Ablaufdiagramms in Fig. 4 noch erläutert. Für einen Multimedia-Modus sind bei dem bevorzugten Ausführungsbeispiel die ersten beiden Ziffern der spezifischen vorgegebenen Folge beispielsweise nur für diese Anwendung reserviert und werden bei einem üblichen Anruf in POTS-Technik nicht verwendet, z. B. "**"; infolgedessen können sie speziell dem DSP-Element mitteilen, daß statt eines normalen Telefonbetriebsmodus nun in einen Multimedia-Modus umgeschaltet werden soll. Alternativ könnte der Benutzer auch andere spezifische vorgegebene Folgen als Kennung für einen Multimedia-Modus einprogrammieren. Die verschiedenen Medien-Betriebsarten könnten lokal über eine der physikalischen Schnittstellen 155 oder aus der Entfernung über einen Anschluß über das Netz 104 und die Netzschnittstelle eingegeben werden. Unmittelbar nach Dekodierung der beiden speziellen Ziffern oder einer anderen spezifischen vorgegebenen Folge als Hinweis auf einen Multimedia-Modus leitet das Gerät 201 zur visuellen Sprachwieder­ gabe den Ablauf zur Ansteuerung der visuellen Sprachwiedergabe (bzw. der Multimedia- Anwendung) ein, beispielsweise dadurch, daß das DSP-Element eine Abfolge zur Auf­ forderung in gesprochener Sprache oder per Videodarstellung generiert, abspielt oder anzeigt, z. B. "Bitte wählen Sie eine Anrufoption oder drücken Sie Taste "#" zur Hilfestel­ lung", die im ROM-Teil des Speichers in der Benutzertonschnittstelle 255 abgespeichert ist. Was das DSP-Element unternimmt erfolgt dann im Ansprechen auf die eingegebene Folge oder auf den Tastendruck des Benutzers nach der ersten Aufforderung und hängt davon ab. Wird beispielsweise die Taste "#" gedrückt, kann der Benutzer ein Befehls­ menü sehen oder hören, zum Beispiel in dieser Form:
  • - "zur Eingabe der visuellen Darstellung gesprochener Sprache - 1 drücken"
  • - "zur Eingabe des Videokonferenz-Modus - 2 drücken"
  • - "zur Eingabe der Automatisierung im Haus - 3 drücken"
  • - "zur Eingabe gesprochener Nachrichten - 4 drücken"
  • - "zum nochmaligen Abspielen dieses Menüs - # drücken"
Nach Auswahl des besonderen oder speziellen Medien-Modus durch den Be­ nutzer, z. B. Bilddarstellung gesprochener Sprache, generieren das Gerät 201 bzw. das System 200 zur visuellen Sprachwiedergabe ein Untermenü mit Befehlen oder bringen dies auf den Bildschirm. Hat beispielsweise der Benutzer eine Betriebsart mit visueller Anzeige gesprochener Sprache gewählt, kann er ein Untermenü mit Befehlen sehen oder hören, wie zum Beispiel das folgende:
  • - "für Anruf über Rufnummernverzeichnis - * drücken"
  • - "für Aktualisierung des Rufnummernverzeichnisses - 2 drücken"
  • - "für manuellen Bildtelefonanruf - 3 drücken"
  • - "für Zuschaltung der Sprachgenerierung - 4 drücken"
  • - "zum nochmaligen Abspielen dieses Menüs - # drücken".
Einer der Vorteile des Rufnummernverzeichnisses des Benutzers besteht bei dem bevorzugten Ausführungsbeispiel darin, daß durch die Vorauswahl des anzurufen­ den Teilnehmers dem Teilsystem 307 für die Spracherkennung mitgeteilt werden kann, daß ein Teilnehmer angerufen werden soll, den es bereits "gelernt" hat, also ein Teil­ nehmer, mit dem das Teilsystem 307 zur Spracherkennung bereits ein gewisses Training absolviert hat. Infolgedessen kann das Teilsystem 307 zur Spracherkennung im wesent­ lichen noch feiner abgestimmt werden, um die Sprechweise einer bestimmten Person zu erkennen, wodurch die Präzision bei der visuellen Darstellung der hörbaren Sprache noch verbessert wird. Außerdem kann der Benutzer auch durch Eingabe dieser unter­ schiedlichen Steuersignale bei ankommenden Gesprächen dem Teilsystem 307 zur Spracherkennung einen Hinweis darauf übermitteln, daß ein bestimmter Teilnehmer an­ gerufen hat, und zwar wiederum zur Aktivierung dieser Feinabstimmung des Teilsystems 307 zur Spracherkennung auf ein zuvor im Zusammenhang mit dem anrufenden ande­ ren Teilnehmer erlerntes Muster.
Damit wird bei dem bevorzugten Ausführungsbeispiel eine automatisierte benut­ zerfreundliche Abfolge von Aufforderungen verwendet, um den Benutzer durch den Ab­ lauf bzw. die Sequenz zur visuellen Sprachwiedergabe über eine einzige (bzw. inte­ grierte) physikalische Schnittstelle, z. B. ein Telefon 150, zu führen, statt über mehrere und unterschiedliche (und außerdem häufig verwirrende) Schnittstellen. Zu weiteren noch besser entwickelten Systemen zur Interaktion mit dem Benutzer können auch die Benutzung des Fernsehgeräts 240 oder eines anderen Bildschirmgeräts zur visuellen Bildschirmdarstellung eines Menüs mit Optionen gehören, wobei die Steuersignale vom Benutzer entsprechend eingegeben werden, z. B. als Anrufsteuerinformation oder als Informationen für einen vorzunehmenden Anruf, was auf unterschiedliche Weise ge­ schehen kann, z. B. über die Tastatur auf den Telefonen 150, über eine Verbindung zur Infrarot-Fernsteuerung mit dem Gerät 201 zur visuellen Sprachwiedergabe, oder mittels des zweiten Kommunikationskanals 227 (in Fig. 3 dargestellt) über einen Bildeingabe­ pfad.
Das Blockschaltbild in Fig. 3 zeigt ein zweites bevorzugtes Ausführungsbeispiel des erfindungsgemäßen Geräts 301 zur visuellen Sprachwiedergabe und des erfin­ dungsgemäßen Systems 300 zur visuellen Sprachwiedergabe (und Sprachgenerierung). Dabei umfaßt das System 300 zur visuellen Sprachwiedergabe (und Sprachgenerierung) ein Gerät 301 zur visuellen Sprachwiedergabe und Spracherkennung, mindestens ein Telefon 150 und eine Tastatur 160 (als physikalische Schnittstellen 155), mindestens ein Fernsehgerät 240 (als eine Art Bildschirmgerät 225), das über den zweiten Kommunika­ tionskanal 227 mit dem Gerät 301 zur visuellen Sprachwiedergabe und Sprachgenerie­ rung gekoppelt ist, eine Videokamera 230 und eine Kameraschnittstelle 235. Die Video­ kamera 230 und die Kameraschnittstelle 235 werden in den hiermit zusammenhängen­ den Anmeldungen im einzelnen beschrieben und hier zum Zwecke der umfassenden Möglichkeit zur Videokonferenz herangezogen; dies geschieht in der Form, daß ein Vi­ deo- bzw. Bildsignal aus der Videokamera 230 und der Kameraschnittstelle 235 in den Räumen des Benutzers (durch den Demodulator 275) demoduliert und (im Teilsystem 265 zur Audio-/Video-Kompression und -Dekompression) zur Übertragung durch das Ge­ rät 301 zur visuellen Sprachwiedergabe und Sprachgenerierung über den ersten Kom­ munikationskanal 103 zu einem (hier nicht dargestellten) Netz 104 verarbeitet werden kann.
Aus Fig. 3 ist des weiteren zu entnehmen, daß das Gerät 301 zur visuellen Sprachwiedergabe und Sprachgenerierung viele derselben Bauelemente und Baugrup­ pen umfaßt, die vorstehend unter Bezugnahme auf Fig. 2 erläutert wurde, z. B. eine Netzschnittstelle 110, eine Benutzertonschnittstelle 255, ein Mikroprozessor-Teilsystem 260, einen HF-Modulator 270 und einen Richtkoppler 290. Die Vorrichtung zur visuellen Sprachwiedergabe und Sprachgenerierung umfaßt einen zweiten Typus eines Teilsy­ stems (Prozessors) zur visuellen Sprachwiedergabe, nämlich das Teilsystem (bzw. den Prozessor) 310 zur visuellen Sprachwiedergabe, der dazu eingesetzt wird, für die visu­ elle Darstellung gesprochener Sprache ein Untertitelformat zu bilden; des weiteren um­ faßt das System auch ein Teilsystem (einen Prozessor) 320 zur Sprachgenerierung, wel­ ches eingegebenen Text in hörbare Sprachsignale zur Übertragung in das Netz 104 um­ setzt. Die Vorrichtung zur visuellen Sprachwiedergabe und Sprachgenerierung ist außer­ dem mit mindestens einem Telefon 150 zur Eingabe von Steuersignalen und einer Ta­ statur 160 zur Texteingabe (für die anschließende Sprachgenerierung) gekoppelt. Das Gerät zur visuellen Sprachwiedergabe und Sprachgenerierung wird ebenfalls in der Weise gesteuert, wie sie vorstehend anhand des Geräts 201 zur visuellen Sprachwie­ dergabe erläutert wurde, und zwar durch Eingabe von Steuersignalen (vorzugsweise über ein Telefon 150).
Wie in den zugehörigen Anmeldungen ausführlich dargestellt, führt das Teilsy­ stem 265 zur Audio-/Video-Kompression und -Dekompression die Kompression und De­ kompression von Ton- und Bildsignalen vor, vorzugsweise unter Verwendung von Proto­ kollen aus der Serie ITU H.32x; dieses Teilsystem wird in erster Linie für Videokonfe­ renzschaltungen eingesetzt. Für die visuelle Darstellung gesprochener Sprache aus dem Audioteil eines Videokonferenzanrufs (der über ein Netz 04 übertragen wird) dekompri­ miert das Teilsystem 265 zur Audio-/Video-Kompression und -Dekompression das Ton­ signal und trennt es vom Bildanteil des Videokonferenzanrufs ab. Dabei wird auch der Bildanteil des Videokonferenzanrufs dekomprimiert und in ein Bildausgangssignal im Basisband umgewandelt (was in den hierzu gehörenden Anmeldungen im einzelnen be­ schrieben wird). Das Tonsignal wird dann vom Teilsystem 307 zur Spracherkennung verarbeitet, um eine Darstellung der gesprochenen Sprache in Form eines geschriebe­ nen Textes zu bilden, wie vorstehend anhand von Fig. 2 erläutert wurde. Die Textdarstel­ lung der gesprochenen Sprache wird dann vom Untertitel-Kodierer 311 verarbeitet, in­ dem die Textdarstellung in ein Untertitelformat umgesetzt wird, was beispielsweise in der vertikalen Austastlücke geschehen kann. Der Untertitel-Kodierer 311 kann unter Ver­ wendung eines handelsüblichen oder speziell hierfür entwickelten Untertitel-Kodierers bzw. Prozessors realisiert werden. Das Untertitel-Bildsignal im Basisband wird dann in einer Mischerstufe 313 mit dem Bildausgangssignal im Basisband (aus dem Bildteil des Videokonferenzanrufs) gemischt. Das gemischte Bildsignal, das nun die reine Bildinfor­ mation und die Untertitelinformation enthält, wird anschließend im HF-Modulator 270 zur Darstellung auf einem der Fernsehgeräte 240 moduliert und übertragen. Bei diesem Ausführungsbeispiel mit dem System 301 umfaßt ein Fernsehgerät 240 vorzugsweise einen Untertiteldekoder zur Dekodierung und Darstellung des Untertitelsignals.
Die zur Darstellung auf den verschiedenen Fernsehern oder anderen Bild­ schirmgeräten übertragenen Informationen zur visuellen Sprachwiedergabe können auch noch weitere Informationen enthalten. Beispielsweise läßt sich auch eine Lautstärkein­ formation einbeziehen und darstellen, auch unter Verwendung einer Darstellung mit Si­ nuswellen zum Beispiel, wobei eine Amplitude mit der Lautstärke korreliert oder diese darstellt, oder unter Verwendung eines Fettdruck- oder Unterstreichungsformats, das ebenfalls mit der Lautstärke oder anderen Hervorhebungen in der gesprochenen Spra­ che korreliert.
Die Vorrichtung 301 zur visuellen Sprachwiedergabe und Sprachgenerierung umfaßt außerdem ein Teilsystem (einen Prozessor) 320 zur Sprachgenerierung, der mit einer Tastatur 160 zur Texteingabe für die anschließende Umsetzung in gesprochene Sprache und Übermittlung an ein Netz 104 gekoppelt ist. Bei dem bevorzugten Ausfüh­ rungsbeispiel ist das Teilsystem 320 zur Sprachgenerierung, das auch als Sprachgene­ rator-Prozessor bezeichnet wird, mit einer Software zur Sprachgenerierung program­ miert, die eine Sonderentwicklung für diesen Zweck oder eine handelsübliche Software sein kann oder unter Verwendung von handelsüblichen integrierten oder anderen Schaltungselementen realisierbar ist. Wie vorstehend im Hinblick auf ein ankommendes Signal in gesprochener Sprache erläutert wurde, kann das in das Netz 104 zu übertra­ gende Ton- bzw. Sprachsignal je nach Art des Netzanschlusses unterschiedlich gebildet sein, wobei es sich zum Beispiel um ein analoges Tonsignal zu Übermittlung an ein PSTN-Netz, ein digitales Sprachsignal zur Übertragung in ein ISDN-Netz oder um ein Sprachsignal nach CACS-Protokoll zur Übertragung an eine Primärstation und anschlie­ ßende Netzkommunikation handeln kann. Vorzugsweise wird zur Generierung von ge­ sprochener Sprache Text über die Tastatur 160 in ein Teilsystem 321 zum Festhalten von Text beispielsweise in ASCII-Kodierung oder in anders kodierter oder auch binärer Form eingegeben und dann wird der Text aus diesem Format in Sprachformat umgesetzt (in Wörtern und Satzteilen), was in dem Teilsystem 322 zur Umsetzung von Text in Spra­ che geschieht. Das Sprachformatsignal wird dann in dem Sprachsynthesizer 323 in synthetisierte Sprache umgewandelt und kann danach in jedem geeigneten analogen, digitalen oder kodierten Format in ein Netz 104 übertragen werden.
Fig. 4 zeigt ein Ablaufdiagramm zur Veranschaulichung eines erfindungsgemä­ ßen Verfahrens zur visuellen Sprachwiedergabe und zur Sprachgenerierung. Fig. 4 zeigt dabei auch die verschiedenen Aufgaben bzw. Betriebsarten eines Telefons - z. B. des Telefons 150 - bei dem erfindungsgemäßen System auf, unter anderem für den norma­ len Telefonbetrieb (in POTS-Technik) zur für Multimedia-Steuerungszwecke, wozu auch Steuersignale zur Anwahl der Betriebsarten zur visuellen Sprachwiedergabe und zur Vi­ deokonferenzschaltung gehören. Gemäß Fig. 4 beginnt das Verfahren mit dem Start­ schritt 400 und im Schritt 405 wird eine Bedienungsanforderung erfaßt, zum Beispiel Ab­ heben oder Empfangen eines Meldesignals für einen ankommenden Anruf. Als nächstes erfolgt im Schritt 410 ein Hinweis bzw. eine Meldung an den Benutzer, z. B. mit visuell er­ kennbarem oder hörbarem Wählton, ein Läutesignal für einen ankommenden Anruf oder ein sichtbares Signal zur Meldung eines ankommenden Anrufs, und es werden Meldeinformationen zusammengefaßt z. B. DTMF-Ziffern für eine Telefonnummer oder "**". Wurde in Schritt 415 der Betriebsmodus zur visuellen Sprachdarstellung gewählt, z. B. durch Eingabe von "**" oder wird eine ankommende Meldung aus dem Netz 104 empfangen, verzweigt das Verfahren zum Schritt 435. Wurde im Schritt 415 die Be­ triebsart zur visuellen Sprachdarstellung nicht angefordert, so läuft das Verfahren mit der Anforderung bzw. Anwahl eines normalen Telefongesprächs weiter, z. B. mit Generierung von DTMF-Tönen und Verbindung eines Audioschaltwegs zwischen dem Telefon des Benutzers und dem Netz 104 - Schritt 420 - woraufhin in den transparenten Telefonmo­ dus geschaltet wird und Audiodaten (im typischen Fall PCM-Daten) im Schritt 425 zum Netz 104 übermittelt werden. Die Audiodaten wurden zuvor von der Benutzertonschnitt­ stelle 255 PCM-kodiert und von der Netzschnittstelle 110 in ein entsprechendes digitales oder analoges Format (z. B. ISDN, POTS, etc.) zur Weiterleitung in das Netz 104 umge­ wandelt. Nach Beendigung des Telefongesprächs im Schritt 430 kann das Verfahren mit dem Rückkehrschritt 500 beendet sein.
Aus Fig. 4 ist des weiteren ersichtlich, daß bei Anforderung der Betriebsart zur visuellen Sprachwiedergabe im Schritt 415 das Verfahren zum Schritt 435 verzweigt und nun feststellt, ob auch Sprachgenerierung angefordert wird. Wurde im Schritt 435 auch die Sprachgenerierung verlangt so verzweigt das Verfahren auch weiter zum Schritt 475 zur Sprachgenerierung gleichzeitig mit visueller Sprachdarstellung. Wurde im Schritt 415 unabhängig von der Anforderung von Sprachgenerierung im Schritt 435 nur die visuelle Sprachwiedergabe angefordert, so schaltet das Verfahren zum Schritt 440 weiter und initialisiert das System zur visuellen Sprachwiedergabe, zum Beispiel durch Abspielen einer einleitenden gesprochenen oder visuell dargestellten Aufforderung, wie vorstehend bereits erläutert wurde. Als nächstes wird im Schritt 445 ein Tonsignal empfangen, und das empfangene Tonsignal wird nun im Schritt 450 in eine Darstellung der gesprochenen Sprache in Textform umgewandelt. Die Textdarstellung der gesprochenen Sprache wird anschließend im Schritt 455 in ein Bildausgangssignal im Basisband umgewandelt und so moduliert, daß im Schritt 460 ein Hochfrequenz-Bildausgangssignal gebildet wird. Das Hochfrequenz-Bildausgangssignal wird anschließend im Schritt 465 zu einem Bild­ schirmgerät übertragen. Nach Beendigung des Schrilles der visuellen Sprachdarstellung im Schritt 470 kann das Verfahren zur visuellen Sprachwiedergabe mit dem Rückkehr­ schritt 500 beendet werden.
Wurde im Schritt 435 auch gleichzeitig mit dem Arbeitsgang zur visuellen Sprachwiedergabe in den vorstehend erläuterten Schritten 440 bis 470 die Sprachgene­ rierung angefordert, so verzweigt das Verfahren zum Schritt 475, um das Teilsystem zur Sprachgenerierung zu initialisieren, was ebenfalls über die vorstehend dargestellten sichtbaren oder hörbaren Aufforderungen geschieht. Als nächstes wird im Schritt 480 eingegebener Text empfangen und im Schritt 485 wird der empfangene Eingabetext in ein Sprachsignal umgesetzt, das ein analog oder ein digital kodiertes Sprachsignal sein kann. Im Schritt 490 wird dann das Sprachsignal beispielsweise zu einem Telekommuni­ kationsnetz übertragen; wenn dann der Arbeitsgang zur Sprachgenerierung im Schritt 495 beendet ist, kann das Verfahren mit dem Rückkehrschritt 500 beendet sein.
Zahlreiche Vorteile der verschiedenen erfindungsgemäßen Vorrichtungen, Ver­ fahrensweisen und Systeme liegen klar auf der Hand. Zunächst sorgen die verschiede­ nen Geräte, Verfahren und Vorrichtungen gemäß der vorliegenden Erfindung für die vi­ suelle Darstellung bzw. Wiedergabe von gesprochener Sprache, ohne daß lokal und am entfernt liegenden Ort bei einer Kommunikationsverbindung speziell nur für diesen Zweck vorgesehene Geräte und Systeme vorausgesetzt werden. Dabei kann jedes Tele­ fon am entfernten bzw. weit abliegenden anderen Ende eingesetzt werden, wobei die übermittelten Informationen in gesprochener Sprache auf jedem angeschlossenen Fern­ sehgerät oder einem anderen Bildschirmgerät überall in den Räumen lokal beim Benut­ zer angezeigt werden können. Außerdem ist bei den verschiedenen Ausführungsbeispie­ len der vorliegenden Erfindung kein größerer Aufwand an manueller Betätigung für den Betrieb erforderlich. Beispielsweise ist es im Gegensatz zu Geräten nach dem Stand der Technik nicht erforderlich, den visuell darzustellenden Text über eine Tastatur einzuge­ ben. Außerdem entfällt die Notwendigkeit Systeme doppelt vorzusehen, so daß Gerät zur visuellen Sprachwiedergabe nur lokal am Kommunikationsort benötigt wird und sich damit die vorliegende Erfindung vergleichsweise kostengünstig realisieren läßt. Außer­ dem sind die erfindungsgemäßen Vorrichtungen und Systeme benutzerfreundlich, indem sie den Benutzer systematisch durch das Verfahren zum Einsatz und zur Steuerung des Arbeitsgangs zur visuellen Sprachdarstellung führen.
Ein weiteres wichtiges Merkmal der erfindungsgemäßen Vorrichtung, des Ver­ fahrens und der Systeme besteht darin, daß es sich um ein offenes System handelt, so daß jeder Benutzer des Geräts zur visuellen Sprachdarstellung mit jedem anderen kom­ munizieren kann, der Zugang zu einem Telefon hat, wodurch ein Kommunikationsmodell geschaffen wird, bei dem jeder mit allen kommunizieren kann, da ein modernes Telefon überall anzutreffen ist. Dieser Vorteil steht in deutlichem Kontrast zu den geschlossenen Systemen nach dem Stand der Technik, bei denen speziell nur für diese Zwecke aus­ gebildete Systeme an allen Kommunikationspunkten vorhanden sein müssen, wodurch ein Kommunikationsmodell entsteht, bei dem einer nur mit jenen paar anderen kommu­ nizieren kann, die zu diesen spezialisierten zweckgebundenen Geräten und Systemen Zugang haben. Gemäß der vorliegenden Erfindung kann jeder Hörbehinderte über ein normales Telekommunikationsnetz mit jedem anderen Teilnehmer kommunizieren, ohne daß an einem dieser entfernten Orte, an denen sich der andere Teilnehmer befindet, eine besondere Ausrüstung benötigt wird. Dieses Merkmal eines offenen Systems ist wirklich revolutionär und bisher einmalig, da es erstmals eine universelle Möglichkeit zur Kommunikation mit Hörbehinderten über ein ganz normales Telekommunikationsnetz bietet, das sich irgendwo auf der Welt befindet.

Claims (10)

1. Vorrichtung zur visuellen Wiedergabe von Sprache, dadurch gekennzeichnet, daß sie folgendes aufweist:
eine Netzschnittstelle (110), die mit einem ersten Kommunikationskanal (103) zum Empfangen eines ersten Tonsignals zur Bildung eines Tonempfangssignals koppel­ bar ist;
einen Hochfrequenzmodulator (270) zur Umwandlung eines Bildausgangs­ signals im Basisband in ein Hochfrequenz-Bildausgangssignal auf einem zweiten Kom­ munikationskanal (227) zur Bildanzeige; und
eine Prozessorengruppe (130), welche mit der Netzschnittstelle (110) und dem Hochfrequenzmodulator (270) gekoppelt ist und unter Ansteuerung durch einen Satz Programmbefehle in der Weise anspricht, daß sie das Tonempfangssignal in eine Sprachwiedergabe in Text:form umsetzt und weiterhin die Textdarstellung gesprochener Sprache in das Bildausgangssignal im Basisband umsetzt.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß sie eine mit der Netzschnittstelle (110) und der Prozessorengruppe (130) gekoppelte Benutzerschnitt­ stelle (120) zum Empfangen eines Steuersignals aus einer Vielzahl von Steuersignalen aufweist.
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Benutzer­ schnittstelle außerdem mit einer physikalischen Schnittstelle für die Eingabe der Vielzahl von Steuersignalen koppelbar ist.
4. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die physikalische Schnittstelle ein Telefon ist.
5. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die physikalische Schnittstelle eine Tastatur ist.
6. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß die physikalische Schnittstelle ein Rechner ist.
7. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß in der Prozessor­ anordnung (130) eine Vielzahl von Betriebsarten vorgesehen ist, zu denen eine Telefon­ betriebsart und eine Betriebsart mit visueller Sprachwiedergabe gehören, und daß die Prozessorengruppe (130) des weiteren mit Auswahl der Betriebsart mit visueller Sprach­ darstellung auf ein Steuersignal anspricht.
8. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Prozessoran­ ordnung folgendes umfaßt:
ein Mikroprozessor-Teilsystem (260);
einen mit dem Mikroprozessor-Teilsystem (260) gekoppelten Speicher; und
einen mit dem Mikroprozessor-Teilsystem (260) und dem Speicher gekoppelten Prozessor (305) zur visuellen Sprachwiedergabe.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Prozessor (305) zur visuellen Sprachwiedergabe weiterhin folgendes umfaßt:
einen Prozessor (307) zur Spracherkennung; und
einen mit dem Prozessor (307) zur Spracherkennung gekoppelten Prozessor (309) für die Wiedergabe auf einem Bildschirm.
10. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Prozessor (305) zur visuellen Sprachwiedergabe weiterhin folgendes umfaßt:
einen Prozessor (307) zur Spracherkennung; und
einen mit dem Prozessor (307) zur Spracherkennung gekoppelten Untertitelko­ dierer (311).
DE19750439A 1996-11-15 1997-11-14 Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation Withdrawn DE19750439A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/751,048 US5774857A (en) 1996-11-15 1996-11-15 Conversion of communicated speech to text for tranmission as RF modulated base band video

Publications (1)

Publication Number Publication Date
DE19750439A1 true DE19750439A1 (de) 1998-05-20

Family

ID=25020251

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19750439A Withdrawn DE19750439A1 (de) 1996-11-15 1997-11-14 Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation

Country Status (8)

Country Link
US (1) US5774857A (de)
CN (1) CN1190840A (de)
AU (1) AU4443697A (de)
BR (1) BR9705853A (de)
DE (1) DE19750439A1 (de)
GB (1) GB2319390A (de)
ID (1) ID18881A (de)
RU (1) RU97119737A (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10045081A1 (de) * 2000-09-12 2002-03-28 Mende Speech Solutions Gmbh & Vorrichtung und Verfahren zum graphischen Darstellen und zum Übertragen von Informationen
DE10031832C2 (de) * 2000-06-30 2003-04-30 Cochlear Ltd Hörgerät zur Rehabilitation einer Hörstörung

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240392B1 (en) * 1996-08-29 2001-05-29 Hanan Butnaru Communication device and method for deaf and mute persons
US6181736B1 (en) * 1997-03-25 2001-01-30 Nxi Communications, Inc. Network communication system
US7194083B1 (en) 2002-07-15 2007-03-20 Bellsouth Intellectual Property Corporation System and method for interfacing plain old telephone system (POTS) devices with cellular networks
US7149514B1 (en) 1997-07-30 2006-12-12 Bellsouth Intellectual Property Corp. Cellular docking station
US20080207197A1 (en) * 1997-07-30 2008-08-28 Steven Tischer Apparatus, method, and computer-readable medium for interfacing devices with communications networks
US6868226B1 (en) * 1997-08-12 2005-03-15 Index Systems, Inc. Apparatus and methods for voice titles
US20020031331A1 (en) * 1997-08-12 2002-03-14 Index Systems, Inc. Apparatus and methods for voice titles
US5961589A (en) * 1997-09-09 1999-10-05 Intel Corporation Emulation of analog modem signaling over IDSN for translation-less interoperability with PSTN based H.324 system
US6009383A (en) * 1997-10-30 1999-12-28 Nortel Networks Corporation Digital connection for voice activated services on wireless networks
DE19754297A1 (de) * 1997-12-08 1999-06-10 Thomson Multimedia Sa Audiodatendekoder
US6452640B1 (en) * 1997-12-24 2002-09-17 E Guide Inc. Sound bite augmentation
JP2000023132A (ja) * 1998-07-06 2000-01-21 Canon Inc データ通信制御装置及びその制御方法、及びデータ通信システム
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7137126B1 (en) * 1998-10-02 2006-11-14 International Business Machines Corporation Conversational computing via conversational virtual machine
US6754631B1 (en) 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
US6411802B1 (en) * 1999-03-15 2002-06-25 Bellsouth Intellectual Property Management Corporation Wireless backup telephone device
US6377822B1 (en) * 1999-04-28 2002-04-23 Avaya Technology Corp. Wireless telephone for visually displaying progress messages
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US7385940B1 (en) * 1999-12-15 2008-06-10 Cisco Technology, Inc. System and method for using a plurality of processors to support a media conference
US6377925B1 (en) 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US8868769B2 (en) * 2000-03-14 2014-10-21 Noah Prywes System and method for obtaining responses to tasks
JP2002297496A (ja) * 2001-04-02 2002-10-11 Hitachi Ltd メディア配信システム及びマルチメディア変換サーバ
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20030046710A1 (en) * 2001-09-05 2003-03-06 Moore John F. Multi-media communication system for the disabled and others
US6763089B2 (en) * 2001-10-12 2004-07-13 Nortel Networks Limited System for enabling TDD communication in a telephone network and method for using same
CN1218574C (zh) * 2001-10-15 2005-09-07 华为技术有限公司 交互式视频设备及其字幕叠加方法
JP2003143256A (ja) 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US6690770B2 (en) 2001-11-08 2004-02-10 Sbc Technology Resources, Inc. TTY enhancement of busy condition prompt
US7120454B1 (en) 2001-12-26 2006-10-10 Bellsouth Intellectual Property Corp. Auto sensing home base station for mobile telephone with remote answering capabilites
US8265931B2 (en) 2002-01-22 2012-09-11 At&T Intellectual Property Ii, L.P. Method and device for providing speech-to-text encoding and telephony service
US7027986B2 (en) * 2002-01-22 2006-04-11 At&T Corp. Method and device for providing speech-to-text encoding and telephony service
US7847864B1 (en) * 2002-03-01 2010-12-07 Broadcom Corporation All digital radio frequency modulator
US6693663B1 (en) 2002-06-14 2004-02-17 Scott C. Harris Videoconferencing systems with recognition ability
US8416804B2 (en) 2002-07-15 2013-04-09 At&T Intellectual Property I, L.P. Apparatus and method for providing a user interface for facilitating communications between devices
US7200424B2 (en) 2002-07-15 2007-04-03 Bellsouth Intelectual Property Corporation Systems and methods for restricting the use and movement of telephony devices
US8275371B2 (en) 2002-07-15 2012-09-25 At&T Intellectual Property I, L.P. Apparatus and method for providing communications and connection-oriented services to devices
US8000682B2 (en) 2002-07-15 2011-08-16 At&T Intellectual Property I, L.P. Apparatus and method for restricting access to data
US8526466B2 (en) 2002-07-15 2013-09-03 At&T Intellectual Property I, L.P. Apparatus and method for prioritizing communications between devices
US8554187B2 (en) 2002-07-15 2013-10-08 At&T Intellectual Property I, L.P. Apparatus and method for routing communications between networks and devices
US8543098B2 (en) 2002-07-15 2013-09-24 At&T Intellectual Property I, L.P. Apparatus and method for securely providing communications between devices and networks
WO2004029935A1 (en) * 2002-09-24 2004-04-08 Rad Data Communications A system and method for low bit-rate compression of combined speech and music
US7072684B2 (en) * 2002-09-27 2006-07-04 International Business Machines Corporation Method, apparatus and computer program product for transcribing a telephone communication
WO2005003902A2 (en) * 2003-06-24 2005-01-13 Johnson & Johnson Consumer Companies, Inc. Method and system for using a database containing rehabilitation plans indexed across multiple dimensions
WO2005002433A1 (en) * 2003-06-24 2005-01-13 Johnson & Johnson Consumer Compagnies, Inc. System and method for customized training to understand human speech correctly with a hearing aid device
US20050085343A1 (en) * 2003-06-24 2005-04-21 Mark Burrows Method and system for rehabilitating a medical condition across multiple dimensions
US7567908B2 (en) 2004-01-13 2009-07-28 International Business Machines Corporation Differential dynamic content delivery with text display in dependence upon simultaneous speech
US8954844B2 (en) * 2004-01-13 2015-02-10 Nuance Communications, Inc. Differential dynamic content delivery with text display in dependence upon sound level
WO2005125281A1 (en) * 2004-06-14 2005-12-29 Johnson & Johnson Consumer Companies, Inc. System for and method of optimizing an individual’s hearing aid
US20080253579A1 (en) * 2004-06-14 2008-10-16 Johnson & Johnson Consumer Companies, Inc. At-Home Hearing Aid Testing and Clearing System
WO2005125278A2 (en) * 2004-06-14 2005-12-29 Johnson & Johnson Consumer Companies, Inc. At-home hearing aid training system and method
EP1767058A4 (de) * 2004-06-14 2009-11-25 Johnson & Johnson Consumer Hörgerät-tonsimulationssystem und verfahren zur verwendung des systems
WO2005125282A2 (en) * 2004-06-14 2005-12-29 Johnson & Johnson Consumer Companies, Inc. System for and method of increasing convenience to users to drive the purchase process for hearing health that results in purchase of a hearing aid
EP1769412A4 (de) * 2004-06-14 2010-03-31 Johnson & Johnson Consumer Audiologen-geräteschnittstellen-benutzerdatenbank zur bereitstellung auraler rehabilitierung von hörverlust über mehrere hördimensionen hinweg
EP1765153A4 (de) * 2004-06-14 2009-07-22 Johnson & Johnson Consumer System und verfahren zur bequemen und automatischen prüfung des gehörs einer person
WO2005125275A2 (en) * 2004-06-14 2005-12-29 Johnson & Johnson Consumer Companies, Inc. System for optimizing hearing within a place of business
EP1767061A4 (de) * 2004-06-15 2009-11-18 Johnson & Johnson Consumer Kostengünstige, programmierbare, zeitlich begrenzte hörgerätevorrichtung, benutzungsverfahren und system zu ihrer programmierung
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
KR100735700B1 (ko) * 2005-06-03 2007-07-06 엘지전자 주식회사 방송용 단말기 및 이를 이용한 문자음성통화 방법
US7561178B2 (en) * 2005-09-13 2009-07-14 International Business Machines Corporation Method, apparatus and computer program product for synchronizing separate compressed video and text streams to provide closed captioning and instant messaging integration with video conferencing
US7830408B2 (en) 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
CN101309390B (zh) 2007-05-17 2012-05-23 华为技术有限公司 视讯通信系统、装置及其字幕显示方法
US8180644B2 (en) 2008-08-28 2012-05-15 Qualcomm Incorporated Method and apparatus for scrolling text display of voice call or message during video display session
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9344562B2 (en) * 2012-11-30 2016-05-17 At&T Intellectual Property I, Lp Apparatus and method for managing interactive television and voice communication services
EP2899957A1 (de) * 2014-01-22 2015-07-29 Phonetica Lab S.R.L. System zur Integration von Videoanrufen in Fernsprechzentren
US20150371655A1 (en) * 2014-06-19 2015-12-24 Yang Gao Acoustic Echo Preprocessing for Speech Enhancement
KR102281341B1 (ko) * 2015-01-26 2021-07-23 엘지전자 주식회사 싱크 디바이스 및 그 제어 방법
US10250846B2 (en) * 2016-12-22 2019-04-02 T-Mobile Usa, Inc. Systems and methods for improved video call handling
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
CN108428454A (zh) * 2017-12-27 2018-08-21 广州音书科技有限公司 一种用于实时语音识别的音频线及系统
US11601548B2 (en) * 2019-05-17 2023-03-07 Beryl Burcher Captioned telephone services improvement
CN110223575A (zh) * 2019-05-20 2019-09-10 西安电子科技大学 一种虚实一体无线通信系统的综合测定系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
US4707858A (en) * 1983-05-02 1987-11-17 Motorola, Inc. Utilizing word-to-digital conversion
JPS61252596A (ja) * 1985-05-02 1986-11-10 株式会社日立製作所 文字音声通信方式及び装置
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5212551A (en) * 1989-10-16 1993-05-18 Conanan Virgilio D Method and apparatus for adaptively superimposing bursts of texts over audio signals and decoder thereof
US5146502A (en) * 1990-02-26 1992-09-08 Davis, Van Nortwick & Company Speech pattern correction device for deaf and voice-impaired
US5659793A (en) * 1994-12-22 1997-08-19 Bell Atlantic Video Services, Inc. Authoring tools for multimedia application development and network delivery
US5677739A (en) * 1995-03-02 1997-10-14 National Captioning Institute System and method for providing described television services
US5543851A (en) * 1995-03-13 1996-08-06 Chang; Wen F. Method and apparatus for translating closed caption data

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10031832C2 (de) * 2000-06-30 2003-04-30 Cochlear Ltd Hörgerät zur Rehabilitation einer Hörstörung
US7376563B2 (en) 2000-06-30 2008-05-20 Cochlear Limited System for rehabilitation of a hearing disorder
DE10045081A1 (de) * 2000-09-12 2002-03-28 Mende Speech Solutions Gmbh & Vorrichtung und Verfahren zum graphischen Darstellen und zum Übertragen von Informationen

Also Published As

Publication number Publication date
BR9705853A (pt) 1999-03-16
GB2319390A (en) 1998-05-20
RU97119737A (ru) 1999-09-20
ID18881A (id) 1998-05-20
US5774857A (en) 1998-06-30
AU4443697A (en) 1998-05-21
GB9723879D0 (en) 1998-01-07
CN1190840A (zh) 1998-08-19

Similar Documents

Publication Publication Date Title
DE19750439A1 (de) Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation
DE69935829T2 (de) Sprachmenüsystem mit Textunterstützung
DE3823219C1 (de)
DE19543870B4 (de) Mensch/Maschine-Schnittstelle für den Telefonmerkmalabruf
EP0440063B1 (de) Breitbandnebenstellenanlage
DE19741241A1 (de) Bildtelefongerät, Verfahren und System für Ton- und Bildkonferenzschaltung und Telefonie
DE2418391A1 (de) Elektronisches fernmelde-endgeraet
DE2719827A1 (de) System zur auswahl und wiedergabe von bildschirmtext
DE69831536T2 (de) Verfahren zur Steuerung eines Telekommunikationsdienst und eines Endgerät
DE19923958A1 (de) System und Verfahren zur automatisierten Rückkehr zu einer Nachrichten-Mailbox
EP0823819A2 (de) Digitaler ISDN-Video-Server
US5903302A (en) Automated video call distribution
DE19707878B4 (de) Verfahren und Vorrichtung zur Übertragung von alphanumerischen Zeichen zwischen wenigstens zwei Telekommunikations-Endeinrichtungen
DE19744056A1 (de) Videotelefonvorrichtung, Verfahren und System für Drahtleitungs-Audio- und Videokonferenzen und Telefongespräche
EP0975182B1 (de) Telekommunikationsgerät mit Schnittstelle zu einem Fernsehgerät als Monitor für Telekommunikations-Anwendungen
DE3223769A1 (de) Datenfaehiges fernsprechendgeraet
DE19751870A1 (de) Gerät, Verfahren und System für drahtlose Ton- und Bildkonferenzschaltung und Telefonie
EP1252766B1 (de) Telekommunikationsanlage
DE4326826C2 (de) MFV-Sendeeinrichtung und Telekommunikationsanordnung zur Fernbedienung von Anrufbeantwortern
DE19618785B4 (de) Verfahren zum automatischen Verbinden eines ankommenden Rufs mit einem auswärtigen Platz in einem automatischen Antworttelefon, in dem der Dienst "Makeln" zugelassen ist
DE69533346T2 (de) Tragbares Vielfach-Nachrichtenübertragungsgerät
DE19534746C2 (de) Schnittstelleneinrichtung zur Verbindung eines Computers mit dem ISDN-Netz
DE3347047A1 (de) Telefoneinrichtung mit einem teilnehmergeraet zum abfragen von informationen, eingeben von antworten und zum erzeugen von nachrichten digitalcodierter art
DE19943742B4 (de) Verfahren zum Zurverfügungstellen zusätzlicher Dienste an einem Teilnehmeranschluß
WO1993005606A1 (de) Fernsprecheinrichtung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee