DE69814819T2 - Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen - Google Patents

Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen Download PDF

Info

Publication number
DE69814819T2
DE69814819T2 DE69814819T DE69814819T DE69814819T2 DE 69814819 T2 DE69814819 T2 DE 69814819T2 DE 69814819 T DE69814819 T DE 69814819T DE 69814819 T DE69814819 T DE 69814819T DE 69814819 T2 DE69814819 T2 DE 69814819T2
Authority
DE
Germany
Prior art keywords
speech
elements
recognized
speech recognition
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69814819T
Other languages
English (en)
Other versions
DE69814819D1 (de
Inventor
Michael Joost
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of DE69814819D1 publication Critical patent/DE69814819D1/de
Application granted granted Critical
Publication of DE69814819T2 publication Critical patent/DE69814819T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Description

  • HINTERGRUND DER ERFINDUNG
  • Die Erfindung betrifft ein Verfahren zum Betreiben einer Mehrstations-Sprechanlage bzw. eines Mehrstationen-Kommunikationssystems, die/das mit einer Erkennung für menschliche Sprache versehen ist. Das US Patent 5,471,521 beschreibt ein System, bei dem ein erster Computer einen hereinkommenden Telefonanruf abwickelt, während ein zweiter Computer die gewünschte technische Bearbeitung durchführt. Verschiedene Serverklassen können vorhanden sein. Der jetzige Erfinder hat bei Massenkommunikationssystemen, die Platz für viele verteilte Abonnenten bzw. Teilnehmer bieten, einen Bedarf festgestellt, verfügbare Einrichtungen in einer effizienten Weise zuzuweisen, während die verschiedenen Ebenen der Komplexität bei der Sprachverarbeitung und der häufige Wechsel von Verarbeitungsdynamiken zwischen verschiedenen solchen Ebenen kurzfristig erkannt werden. Weiter sollte das System für eine hohe Zuverlässigkeit sorgen und daher imstande sein, seine Topologie automatisch neu zu konfigurieren.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Folglich ist es unter anderem ein Ziel der vorliegenden Erfindung, verteilte Sprachverarbeitungsverfahren in einer solchen Weise zu verbessern, dass rechnerintensive Aufgaben auf einer dynamischen Basis einer augenblicklich am Besten geeigneten Einrichtung zugewiesen werden, so dass der Gesamt-Verarbeitungsdurchsatz optimiert und eine örtliche Überlastung in einem hohen Grad vermieden würde, und solches nur für ein begrenztes Maß an zusätzlichen Kosten. Also ist die Erfindung gemäß einem ihrer Aspekte gekennzeichnet, wie im kennzeichnenden Teil des Anspruchs 1 angegeben.
  • Die Erfindung betrifft auch ein System, das angeordnet ist, um ein Verfahren durchzuführen, wie im Anspruch 1 beansprucht. Die Erfindung betrifft auch eine Teilsystem-Anlage bzw. Einrichtung, die angeordnet ist, um in einem Verfahrenszusammenhang zu arbeiten, wie im Anspruch 1 beansprucht, und/oder als Teil eines Systems, wie im Anspruch 2 beansprucht. Weitere vorteilhafte Aspekte der Erfindung sind in den abhängigen Ansprüchen angegeben.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Diese und weitere Aspekte und Vorteile der Erfindung werden nachfolgend mit Bezugnahme auf die Offenbarung von bevorzugten Ausführungsformen und insbesondere mit Bezugnahme auf die beigefügten Figuren ausführlicher erörtert, welche zeigen:
  • 1: ein Systemschaubild der vorliegenden Erfindung;
  • 2: ein Blockschaubild einer Requesterstation;
  • 3: ein Schaubild der wechselseitigen Aktivitäten des Systems;
  • 4: eine Verknüpfung von Stationen und Serverstationen;
  • 5: eine Makler- oder Vermittlervorrichtung für ein verteiltes Netz.
  • AUSFÜHRLICHE BESCHREIBUNG VON BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • 1 ist ein Systemschaubild der vorliegenden Erfindung. In dem Schaubild ist ein physikalisches bzw. reales Netz 22 in Form eines Rings dargestellt worden. Jedoch ist die Organisation des Netzes im Allgemeinen für die Erfindung nicht relevant. Auch sind Netzprotokolle ignoriert worden. Bei der Ausführungsform gibt es viele Benutzerstationen, von denen nur die Nummern #24–32 dargestellt worden sind. Die Benutzerstationen eignen sich dazu, persönliche Sprache bzw. Personensprache von Benutzern zu empfangen, und falls erforderlich, auch zur Ausgabe von maschinenerzeugter Sprache oder anderen Arten von simulierter menschlicher Sprache, wie zum Beispiel von einer Bandaufzeichnung. Eine Benutzerstation kann ein unbemannter Zugang in ein Telefonnetz sein. Alternativ kann die Systemausgabe in Form einer Darstellung von Zeichen erfolgen. In der Praxis kann die Gesamtzahl von Stationen bis in den Millionenbereich reichen, von denen sich in jedem beliebigen Augenblick mehrere Tausende in einem tatsächlichen Dialog im Betrieb befinden können. Der Dialog kann zu einem Informationssystem gehören, bei dem es der Benutzer unternimmt, auf eine große Datenbank 20 zuzugreifen. Ein anderes Einsatzgebiet kann einen Auftragsdienst für Gegenstände, wie Zugfahrkarten, oder ein Massenbefragungssystem betreffen, bei dem das System Fragen stellt und Antworten auf ihren kognitiven Inhalt prüft. Der Dialog kann von beiden Seiten Informationen betreffen, die für die andere Seite einen ungewissen Inhalt oder eine ungewissen Struktur besitzen, und wobei das System auf der Grundlage des Ergebnisses des Dialogs eine relevante Auswahl vornehmen wird.
  • Die analoge Sprache wird nun im zutreffenden Benutzergerät oder in der zutreffenden Empfängerstation empfangen und in einen Strom von digitalen Codes umgewandelt, die eine einfache Übertragung auf dem Netz 22 erlauben. Alternativ können die Stationen bzw. Endgeräte direkt digitale kodierte Sprache empfangen, z. B. aus einem ISDN-Telefonnetz.
  • Die Verarbeitung der empfangenen Sprache kann nun eine Analyse auf mehreren verschiedenen Ebenen erforderlich machen. Zum Zweck der Offenbarung sind bei der Ausführungsform nur zwei verschiedene Gruppen von Servern dargestellt worden. Zunächst sind Spracherkennungsstationen 36–40 angeordnet, um Ketten von digitalen Codes zu empfangen und um Wortmodelle, Sprachmodelle und möglicherweise weitere Modelle zu benutzen, um den Strom von Sprache auf eine Zielfolge von Wörtern, Lauteinheiten bzw. Phonemen oder anderen Elementen abzubilden. Schließlich sind Sprachverständnis-Teilsysteme 42–46 angeordnet, um die so erkannte Kette von Wörtern usw. zu empfangen, und um ein oder mehrere Dialogmodelle zu verwenden, um den Strom von erkannten Wörtern auf verkettete Informationen abzubilden, die einen solchen Inhalt aufweisen, dass sie beim aktuellen Fortschreiten des Dialogs relevant sind bzw. eine Bedeutung besitzen. Alternativ kann das System irgendeine Art von "Fehler"-Anzeige geben und die Person des Benutzers auffordern, die Taktik zu ändern, zum Beispiel eine vorhergehende Äußerung zu wiederholen oder umzuformulieren. Vermutlich wird die Person des Benutzers schließlich irgendwelche vernünftigen Sprachinformationen vorgelegt haben, auf die das System 20 irgendeine Ausgabe präsentieren kann, die im Zusammenhang des Dialogs passend wäre. Die Ausgabe kann eine Antwort auf eine Feststellung der Person des Benutzers, eine Lösung für ein Problem, eine plausible Meldung, wie zum Beispiel eine, die einem Benutzer anzeigt, was tatsächlich vom System verstanden worden ist, oder eine weitere nachfragende Feststellung sein. Im Prinzip sind noch weitere Arten von Antwort denkbar.
  • Bei dem oben Gesagten wird die Zuweisung der verschiedenen Aufgaben an die Elemente der verteilten Einrichtung vom System als Ganzes und in einer verteilten Weise vorgenommen, wobei die Benutzeranwendungen in dieser Hinsicht passiv sind, abgesehen davon, dass sie signalisieren, dass auf einer bestimmten Komplexitäts- oder Funktionalitätsebene eine gewisse Unterstützung notwendig ist. Nachdem der fraglichen Anwendung eine bestimmte Verarbeitungseinrichtung zugewiesen worden ist, kann die Benutzerstation die zu verarbeitenden Informationen weiterleiten.
  • 2 ist ein Blockschaubild einer Requesterstation 60, die eng mit einer bestimmten Benutzerstation oder Eingangsstation verknüpft bzw. verbunden sein kann. Die Person des Benutzers ist durch einen bidirektionalen Sprachkanal 50 mit dem System verbunden. Die Sprache wird von einem Spracheingabe-Teilsystem 52 und von einem Sprachausgabe-Teilsystem 24 bidirektional umgewandelt. Die umgewandelten Sprachinformationen werden zu einem Spracherkennungsserver 62 weitergeleitet. Die erkannte Sprache wird zur örtlichen Station 60 zurückgeschickt und anschließend vor Ort in einem Sprachverständnismodul 56 verarbeitet. Die so verstandene Sprache wird zu einem Block 58 geschickt, der die eigentliche Anwendung darstellt, und der dann die Ausgabeleitung der Verbindung 50 steuern kann. Man hat gefunden, dass die Spracherkennung häufig verhältnismäßig rechnerintensiv ist, verglichen mit den meisten anderen Verarbeitungselementen, wie Sprachverständnis, so dass die Dynamik des Dialogs die Verwendung eines schnellen aber entfernten Spracherkennungsteilsystems 62 gegenüber einem örtlichen Sprachverständnismodul 56 begünstigt. In 1 ist auch das Sprachverständnis als komplex genug angesehen worden, um ebenfalls eine entfernte Ausführung desselben zu rechtfertigen. Eine solche kann durch die Komplexität der zugrunde liegenden Informationsaustauscheinrichtung, durch den Grad der Gewissheit, der gefordert wird, um zu prüfen, ob die Sprache in der Tat richtig verstanden worden ist, durch gewisse Sicherheitsaspekte der Netzübertragung, die vor unbefugtem Eindringen sicher sein muss, sowie möglicherweise andere Aspekte verursacht werden, die sämtlich die Verwendung von massiven Rechnereinrichtungen notwendig machen würden. In 2 ist der Spracherkennungsserver ein Beispiel eines solchen Dienstes. In der Praxis kann ein Servergerät mehrere Spracherkennungsbeispiele beherbergen und daher imstande sein, eine Dienstleistung für mehrere Klienten gleichzeitig zu liefern, die sämtlich unter der Echtzeitvorgabe arbeiten. Da die Benutzer nur über einen Bruchteil der gesamten Dialogzeit reden, kann außerdem ein Erkennungsserverbeispiel unter mehreren Klienten aufgeteilt werden. Eine Echtzeitreaktion auf eine Äußerung eines Benutzers kann eine subjektiven menschlichen Erwartungen entsprechende Verzögerung aufweisen, die ohne weiteres in der Größenordnung einer Zehntelsekunde liegen kann. Außerdem kann das dargestellte Klientensystem dazu bestimmt sein, den Ein-Aus-Verkehr abzuwickeln, wie Sprachdaten zu mehreren Telefonleitungen, Datenbankzugriffe und das Anwendungsprogramm.
  • 3 ist ein Schaubild wechselseitiger Aktivitäten des Systems basierend auf einem zweiseitigen Dialog. Die untere Zeile zeigt an, dass das System bei der Feststellung eines einsetzenden Dialogs, wie zum Beispiel dem Abnehmen eines Telefonhörers durch einen Benutzer, eine Begrüßungsansage ausgibt, und möglicherweise eine erste Frage oder Aufforderung. Die obere Zeile zeigt an, dass die Person des Benutzers dann mit einer ersten Frage oder mit einer ersten Antwort in einer Sprache kommen kann. Als nächstes zeigt die untere Zeile an, dass das System als Reaktion darauf dem Benutzer eine weitere Aussage, Frage oder ein anderes Sprachelement darlegt. Dies kann von einer weiteren Äußerung vom Benutzer auf der oberen Zeile gefolgt sein. Schließlich wird das System eine abschließende Menge an Informationen darbieten oder die Anfrage des Benutzers bestätigen. Dann verabschiedet es sich von der Person des Benutzers. Solange das System Sprache ausgibt, kann die Erkennungseinrichtung in Bezug auf den fraglichen Dialog untätig bleiben; dies kann auch auf Pausen in der vom Benutzer erzeugten Sprache zutreffen. Außerdem kann der Empfang einer durch einen Menschen erzeugten Äußerung bewirken, dass die augenblickliche maschinenerzeugte Sprache unterbrochen wird.
  • 4 zeigt eine Verknüpfung bzw. Verbindung von Benutzerstationen, wie 92, und Serverstationen, wie 94, die durch Wählschalter 96, 98 mit einem Netz 100 verbunden sind. Wenn eine Spracherkennungseinrichtung in einer Netzumgebung untergebracht ist, kann sie zwischen verschiedenen Dialogen aufgeteilt werden, zum Beispiel um die Computerleistung während Pausen in einem anderen Dialog zu nutzen. Mit einem solchen Szenario kann die Anzahl von Spracherkennungseinrichtungen, die als Hardware oder Software verwirklicht sind, sehr viel kleiner sein, als die tatsächliche Anzahl von gleichzeitig aktiven Dialogen, ohne die Vorgabe einer Erkennung in Echtzeit zu verletzen. Die Spracherkennungseinrichtung wird einem Anwendungsdialog auf der Grundlage einer jeweiligen Äußerung zugewiesen, jedoch im Allgemeinen nicht dauerhaft einem bestimmten Dialog zugewiesen. Der Sprachdatenstrom wird zu einer verfügbaren Spracherkennungseinrichtung gelenkt. Die Erkennungseinrichtung aktiviert dann einen geeigneten Erkennungszusammenhang, wie ein Sprachenmodell und Sprachenlexikon, und zwar jedes Mal, wenn diesem bestimmten Server eine neue Äußerung zugewiesen wird. In einer Umgebung mit mehreren Spracherkennungsservern und mehreren Klientensystemen kann jede Äußerung auf einem unterschiedlichen Server ausgewertet werden, und jeder Spracherkennungsserver kann aufeinanderfolgende Äußerungen aus mehreren verschiedenen Klientensystemen und/oder Dialogen empfangen. In Abhängigkeit von der Rechnerleistung der Server können sie mehrere parallele Spracherkennungsverfahren anbieten, wobei sie unter der Echtzeitvorgabe arbeiten. Auch können Klienten mehrere parallele Dialoge bedienen. In diesem Szenario bietet die Lenkung auf der Grundlage von Äußerungen die größte Flexibilität bei der Ausnutzung der verfügbaren Rechnereinrichtungen.
  • 5 zeigt eine verteilte Makler- bzw. Vermittlungs-Organisation im Bezug zu einem Netz 110. In Informationssystemen, die durch einen Sprachdialog in einer natürlichen Sprache gesteuert werden, können die Spracherkennungseinrichtungen auf Serversystemen 116, 118 zusammengefasst werden, die über das Netz mit den Anwendungs-Klientensystemen 112, 114 verbunden sind. Die Netzorganisation weist in jedem der vier dargestellten Systeme einen jeweiligen örtlichen Netzmakler bzw. Netzvermittler auf, welche die Verantwortlichen für die Koordinierung der Requester und der Ressourcen sind. Wenn ein bestimmter Dialog auf einem bestimmten Klientensystem eine Spracherkennungseinrichtung benötigt, weil ein Sprecher mit einer Äußerung begonnen hat, übernimmt es der fragliche Makler, eine verfügbare Spracherkennungseinrichtung zu finden, die auf einem beliebigen Serversystem im Netz angeordnet sein kann. Der Makler wird dann den Sprachdatenstrom zu dieser bestimmten Spracherkennungseinheit lenken und wird die resultierende Wortkurve bzw. Wortkennlinie zur Dialoganwendung auf dem Klientensystem zurückleiten.
  • Um die Geräteabhängigkeit und manuelle Konfigurierungsanstrengungen zu verringern, ist der Netzmakler eine völlig dezentralisierte Struktur. Er verwendet einen automatischen dynamischen Konfigurationsmechanismus, der sich an jegliche augenblicklich existierende Konfiguration von Klienten- und Serversystemen anpassen kann. Zusätzliche Serverund Klientenstationen können zu der Umgebung hinzugefügt werden, ohne die Notwendigkeit, die zuvor existierenden Systeme zu stören oder irgendwelche Veränderungen daran vorzunehmen. Hinzukommende Klienten können sofort die verfügbaren Server nutzen, und hinzukommende Server werden sofort von den Klienten zur Nutzung berücksichtigt. Wenn ein Klienten- oder Serversystem ausfällt oder abgeschaltet wird, dann werden nur die von diesem bestimmten Gerät abgewickelten Dialoge betroffen sein. Der Rest der Konfiguration wird sich automatisch neu konfigurieren, um ohne die Komponente zu arbeiten, die entfernt worden ist.
  • Der Netzmakler besteht aus zwei Arten von Einheiten, von denen sich eine auf der Seite der Klienten und eine auf der Seite des Spracherkennungsservers befindet. Da jede solche Einheit mit mehreren Einheiten ihrer Gegenseite Umgang hat, gibt es zwischen Maklereinheiten eine Viele-mit-Vielen-Beziehung. Jeder Netzmakler kann mehrere Dialoge oder Spracherkennungseinrichtungen verwalten.
  • Die Spracherkennungseinrichtungen sind auf Serversystemen zusammengestellt, die über das Netz mit den Anwendungs-Klientensystemen verbunden sind. Der Netzmakler ist die Einheit, die für die Koordinierung der Requester und Ressourcen verantwortlich ist. Wenn für einen Dialog auf einem Klientensystem Bedarf an einer Spracherkennungseinrichtung besteht, wird es der Makler übernehmen, eine verfügbare Spracherkennungseinrichtung auf einem beliebigen im Netz vorhandenen Serversystem zu finden. Ein einfaches statistisches Verfahren wird verwendet, um eine geeignete Ressource zuzuweisen. Das Verfahren zur Lastverteilung stellt sicher, dass die Echtzeitvorgabe zur Spracherkennung eingehalten wird, das heißt einem Erkennungsserversystem sollten nicht mehr gleichzeitige Äußerungen zugewiesen werden, als in Echtzeit ausgewertet werden könnten. Die Gefahr von widersprüchlichen Zuordnungen von mehreren Klienten wird durch ein Zufallsauswahlverfahren minimiert. Unterschiedliche Anforderungen an Prozessorressourcen von mehreren verschiedenen Äußerungen werden ohne das Erfordernis von Abschätzungsrechnungen ebenfalls durch die Lastverteilung abgewickelt. Das Verfahren hat die folgenden Vorteile:
    • – Leicht zu realisieren
    • – In der Lage, zu verwalten, wie auf der Grundlage von Informationen über verteilte Ressourcen, wie beispielsweise der Verfügbarkeit von Erkennungseinrichtungen und ihren jeweiligen Fähigkeiten und zugehörigen Zusammenhängen, wie Sprachenmodellen, Lexika, usw.
    • – Das Auswahlverfahren ist einfach. Die Klienten können eine Tabelle von verfügbaren Ressourcen von sämtlichen Servern verwenden und müssen nicht jeden Server getrennt besuchen, um eine verfügbare Erkennungseinrichtung zu finden. Die Zuweisung wird somit schnell ausgeführt, um die Echtzeitvorgaben zu erfüllen.
    • – Gleichzeitige Zugriffe von mehreren Klienten auf denselben Server werden durch einen Verwalter auf dem fraglichen Server gelöst. Der Verwalter entscheidet, welche Klienten mit den verfügbaren Erkennungseinrichtungen verbunden werden.
    • – Auf den Servern sind reservierte Erkennungseinrichtungen konfiguriert, die in Verstopfungssituationen zugewiesen werden können, selbst wenn diese Zuweisungen das Echtzeit-Verarbeitungsvermögen dieses speziellen Servers verletzen würden. Der Lastverteilungsalgorithmus stellt sicher, dass reservierte Ressourcen dann nur in Ausnahmesituationen zugewiesen werden, wenn entweder keine andere zur Echtzeit-Verarbeitung fähige Erkennungseinrichtung im Netz verfügbar ist, oder wenn eine gleichzeitige Anforderung für die letzte zur Echtzeit-Verarbeitung fähige Ressource eines Servers vorliegt.
  • Ein besonderer Vorteil der entfernten und verteilten Verarbeitung gemäß der Erfindung besteht darin, dass ein solches System beinahe idiotensicher ist, weil keinerlei Anstrengung notwendig ist, um die Konfiguration einzustellen.

Claims (5)

  1. Verfahren zum Betrieb einer Mehrstations-Sprechanlage, in der Sprachverarbeitung stattfindet, und zwar auf mindestens zwei Ebenen allgemeiner Komplexität hinsichtlich gleichzeitig auf mehreren parallelen Ursprungsstationen empfangbarer Sprache, dadurch gekennzeichnet, dass besagtes Verfahren folgende Schritte umfasst: – Empfang von menschlicher Sprache auf einer oder mehreren Ursprungsstationen und das Erkennen der Notwendigkeit, solche Sprache in einer verbundenen Anwendungsumgebung zu verstehen; – Verteilte Steuerung des tatsächlichen Sprechverkehrs, indem über die Zeit zu erkennende Sprachelemente der menschlichen Sprache ermittelt werden und die Sprachelemente auf äußerungsbezogener Basis dynamisch einer oder mehreren einer Vielzahl von verteilten Spracherkennungsanlagen zugewiesen werden, um anschließend Elemente zu erzeugen, die erkannt wurden; – Weitere Steuerung der realen Kommunikation, um die erkannten Elemente im Zusammenhang der betreffenden Anwendung zu verstehen, indem die erkannten Elemente einer oder mehreren einer Vielzahl von Spracherkennungsanlagen zugewiesen werden, um Sprachelemente zu erzeugen, die verstanden wurden; – Verteilte Durchführung der besagten Zuweisung, basierend auf einer Kombination von Kontingenz und statistischen Maßen;
  2. Verfahren wie nach Anspruch 1, bei dem besagtes Sprachverstehen wieder der betreffenden Ursprungsstation zugewiesen wird.
  3. Verfahren wie nach Anspruch 1, bei dem besagtes Sprachverstehen dynamisch zugewiesen wird.
  4. System, angepasst zur Durchführung des Verfahrens nach Anspruch 1.
  5. Teilsystem-Anlage, angepasst zum Betrieb des Verfahrens nach Anspruch 1.
DE69814819T 1997-11-14 1998-10-19 Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen Expired - Lifetime DE69814819T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97203554 1997-11-14
EP97203554 1997-11-14
PCT/IB1998/001651 WO1999026233A2 (en) 1997-11-14 1998-10-19 Hardware sharing in a speech-based intercommunication system

Publications (2)

Publication Number Publication Date
DE69814819D1 DE69814819D1 (de) 2003-06-26
DE69814819T2 true DE69814819T2 (de) 2004-04-01

Family

ID=8228925

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69814819T Expired - Lifetime DE69814819T2 (de) 1997-11-14 1998-10-19 Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen

Country Status (5)

Country Link
US (1) US6327568B1 (de)
EP (1) EP0954855B1 (de)
JP (1) JP2001508200A (de)
DE (1) DE69814819T2 (de)
WO (1) WO1999026233A2 (de)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US20050261907A1 (en) * 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6408272B1 (en) 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
WO2001004876A1 (en) * 1999-07-13 2001-01-18 British Telecommunications Public Limited Company Distributed object oriented architecture for speech understanding
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
JP3581648B2 (ja) 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US6950795B1 (en) * 2001-10-11 2005-09-27 Palm, Inc. Method and system for a recognition system having a verification recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US20030144837A1 (en) * 2002-01-29 2003-07-31 Basson Sara H. Collaboration of multiple automatic speech recognition (ASR) systems
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7797159B2 (en) * 2002-09-16 2010-09-14 Movius Interactive Corporation Integrated voice navigation system and method
US7571100B2 (en) * 2002-12-03 2009-08-04 Speechworks International, Inc. Speech recognition and speaker verification using distributed speech processing
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
KR100636317B1 (ko) 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
JP5452868B2 (ja) 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7389222B1 (en) * 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9246914B2 (en) 2010-07-16 2016-01-26 Nokia Technologies Oy Method and apparatus for processing biometric information using distributed computation
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US8810368B2 (en) 2011-03-29 2014-08-19 Nokia Corporation Method and apparatus for providing biometric authentication using distributed computations
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8972263B2 (en) 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9576593B2 (en) 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4955054A (en) * 1988-10-05 1990-09-04 Precision Software Incorporated Integrated telecommunication system with improved digital voice response
US5349526A (en) * 1991-08-07 1994-09-20 Occam Research Corporation System and method for converting sentence elements unrecognizable by a computer system into base language elements recognizable by the computer system
GB2280820A (en) * 1993-07-29 1995-02-08 Ibm Distributed system for call processing
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data

Also Published As

Publication number Publication date
WO1999026233A2 (en) 1999-05-27
WO1999026233A3 (en) 1999-07-22
EP0954855A2 (de) 1999-11-10
US6327568B1 (en) 2001-12-04
JP2001508200A (ja) 2001-06-19
DE69814819D1 (de) 2003-06-26
EP0954855B1 (de) 2003-05-21

Similar Documents

Publication Publication Date Title
DE69814819T2 (de) Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen
DE69732769T2 (de) Einrichtung und verfahren zur verminderung der undurchschaubarkeit eines spracherkennungswortverzeichnisses und zur dynamischen selektion von akustischen modellen
DE10220524B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE69820222T2 (de) Verfahren und vorrichtung zur aktivierung einer sprachgesteuerten funktion in einem mehrplatznetzwerk mittels sowohl sprecherabhängiger als auch sprecherunabhängiger spracherkennung
DE69835792T2 (de) Verfahren und Apparat zum Erzeugen semantisch konsistenter Eingaben für einen Dialog-Manager
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE10220521B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1477016B1 (de) Effiziente ausnutzung von für vermittlungssysteme bereitgestellten ivr-ressourcen
DE60217902T2 (de) Verfahren zum betrieb eines unterbrechnungs-dialogsystems
DE60123544T2 (de) System und Verfahren zur Verwendung eines Fernsprechapparates für den Zugriff auf Informationen in einer Anrufzentrale
EP1361740A1 (de) Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220522B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1214704B1 (de) Verfahren zum erfassen und auswerten von ein wort darstellenden wortsprachsignalen eines benutzers eines spracherkennungssystems
DE10127852A1 (de) Verfahren zur Erkennung von Sprachinformationen
DE4231937C1 (de) Verfahren zum Feststellen der Identität des Inhabers einer Chipkarte, inbesondere Kreditkarte
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
EP1363271A1 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220519B4 (de) Verfahren und System zur Verarbeitung von Sprachinformation
DE10220518B4 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformation
EP1764706A1 (de) Verfahren und Vorrichtung zum automatischen Erstellen eines Service-Formulars
DE102017222549A1 (de) Steuerverfahren und Sprachdialogsystem
DE3330889A1 (de) Schaltungsanordnung zur ueberpruefung der funktionstuechtigkeit einer rechnergesteuerten fernsprechvermittlungsanlage
EP1361736A1 (de) Verfahren zur Erkennung von Sprachinformation
DE4120308A1 (de) Einrichtung und verfahren zum erkennen von sprache
DE4229000A1 (de) Verfahren zum Quantifizieren von vermittlungstechnischem Leistungspotential programmgesteuerter Kommunikationsanlagen

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: SCANSOFT, INC., PEABODY, MASS., US

8364 No opposition during term of opposition