CN101197868A - 在web页框架中启用语法的方法和系统 - Google Patents

在web页框架中启用语法的方法和系统 Download PDF

Info

Publication number
CN101197868A
CN101197868A CNA2007101869300A CN200710186930A CN101197868A CN 101197868 A CN101197868 A CN 101197868A CN A2007101869300 A CNA2007101869300 A CN A2007101869300A CN 200710186930 A CN200710186930 A CN 200710186930A CN 101197868 A CN101197868 A CN 101197868A
Authority
CN
China
Prior art keywords
voice
grammer
mode
sgml
interpreting means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101869300A
Other languages
English (en)
Other versions
CN101197868B (zh
Inventor
小查尔斯·W.·克罗斯
苏恩索恩·阿蒂瓦尼查亚丰
杰拉尔德·M.·麦科布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101197868A publication Critical patent/CN101197868A/zh
Application granted granted Critical
Publication of CN101197868B publication Critical patent/CN101197868B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Abstract

在web页框架中启用语法,包括:在多模式设备上的多模式应用中接收框架集文档,其中该框架集文档包括定义web页框架的标记;多模式应用获取显示在每个web页框架中内容文档,其中该内容文档包括可导航标记元素;多模式应用为每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记;以及多模式应用启用所有产生的用于语音识别的语法。

Description

在web页框架中启用语法的方法和系统
技术领域
本发明的领域涉及数据处理,或者,更具体地,涉及用于在web页框架中启用语法的方法、装置和产品。
背景技术
由于小型设备已经日益变小,与通过键盘或者指示笔运行于小型设备上的应用的用户交互变得越来越受限和麻烦。特别地,类似移动电话和PDA的小型手持设备通过诸如多模式接入等其他方式提供许多功能并包含充分的处理能力来支持用户交互。支持多模式接入的设备将多个用户输入方式或者通道组合在同一个交互中,允许一个用户通过多个输入模式或者通道同时与该设备上的应用交互。输入的方法包括语音识别、键盘、触摸屏、指示笔、鼠标、手写以及其他。多模式输入往往会使得小型设备的使用更加容易。
多模式应用往往运行于提供多模式web页以在多模式浏览器上显示的服务器。作为本说明书中所使用的术语,“多模式浏览器”通常意味着能够接收多模式输入并且以多模式输出与用户交互的web浏览器。典型地,多模式浏览器展现了用XHTML+Voice(“X+V”)编写的web页。X+V提供了使用户能够通过除了诸如键盘敲击和鼠标指针动作等传统输入方式以外的口语对话与通常运行于服务器上的多模式应用交互的标记语言。X+V通过将XHTML(可扩展超文本标记语言)和VoiceXML所支持的语音识别词汇表结合起来的方式为标准web内容增加了口语交互。对于可视化的标记,X+V包括XHTML标准。对于话音标记,X+V包括VoiceXML的子集。
目前,轻量级话音解决方案需要开发人员建立语法和词典对自动语音识别(automatic speech recognition,ASR)引擎所必须识别的词的可能数量加以限制——作为提高准确度的手段。典型地,一些普及的设备已经由于设备的形状因数的缘故限制了交互和输入模态,信息站设备也已经通过设计限制了交互和输入模态。在这两种情况下,实施与说话者无关的话音识别的使用来增强用户体验以及与设备的交互。与说话者无关的识别的当前技术允许写下一些复杂的话音应用,只要每个可能的话音命令都有与之相关联的有限的词汇表。例如,如果用户被提示说出城市的名称,则系统就可以相当自信地识别出所说的城市名称。
话音交互的特性与X+V相结合,从而可以直接用于X+V内容之中。X+V包括支持语音合成、语音对话、命令和控制以及语音语法的话音模块。话音处理装置可以附着于X+V元素并对具体事件做出响应。对VoiceXML元素与相应的可视化接口元素进行同步,X+V采用XML Events事件(本文档中通常称为“事件”)。对X+V的详细说明可以从网页http://www.voicexml.org的VoiceXML论坛上获得。对XHTML和XML Events的详细说明可以从网址为http://www.w3.org/MrakUp的万维网联盟的HTML的主页上获得。对VoiceXML的详细说明可以从网址为http://www.w3.org/voice的万维网联盟的Voice Browser Activity上获得。
多模式应用可以跨越多个XHTML web页。这些web页中的一个可以规定多个框架,其中每个框架包含其自身的XHTML页面。对于HTML框架的概述,  可参见万维网联盟的网站http://www.w3.org/TR/html401/present/frames.html。框架允许作者呈现浏览器同时显示的多个视图或者子窗口。一个常见的用途是将应用的导航作为独立的子窗口分离。当另一个子窗口中的内容更新时,导航子窗口并不改变。为了规定多个框架,在包括包含<frameset>标记元素的应用的文档中,有一个被称为“框架集文档”的顶级XHTML文档。一个或多个<frame>元素像<frameset>的子代一样被配置为框架集文档中的标记。每个框架都有一个名称以便多个XHTML文档可以作为新内容放置于其内部。每个框架都可以在识别文档的标记中通过其名称被目标定位从而显示在由框架定义的子窗口中。XHTML文档内的<link>和<anchor>元素规定哪一个框架将通过“目标”标记属性装载引用的XHTML文档。如果缺少“目标”属性,则默认当前框架为目标。如果用户通过图形用户界面(GUI)利用鼠标单击激活框架中的超链接,则只有目标框架随着新内容被更新。
然而,在现有技术中,只有当前受到关注的框架将启用语音识别语法。由于用户可以同时看见浏览器显示的所有框架,所以用户希望启用针对所有框架的语法。针对超链接的框架通过GUI,而不是通过话音启用。
另外,当话音用于激活超链接时,没有框架目标定位。与用户的言语匹配时激活启用话音的超链接的语法可源于链接的属性、标题属性、名称属性、另外的属性或者源于链接标记中开始标签和结束标签之间的文本。但是当用户说出超链接的标题且该链接被激活时,整个页面,而不是目标框架将随着新内容被更新。包括其导航框架的所有应用的框架将由单一的新页面代替。定义在框架集文档中的框架结构会被破坏,应用就变成了单框架应用。
发明内容
本发明试图通过同时话音启用所有显示框架中的超链接并设置每个超链接的目标、以便更新的内容出现在适当框架中的方法、系统和产品来克服在多模式浏览器的web页框架中启用语法的技术现状的局限性。所述在web页框架中启用语法的方法、装置和计算机程序产品包括:在多模式设备上的多模式应用中接收框架集文档,其中该框架集文档包括定义web页框架的标记;由多模式应用获取显示在每个web页框架中的内容文档,其中该内容文档包括可导航标记元素;由多模式应用针对每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示内容的标记和识别该内容将显示于何处的框架的标记;以及由多模式应用启用所有产生的用于语音识别的语法。
本发明前述以及其他目的、特征和优势将通过以下对如附图所示的本发明示范性实施例的更为具体的描述变得显而易见,附图中相同的参考数字通常代表本发明示范性实施例的相同部分。
附图说明
图1示出了根据本发明的实施例在web页框架中启用语法的示范性系统的网络图。
图2示出了根据本发明的实施例在web页框架中启用语法的包括用作多模式设备的计算机实例的自动计算机器的框图。
图3示出了根据本发明的实施例在web页框架中启用语法的包括用作话音服务器的计算机实例的自动计算机器的框图。
图4示出了根据本发明的实施例在web页框架中启用语法的示范性装置的功能框图。
图5示出了根据本发明的实施例在web页框架中启用语法的另一个示范性装置的功能框图。
图6示出了根据本发明的实施例在web页框架中启用语法的示范性方法的流程图。
具体实施方式
根据本发明的具体实施例,下面将结合从图1开始的附图对用于在web页框架中启用语法的示范性方法、装置和产品进行描述。图1示出了根据本发明的实施例在web页框架中启用语法的示范性系统的网络图。根据本发明的实施例,图1的系统通常通过:在多模式设备(152)上的多模式应用(195)中接收框架集文档,其中该框架集文档包括定义web页框架的标记;由多模式应用获取显示在每个web页框架中的内容文档,其中该内容文档包括可导航标记元素;由多模式应用针对每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段(segment of markup),包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别该内容将显示于何处的框架的标记;以及由多模式应用启用所有产生的用于语音识别的语法,从而在web页框架中启用语法。典型地,图1中系统的工作还包括由多模式应用向自动话音标记语言解释装置(interpreter)提供来自用户的用于识别的语音;由带有启用语法的自动话音标记语言解释装置对至少部分用于识别的语音进行匹配;以及将指示代表匹配语音的指令的事件从自动话音标记语言解释装置返回至多模式应用。
根据本发明的实施例,多模式应用(195)是能够将多模式设备作为支持在web页框架中启用语法的装置来操作的计算机程序指令的模块。多模式设备(152)为自动设备,即在能够接收来自用户的语音输入、将语音数字化并且向自动话音标记语言解释装置提供数字化语音和话音识别语法的自动计算机器或者在自动设备上运行的计算机程序。多模式设备可以和例如膝上型计算机上话音启用的浏览器、电话听筒上的话音浏览器、与个人计算机上的Java一同执行的在线游戏以及和本领域的技术人员可能想到的其他硬件和软件的组合一起实现。图1的系统包括几个实例多模式设备:
●为了数据通信通过有线连接(120)耦接于数据通信网(100)的个人计算机(108),
●为了数据通信通过无线连接(114)耦接于数据通信网(100)的个人数字助理(PDA)(108),
●为了数据通信通过无线连接(116)耦接于数据通信网(100)的移动电话(110),以及
●为了数据通信通过无线连接(118)耦接于数据通信网(100)的膝上型计算机(126)。
图1系统中的每个实例多模式设备(152)都包括麦克风、音频放大器、数模转换器以及能够从用户(128)接受用于识别的语音(315)、将语音数字化并且向自动话音标记语言解释装置提供数字化语音和话音识别语法的多模式应用。可以根据工业标准的编解码器,包括但不局限于那些同样用于分布式语音识别的编解码器对语音进行数字化。用于对语音进行“编码/解码”的方法称为“编解码器”。欧洲电信标准协会(ETSI)提供了几种可用于DSR中的对语音进行编码的编解码器,包括,例如ETSI ES 201 108 DSR前端编解码器、ETSIES 202 050高级DSR前端编解码器、ETSI ES 202 211扩展DSR前端编解码器以及ETSI ES 202 212扩展高级DSR前端编解码器。在诸如标题为
RTP Payload Format for European TelecommunicationsStandards Institute(ETSI)European Standard ES 201 108Distributed Speech Recognition Encoding
的RFC3557和标题为
RTP Payload Formats for European TelecommunicationsStandards Institute(ETSI)European Standard ES 202 050,ES 202211,and ES 202 212 Distributed Speech Recognition Encoding
的因特网草案的标准中,IETF为不同的编解码器提供了标准的RTP净荷格式。因此,值得注意的是本发明中没有关于编解码器、净荷格式或者分组结构的限制。根据本发明的实施例,可以通过包括例如:
●AMR(自适应多速率语音编码器)
● ARDOR(自适应速率失真优化声音编码器)
●杜比数码(A/52,AC3)
●DTS(DTS相干声学)
●MP1(MPEG音频层-1)
● MP2(MPEG音频层-2)层2音频编解码器(MPEG-1,MPEG-2和非ISO MPEG-2.5)
●MP3(MPEG音频层-3)层3音频编解码器(MPEG-1,MPEG-2和非ISO MPEG-2.5)
●感知音频编码
●FS-1015(LPC-10),
●FS-1016(CELP),
●G.726(A DPCM),
●G.728(LD-CELP)
●G.729(CS-ACELP)
●GSM
● HILN(MPEG-4参数音频编码)以及
●本领域的技术人员可能想到的其他
任何编解码器对用于在web页框架中启用语法的语音进行编码。
图1系统中的每个实例多模式设备(152)可以包括自动话音标记语言解释装置。自动话音标记语言解释装置(191)可以本地安装于多模式设备本身,或者自动话音标记语言解释装置(192)可以跨过数据通信网(100)相对于该多模式设备远程安装在话音服务器(151)中。当多模式设备包括自动话音标记语言解释装置时,可以通过借助从多模式应用到自动话音标记语言解释装置的一个或多个应用编程接口(API)调用向该自动话音标记语言解释装置提供语法完成启用产生的语法。当自动话音标记语言解释装置位于话音服务器时,该多模式设备可以为了数据通信耦接于话音服务器,可以通过借助从多模式应用到话音服务器上的自动话音标记语言解释装置的一个或多个通信协议消息向自动话音标记语言解释装置提供语法完成启用产生的语法。
根据本发明的实施例,图1系统中的每个实例多模式设备(152)都被配置并编程为能够通过:在多模式设备(152)上的多模式应用(195)中接收框架集文档,其中该框架集文档包括定义web页框架的标记;由多模式应用获取显示在每个web页框架中的内容文档,其中该内容文档包括可导航标记元素;由多模式应用针对每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记;以及由多模式应用启用(enable)所有产生的用于语音识别的语法,在web页框架中启用语法。
对这四个实例多模式设备(152)的描述仅仅用于解释本发明,而并非对本发明加以限制。根据本发明的实施例,任何能够接受来自用户的语音、向自动话音标记语言解释装置提供数字化的语音并且接收和播放语音提示和响应的自动计算机器都可以改进为用于在web页框架中启用语法的多模式设备。
图1的系统还包括通过有线连接(122)连接于数据通信网(100)的话音服务器(151)。话音服务器(151)是运行例如,诸如VoiceXML解释装置等自动话音标记语言解释装置的计算机,自动话音标记语言解释装置通过接受带有话音识别语法的语音识别请求并返回可能包括表示识别的语音或事件的文本以由多模式客户应用处理的响应,来为多模式设备提供话音识别服务。话音服务器(151)还向多模式客户端应用,例如诸如X+V应用或者Java话音应用中的用户输入提供用于话音提示和话音响应(314)的文本到语音(TTS)转换。
图1的系统包括为了数据通信连接多模式设备(152)和话音服务器(151)的数据通信网(100)。根据本发明的实施例,用于在web页框架中启用语法的数据通信网是由多个为了带有分组交换协议的数据通信而连接的起数据通信路由器作用的计算机组成的数据通信网。这种数据通信网可以通过光连接、有线连接或者无线连接的方式实现。这种数据通信网可以包括企业内部互联网、因特网、局域数据通信网(LAN)和广域数据通信网(WAN)。这种数据通信网可以实现,例如:
●具有EthernetTM协议或者无线EthernetTM协议的链路层,
●具有因特网协议(IP)的数据通信网络层,
●具有传输控制协议(TCP)或者用户数据报协议(UDP)的传输层,
●具有超文本传输协议(HTTP)、会话初始协议(SIP)、实时协议(RTP)、分布式多模式同步协议(DMSP)、无线接入协议(WAP)、手持设备传输协议(HDTP)、被称为H.323的ITU协议的应用层,以及
●本领域的技术人员所能想到的其他协议。
组成图1所示的示范性系统的话音服务器(151)、多模式设备(152)和数据通信网(100)的排列仅仅是为了解释本发明,而并非对本发明加以限制。根据本发明的不同实施例,可用于在web页框架中启用语法的数据处理系统可以包括图1中未示出而本领域的技术人员可能想到的额外的服务器、路由器、其他设备和对等体系结构。这种数据处理系统中的数据通信网可以支持除上面所提及的那些协议之外的许多数据通信协议。可以在除图1所示的那些硬件平台之外的多种硬件平台上实现本发明的不同实施例。
术语“标记”用于本文指的是HTML、XHTML、XML、X+V、VoiceXML等标记语言中的标记元素和标记属性。web页框架是定义了多个用于内容显示的视图、窗口或子窗口的标记,例如,XHTML<frame>元素。术语“框架”(frame)既用来指定义视图的标记又用来指视图本身。多个视图为设计者提供了使特定信息可视的途径,而其他视图可以被滚动或替换。例如,在同一个窗口中,一个框架可能显示静态横幅,第二个框架可能显示导航菜单,而第三个框架可能显示能够通过第二个框架中的导航滚动或者替换的主文档。
框架集文档是描述框架布局的标记文档,例如诸如X+V文档。框架集文档具有与没有框架的HTML文档不同的标记。标准的HMTL、XHTML或者X+V文档有一个<head>部分和一个<body>。框架集文档具有<head>和取代了<body>的<frameset>。标记文档的<frameset>部分规定了计算机显示屏上视图的布局。框架中的待显示内容不包括在框架集文档中框架被定义的同一文档里。这些内容在另一个文档,“内容文档”中,典型地,该文档远程存储在web服务器上,而往往不是向多模式设备提供框架集文档的同一web服务器上。内容文档的位置在框架标记,“scr”属性中规定。典型地,每个内容文档实际上都是web页本身,典型地,HTML、XHTML、XML或者X+V文档还包含诸如链接<link>元素和锚<a>元素等可导航标记元素。
语法是向自动话音标记语言解释装置传递可被识别的词和词的顺序的标记。根据本发明的实施例,用于在web页框架中启用语法的语法可以以任何ASR引擎所支持的任何格式表示,包括以例如Java语音语法格式(JSGF)、W3C语音识别语法规范(SRGS)的格式、源于IETF RFC2234的增强型Backus-Naur格式(ABNF)、以W3C的随机语言模型(N-Gram)规范中描述的随机语法的形式以及本领域技术人员可能想到的其他语法格式来表示。典型地,语法如同对话的元素,例如诸如VoiceXML<menu>或者X+V<form>一样工作。语法的定义可以在对话(dialog)中内嵌表示。或者语法可以在独立的语法文档中外部实现并在对话内通过URL引用。这里是用JSFG表示语法的实例:
    <grammar scope=”dialog”><![CDATA[
    #JSGF V 1.0;
    grammar command;
    <command>=[remind me to]call|phone|telephone<name>
<when>;
    <name>=bob|martha|joe|pete|chris|john|artoush;
    <when>=today|this afternoon|tomorrow|next week;
    ]]>
    </grammar>
在本实例中,标记元素<command>、<name>和<when>是语法的规则。规则是规则名称和向自动话音标记语言解释装置建议当前哪些词可以被识别的规则扩展的组合。在本实例中,扩展包括联合(conjunction)和析取(disjunction),垂直条“|”表示“或”。自动话音标记语言解释装置依次对规则进行处理,首先是<command>,其次是<name>,再次是<when>。<command>规则匹配“call”或“phone”或“telephone”加上,即结合从<name>规则和<when>规则返回的任何东西。<name>规则匹配“bob”或“martha”或“joe”或“pete”或“chris”或“john”或“artoush”,<when>规则匹配“today”或“this afternoon”或“tomorrow”或“next week”。命令语法总体上匹配类似这些的言语,例如:
●“phone bob next week,”
●“telephone martha this afternoon,”
●“remind me to call chris tomorrow,”以及
●“remind me to phone pete today.”
图1的系统包括采用诸如HTTP等请求/响应协议向多模式设备(152)提供web页、常规web页和框架集文档的web服务器(149)。可以通过在HTTP消息中接收诸如本实例框架集文档的框架集文档来完成在多模式设备(152)的多模式应用(195)中框架集文档的接收,其中框架集文档包括定义web页框架的标记:
    <!DOCTYPE  HTML PUBLIC“-//W3C//DTD  HTML 4.01
Frameset//EN”
    “http://www.w3.org/TR/html4/frameset.dtd”>
    <HTML>
    <HEAD>
    <TITLE>A frameset document</TITLE>
    </HEAD>
    <FRAMESET id=“framesetl”cols=“33%,33%,33%”>
    <FRAMESET id=“frameset2”rows=“*,200”>
    <FRAME id=“framel”scr=“contents_of_framel.html”>
    <FRAME id=“frame2”scr=“contents_of_frame2.gif”>
    </FRAMESET>
    <FRAME id=“frame3”scr=“contents_of_frame3.html”>
    <FRAME id=“frame4”ser=“contents_of_frame4.html”>
    </FRAMESET>
该框架集文档定义了通过框架集“frameset1”和“frameset2”组织在分层结构中的四个框架。Frameset2嵌套在frameset1中,创建了frame3和frame4在顶层而frame1和frame2在下层的分层结构。每个框架中待显示的内容文档在src属性中被识别为名为“contents_of_framel.html”、“contents_of_frame3.html”和“contents_of_frame4.html”的三个HTML文档以及一幅图像,名为“contents_of_frame2.gif”的可交换图形格式(GIF)文档。每个src值,即每个内容文档名称实际上都是相对的统一资源定位符(URL),它除了提供内容文档的名称以外,还规定了该内容文档在信息空间中的位置(在本实例中,相对于被视为基准位置的//www.w3.org/TR/html4/)。
本实例中的每个HTML内容文档都可以包含可导航标记元素、链接元素和锚元素。GIF文档可以不包含导航元素。通过借助HTTP从//www.w3.org/TR/html4/检索被识别的内容文档,可由多模式应用获得显示在每个web页框架(此处为frame1到frame4)中的内容文档。然后,多模式应用通常将每个内容文档显示在其被称为内容文档的“目标框架”的指定框架中。
多模式应用为每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记。在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记可以通过在每个文档中扫描可导航标记元素、链接元素和锚元素来完成(每个元素都具有规定为另一个内容文档提供位置的URL并且将“href”值、URL写入语法的“href”属性)。当自动话音标记语言解释装置将词与来自用户的用于识别的语音匹配时,则语法中的该词“匹配”。在每个这种语法中插入识别将显示该内容的框架的标记可通过在语法中插入该内容文档的目标框架的框架标识,“id”属性值来完成。这样,下面来自内容文档的实例锚元素:
    <a href=”pizza/pizza.html”target=”contentFrame”>Pizza
Demo</a>
就为话音激活该锚元素所表示的超链接产生下列语法:
    $grammar=Pizza Demo    {$.link=”pizza/pizza.html”;
$.target=”contentFrame”}
根据本发明的实施例,多模式应用为由框架集文档中的文档定位的每个内容文档中的每个导航元素创建语法。然后,多模式应用可以通过动态产生规定语法的标记语言片段并向自动话音标记语言解释装置提供该标记语言片段来启用所有产生的用于语音识别的语法。动态产生规定语法的标记语言片段意味着将每个产生的语法放置在当这一语法中的词由自动话音标记语言解释装置匹配时向多模式应用返回事件的标记段中。
这样,多模式应用可以利用应用编程接口(API)调用或者数据通信协议中的消息为自动话音标记语言解释装置提供包含<link>元素的标记段,例如诸如VoiceXML段。当链接语法被匹配时,解释结果作为事件被提交回应用。以下是包括产生的语法和事件的VoiceXML链接元素的实例:
    <vxml:link
eventexpr=”application.lastresult$.interpretation.c3n”>
    <vxml:grammar><![CDATA[
    #JSGF V1.0;
    $grammar=Pizza Demo{$.link=”pizza/pizza.html”;
    $.target=“contentFrame”}
    ]]>
    </vxml:grammar>
    <catch event=”command link”>
    <value
    expr=”window.c3nEvent(application.lastresult$.interpretation.c
3n)”/>
    </catch>
    <vxml:link>
当VoiceXML解释装置与用户的言语匹配时,其语义解释功能构造事件串。事件是与内容文档中的元素变得关联(以其为目标)的特定异步发生(如元素表示上的鼠标单击、元素的语法中词的匹配、元素的属性值中的算术错误或者众多其他可能性中的任何一种)的表示。多模式应用的一般行为是当事件发生时,通过将其传递至DOM文档树来将其分派到事件发生处的元素(称为其目标)。动作是对事件进行响应的某种方式;处理装置(handler)是针对这种动作的某种规范,例如采用脚本或者某种其他方式。监听器是这种处理程序到以文档中某个元素为目标的事件的绑定。在本实例中,事件是锚元素所代表的超链接的话音激活,处理程序是<catch>元素,而监听器是由多模式应用中的<form>元素所规定的对话。
包括该Pizza Demo实例里<vxml:link>的“eventexpr”属性中的事件串导致了语义解释功能将该事件串作为调用Pizza Demo锚元素所代表的超链接的事件提交(raise)。<vxml:link>也包括处理由语义解释功能产生的事件的<catch>元素。在catch元素内,文档对象模型(DOM)功能“window.c3nEvent()”被执行,并经过事件串。
多模式应用为来自由目标框架引用的内容文档中可导航标记元素的<vxml:link>元素产生标记。多模式应用将<vxml:link>和<catch>添加至带有语法的标记段并将完整的标记段提供给VoiceXML解释装置。  现在如果用户发出“Pizza Demo”,则包含“application.lastresult$.interpretation.c3n”的<vxml:link>的事件表达属性解析到串“link.pizza/pizza.html.contentFram”。该事件被<vxml:link>抛出并由<vxml:link>中的<catch>处理程序捕获。捕获处理程序中被调用的DOM API根据由包含在<vxml:link>元素中的语法所建立的事件分层结构对该事件串进行解释。以“command.”开始的串可以解释为菜单命令,而以“link.”开始的串可以解释为内容导航。该Pizza Demo是内容导航的实例。
根据本发明的实施例,在web页框架中启用语法通常通过一个或多个多模式设备,即自动计算机器或者计算机实现。例如,在图1的系统中,所有的多模式设备至少在某种程度实现为计算机。因此,为了进一步解释本发明,图2示出了根据本发明的实施例在web页框架中启用语法的包括用作多模式设备(152)的计算机实例的自动计算机器的框图。图2的多模式设备(152)包括至少一个计算机处理器(156)或“CPU”以及通过高速存储器总线(166)和总线适配器(158)连接于处理器(156)和多模式设备其他部件的随机存取存储器(168)(RAM)。
根据本发明的实施例,存储在RAM(168)中的有多模式应用(195),能够将多模式设备作为支持在web页框架中启用语法的装置来操作的计算机程序指令的模块。根据本发明的实施例,本实例中的多模式应用(195)被编程为通过:在多模式设备(152)上接收框架集文档,其中该框架集文档包括定义web页框架的标记;由多模式应用获取显示在每个web页框架中的内容文档,其中该内容文档包括可导航标记元素;由多模式应用针对每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记;以及由多模式应用启用所有产生的用于语音识别的语法,来在web页框架中启用语法。本实例中的多模式应用(195)被编程为向自动话音标记语言解释装置提供来自用户的用于识别的语音。在本实例中,自动话音标记语言解释装置表示为VoiceXML解释装置(192)。当自动话音标记语言解释装置将用户话音中的一个或多个词与启用的语法匹配时,多模式应用从解释装置接受并处理指示代表匹配语音的指令的事件。自动话音标记语言解释装置(192)包括语法(104),该语法如上所述依次包括定义当前针对识别启用了哪些词和词的顺序的规则。
典型地,多模式应用(195)是提供语音接口的用户级、多模式、客户端的计算机程序,其中通过所述语音接口,用户可以通过麦克风(176)提供用于识别的口述语音,通过音频放大器(195)和声卡(174)的编码器/解码器(编解码器)(183)将语音数字化,并且将用于识别的数字化话音提供给此处表示为VoiceXML解释装置的自动话音标记语言解释装置(192)。多模式应用可以是其本身处理语法并直接通过API为ASR引擎(150)提供语法和用于识别的数字化语音的Java话音应用。或者多模式应用可以是运行于浏览器或者微浏览器内将VoiceXML语法通过API调用直接传递给嵌入式VoiceXML解释装置(192)处理的X+V应用。嵌入式VoiceXML解释装置(192)可以直接通过API调用向嵌入式ASR引擎(150)依次发出语音识别请求。多模式应用(195)还通过到嵌入式TTS引擎(194)的API调用,向例如诸如X+V应用或者Java话音应用等多模式应用中的用户输入提供用于话音提示和话音响应的TTS转换。本实例中的多模式应用(195)不通过网络将用于识别的话音发送给话音服务器识别,本实例中的多模式应用(195)不通过网络从话音服务器接收TTS提示和响应。本实例中所有的语法处理、话音识别和文本到语音转换都在多模式设备本身中以嵌入式的方式完成。
在本实例中,同样存储在RAM中的ASR引擎(150)是用于完成自动语音识别的计算机程序指令的模块。根据本发明的实施例,可以改进为用于在web页框架中启用语法的嵌入式ASR引擎的实例是IBM的Embedded ViaVoice Enterprise,一种也包括嵌入式TTS引擎的ASR产品。存储在RAM(168)中的还有嵌入式TTS引擎(194),是将文本作为输入接受并且将相同文本以数字编码语音的形式返回的计算机程序指令的模块,可用于为多模式系统的用户提供作为提示和响应的语音。
存储在RAM(168)中的还有操作系统(154)。根据本发明的实施例,可用于话音服务器中的操作系统包括UnixTM、LinuxTM、Microsoft NTTM、AIXTM、IBM’s i5/OSTM以及本领域的技术人员可能想到的其他操作系统。图3的实例中,操作系统(154)、多模式应用(195)、VoiceXML解释装置(192)、ASR引擎(150)、JVM(102)和TTS引擎(194)都显示为在RAM(168)中,但是典型地,这种软件的许多组件也存储在非易失存储器中,例如,在磁盘驱动器(170)上。
图2的多模式设备(152)包括总线适配器(158),包含针对高速总线、前端总线(162)、视频总线(164)和存储器总线(166)以及针对较慢扩展总线(160)的驱动电子技术的计算机硬件部件。根据本发明的实施例,可用于多模式设备的总线适配器的实例包括Intel北桥(Northbridge)、Intel存储器控制器集线器、Intel南桥和Intel I/O控制器集线器。根据本发明的实施例,可用于多模式设备的扩展总线的实例包括工业标准体系结构(ISA)总线和外设部件互联(PCI)总线。
图2的多模式设备(152)包括通过扩展总线(160)和总线适配器(150)耦接于处理器(156)和多模式设备(152)的其他部件的磁盘驱动适配器(172)。磁盘驱动适配器(172)以磁盘驱动器(170)的形式将非易失数据存储器连接至多模式设备(152)。可用于多模式设备的磁盘驱动适配器包括集成驱动电子技术(IDE)适配器、小型计算机系统接口(SCSI)适配器和本领域的技术人员可能想到的其他适配器。另外,非易失计算机存储器可以针对多模式设备实现为光盘驱动器、电可擦除可编程只读存储空间(所谓的“EEPROM”或者“Flash”存储器)、RAM驱动器以及本领域的技术人员可能想到的其他存储器等等。
图2的实例多模式设备包括一个或者多个输入/输出(I/O)适配器(178)。多模式设备中的I/O适配器通过例如,用于控制到诸如计算机显示屏等显示设备以及来自诸如键盘和鼠标等用户输入设备(181)的用户输入的软件驱动程序和计算机硬件实现面向用户的输入/输出。图2的多模式设备包括视频适配器(209),它是为了向诸如显示屏和计算机监视器等显示设备(180)进行图形输入而专门设计的I/O适配器的实例。视频适配器(209)通过高速视频总线(164)、总线适配器(158)和同样为高速总线的前端总线(162)连接于处理器(156)。
图2的多模式设备还包括声卡(174),它是为了从麦克风(176)接受模拟音频信号并将该模拟音频信号转换为数字格式以便由编解码器(183)做进一步处理而专门设计的I/O适配器的实例。声卡(174)通过扩展总线(160)、总线适配器(158)和前端总线(162)连接于处理器(156)。
图2的示范性多模式设备(152)包括用于与其他计算机(182)进行数据通信以及与数据通信网(100)进行数据通信的通信适配器(167)。这种数据通信可以通过串行地通过RS-232连接、通过诸如通用串行总线(USB)等外部总线、通过诸如IP数据通信网等数据通信网以及本领域的技术人员可能想到的其他途径完成。通信适配器实现硬件级的数据通信,通过该数据通信,一台计算机直接或通过数据通信网将数据通信发送给另一台计算机。根据本发明的实施例,可用于在web页框架中启用语法的通信适配器的实例包括用于有线拨号通信的调制解调器、用于有线数据通信网通信的Ethernet(IEEE802.3)适配器和用于无线数据通信网通信的802.11b适配器。
根据本发明的实施例,某些实施例中在web页框架中启用语法可以通过提供语音识别的一个或者多个话音服务器、计算机(即自动计算机器)来实现。因此,为了进一步解释本发明,图3示出了根据本发明的实施例在web页框架中启用语法的包括用作话音服务器的计算机实例的自动计算机器的框图。图3的话音服务器(151)包括至少一个计算机处理器(156)或者CPU以及通过高速存储器总线(166)和总线适配器(158)连接于处理器(156)和话音服务器的其他部件的随机存取存储器(168)(RAM)。
存储在RAM(168)中的有多模式服务器应用(188),能够操作系统中话音服务器的计算机程序指令的模块,该系统被配置为完成从多模式客户机设备接收语法和用于识别的数字化语音、将语法和数字化语音传递给自动话音标记语言解释装置进行处理、并且将响应从自动话音标记语言解释装置返回至多模式设备所需的数据通信。这种响应可以包括表示被识别语音的文本、用作对话中变量值的文本以及事件(即作为来自语义解释的脚本的串表示的事件文本)。多模式服务器应用(188)还包括为多模式应用(例如,诸如X+V应用或者Java语音应用)中的用户输入提供用于话音提示和话音响应的文本到语音(TTS)转换的计算机程序指令。
多模式服务器应用(188)可以用Java、C++或者其他语言实现为通过向来自X+V客户机的HTTP请求提供响应支持X+V的web服务器。对于另一个实例,多模式服务器应用(188)可以实现为运行于Java虚拟机(102)并通过向运行于多模式设备的来自Java客户机应用的HTTP请求提供响应支持Java话音框架的Java服务器。支持在web页框架中启用语法的多模式服务器应用还可以以本领域的技术人员可能想到的其他途径实现,而且所有的这些途径都在本发明的范围之内。
图3的实例中设置于RAM的还有ASR引擎(150)。ASR引擎(150)是利用能够由ASR引擎识别的词的ASR词典(106)完成语音识别的计算机程序指令的模块。词典(106)是文本形式的词和表示每个词发音的音素的关联。在完成自动语音识别的过程中,ASR引擎以至少一个数字化词的形式从自动话音标记语言解释装置接收用于识别的语音,利用该数字化词的频率分量派生语音特征矢量(Speech Feature Vector,SFV),再利用该SFV从语言特定的声学模型(未示出)推断该词的音素。举例来说,语言特定的声学模型是将SFV与表示具体语言中所有词的所有发音的音素关联到该做法是实际可行的程度上的数据结构、表或者数据库。然后ASR引擎利用该音素查找词典中的词。如果找到该词,则将该词的文本作为被识别的语音返回给自动话音标记语言解释装置。然后,自动话音标记语言解释装置可以确定该被识别的语音是否与启用的语法中的词相匹配。
存储在RAM中的还有例如此处表示为VoiceXML解释装置(192)的自动话音标记语言解释装置,处理VoiceXML语法的计算机程序指令的模块。到VoiceXML解释装置(192)的VoiceXML输入可以来源于远程运行于多模式设备的VoiceXML客户机,来源于远程运行于多模式设备的X+V多模式客户机应用,或者来源于远程运行于多模式设备的Java客户机应用。在本实例中,VoiceXML解释装置(192)解释并执行通过多模式服务器应用(188)从远程多媒体客户机软件接收并提供给VoiceXML解释装置(192)的VoiceXML段。VoiceXML解释装置(192)包括语法(104),该语法如上所述依次包括定义当前针对识别启用了哪些词和词的顺序的规则。存储在RAM(168)中的还有文本到语音(TTS)引擎(194),将文本作为输入接受并以数字编码语音的形式返回相同文本的计算机程序指令的模块,可用于向多模式系统的用户提供作为提示和响应的语音。
存储在RAM(168)中的还有操作系统(154)。根据本发明的实施例,可用于话音服务器的操作系统包括UnixTM、LinuxTM、Microsoft NTTM、AIXTM、IBM’s i5/OSTM以及本领域的技术人员可能想到的其他操作系统。图3的实例中,操作系统(154)、多模式服务器应用(188)、VoiceXML解释装置(192)、ASR引擎(150)、JVM(102)和TTS引擎(194)都显示为在RAM(168)中,但是典型地,这种软件的许多组件也存储在非易失存储器中,例如,在磁盘驱动器(170)上。
图3的话音服务器(151)包括总线适配器(158),包含针对高速总线、前端总线(162)、视频总线(164)和存储器总线(166)的驱动电子技术以及针对较慢扩展总线(160)的驱动电子技术的计算机硬件部件。根据本发明的实施例,可用于话音服务器的总线适配器的实例包括Intel北桥、Intel存储器控制器集线器、Intel南桥和IntelI/O控制器集线器。根据本发明的实施例,可用于话音服务器的扩展总线的实例包括工业标准体系结构(ISA)总线和外设部件互联(PCI)总线。
图3的话音服务器(151)包括通过扩展总线(160)和总线适配器(158)耦接于处理器(156)和话音服务器(151)的其他部件的磁盘驱动适配器(172)。磁盘驱动适配器(172)以磁盘驱动器(170)的形式将非易失数据存储器连接于话音服务器(151)。可用于话音服务器的磁盘驱动适配器包括集成驱动电子技术(IDE)适配器、小型计算机系统接口(SCSI)适配器和本领域的技术人员可能想到的其他适配器。另外,非易失计算机存储器可以针对话音服务器实现为光盘驱动器、电可擦除可编程只读存储空间(所谓的“EEPROM”或者“Flash”存储器)、RAM驱动器以及本领域的技术人员可能想到的其他存储器等等。
图3的实例话音服务器包括一个或者多个输入/输出(I/O)适配器(178)。话音服务器中的I/O适配器通过例如,用于控制到诸如计算机显示屏等显示设备以及来自诸如键盘和鼠标等用户输入设备(181)的用户输入的软件驱动程序和计算机硬件实现面向用户的输入/输出。图3的话音服务器包括视频适配器(209),它是为了向诸如显示屏和计算机监视器等显示设备(180)进行图形输入而专门设计的I/O适配器的实例。视频适配器(209)通过高速视频总线(164)、总线适配器(158)和同样为高速总线的前端总线(162)连接于处理器(156)。
图3的示范性话音服务器(151)包括用于与其他计算机(182)进行数据通信以及与数据通信网(100)进行数据通信的通信适配器(167)。这种数据通信可以通过串行地通过RS-232连接、通过诸如通用串行总线(USB)等外部总线、通过诸如IP数据通信网等数据通信网以及本领域的技术人员可能想到的其他途径完成。通信适配器实现硬件级的数据通信,通过该数据通信,一台计算机直接或通过数据通信网将数据通信发送给另一台计算机。根据本发明的实施例,可用于在web页框架中启用语法的通信适配器的实例包括用于有线拨号通信的调制解调器、用于有线数据通信网通信的Ethernet(IEEE802.3)适配器和用于无线数据通信网通信的802.11b适配器。
为了进一步解释本发明,图4示出了根据本发明的实施例在web页框架中启用语法的示范性装置的功能框图。在图4的实例中,只有多模式设备(152)和用户(128),没有网络,没有VOIP连接,也没有包含远程ASR引擎的话音服务器。根据本发明的实施例,所有在web页框架中启用语法所需的部件都要安装或者嵌入于多模式设备本身,膝上型计算机、PDA、蜂窝电话等等。
图4的装置与图2的系统以相似的方式工作。根据本发明的实施例,多模式应用(195)是能够将多模式设备作为在web页框架中启用语法的装置操作的计算机程序指令的模块。在本实例中,根据本发明的实施例,本实例中的多模式应用(195)也配置为通过:在多模式设备上接收框架集文档,其中该框架集文档包括定义web页框架的标记;由多模式应用获取显示在每个web页框架中的内容文档,其中该内容文档包括可导航标记元素;由多模式应用针对每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记;以及由多模式应用启用所有产生的用于语音识别的语法在web页框架中启用语法。本实例中的多模式应用(195)编程为向自动话音标记语言解释装置提供来自用户的用于识别的语音。在本实例中,自动话音标记语言解释装置表示为VoiceXML解释装置(192)。多模式应用(195)接受来自用户的用于识别的语音,并通过API(175)将该用于识别的语音发送给VoiceXML解释装置(192)。当借助启用的语法通过自动话音标记语言解释装置匹配用户语音中的一个或多个词时,多模式应用从解释装置接受并处理指示代表该匹配语音的指令的事件。VoiceXML解释装置(192)包括语法(104),该语法如上所述依次包括定义当前针对识别启用了哪些词和词的顺序的规则。
多模式应用(195)是提供语音接口的用户级、多模式、客户端的计算机程序,通过该语音接口,用户可以通过麦克风(176)提供用于识别的口述话音,通过音频放大器和编解码器将语音数字化,并且将用于识别的数字化语音提供给嵌入式ASR引擎(150)。多模式设备应用可以是其本身处理语法并直接通过API(179)为嵌入式ASR引擎(150)提供语法和用于识别的数字化语音的Java话音应用。或者多模式应用可以是运行于浏览器或者微浏览器内将VoiceXML语法通过API(175)直接传递给嵌入式VoiceXML解释装置(192)处理的X+V应用。嵌入式VoiceXML解释装置(192)可以转而通过API(179)向嵌入式ASR引擎(150)发出语音识别请求。多模式设备应用(195)还通过到嵌入式TTS引擎(194)API调用,向例如诸如X+V应用或者Java话音应用等多模式应用中的用户输入提供用于话音提示和话音响应的TTS转换。本实例中的多模式设备应用(195)不通过网络将用于识别的话音发送给话音服务器识别,本实例中的多模式设备应用(195)不通过网络从话音服务器接收TTS提示和响应。所有的语法处理、话音识别和文本到语音转换都在多模式设备本身中以嵌入式方式完成。
为了进一步解释本发明,图5示出了根据本发明的实施例在web页框架中启用语法的另一个示范性装置的功能框图。图5的实例包括为了数据通信由VOIP连接(216)通过数据通信网(100)连接的多模式设备(152)和话音服务器(151)。多模式应用(195)在多模式设备(152)上运行,而多模式服务器应用(188)在话音服务器(151)上运行。话音服务器(151)上还安装有带有ASR词典(106)的ASR引擎(150)、JVM(102)以及带有启用语法的VoiceXML解释装置(192)  。
代表“Voice Over Internet Protocol”的VOIP是用于在基于IP的数据通信网上对语音进行路由的一般术语。语音数据流过通用分组交换数据通信网,而不是传统的专用电路交换话音传输线。用于在IP数据通信网上携带话音信号的协议通常称为“Voice over IP”或者“VOIP”协议。可以在任何IP数据通信网,包括缺少到因特网其余部分的连接的数据通信网,例如在专用建筑物范围的局域数据通信网或者“LAN”上部署VOIP业务。
许多协议用于实现VOIP。两类最为普遍的VOIP是通过IETF的会话初始协议(SIP)和被称为“H.323”的ITU协议实现的。SIP客户机采用TCP和UDP端口5060连接于SIP服务器。SIP本身用于建立和拆除用于语音传输的呼叫。然后,带有SIP的VOIP采用RTP来传送实际的编码语音。类似地,H.323是来自国际电信联盟标准部门的保护性建议,以便在任何分组交换数据通信网上提供视听通信会话。
图5的装置和上述图3的系统以相似的方式工作。多模式应用(195)将语音接口呈现给用户(128),将启用的语法发送给话音服务器,提供音频提示和响应(314)并且接受来自用户(128)的用于识别的语音(315)。多模式应用(195)根据某种编解码器对用于识别的语音数字化,根据VOIP协议将该语音打包在识别请求消息中,并且通过网络(100)上的VOIP连接(216)将该语音发送给话音服务器(151)。多模式服务器应用(188)通过接受用于语音识别的请求(包括启用的语法和数字化语音)并返回语音识别结果(包括识别语音的文本、用作对话中的变量值的文本和作为来自语义解释的脚本的串表示的文本)为多模式设备提供话音识别服务。多模式服务器应用(188)包括向例如诸如X+V应用或Java语音应用等多模式应用中的用户输入提供用于话音提示和话音响应的文本到语音(TTS)转换的计算机程序指令。
多模式服务器应用(188)接收语法和来自用户的用于识别的语音,并且将该语法和语音传递给VoiceXML解释装置(192)。VoiceXML解释装置利用ASR引擎(150)识别单独的词并且确定词或者词的顺序是否被语法所匹配。ASR引擎从VoiceXML解释装置接收用于识别的数字化语音,利用数字化语音的频率分量派生SFV,利用该SFV从语言特定的声学模型(未示出)推断该词的音素,并且利用所述音素在词典(106)中查找该语音。
为了进一步解释本发明,图6示出了根据本发明的实施例在web页框架中启用语法的示范性方法的流程图。图6的方法包括在多模式设备的多模式应用中接收(302)框架集文档。典型地,通过响应于数据通信协议请求消息(例如诸如返回框架集文档的HTTP请求)接收web页来完成对框架集文档的接收。该框架集文档包括定义web页框架的标记。以下是根据两个框架集将三个框架组织在分层结构中的框架集文档的实例:
    <!DOCTYPE HTML PUBLIC“//W3C//DTD HTML 4.01
Frameset//EN”
    “http://www.w3.org/TR/html4/frameset.dtd”>
    <HTML>
<HEAD>
<TITLE>A simple frameset document</TITLE>
</HEAD>
<FRAMESET id=“frameset1”cols=“20%,80%”>
   <FRAMESET id=“frameset2”rows=“100,200”>
       <FRAME    id    =    “frame1”    src    =
  “contents_of_frame1.html”>
        <FRAME    id    =    “frame2”    src    =
  “contents_of_frame2.gif”>
   </FRAMESET>
<FRAME id=“frame3”src=“contents_of_frame3.html”>
</FRAMESET>
</HTML>
图6的方法还包括由多模式应用获取(304)显示在每个web页框架中的内容文档。典型地,所述内容文档是包括诸如XHTML链接元素和锚元素等可导航标记元素的web页。本实例中的内容文档是框架集文档内框架定义中的“scr”URL值所规定的内容文档。在本实例中,内容文档被URL识别为contents_of_frame1.html、contents_of_frame2.gif和contents_of_frame3.html。
在本实例中,根据两个框架集将web页框架组织在分层结构中,而且该分层结构以最顶层的框架frame3以及两个子框架frame1和frame2为特征。因此,在本实例中,可以通过为最顶层的框架和每个子框架反复获取显示在每个框架中的独立的内容文档来完成对至少两个内容文档的获取。
图6的方法还包括由多模式应用为每个内容文档中的每个可导航标记元素产生(306)定义话音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示该内容的框架的标记。识别当语法中的词匹配时待显示的内容的标记可以从内容文档内可导航标记元素中的“href”属性获得。识别该内容将显示于何处的框架的标记可以从框架集文档中针对内容的目标文档的“id”属性获得。
图6的方法还包括由多模式应用启用(308)所有产生的用于语音识别的语法。启用产生的语法可进一步地通过动态产生规定语法的标记语言片段并向自动话音标记语言解释装置提供该标记语言片段来完成。在图6的方法中,多模式设备可以包括自动话音标记语言解释装置,启用产生的语法可以通过借助从多模式应用到自动话音标记语言解释装置的一个或多个应用编程接口(API)调用向自动话音标记语言解释装置提供语法来完成。在图6的方法中,可选择地,多模式设备可以为了数据通信耦接于话音服务器;该话音服务器可以包括自动话音标记语言解释装置;启用所有产生的语法可以通过借助从多模式设备到话音服务器上的自动话音标记语言解释装置的一个或多个数据通信协议消息向自动话音标记语言解释装置提供语法来完成。
图6的方法还包括由多模式设备向自动话音标记语言解释装置提供(310)来自用户的用于识别的话音。即多模式设备从麦克风获得作为模拟音频信号的用户语音并根据编解码器将该语音数字化。然后,通过API调用(如果该解释装置在多模式设备上),或通过数据通信协议消息(如果该解释装置在网络话音服务器上),多模式应用将数字化的语音提供给自动话音标记语言解释装置。
图6的方法还包括由带有启用语法的自动话音标记语言解释装置匹配(312)用于识别的至少部分语音。解释装置接收数字化的语音,将其传递给ASR引擎并接收响应中的文本词。然后解释装置确定该文本词的任何一个是否在值和顺序上与启用的语法中的词相匹配。
图6的方法还包括将指示代表匹配语音的指令的事件从自动话音标记语言解释装置返回(314)至多模式应用。如果解释装置将词或者词的顺序与启用的语法匹配,则解释装置将事件返回至多模式应用中的事件监听器。如果解释装置在带有多模式应用的多模式设备上,则将该事件从API调用返回至与该事件所定向到的元素相对应的DOM目标。如果解释装置在网络话音服务器上,则该事件在送往相应的DOM目标之前首先传递回数据通信协议消息中的多模式设备。
鉴于本文档中前面所提出的解释,读者将认识到根据本发明的实施例在web页框架中启用语法提供了如下的好处:
●启用了将对显示中所有框架话音启用(voice-enable)内容导航的语法,以及
●当话音用于激活超链接时,对特定目标框架进行定位。
此处用于在web页框架中启用语法的全功能计算机系统的上下文中大量描述了本发明的示范性实施例。然而,熟悉本技术的读者将认识到为了用于任何合适的数据处理系统,本发明也可以在设置于信号承载介质上的计算机程序产品内具体化。这种信号承载介质可以是传输介质或者是针对机器可读信息的可记录介质,包括磁介质、光介质或者其他合适的介质。可记录介质的实例包括硬件驱动器中的磁盘或磁碟、用于光驱动器的紧致磁盘、磁带以及本领域的技术人员可能想到的其他介质。传输介质的实例包括用于话音通信的电话数据通信网和数据通信网,例如诸如EthernetsTM和通过因特网协议通信的数据通信网以及万维网。对本技术熟悉的人们将立刻认识到任何具有合适的编程手段的计算机系统都能够如同程序产品中所体现的那样执行本发明方法的步骤。对本技术熟悉的人们将立刻认识到尽管本说明书中所描述的某些示范性实施例是面向安装的软件并在计算机硬件上执行的,然而,作为固件或者硬件实现的可选择的实施例也在本发明的范围之内。
从前面的描述可以理解,可以对本发明的不同实施例进行修改和改变而不背离本发明真正的精神。本说明书中的描述的目的仅仅在于解释本发明而不是对其加以限制。本发明的范围仅仅通过以下权利要求书的语言来限制。

Claims (12)

1.一种在web页框架中启用语法的方法,所述方法包括:
在多模式设备上的多模式应用中接收框架集文档,所述框架集文档包括定义web页框架的标记;
由所述多模式应用获取显示在每个web页框架中的内容文档,所述内容文档包括可导航标记元素;
由所述多模式应用为每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示所述内容的框架的标记;以及
由所述多模式应用启用所有产生的用于语音识别的语法。
2.根据权利要求1所述的方法,其中:
所述web页框架按照一个或多个框架集组织在分层结构中,所述分层结构由最顶层的框架和一个或多个子框架表征;而且
获取至少两个内容文档进一步包括为所述最顶层的框架和每个子框架反复获取显示于每个框架中的独立的内容文档。
3.根据权利要求1所述的方法,其中启用产生的语法进一步包括:
动态产生规定语法的标记语言片段;以及
向自动话音标记语言解释装置提供所述标记语言片段。
4.根据权利要求1所述的方法,其中:
所述多模式设备进一步包括自动话音标记语言解释装置;并且
启用产生的语法进一步包括通过从所述多模式应用到自动话音标记语言解释装置的一个或多个应用编程接口(API)调用向所述自动话音标记语言解释装置提供语法。
5.根据权利要求1所述的方法,其中:
所述多模式设备耦接于话音服务器以用于数据通信,所述话音服务器包括自动话音标记语言解释装置;并且
启用所有产生的语法进一步包括通过从所述多模式设备到话音服务器上的自动话音标记语言解释装置的一个或多个数据通信协议消息向所述自动话音标记语言解释装置提供语法。
6.根据权利要求1所述的方法,进一步包括:
由所述多模式应用向自动话音标记语言解释装置提供来自用户的用于识别的语音;
由带有启用的语法的所述自动话音标记语言解释装置匹配至少部分用于识别的语音;以及
将指示代表匹配语音的指令的事件从所述自动话音标记语言解释装置返回至多模式应用。
7.一种在web页框架中启用语法的系统,所述系统包括计算机处理器和操作性地耦接于所述计算机处理器的计算机存储器,所述计算机存储器具有设置于其中、能够执行下述操作的计算机程序指令:
在多模式设备上的多模式应用中接收框架集文档,所述框架集文档包括定义web页框架的标记;
由所述多模式应用获取显示于每个web页框架中的内容文档,所述内容文档包括可导航标记元素;
由所述多模式应用为每个内容文档中的每个可导航标记元素产生定义语音识别语法的标记段,包括在每个这种语法中插入识别当语法中的词匹配时待显示的内容的标记和识别将显示所述内容的框架的标记;以及
由所述多模式应用启用所有产生的用于语音识别的语法。
8.根据权利要求7所述的系统,其中:
所述web页框架按照一个或多个框架集组织在分层结构中,所述分层结构以最顶层的框架和一个或多个子框架表征;而且
获取至少两个内容文档进一步包括为所述最顶层的框架和每个子框架反复获取显示于每个框架中的独立的内容文档。
9.根据权利要求7所述的系统,其中启用产生的语法进一步包括:
动态产生规定语法的标记语言片段;以及
向自动话音标记语言解释装置提供所述标记语言片段。
10.根据权利要求7所述的系统,其中:
所述多模式设备进一步包括自动话音标记语言解释装置;并且
启用产生的语法进一步包括通过从所述多模式应用到自动话音标记语言解释装置的一个或多个应用编程接口(API)调用向所述自动话音标记语言解释装置提供语法。
11.根据权利要求7所述的系统,其中:
所述多模式设备耦接于话音服务器以用于数据通信,所述话音服务器包括自动话音标记语言解释装置;并且
启用所有产生的语法进一步包括通过从所述多模式设备到话音服务器上的自动话音标记语言解释装置的一个或多个数据通信协议消息向所述自动话音标记语言解释装置提供语法。
12.根据权利要求7所述的系统,进一步包括能够执行如下操作的计算机程序指令:
由所述多模式应用向自动话音标记语言解释装置提供来自用户的用于识别的语音;
由所述带有启用的语法的自动话音标记语言解释装置匹配至少部分用于识别的语音;以及
将指示代表匹配语音的指令的事件从所述自动话音标记语言解释装置返回至多模式应用。
CN2007101869300A 2006-12-06 2007-11-15 在web页框架中启用语法的方法和系统 Expired - Fee Related CN101197868B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/567,235 2006-12-06
US11/567,235 US7827033B2 (en) 2006-12-06 2006-12-06 Enabling grammars in web page frames

Publications (2)

Publication Number Publication Date
CN101197868A true CN101197868A (zh) 2008-06-11
CN101197868B CN101197868B (zh) 2012-04-04

Family

ID=39499323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101869300A Expired - Fee Related CN101197868B (zh) 2006-12-06 2007-11-15 在web页框架中启用语法的方法和系统

Country Status (2)

Country Link
US (2) US7827033B2 (zh)
CN (1) CN101197868B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024581A (zh) * 2012-12-26 2013-04-03 Tcl集团股份有限公司 智能电视及其节目交互实现方法、系统
CN103685334A (zh) * 2012-09-03 2014-03-26 许丰 智能应用浏览器
CN109410913A (zh) * 2018-12-13 2019-03-01 百度在线网络技术(北京)有限公司 一种语音合成方法、装置、设备及存储介质

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US9436951B1 (en) 2007-08-22 2016-09-06 Amazon Technologies, Inc. Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
EP2008193B1 (en) 2006-04-05 2012-11-28 Canyon IP Holdings LLC Hosted voice recognition system for wireless devices
US9208785B2 (en) 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8612230B2 (en) 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
JP5002283B2 (ja) * 2007-02-20 2012-08-15 キヤノン株式会社 情報処理装置および情報処理方法
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) * 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8140632B1 (en) * 2007-08-22 2012-03-20 Victor Roditis Jablokov Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
US9053489B2 (en) 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8082148B2 (en) 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
TWI413938B (zh) * 2009-12-02 2013-11-01 Phison Electronics Corp 情感引擎、情感引擎系統及電子裝置的控制方法
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US9043866B2 (en) * 2011-11-14 2015-05-26 Wave Systems Corp. Security systems and methods for encoding and decoding digital content
US9015857B2 (en) * 2011-11-14 2015-04-21 Wave Systems Corp. Security systems and methods for encoding and decoding digital content
US9047489B2 (en) * 2011-11-14 2015-06-02 Wave Systems Corp. Security systems and methods for social networking
US20130246920A1 (en) * 2012-03-19 2013-09-19 Research In Motion Limited Method of enabling voice input for a visually based interface
US9400633B2 (en) * 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9781262B2 (en) * 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292253B2 (en) 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US10157612B2 (en) * 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292252B2 (en) 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9361084B1 (en) 2013-11-14 2016-06-07 Google Inc. Methods and systems for installing and executing applications
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN105786971B (zh) * 2016-02-02 2019-06-11 宋继华 一种面向国际汉语教学的语法点识别方法
KR101924852B1 (ko) * 2017-04-14 2018-12-04 네이버 주식회사 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템

Family Cites Families (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5584052A (en) 1992-11-16 1996-12-10 Ford Motor Company Integrated microphone/pushbutton housing for voice activated cellular phone
US5809471A (en) 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
JPH1091412A (ja) * 1996-07-25 1998-04-10 Toshiba Corp 表示部品選択装置及び表示部品選択方法
US6243375B1 (en) * 1996-11-08 2001-06-05 Gregory J. Speicher Internet-audiotext electronic communications system with multimedia based matching
US6856960B1 (en) 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
US6301560B1 (en) * 1998-01-05 2001-10-09 Microsoft Corporation Discrete speech recognition system with ballooning active grammar
US6282512B1 (en) * 1998-02-05 2001-08-28 Texas Instruments Incorporated Enhancement of markup language pages to support spoken queries
US6247018B1 (en) * 1998-04-16 2001-06-12 Platinum Technology Ip, Inc. Method for processing a file to generate a database
US6769096B1 (en) * 1998-06-24 2004-07-27 Microsoft Corporation System and method for updating a table of contents in a frameset
EP1133734A4 (en) * 1998-10-02 2005-12-14 Ibm INTERACTIVE NAVIGATOR AND INTERACTIVE SYSTEMS
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6208972B1 (en) 1998-12-23 2001-03-27 Richard Grant Method for integrating computer processes with an interface controlled by voice actuated grammars
US6606599B2 (en) 1998-12-23 2003-08-12 Interactive Speech Technologies, Llc Method for integrating computing processes with an interface controlled by voice actuated grammars
JP2000155529A (ja) 1998-11-20 2000-06-06 Kai:Kk 料理メニューの表示方法とこれを実施したプログラム
US6456699B1 (en) 1998-11-30 2002-09-24 At&T Corp. Web-based generation of telephony-based interactive voice response applications
JP3514372B2 (ja) * 1999-06-04 2004-03-31 日本電気株式会社 マルチモーダル対話装置
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US6807574B1 (en) * 1999-10-22 2004-10-19 Tellme Networks, Inc. Method and apparatus for content personalization over a telephone interface
US7376586B1 (en) * 1999-10-22 2008-05-20 Microsoft Corporation Method and apparatus for electronic commerce using a telephone interface
US6920425B1 (en) 2000-05-16 2005-07-19 Nortel Networks Limited Visual interactive response system and method translated from interactive voice response for telephone utility
US7035805B1 (en) 2000-07-14 2006-04-25 Miller Stephen S Switching the modes of operation for voice-recognition applications
US7092370B2 (en) * 2000-08-17 2006-08-15 Roamware, Inc. Method and system for wireless voice channel/data channel integration
WO2002019097A1 (en) * 2000-09-01 2002-03-07 International Interactive Commerce, Ltd. System and method for collaboration using web browsers
US20020092019A1 (en) * 2000-09-08 2002-07-11 Dwight Marcus Method and apparatus for creation, distribution, assembly and verification of media
US7299403B1 (en) * 2000-10-11 2007-11-20 Cisco Technology, Inc. Methods and apparatus for obtaining a state of a browser
GB0029025D0 (en) 2000-11-29 2001-01-10 Hewlett Packard Co Enhancement of communication capabilities
AU2002227096A1 (en) * 2000-12-01 2002-06-11 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
GB0029576D0 (en) 2000-12-02 2001-01-17 Hewlett Packard Co Voice site personality setting
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
ES2261527T3 (es) 2001-01-09 2006-11-16 Metabyte Networks, Inc. Sistema, procedimiento y aplicacion de software para publicidad dirigida mediante una agrupacion de modelos de comportamiento, y preferencias de programacion basadas en grupos de modelos de comportamiento.
US7174534B2 (en) 2001-01-22 2007-02-06 Symbol Technologies, Inc. Efficient system and method for running and analyzing multi-channel, multi-modal applications
US20020120554A1 (en) 2001-02-28 2002-08-29 Vega Lilly Mae Auction, imagery and retaining engine systems for services and service providers
AU2002251205A1 (en) * 2001-03-30 2002-10-15 British Telecommunications Public Limited Company Multi-modal interface
US20020147593A1 (en) 2001-04-06 2002-10-10 International Business Machines Corporation Categorized speech-based interfaces
US20030046316A1 (en) 2001-04-18 2003-03-06 Jaroslav Gergic Systems and methods for providing conversational computing via javaserver pages and javabeans
EP1380154A1 (en) 2001-04-19 2004-01-14 BRITISH TELECOMMUNICATIONS public limited company Voice response system
DE60233561D1 (de) 2001-04-19 2009-10-15 British Telecomm Sprachantwortsystem
JP4225703B2 (ja) * 2001-04-27 2009-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報アクセス方法、情報アクセスシステムおよびプログラム
US7085722B2 (en) 2001-05-14 2006-08-01 Sony Computer Entertainment America Inc. System and method for menu-driven voice control of characters in a game environment
US6983307B2 (en) 2001-07-11 2006-01-03 Kirusa, Inc. Synchronization among plural browsers
US7185276B2 (en) * 2001-08-09 2007-02-27 Voxera Corporation System and method for dynamically translating HTML to VoiceXML intelligently
JP4437633B2 (ja) 2001-08-10 2010-03-24 富士通株式会社 携帯端末
US7752326B2 (en) * 2001-08-20 2010-07-06 Masterobjects, Inc. System and method for utilizing asynchronous client server communication objects
US7103542B2 (en) 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
EP2571230A1 (en) * 2002-01-15 2013-03-20 Avaya Inc. Communication application server for converged communication services
US20060168095A1 (en) 2002-01-22 2006-07-27 Dipanshu Sharma Multi-modal information delivery system
US7203907B2 (en) * 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
WO2003069874A2 (en) 2002-02-11 2003-08-21 Unified Dispatch, Inc. Automated transportation call-taking system
AU2003225577A1 (en) 2002-02-18 2003-09-09 Kirusa, Inc. A technique for synchronizing visual and voice browsers to enable multi-modal browsing
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US7315613B2 (en) * 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US7327833B2 (en) 2002-03-20 2008-02-05 At&T Bls Intellectual Property, Inc. Voice communications menu
US6999930B1 (en) 2002-03-27 2006-02-14 Extended Systems, Inc. Voice dialog server method and system
EP1488601A1 (en) * 2002-03-28 2004-12-22 British Telecommunications Public Limited Company Synchronisation in multi-modal interfaces
JP3967952B2 (ja) 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
US7899915B2 (en) 2002-05-10 2011-03-01 Richard Reisman Method and apparatus for browsing using multiple coordinated device sets
US8601096B2 (en) 2002-05-14 2013-12-03 Motorola Mobility Llc Method and system for multi-modal communication
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
EP1394692A1 (en) 2002-08-05 2004-03-03 Alcatel Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
US20040216036A1 (en) 2002-09-13 2004-10-28 Yahoo! Inc. Browser user interface
US7668885B2 (en) 2002-09-25 2010-02-23 MindAgent, LLC System for timely delivery of personalized aggregations of, including currently-generated, knowledge
US7003457B2 (en) 2002-10-29 2006-02-21 Nokia Corporation Method and system for text editing in hand-held electronic device
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
JP4107093B2 (ja) 2003-01-30 2008-06-25 株式会社日立製作所 対話型端末装置及び対話アプリケーション提供方法
EP1450350A1 (en) 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7484176B2 (en) * 2003-03-03 2009-01-27 Aol Llc, A Delaware Limited Liability Company Reactive avatars
US20040181467A1 (en) * 2003-03-14 2004-09-16 Samir Raiyani Multi-modal warehouse applications
US7603291B2 (en) * 2003-03-14 2009-10-13 Sap Aktiengesellschaft Multi-modal sales applications
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
EP1631899A4 (en) * 2003-06-06 2007-07-18 Univ Columbia SYSTEM AND METHOD FOR LANGUAGE ACTIVATION OF WEB SITES
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US20050075884A1 (en) 2003-10-01 2005-04-07 Badt Sig Harold Multi-modal input form with dictionary and grammar
GB2407657B (en) 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
US7356472B2 (en) * 2003-12-11 2008-04-08 International Business Machines Corporation Enabling speech within a multimodal program using markup
US7515695B1 (en) * 2003-12-15 2009-04-07 Avaya Inc. Client customizable interactive voice response system
US7409690B2 (en) 2003-12-19 2008-08-05 International Business Machines Corporation Application module for managing interactions of distributed modality components
US7401337B2 (en) 2003-12-19 2008-07-15 International Business Machines Corporation Managing application interactions using distributed modality components
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US7660715B1 (en) * 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20050160461A1 (en) 2004-01-21 2005-07-21 United Video Properties, Inc. Interactive television program guide systems with digital video recording support
WO2005081508A1 (en) 2004-02-17 2005-09-01 Voice Signal Technologies, Inc. Methods and apparatus for replaceable customization of multimodal embedded interfaces
US20050188404A1 (en) 2004-02-19 2005-08-25 Sony Corporation System and method for providing content list in response to selected content provider-defined word
CN100424630C (zh) 2004-03-26 2008-10-08 宏碁股份有限公司 网页语音接口的操作方法
US7925512B2 (en) 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
US8549501B2 (en) * 2004-06-07 2013-10-01 International Business Machines Corporation Framework for generating mixed-mode operations in loop-level simdization
US8768711B2 (en) 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
US7487085B2 (en) * 2004-08-24 2009-02-03 International Business Machines Corporation Method and system of building a grammar rule with baseforms generated dynamically from user utterances
US20060069564A1 (en) 2004-09-10 2006-03-30 Rightnow Technologies, Inc. Method of weighting speech recognition grammar responses using knowledge base usage data
US7509260B2 (en) 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
US7739117B2 (en) 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7509659B2 (en) * 2004-11-18 2009-03-24 International Business Machines Corporation Programming portal applications
US7650284B2 (en) 2004-11-19 2010-01-19 Nuance Communications, Inc. Enabling voice click in a multimodal page
US20060123358A1 (en) 2004-12-03 2006-06-08 Lee Hang S Method and system for generating input grammars for multi-modal dialog systems
US8024194B2 (en) 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US7751431B2 (en) 2004-12-30 2010-07-06 Motorola, Inc. Method and apparatus for distributed speech applications
US7548977B2 (en) 2005-02-11 2009-06-16 International Business Machines Corporation Client / server application task allocation based upon client resources
US8725514B2 (en) 2005-02-22 2014-05-13 Nuance Communications, Inc. Verifying a user using speaker verification and a multimodal web-based interface
US20060218039A1 (en) 2005-02-25 2006-09-28 Johnson Neldon P Enhanced fast food restaurant and method of operation
US20060229880A1 (en) 2005-03-30 2006-10-12 International Business Machines Corporation Remote control of an appliance using a multimodal browser
GB0507148D0 (en) 2005-04-08 2005-05-18 Ibm Method and apparatus for multimodal voice and web services
US20060235694A1 (en) 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US7460996B2 (en) * 2005-06-23 2008-12-02 Microsoft Corporation Using strong data types to express speech recognition grammars in software programs
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7657434B2 (en) * 2006-05-30 2010-02-02 Motorola, Inc. Frame goals for dialog system
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8086463B2 (en) * 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080154604A1 (en) * 2006-12-22 2008-06-26 Nokia Corporation System and method for providing context-based dynamic speech grammar generation for use in search applications
US8612230B2 (en) * 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) * 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) * 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8843376B2 (en) * 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) * 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685334A (zh) * 2012-09-03 2014-03-26 许丰 智能应用浏览器
CN103685334B (zh) * 2012-09-03 2018-04-06 许丰 智能应用浏览器
CN103024581A (zh) * 2012-12-26 2013-04-03 Tcl集团股份有限公司 智能电视及其节目交互实现方法、系统
CN109410913A (zh) * 2018-12-13 2019-03-01 百度在线网络技术(北京)有限公司 一种语音合成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20110047452A1 (en) 2011-02-24
CN101197868B (zh) 2012-04-04
US7827033B2 (en) 2010-11-02
US8073692B2 (en) 2011-12-06
US20080140410A1 (en) 2008-06-12

Similar Documents

Publication Publication Date Title
CN101197868B (zh) 在web页框架中启用语法的方法和系统
US8069047B2 (en) Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
EP2824596B1 (en) Speech- Enabled Web Content Searching Using a Multimodal Browser
CN101271689B (zh) 用数字化语音中呈现的词来索引数字化语音的方法和装置
US7822608B2 (en) Disambiguating a speech recognition grammar in a multimodal application
CN101287043B (zh) 用于提供与多模式应用之间的表达用户交互的方法和设备
US8566087B2 (en) Context-based grammars for automated speech recognition
US7945851B2 (en) Enabling dynamic voiceXML in an X+V page of a multimodal application
US8086463B2 (en) Dynamically generating a vocal help prompt in a multimodal application
US8862475B2 (en) Speech-enabled content navigation and control of a distributed multimodal browser
US9292183B2 (en) Establishing a preferred mode of interaction between a user and a multimodal application
US8909532B2 (en) Supporting multi-lingual user interaction with a multimodal application
US9349367B2 (en) Records disambiguation in a multimodal application operating on a multimodal device
US7809575B2 (en) Enabling global grammars for a particular multimodal application
TWI353585B (en) Computer-implemented method,apparatus, and compute
US8290780B2 (en) Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) Speech enabled media sharing in a multimodal application
US20080208586A1 (en) Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US8380513B2 (en) Improving speech capabilities of a multimodal application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090918

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090918

Address after: Massachusetts, USA

Applicant after: Nuance Communications, Inc.

Address before: American New York

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120404

Termination date: 20211115