CN101203906B - 使用脚本进行对话管理的方法、设备和系统 - Google Patents
使用脚本进行对话管理的方法、设备和系统 Download PDFInfo
- Publication number
- CN101203906B CN101203906B CN2006800191924A CN200680019192A CN101203906B CN 101203906 B CN101203906 B CN 101203906B CN 2006800191924 A CN2006800191924 A CN 2006800191924A CN 200680019192 A CN200680019192 A CN 200680019192A CN 101203906 B CN101203906 B CN 101203906B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- equipment
- script
- description
- noun phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013515 script Methods 0.000 title claims description 74
- 230000006870 function Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 230000008672 reprogramming Effects 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 7
- 238000010168 coupling process Methods 0.000 claims description 7
- 238000005859 coupling reaction Methods 0.000 claims description 7
- 239000000306 component Substances 0.000 abstract description 12
- 239000008358 core component Substances 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000006467 substitution reaction Methods 0.000 abstract 1
- 238000007726 management method Methods 0.000 description 39
- 230000006399 behavior Effects 0.000 description 31
- 230000014509 gene expression Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 230000000712 assembly Effects 0.000 description 13
- 238000000429 assembly Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 238000004806 packaging method and process Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 208000012886 Vertigo Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 229920000547 conjugated polymer Polymers 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 231100000889 vertigo Toxicity 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
描述了中性表示对话系统和方法(“RNDS”),包括基于信息状态更新方法的多应用、多设备口语对话系统。RNDS包括对话系统的中性表示核心组件,其提供对诸如对话移动模型和指称求解这样的例程的脚本化域专用扩展,提供专用语义表示和相关联例程的轻易替换,以及到用于语言理解(即语音识别和解析)和语言生成的外部组件以及到域专用知识源的干净接口。RNDS还允许与设备群的无缝交互。
Description
技术领域
本公开一般涉及对话管理,并且更具体地,涉及多应用、多设备口语对话系统的管理。
背景技术
对话包括参与者之间会话的语言以及由参与者为会话而构建的共享中心语境(例如,在后续会话中指称的“它”是指在会话中较早所描述的某物)。会话的参与者可以是人、机器、或者人和机器的任何组合。对话管理包括相对于共享语境对讲话者的话语进行解释,以及用于对对话参与者之间的交互进行管理的技术和策略。已经为诸如机器人设备的多模态控制、语音使能教学系统、与汽车内设备会话交互这样的应用开发了面向行为的对话系统。典型的对话系统结构包括像语音识别器、语言解析器(parser)、语言发生器、语音合成器、以及对话管理器(“DM”)的各种组件。该对话系统还可以包括到诸如本体(ontology)或知识库(“KB”)的外部专用组件的连接以及对话使能设备。对话系统的例子见下列文献:(i)Lemon,O.,A.Gruenstein,S.Peters(2002),″Collaborative activities and multi-tasking in dialogue systems″,Traitement Automatique des Langues(TAL),43(2);(ii)Clark,B.,J.Fry,M.Ginzton,S.Peters,H.Pon-Barry,Z.Thomsen-Grey(2001),″Automated tutoring dialogues for training in shipboard damage control″,SIGdial;和(iii)Weng,F.,L.Cavedon,B.Raghunathan,D.Mirkovic,H.Cheng,H.Schrnidt,H,Bratt,R.Mishra,S.Peters,L.Zhao,S.Upson,L.Shriberg,C.Bergmann(2004),″A conversational dialogue system for cognitively overloaded users(poster)″,INTERSPEECH.
对话系统的DM是有助于对话参与者之间交互的监管模块。使用行为模型(Activity Model)的对话系统特指一种被称为“面向行为的对话”的对话类型,其是关于正在由用户和机器、计算机、以及/或者机器人(联合)开展的行为的对话。在用户或者讲话者发起系统中,DM指示通过解释和后端系统响应对从一个组件到另一个组件的输入话语的处理。在处理中,例如,DM对输入话语的信息输入进行检测和处理,并且生成系统输出。可以与不同解析器和语言发生组件一起使用DM。通过行为模型(“AM”),即所公布的设备能力规范和它们与语言处理的关系,对与外部设备的交互进行调解。然而,由于在不同应用上对话移动(dialogue move)需求的变化、与语言解析器和其它组件接口中表示法的变化、以及具有领域专用方面的某些处理(例如,指称求解(reference resolution)),所以对新领域的定制一般需要一些显著的规划努力。
常规的对话管理系统的范围从广泛商业应用但是更受约束的基于语音扩展标记语言(“VXML”)的对话建模机制到基于对信息状态进行更新的TrindiKit方法的语义模型。虽然为特定的领域设计并且实现了许多对话系统,但是将这些系统应用到新的领域需要相当大的工程。相反地,基于VXML的对话管理基础结构允许对新的领域灵活实现基于语音的对话系统,但是仅提供对对话建模中许多问题的肤浅解决方法。
通过引用合并
这里通过引用将本说明书中所提到的每个出版物和/或发明申请全部合并到本申请中,如同专门并且单独指定每个独立的出版物和/或发明申请通过引用合并到本申请中。
附图说明
图1是根据实施例的中性表示对话系统(“RNDS”)对话管理器(“DM”)(“RNDS DM”)的方框图;
图2是根据实施例的RNDS的方框图;
图3是根据实施例的用于使用对话移动脚本(“DMS”)将对话贡献(dialogue contribution)的描述映射到对话移动的流程图;
图4是根据实施例的用于使用名词短语求解脚本(“NPRS”)生成相应于设备的数据库查询(名词短语查询)的流程图;
图5是根据实施例用于MP3设备的示例行为模型(“AM”)的部分;
图6是根据实施例用于MP3设备的“play”命令的示例DMS;
图7是根据实施例的对于“the song Vertigo by U2”的示例名词短语查询(“NP查询”)对象;
图8是根据实施例的名词短语求解规则的例子。
在附图中,相同的参考标号代表相同的或者非常类似的组件或行为。为了对任何特定组件或行为的讨论进行标识,在参考标号中最高位数字是首次引入该组件的图号(例如,关于图1首次对组件100进行引入和讨论)。
具体实施方式
基于信息状态更新方法,所描述的中性表示(representation-neutral)对话系统和方法包括多应用、多设备口语对话系统。在这里共同被称为中性表示对话系统(“RNDS”)的中性表示对话系统和方法包括对话系统的中性表示核心组件,其提供对诸如对话移动模型和指称求解这样的例程的脚本化的域专用扩展。RNDS支持专用语义表示和相关例程的置换、到用于语言理解(即语音识别和解析)和语言生成的外部组件以及到域专用知识源的干净接口,从而减少或者消除重新编码任何核心软件组件的任何需求。如下所述,RNDS还允许与设备群的无缝交互。
RNDS的脚本包括对话移动脚本(“DMS”)、行为模型和名词短语求解脚本(“NPRS”),提供了将RNDS轻松定制到新的对话域和应用中的能力。此外,RNDS构成了“即插即用”对话管理结构的基础,其中,设备应用编程接口(“API”)对所定制的对话移动、行为模型、知识库、以及到核心处理的域专用扩展(例如指称求解)进行封装。这种即插即用对话管理使得能够进行多设备对话管理,允许将新的对话使能设备动态添加到现存的多设备对话系统。
实施例的RNDS通过使用DMS实现对对话管理的信息状态更新 方法。DMS包括一般对话处理与对“对话移动”进行轻松扩展或定制的能力的组合,其对从用户到新域的对话贡献进行处理。特别地,这构成了RNDS中多设备对话管理的基础,其中,每个设备提供其自己的DMS(“设备专用DMS”),该DMS包括从用户话语到设备专用对话移动的映射。实施例的其它脚本(例如,NPRS)允许对其它对话处理的定制,例如,名词短语求解(“NP求解”)(即,将自然语言中的对象描述映射到数据库中的实际对象)以及行为模型,其中,行为模型对由对话系统控制的对话使能设备的能力提供描述。
将RNDS脚本与来自核心对话管理结构的其它信息(例如,行为模型(“AM”))进行组合,以便在RNDS中提供即插即用能力。实施例的即插即用RNDS允许对新的设备进行对话使能和与DM进行动态注册,而不需要对DM进行重启或重新编译。例如,在汽车工业的语境中,这允许将用于汽车的新设备作为对话使能实体出售,随后将该新设备添加到诸如小汽车或卡车的车辆中的现存对话系统内。
通过对DM中现存的对话管理体系结构进行扩展,实施例的RNDS还支持多设备对话管理。在RNDS下扩展的对话管理对相关的数据结构进行扩展,从而使得同时对多个对话使能设备进行管理。所扩展的对话管理还对诸如NP求解的内部处理进行扩展,以使扩展的处理适合多设备交互。特别地,这种处理可以取绝于所选择的设备,而设备识别自身使用NP求解。
因此,RNDS提供了强大的实际核心对话管理处理与域专用信息的易于脚本化的定义的组合,所述域专用信息的定义诸如对话移动和NP求解映射。因此,RNDS允许将DM轻松定制到新的域和应用,并且还提供用于即插即用多设备对话管理的工具。RNDS还提供明确的多设备对话管理处理,为了信息状态更新对话管理对核心对话管理体系结构进行扩展,从而能够对与多个设备的同时交互进行管理。
在汽车应用语境中具有实际重要性的是,与车辆的会话对话需要与许多设备进行交互,并且自然状态的交互需要与不同设备的无缝对话管理。此外,随着与汽车内设备基于语音的对话交互成为现实,新设备或者具有升级功能的设备可能出现在市场上并且是对话使能的。 使用这些新的或者被升级的设备应该不需要具有内装DM的车辆的所有者对他们的系统进行更新。因此,RNDS的动态即插即用多设备对话管理是实现添加新的对话使能设备或者增强常规对话管理体系结构内现存设备对话能力的必要组成部分。
在下列说明中,引入了许多特定细节,以便提供对RNDS的实施例的彻底理解,并且能够对RNDS的实施例进行说明。然而,本领域的相关技术人员将认识到,可以不需要一个或多个特定细节来实现这些实施例,或者用其它组件、系统等来实现这些实施例。在其它例子中,没有示出众所周知的结构或操作或者没有对其进行详细描述,以便避免使所公开实施例的各个方面变得模糊。
图1是根据实施例的中性表示对话系统(“RNDS”)对话管理器(“DM”)(“RNDS DM”)100的方框图。RNDS DM 100包括多个系统或组件和设备专用输入,其包括但不限于对话移动脚本(“DMS”)102、名词短求解脚本(“NPRS”)104、行为模块、输入处理器106、对话移动树(“RMT”)108、行为树(“AT”)110、名词短语求解器(“NP求解器”)112以及输出处理器114中的至少一个。可以将RNDS DM的组件102-114按照一种或多种组合进行连接,以适合于容纳该RNDS DM的系统的实施例。
示例实施例的RNDS DM 100包括输入处理器106,其从RNDSDM外部的一个或多个系统接收输入。将输入处理器106连接到DMS102、DMT 108和NP求解器112。将NPRS 104连接到NP求解器112,但是不限于此。将实施例的DMT 108连接到AT 110。还将NP求解器112连接到DMT 108和输出处理器114。
实施例的DMS 102和NPRS 104对到RNDS DM 100的输入命令进行识别,并且将该命令翻译成为了检索该命令的对象的查询。特别地,DMS 102对输入命令(例如,“play”,或者其它命令,像问题等)与该输入命令的参数(例如,对象的名称、描述等,如播放“X”)一起进行识别,并且一旦识别了所接收的命令,NPRS 104的规则就对命令进行翻译或者指定一个知识库或数据库查询,以便从数据库(未示出)中检索该命令的实际对象(命令“Play X”的对象“X”)。因为 取决于设备的语境,相同的字串可能具有两种完全不同的意义,所以将命令/描述翻译成特定的查询可以是依设备而定的。因此,RNDSDM 100指定一个查询,该查询包括用户已请求对象的类型信息(song(歌曲))以及任何特定的约束(例如,name(名称)、artist(艺术家)等)。
作为包括RNDS DM 100的对话系统的例子,图2是根据实施例的中性表示对话系统(“RNDS”)200的方框图。RNDS 200包括RNDSDM 100,RNDS DM 100连接到一个或多个其它组件,以适合于RNDS200和/或容纳或包含RNDS 200的系统的配置。如上文关于图1以及本文其它地方所描述的,RNDS DM 100包括DMS 102和NPRS 104。除RNDS DM 100之外,实施例的RNDS 200还包括一个或多个语音识别(“SR”)模块或系统202、语言理解模块204、知识管理模块206、知识源208、语言发生(“LG”)模块210、以及文本到语音(“TTS”)模块212。仅在口语对话系统中包括SR模块202和TTS模块212。RNDS200还可以包括应用管理器(未示出)。
SR模块202在一个或多个输入处接收声信号,并且输出具有诸如置信度评分的附加标签的词序列或阵列。声信号可以来自用户(讲话者)(例如,用户话语)。语言理解模块204也被称为自然语言理解(“NLU”)模块204,将其连接到SR模块202,并且在一个或多个输入处从SR模块202接收具有附加置信度的词序列或阵列。NLU模块204输出结构化意义表示,该结构化意义表示可能基于在域内语言数据上所训练的统计模型和可用知识库。将RNDS DM 100连接到NLU模块204,并且RNDS DM 100在一个或多个输入处接收结构化意义表示。RNDS DM 100在语境中对输入表示进行解释,基于该语境及其知识库向RNDS 200的其它模块发布合适的指令。
将知识管理模块206或者在这里被称为“知识管理器”(“KM”)206连接到RNDS DM 100,并且知识管理模块206通过对一般本体、域专用本体和用于任何有效域的数据库进行管理,来作为到不同知识源或知识库的关口。RNDS DM 100还在不同模块之间对当前知识库进行更新和同步。
LG模块210也被称为自然语言发生器(“NLG”)210,例如,将其连接到RNDS DM 100的输出处理器114,并且LG模块210在一个或多个输入处对来自RNDS DM 100的输出进行接收。LG模块210以简洁并且合乎文法的方式将所接收的内容组织为适合于TTS模块212。TTS模块212从LG模块210接收组织后的内容(例如,具有标记特征的词序列),并且产生语音波形。
还使用设备管理器220以及一个或多个各自的设备API 222将RNDS DM 100的组件连接到一个或多个设备250。实施例的设备管理器220将RNDS DM 100的AT 110连接到设备API 222,设备API222适合于RNDS 200配置的设备250的数目。每个设备API 222包括AM 230、设备专用DMS 232、设备专用NPRS 234(也被称为NP求解语法)、以及对话管理器处理扩展(“DM处理扩展”),但是不限于此。
因此,RNDS DM 100的DMS 102和NPRS 104增强了RNDS DM100的扩展性、定制和重用,并且提供了多设备即插即用RNDS 200的基础。DMS 102和NPRS 104允许通过为新的域和应用生成脚本对RNDS 200进行定制。脚本还允许对设备信息进行封装,以支持RNDS200的即插即用能力。因此,RNDS DM 100和RNDS 200提供了一种框架,在该框架中,可以轻易地将新的设备或者用于现存设备的对话能力添加到主系统而不破坏现存的体系结构。作为一个例子,RNDS DM 100和RNDS 200的实施例可以是用于对车内电子组件进行对话控制的系统的组件,所述系统例如娱乐系统、导航系统、和通讯设备,但是实施例不限于车辆系统。
作为包括DMS 102的操作的一个例子,图3是根据实施例的使用DMS将对话贡献的描述映射300到对话移动的流程图。在从讲话者接收到声信号之后,映射300开始接收302来自讲话者的对话贡献的结构化描述302。该结构化描述可以包括一个或多个句法、语义和音位信息,以及诸如主题分类的话语范围信息。选择DMS用于对该描述以及该描述的至少一个参数进行识别304。DMS对应于设备和应用的至少一个,但是不限于此。DMS将该描述映射306到对话移 动,其中,对话移动独立于设备和应用并且对应于所识别的参数。通过对DMS进行重新编程,可以对对话移动进行定制或者使其适合于在多个域和/或应用上使用。
返回包括NPRS 104操作的例子,图4是根据实施例的使用NPRS生成对应于设备的数据库查询(名词短语查询)的流程图。查询的生成开始于对与来自讲话者的对话贡献的描述对应的设备和/或应用进行识别402。该识别402使用该描述的名词短语,但是不限于此。选择404对应于所识别设备和/或应用的名词短语求解脚本(NPRS),并且使用NPRS访问名词短语求解规则。使用该名词短语求解规则对该描述进行翻译406,并且生成对应于设备和/或描述的查询。查询一旦产生,就将其提供给RNDS的数据库或知识库,以从数据库检索对应于对话贡献的对象(或者多个对象)。
可以将RNDS DM 100和/或RNDS 200的组件连接到在这里的图中未示出的其它组件。虽然在这里通常使用术语“组件”,但是应该理解,“组件”包括如在本领域中已知术语的电路、组件、模块、和/或电路、组件和/或模块的任何组合。虽然可以将在这里示出的各个组件描述为设置在一起,但是实施例不限于此;各个可选实施例的RNDS DM 100和/或RNDS 200可以将由任何所描述的组件提供的一个或多个功能分布在任何数目和/或类型的组件、模块和/或电路中。
虽然示出了包括RNDS DM 100和/或RNDS 200的每个组件之一,但是各个可选实施例包括任何数目的这些组件和/或这些组件的任何组合,其中,以本领域已知的各种配置对这些组件中的每个进行连接。此外,虽然将RNDS DM 100和/或RNDS 200的组件表示为单独的方框,但是可以将这些方框中的某些或者全部统一集成在单独一个芯片上、分布在多个芯片或者主系统的多个组件上、以及/或者由算法的某些组合提供。通常,这里使用的术语“处理器”是指任何逻辑处理单元,例如,一个或多个CPU、数字信号处理器(“DSP”)、专用集成电路(“ASIC”)等。
RNDS DM 100和/或RNDS 200的实际配置根据主系统的组件、配置、功能和/或形成因数而定;因此,在RNDS DM 100和/或RNDS 200的组件之间示出的连接仅仅是示例性的,并且不是要将RNDSDM 100和/或RNDS 200限制于所示的配置。可以以在一个或多个处理器上运行的软件算法、固件和硬件的任何组合来实现RNDS DM100和/或RNDS 200,其中,可以将软件存储在任何合适的计算机可读介质上,例如,将微码存储在半导体芯片中、计算机可读盘上、或者从服务器下载的以及本地存储在主设备上。
RNDS DM 100和/或RNDS 200在程序或算法控制下可以在其它组件的任何组合之间进行连接,这些其它组件例如包括处理器、存储器设备、总线、控制器、输入/输出设备、通信系统以及显示器。所连接的数据库可以包括任何数目、类型和/或组合的存储器设备,存储器设备包括只读存储器(“ROM”)和随机访问存储器(“RAM”),但是不限于此。
因为RNDS DM 100的DMS 102允许不同设备根据特定设备的需求而使用RNDS DM 100的Java组件,所以它有助于在不同的设备(连接到RNDS DM 100的输入和输出的设备)上使用相同的Java代码组件。因此,DMS 102类似于用于编写对话移动的编程语言。为了在许多设备上使用对话移动,通过在比实际Java代码更高的级别上改编对话移动的Java代码,DMS 102提供了一种高效地改编对话移动以在不同域或应用上使用对话移动的方式。因此,为了对来自特定设备的输入或发往特定设备的输出进行处理,可以通过对DMS 102的改变来对RNDS DM 100所需要的任何变化进行调整,而无需变化核心对话移动的Java代码。这样,DMS 102允许在新的应用中使用对话移动,或者允许对新的设备作出命令,而不改变对话移动的核心Java代码。类似地,DMS 102也允许为新的设备高效地生成新的应用。
参考图1和2,可以与用于解析、NL生成(NLG)等的不同组件一起使用RNDS DM 100。RNDS DM 100的实施例可以使用基于规则的头部驱动解析器(例如,二阶(Gemini)NLU系统),其具有适合特定应用域的语法,其中,解析器自身进行语义标准化,返回直接对应于设备行为特定表示的语义“逻辑形式”。RNDS DM 100的实施例还可以 使用三方统计解析器,其仅返回弱标准化的语义形式。
实施例的RNDS DM 100使用信息状态模型或者更新方法(见Larsson,S.和D.Traum 2000,“information state and dialoguemanagement in the TRINDI dialogue move engine toolkit”,NaturalLanguage Engineering,6(3-4)),以便维持对话语境。“信息状态模型”是一种建模方法,其对用于解释会话参与者的每个贡献的取决于语境的方法进行建模(由参与者引入会话的对象和其它知识构成语境)。信息状态模型基于前述事物构建语境,使得不要求讲话者在会话的后段必须表达完整的想法。随后,使用对话语境对输入话语(包括片段和修正)进行解释,对名词短语(“NP”)进行求解,构建突出响应,对事件进行追踪等。还使用对话状态对语音识别器期望进行偏移并且改进SR性能(见Lemon,O.和A.Gruenstein,2004,″Multi-threaded contentfor robust conversational interfaces:context-sensitive speech-recognitionand interpretation of corrective fragments″,Transactions onComputer-Human Interaction(ACM TOCHI)511(3))。
对话信息状态的两个中心RNDS DM 100组件是DMT 108和AT110。DMT 108表示对话的历史语境。将每个对话贡献分类为“对话移动”(例如,“Command”、“WhQuestion”、“WhAnswer”等),并且通过将其自身附加到DMT 108上合适的“有效”节点,在语境中对其进行解释。例如,“WhQuestion”附加到对应于“WhAnswer”节点的有效节点。DMT 108的树结构专门支持多线程、多主题会话,其中,新的会话主题产生新的分支(见Lemon,O.,A.Gruenstein,S.Peters(2002).″Collaborative activities and multi-tasking in dialogue systems″,Traitement Automatique des Langues(TAL),43(2))。不能将其自身附加到最近有效节点的对话移动可以附加到另一个分支内的有效节点(对应于所恢复的会话),或者通过将其自身附加到根节点来打开新的分支(对应于新的会话线程)。DMT 108还作为用于对片段、多话语构造和修正进行解释的语境,并且为诸如NP求解的任务提供论述结构。
AT 110对关于对话的行为进行管理。当用户发布命令时,这通常导致创建新的行为并且将其添加到AT 110。在可以将行为实际发 送到设备来执行之前,RNDS 200尝试对其充分进行“求解”,例如,对所有提及的NP进行求解或者产生子对话以得出进一步的信息。典型地,修正和校正(例如,“I meant/said...”)包括对现存行为表示进行编辑。在AT110上对行为执行进行监控,并且变化可以导致生成诸如关于失败或者成功完成任务的通知消息。
如上所述,经由设备管理器220和设备API 222将AT 110连接到RNDS 200的设备250的AM 230。AM 230对设备专用信息进行封装,AM 230是与RNDS DM 100接口的代理或设备的能力的声明性说明,并且AM 230包括语言信息,诸如从predicate(谓词)/argument(变元)结构到设备行为的映射。当给定具有丢失变元的用户命令时,标记为“required”的变元可以生成子对话。
可以将设备封装方法以及特别是这里所描述的对话移动脚本语言和NP求解规则应用到初始域,例如,对MP3音乐播放器进行控制并且访问音乐数据库。图5是根据实施例用于MP3设备的示例行为模型(“AM”)530的一部分。如下所述,该AM 530的“required”变元位置包括“Playable”,其对应于来自与该应用相关联的对象的相关联本体的类;“playable-object”是通过对对话移动进行匹配所填充的变量名,如下所述。
对话管理器可以完全从程序上对对话移动进行编码(例如,用Java)。对话管理器还可以包括对应于在面向行为对话中所找到的对话贡献类型的通用目对话移动(例如,“Command”、“WhQuestion”、“WhAnswer”等)库。随着将对话管理器应用到新的应用,将新的对话移动实现为适合于新的应用,或者对现存的对话移动进行提炼以便应用到新的应用。以这种方式实现多种应用。
因此,典型地,将对话移动定制到新的域需要大量的编码或重新编码。此外,使用现有的具有宽覆盖范围语法的解析器、或者使用语料训练统计解析器需要对话管理器能够对新的输入语义形式进行处理。宽覆盖范围的需求指示从输入到正确对话移动的映射是可以轻易扩展的。对覆盖范围进行扩展的一种方法是相对于广泛的语言本体(例如,WordNet(见Miller,G A.,1995,″WordNet:A lexical database for English″,Comm.of the ACM 38))或者其它知识库(见Dzikovska,M.,2004,″A Practical Semantic Representation for Natural LanguageParsing″,Ph.D.Thesis,University of Rochester)对语义信息进行标准化。然而,这仍然需要将输入形式映射到内部表示。
实施例的用于编写DMS 102的对话脚本语言提升了对话移动的重用、增强了扩展性、并且处理多个域上的语义变化。实施例的对话脚本语言定义了对话移动的分等级定义,允许对现存对话移动的继承和重用,同时允许对特定域或设备的定制。实施例的对话脚本语言还定义了从输入语义形式到适当对话移动的直接映射。此外,对话脚本语言为信息更新提供了附加规则。另外,对话脚本语言提供了其它对话移动专用信息,例如,为消除疑义生成的输出说明、对所需信息的请求。
使用可轻易扩展的DMS 102与诸如如上文所述使用本体或知识库的使用其它方法实现宽语义覆盖范围一致。然而,它另外提供了通用方法,用于将应用专用信息提供给RNDS DM 100,将其定制到新的域,并且使能这里所描述的RNDS200的即插即用多设备体系结构。
图6是根据实施例用于MP3设备的“play”命令的示例对话移动脚本(“DMS”)602。DMS 602中的变量对应于用于相应设备的AM中的变量。特别地,用于MP3设备的AM包括具有相应(所需要的)“_playable-object”变元的“play”操作。当输入语义形式与该DMS602中的“Input”模板匹配时,统一操作(unification operation)填充“_playable-object”变量,其对来自设备对象域的对象进行求解(下文对其进一步描述),并且在从设备AM构建的行为中填充对应的空隙(slot)。随后是对对话移动脚本语言的属性的进一步细节的说明。虽然该示例DMS 602是与特定类型的设备一起使用的特定命令,但是这里所描述的实施例不限于该命令或者该设备。
实施例的对话移动脚本语言允许对对话移动的分等级说明和细化。示例DMS 602对应于“play”命令,并且继承更一般的“Command”对话移动。例如,在Java中实现“Command”对话移动,其中对应 的DMS具有对实现该对话移动的Java类命名的字段。通过相同的通用代码来实现“play”命令移动,但是“play”命令移动为触发该移动指定了它自己的模式,并且定义了附加模式和适当的生成消息。通常,继承的深度是没有界限的(例如,可以定义在非常专用语境中应用的“play”命令移动的子移动)。
DMS的继承对于其特别有用的一种类型的移动是在设备上的信息查询移动。关于MP3数据库中音乐或者城市信息向导中餐馆的问题在结构上通常是类似的,即查询结构自身是(相对)域独立的。可以通过不同的对话移动(对应于不同的设备或知识源)处理每种类型的查询,但是可以从单独一个“Query”对话移动中继承每个“Input”集。
可以在对话移动的抽象级别上应用的其它操作包括“重写规则”,在将输入形式与对话移动“Input”模板进行匹配之前使用该“重写规则”对输入形式进行转化,例如,将间接命令转化成直接命令,或者以适当的语义特征替代时间标记(例如,“now”)。重写规则是独立于域/设备的,并且在对任何特定设备或对话移动进行选择之前将其应用于输入。
实施例的DMS还经由语义模板支持对话移动的选择。DMS的“Input”部分包括触发该特定对话移动的输入项目的列表。将这些模板与解析器的输出进行匹配(所述解析器为,在示例DMS 602的情况下,在从与MP3播放器交互的用户的Wizard of Oz实验中收集的语料上训练的统计解析器(见Cheng,H.,H.Bratt,R.Mishra,E.Shriberg,S.Upson,J.Chen,F.Weng,S.Peters,L.Cavedon,J.Niekrasz,2004,″AWizard of Oz framework for collecting spoken human-computer dialogs″,INTERSPEECH:8th International Conference on Spoken LanguageProcessing,Jeju Island,Korea))。在与“Input”模板进行匹配之前,可以以任何方式(例如,使用本体,或者经由重写规则)对解析后的形式进行标准化或处理。可以将“Input”模板附加到域专用对话移动或者通用移动(并且是继承的)。
在示例DMS 602中的“Input”模板的特定形式记法说明了对特 定统计解析器的输出进行匹配的特定例子;不同的解析器输出形式记法将使用不同的形式记法,但是一般而言,可以将模板视为特征结构,并且匹配操作是有效的单向统一。将实施例的符号解释如下,但是不限于此:“#”表示词汇项,词汇项具有在“/”符号之后的词性标签;“|”表示可替换项;“?”表示可选变元;“_”表示来自行为模型的变量匹配;并且“*”代表与任何事物的匹配。因此,在示例DMS602中的对话移动与“play X”、“start X”、或者包括“play X”或“hearX”的间接命令(为方便起见,间接命令使用通用重写规则提取它们的嵌入语句)匹配;将要播放的对象标记为可选的(即,甚至当该变元丢失时,模板也匹配)。
因为可以替换模板的形式和相应的匹配算法而不影响RNDS DM体系结构,所以RNDS DM 100是中性表示。这使得能够轻易地将解析器或NLG组件替换成使用不同表示的组件。例如,可以替换更加标准的特征结构表示和特征统一算法,而无需对RNDS DM代码的其它变化。
当输入形式与对话移动的“Input”部分中的条目匹配时,这可能导致变量受限制;特别地,可以将变量限制为对应于来自AM的变量。例如,如果与示例DMS 602匹配的输入包括合适的“arg”变元,那么这为“_playable-object”提供了值;如果不存在“arg”,那么将该变量剩余为未填充(在该情况下,“Command”对话移动可以生成对信息的请求)。
通常,由于一般存在多个脚本对话移动和在每个移动的“Input”部分中的多个条目,所以多种匹配是可能的。实施例的RNDS DM 100使用一般标准对每个可能的匹配进行评分(例如,当前语境的可用性;未求解信息的最小化)。然而,可选实施例可以包括概率方法,以便对来自多个标准的证明进行合并以选择适当的对话移动,其包括韵律信息和浅主题分类。
实施例的对话脚本语言提供了指定附加规则的机制。这些附加规则确定了可以附加到DMT中现存有效节点的对话移动的类型。例如,示例DMS 602示出了可以将消除歧义的“WhQuetsion”或用于填充 丢失变元的“WhQuestion”附加到“Command”节点(通常在更加抽象的级别上而不是在专用命令的级别上指定该附加规则)。在这些说明书之一内部,可以在“适当位置”脚注对话移动信息(如为“WhQuetsion:fill:play”移动所做的那样)。
DMS还在“CloseOn”字段内对哪些邻近移动关闭对话移动(即,使对话移动无效,从而没有其它移动可以附加到其上)进行编码。关闭用于附加的节点有效地关闭了相应的会话线程(修正可以重新打开“Command”或“Query”节点)。节点还在特定周期之后自动关闭。
自动生成大部分RDNS输出,例如,在通用目的对话移动中对其进行编码。然而,应用可以要求域和设备专用输出。也可以在实施例的DMS 102中对这些域和设备专用输出进行编码,由于这些输出将是系统响应,所以在“System”对话移动中对其进行编码。DMS 102允许这些特定输出的任何表示,只要该表示与RNDS DM 100针对给定应用所接口的特定NLG系统210所使用表示匹配。以这种方式,因为在对话系统中使用不同的NLG组件(使用不同的表示)仅导致对DMS 102的修改,并且不需要对RNDS DM 100的核心进行修改,所以RNDS DM 100是中性表示。
因此,RNDS 200提供了强大的实际核心对话管理过程与域专用信息的轻松脚本化定义的合并,域专用信息例如对话移动和NP求解映射。这样,可以将RNDS 200定制到新的域和应用,并且RNDS 200还提供用于如上所述的即插即用多设备对话管理的工具。该即插即用能力是系统的重要特征,所述系统可以使它们的功能扩展而不脱机。典型地,即插即用包括将提供增强功能的新的组件添加到RNDS 200,而不破坏现存的框架。实施例的RNDS 200通过使用说明语言实现即插即用环境以及对组件实现的封装,其中组件使用所述说明语言公告它们的能力。
即插即用多设备对话管理支持将新的设备添加到RNDS 200,其与RNDS DM 100一起作用,不必下载新的软件或者修改RNDS DM100。当将新的设备插入RNDS 200中时,新的设备将其接口信息广播到RNDS DM 100。例如,新的设备可以为RNDS DM 100提供其 实现的功能(行为模型)、其处理的语言(设备理解的来自用户的事物类型)、任何设备专用DMS 232、任何设备专用NPRS 234(如果系统中存在对有关设备的对象的描述,那么设备告知RNDS DM 100如何将对象翻译成对设备KB的查询)、以及设备专用核心Java代码的信息。
参考图2,向RNDS DM 100注册的新设备对RNDS DM 100在管理与这些新设备的对话中使用的所有所需信息进行封装。该封装信息包括实施例中的四个组件,其中,这四个组件包括如上所述的DMS232、对可通过对话访问的任何设备功能进行描述的AM 230、设备专用本体和/或知识库、以及用于设备专用NP求解的规则234。可选实施例的封装信息可以包括适合于设备和RNDS DM 100的附加的或者不同的信息。
通过将新的Java类包括到适合于设备的封装信息中,还可以添加对话管理过程的对话专用实现,或者使用该专用实现重写通用实现。例如,可以添加对由新的设备引入的新交互形式进行处理的对话移动。然而,通常,组成封装信息的四个组件包括RNDS DM 100为了与设备进行对话所使用的全部设备专用信息,并且允许对话使能设备的动态即插即用。
在提供多设备对话管理中,实施例的RNDS DM 100对DMT体系结构进行扩展,以允许将新的设备动态添加或者插入RNDS 200。一旦添加,新的对话使能设备就将它们自己向RNDS DM 100注册,并且DMT 108中的节点与适当的专用设备相关联。同样,“当前设备”成为信息状态的组成部分,并且在该语境中对输入话语进行解释。
RNDS DM 100还将设备选择(即,确定话语与那个设备相关联)实现为多设备对话管理的组件过程。RNDS DM 100的设备选择判决过程包括词汇和语义信息、对话移动分类和论述(discourse)结构,以及到“当前设备”的偏离。判决过程还使用将NP与适当的设备本体进行相关的策略(例如,指称“song”将与关联于MP3设备但可能不关联于其它设备的本体内的类型匹配)。然而,该策略不一定解决所有的设备模糊,例如,电话设备(“get John on the phone”)以及导航服务(“how do I get to John’s house?”)都可以使用地址本。
因此,因为与NP求解有关的信息提供了与所提到的设备有关的重要线索,所以RNDS DM 100将判决选择和NP求解过程相关为相互依存的过程,但是如下所述,NP求解实际上可以是完全设备专用的。这样,为了对设备进行识别,RNDS DM 100执行浅NP分析(例如,将名词和合适的名字与关联于特定设备的本体类型和KB项进行匹配),并且随后使用下述的设备专用NP求解规则对NP进行完全求解。然而,可选实施例可以为这种分类任务使用其它特征(例如,浅主题分类技术)和/或概率方法。
可以将大部分NP求解过程视为相当独立于域的(例如,首语重复求解)。然而,NP求解的方面是同时取决于域和设备的。例如,在MP3播放器音乐播放的语境中,与当使用触摸屏多模态界面时相比,对短语“What’s this”进行不同解释。RNDS DM 100以类似于DMS 102定制对话移动的方式,通过经由NP求解脚本语言和NPRS 104对在RNDS DM 100中为特定域/设备实现的核心NP求解能力进行适配定制,对此进行处理。NPRS 104是有效的语境无关语法,其允许用户在当前对话信息状态和输入语义形式的语境下,对如何将NP对象映射到用于特定设备的知识库查询进行定义。特别地,对于MP3设备,例如,在“What’s this”语境中的“this”将被映射到一个查询,该查询返回当前正播放歌曲的名称。
RNDS DM 100使用NPRS 104将NP翻译成实现基于约束的KB查询(在这里被称为“名词短语查询”或“NP查询”)的Java对象。图7是根据实施例的对于“the song Vertigo by U2”的示例名词短语查询(“NP查询”)对象700。RNDS DM 100的规则指定如何将在输入语义形式中指定的NP翻译成这种对象。RNDS DM 100包括多个通用约束对象和相关联的变形,但是还可以将更多的对象包括为设备封装的组成部分,以便提供专用于该设备的任何新颖处理。例如,MP3设备将需要对诸如“by artist”的限定词进行处理,并且知道将该构造翻译成KB的“artist”字段上适当的约束。
当然,将信息从NP表示中提取出来的方式取决于输入的特定格式以及与设备相关的KB的结构。RNDS DM 100使用基于规则的语 言,来指定NP(不管格式)如何映射到基于约束的查询对象,使用通用或设备专用框架构造操作。将这种规则用于处理同义词(即,通过将多个名词映射到相同的查询类型)以及指定来自复杂NP的复杂查询对象的构造。
图8是根据实施例的名词短语求解(“NP求解”)规则800的例子。从用于MP3设备的NP求解脚本中获得这些NP求解规则800,但是不限于此。每个规则的左侧与来自在该特定应用中使用的统计解析器输出的构造匹配:符号“#”指示已将相应的词标记为头词;“/”之后的记号是所匹配项的词性(“POS”);并且大写的条目指明变量。每个规则的右侧指定如何为KB构造查询或约束:第一个项表示这是何种类型的约束(其确定使用何种构造过程);右侧的剩余部分指定进行测试的特定KB字段。
参考NP求解规则800,(1)为“Song”类型对象构造简单查询;(2)使用MP3专用约束构造过程,对标记为“this”(将其映射到当前正在播放的歌曲)的“Song”进行匹配;(3)将“by X”补语映射到在“Artist”上的约束(对于歌曲或曲集),其中,“FRAME”变量指示所嵌入的NP可以是复杂的,并且应该对其自身进行分析;(4)对“namedX”形式的嵌入语句进行处理;以及(5)对其它可以限定歌曲查询的补语进行处理。由于一个规则应用的输出可以是另一个规则的输入,所以规则可以是递归的。
虽然实施例的NP求解规则构造不取决于规则的特定语法或格式,但是可以为给定的新设备轻松地指定NP求解规则构造,并且将其与设备一起进行封装。由于具有DMS 102,所以可以在设备专用脚本中对通用构造进行继承和重写,而可以将设备专用NP解释规则与给定设备一起进行封装。
这里所描述的RNDS 200提供了对多设备会话、对话移动脚本、以及脚本功能的管理,以便对其它核心对话处理(诸如NP求解)进行扩展以覆盖域专用现象,其中,所述对话移动脚本有助于到新的域更大的可移植性,并且还使多设备对话成为可能。还对RNDS 200内部的数据结构和处理过程进行增强,以便对不同设备之间的会话切换进 行处理。对这些特征进行打包,以便有助于对API进行编程,API使能将新的设备动态“即插即用”到RNDS DM 100中。
实施例的RNDS包括一种方法,该方法包含以下操作的至少一个:对从声信号产生的包括来自讲话者的对话贡献的描述的输入模式进行接收;使用对话移动脚本(DMS)对该描述和该描述的至少一个参数进行识别,其中,DMS对应于设备和应用中至少一个;并且使用DMS将该描述映射到对话移动,该对话移动对应于所识别的参数并且独立于设备和应用。
实施例的方法还包括:通过对DMS重新编程,使对话移动进行改编,以使其适合于在多个不同域和多个不同应用的至少一个上使用。
实施例的方法还包括以下操作的至少一个:使用该描述的名词短语对与该描述对应的设备和应用的至少一个进行识别;选择对应于所识别设备和应用中至少一个的名词短语求解脚本(NPRS),并且经由所选择的NPRS访问名词短语求解规则;以及使用名词短语求解规则对该描述进行翻译,并且生成对应于设备和描述中至少一个的查询。
实施例的方法还包括:响应于该查询,从至少一个数据库中检索由来自对话贡献的对象描述所指称的至少一个对象。实施例的对象描述包括名词短语。
实施例的方法还包括:通过对NPRS进行重新编程,对至少一个名词短语求解规则进行改编,以使其适合于在多个不同域和多个不同应用的至少一个上使用。
实施例的NPRS包括知识库查询构造规则,可以对其进行编程以便定义如何为多个设备中的每个设备将名词短语对象映射到查询。
实施例的生成查询包括将该描述的名词短语翻译成对象。
实施例的该描述是基于结构化语言的描述,其包括对话贡献的语义描述、句法描述、音位信息、话语级别信息、以及主题分类中的至少一个。
实施例的映射还包括对对话贡献的至少一个参数进行识别。
实施例的方法还包括对该描述的变量和对话移动组件之间的匹 配进行评分。
实施例的RNDS包括一种系统,该系统包含以下组件的至少一个:基于信息状态更新方法的对话管理器,其包括多个对话移动和对应于设备和应用中至少一个的对话移动脚本(DMS),该话管理器对从声信号生成的输入模式进行接收,该输入模式包括对来自讲话者的对话贡献的描述,该DMS对该描述和该描述的至少一个参数进行识别,该DMS将该描述映射到对应于所识别参数的一个对话移动;连接到对话管理器和至少一个数据库的知识管理器;以及连接到对话管理器的设备管理器。
通过对DMS重新编程,对实施例的多个对话移动进行改编,以使其适合于在不同域和应用的至少一个上使用。
实施例的对话管理器还包括连接到多个名词短语求解脚本(NPRS)和多个规则的名词短语求解器,其中,每个NPRS对应于设备和应用中的至少一个。
实施例的名词短语求解器使用NPRS来访问规则,并且对所识别的描述进行翻译,以生成对应于设备和应用中至少一个的查询。
通过对NPRS重新编程来改编实施例的规则,以使其适合于在至少一个不同域和应用上使用。
实施例的NPRS包括知识库查询构造规则,可对其进行编程以便定义如何将名词短语对象映射到用于每个设备的查询。
实施例的系统还包括至少一个数据库,其中,知识管理器将查询传送到数据库。响应于该查询,实施例的对话管理器从数据库接收对话贡献的至少一个对象。
实施例的系统还包括多个设备,其中,将每个设备通过符合设备应用编程接口(API)的每个设备的描述连接到设备管理器,其中,每个设备描述包括行为模型、设备专用DMS、设备专用NPRS、以及实现更多设备专用功能的代码中的至少一个。实现更多设备专用功能的实施例的代码包括设备专用对话移动。实施例的行为模型包括对应于DMS变量的变量。
响应于将设备连接到设备管理器,实施例的对话管理器对来自设 备API的行为模型、设备专用DMS、设备专用NPRS、以及设备专用对话移动的信息进行接收和存储。
实施例的系统还包括被连接到对话管理器输入的语音识别模块和语言理解模块中的至少一个。
实施例的系统还包括被连接到对话管理器输出的语言发生模块和文本到语音模块中的至少一个。
实施例的RNDS包括对话使能设备,其包括以下装置中的至少一个:用于对从声信号生成的输入模式进行接收的装置,所述输入模式包括对来自讲话者的对话贡献的描述;用于使用对话移动脚本(DMS)对该描述和该描述的至少一个参数进行识别的装置,其中,DMS对应于设备和应用中的至少一个;以及用于使用DMS将描述映射到对话移动的装置,该对话移动对应于所识别的参数并且独立于设备和应用。
实施例的RNDS包括计算机可读介质,该计算机可读介质包括可执行指令,当在处理系统中执行该指令时,通过以下操作管理对话:对从声信号生成的输入模式进行接收,所述输入模式包括对来自讲话者的对话贡献的描述;使用对话移动脚本(DMS)对该描述和该描述的至少一个参数进行识别,其中,DMS对应于设备和应用中的至少一个;以及使用DMS将该描述映射到对话移动,该对话移动对应于所识别的参数并且独立于设备和应用。
实施例的RNDS包括一种方法,该方法包含以下操作中的至少一个:基于信息状态更新方法提供对话管理系统中的多个通用对话脚本,其中,每个对话脚本包括对例程的扩展,其中,该扩展提供专用于域、设备和应用中至少一个的功能;对对话管理系统的输入进行接收,该输入包括对对话贡献的描述;以及使用至少一个通用对话脚本将所接收的输入映射到多个核心组件中的至少一个,其中,核心组件包括对话管理组件,其独立于域、设备和应用中的至少一个。
实施例的通用对话脚本包括对话移动脚本(DMS)和名词短语求解脚本(NPRS)。
实施例的方法还包括以下操作:对另外的通用对话脚本进行接 收,其中,另外的通用对话脚本对与对话管理系统交互的域、设备和应用中的至少一个进行扩展。实施例的另外的通用对话脚本是从连接到对话管理系统的新设备和新应用中的至少一个中接收的。
可以将这里所描述的RNDS的方面实现为编程于各种电路中的功能,各种电路包括可编程逻辑器件(PLD),诸如现场可编程门阵列(FPGA)、可编程阵列逻辑(PAL)器件、电可编程逻辑、存储器器件、基于蜂窝的标准器件、以及专用集成电路(ASIC)。用于实现RNDS的方面的一些其它可能包括:具有存储器的微控制器(例如电可擦除可编程只读存储器(EEPROM))、嵌入式微处理器、固件、软件等。此外,可以将RNDS的方面嵌入微处理器,该微处理器具有基于软件的电路仿真、离散逻辑(顺序和组合)、用户定制器件、模糊(神经)逻辑、量子器件、以及以上类型器件的任何混合。当然,可以以多种组件类型提供以下器件技术,例如,如互补金属氧化物半导体(CMOS)的金属氧化物半导体场效应晶体管(MOSFET)技术、如射极耦合逻辑(ECL)的双极技术、聚合技术(硅共轭聚合体和金属共轭聚合体金属结构)、混合模拟和数字等。
应该注意,可以将这里所公开的各个组件描述和表示(或者代表)为嵌入在各种计算机可读介质中的数据和/或指令。可以将该数据和/或指令嵌入在其中的计算机可读介质包括各种形式的非易失存储介质(例如,光、磁或半导体存储介质)和载波,但是不限于此,其中,可以使用载波通过无线、光、或者有线信号传输介质或者其任何组合传送该格式化数据和/或指令。通过载波对该数据和/或指令进行传送的例子包括在因特网和/或其它计算机网络上经由一个或多个数据传送协议(例如,HTTP、FTP、SMTP等)进行传送(上载、下载、电子邮件等),但是不限于此。当在计算机系统内经由一个或多个计算机可读介质进行接收时,可以通过计算机系统内与执行一个或多个其它计算机程序相结合的处理实体(例如,一个或多个处理器)对上述组件的这种基于数据和/或指令的表示进行处理。
除非上下文明确要求,否则,在整个说明书和权利要求书中,将词语“包括”、“包含”等解释为包含在内的意义,这与排除在外或者 穷尽的意义相对立;也就是说,其具有“包括,但不限于”的意义。使用单数或复数的单词分别包括复数或单数个。另外,单词“在这里”、“在此之下”、“上文”、“下文”以及具有类似意思的词是将该申请作为一个整体,而不是该申请的任何特定组成部分。当涉及两个或多个项目的组而使用词“或”时,该词覆盖了下列所有对该词的解释:该组内任何项目、该组内所有项目、以及该组内项目的任何组合。
上文对所说明的RNDS实施例的描述不是想要穷尽所有实施例或者将RNDS限制在所公开的确切形式中。虽然这里为了说明性目的对RNDS的特定实施例和例子进行了描述,但是如本相关领域的技术人员所认识到的,在RNDS范围内的各种等价修改是可能的。在这里所提供的RNDS教义可以应用到其它处理系统和方法,而不仅仅用于上述系统和方法。
可以对上述各个实施例的元素和行为进行合并以提供更多的实施例。可以根据上述说明对RNDS进行这些和其它变化。
通常,在后面的权利要求中,不应该将所使用的术语解释为将RNDS限制在说明书和权利要求中所公开的特定实施例,而应该将其解释为包括在权利要求下操作的所有处理系统。因此,公开的内容不是要对RNDS进行限制,相反,RNDS的范围完全由权利要求确定。
虽然在下文的某些权利要求形式中呈现了RNDS的某些方面,但是发明者在任何数目的权利要求形式中预期RNDS的各个方面。例如,虽然仅将RNDS的一个方面叙述为嵌入在机器可读介质中,但是可以将其它方面同样嵌入在机器可读介质中。因此,发明者保留了在提交申请之后添加额外权利要求的权利,以便为RNDS的其它方面寻求这种额外的权利要求形式。
Claims (24)
1.一种对话使能方法,包括:
对从声信号生成的输入模式进行接收,所述输入模式包括对来自讲话者的对话贡献的描述;
使用对话移动脚本对所述描述和所述描述的至少一个参数进行识别,其中,所述对话移动脚本对应于设备和应用中的至少一个;
使用所述对话移动脚本将所述描述映射到对话移动,所述对话移动对应于所识别的参数并且独立于所述设备和应用;
使用所述描述中的名词短语对与所述描述对应的设备和应用中的至少一个进行识别;
选择与所识别的设备和应用中的至少一个对应的名词短语求解脚本,并且通过所选择的名词短语求解脚本访问名词短语求解规则;以及
使用所述名词短语求解规则对所述描述进行翻译,并且生成与所述设备和所述应用中的至少一个对应的查询。
2.如权利要求1所述的方法,还包括:
通过对所述对话移动脚本进行重新编程,使得所述对话移动适合于在多个不同域和多个不同应用中的至少一个上使用。
3.如权利要求1所述的方法,还包括:
响应于所述查询,从至少一个数据库中检索由来自所述对话贡献的对象描述所指称的至少一个对象。
4.如权利要求3所述的方法,其中,所述对象描述包括名词短语。
5.如权利要求1所述的方法,还包括:
通过对所述名词短语求解脚本进行重新编程,使得所述名词短语求解规则中的至少一个规则适合于在多个不同域和多个不同应用中的至少一个上使用。
6.如权利要求1所述的方法,其中,所述名词短语求解脚本包括知识库查询构造规则,所述知识库查询构造规则是可编程的,以对于多个设备中的每个设备定义如何将名词短语对象映射到查询。
7.如权利要求3所述的方法,其中,生成所述查询包括将所述描述中的名词短语翻译成所述对象。
8.如权利要求1所述的方法,其中,所述描述是基于结构化语言的描述,其包括所述对话贡献的语义描述、句法描述、音位信息、话语级别信息以及主题分类中的至少一个。
9.如权利要求1所述的方法,其中,所述映射还包括对所述对话贡献的至少一个参数进行识别。
10.如权利要求1所述的方法,还包括:
对所述描述中的变量和所述对话移动的组件之间的匹配进行评分。
11.一种对话使能系统,包括:
基于信息状态更新方法的对话管理器,其包括多个对话移动和一个对应于设备和应用中至少一个的对话移动脚本,所述对话管理器对从声信号产生的输入模式进行接收,所述输入模式包括对来自讲话者的对话贡献的描述,所述对话移动脚本对所述描述和所述描述的至少一个参数进行识别,所述对话移动脚本将所述描述映射到所述多个对话移动中与所识别的参数对应的一个对话移动;
知识管理器,其连接到所述对话管理器和至少一个数据库;以及
设备管理器,其连接到所述对话管理器,其中,所述对话管理器还包括名词短语求解器,其连接到多个名词短语求解脚本和多个规则,其中,每个名词短语求解脚本对应于所述设备和所述应用中的至少一个。
12.如权利要求11所述的系统,其中,通过对所述对话移动脚本进行重新编程,使得所述多个对话移动中的至少一个适合于在至少一个不同的域和应用上使用。
13.如权利要求11所述的系统,其中,所述名词短语求解器使用名词短语求解脚本来访问所述规则,并且对所识别的描述进行翻译,以生成对应于所述设备和应用中至少一个的查询。
14.如权利要求11所述的系统,其中,通过对所述名词短语求解脚本进行重新编程,使得所述规则适合于在至少一个不同的域和应用上使用。
15.如权利要求13所述的系统,其中,所述名词短语求解脚本包括知识库查询构造规则,所述知识库查询构造规则是可编程的,以对于所述设备中的每个设备定义如何将名词短语对象映射到查询。
16.如权利要求13所述的系统,其中,所述知识管理器将所述查询传送到所述至少一个数据库。
17.如权利要求16所述的系统,其中,响应于所述查询,所述对话管理器从所述数据库接收所述对话贡献的至少一个对象。
18.如权利要求11所述的系统,还包括多个设备,其中,将每个设备通过符合设备应用编程接口的每个设备的描述连接到所述设备管理器,其中,每个设备描述包括行为模型、设备专用对话移动脚本、设备专用名词短语求解脚本、以及实现更多设备专用功能的代码中的至少一个。
19.如权利要求18所述的系统,其中,所述实现更多设备专用功能的代码包括设备专用对话移动。
20.如权利要求18所述的系统,其中,所述行为模型包括对应于对话移动脚本的变量的变量。
21.如权利要求19所述的系统,其中,响应于将所述设备连接到所述设备管理器,所述对话管理器对来自所述设备应用编程接口的所述行为模型、设备专用对话移动脚本、设备专用名词短语求解脚本以及设备专用对话移动的信息进行接收和存储。
22.如权利要求11所述的系统,还包括被连接到所述对话管理器的输入的语音识别模块和语言理解模块中的至少一个。
23.如权利要求11所述的系统,还包括被连接到所述对话管理器的输出的语言发生模块和文本到语音模块中的至少一个。
24.一种对话使能设备,包括:
用于对从声信号生成的输入模式进行接收的装置,所述输入模式包括对来自讲话者的对话贡献的描述;
用于使用对话移动脚本对所述描述和所述描述的至少一个参数进行识别的装置,其中,所述对话移动脚本对应于设备和应用中的至少一个;
用于使用所述对话移动脚本将所述描述映射到对话移动的装置,所述对话移动对应于所识别的参数并且独立于所述设备和应用;
用于使用所述描述中的名词短语对与所述描述对应的设备和应用中的至少一个进行识别的装置;
用于选择与所识别的设备和应用中的至少一个对应的名词短语求解脚本,并且通过所选择的名词短语求解脚本访问名词短语求解规则的装置;以及
用于使用所述名词短语求解规则对所述描述进行翻译,并且生成与所述设备和所述应用中的至少一个对应的查询的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/142,196 US8041570B2 (en) | 2005-05-31 | 2005-05-31 | Dialogue management using scripts |
US11/142,196 | 2005-05-31 | ||
PCT/US2006/017800 WO2006130314A1 (en) | 2005-05-31 | 2006-05-08 | Dialogue management using scripts |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101203906A CN101203906A (zh) | 2008-06-18 |
CN101203906B true CN101203906B (zh) | 2011-07-06 |
Family
ID=36923766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800191924A Active CN101203906B (zh) | 2005-05-31 | 2006-05-08 | 使用脚本进行对话管理的方法、设备和系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US8041570B2 (zh) |
EP (1) | EP1891625B1 (zh) |
CN (1) | CN101203906B (zh) |
DE (1) | DE602006020135D1 (zh) |
WO (1) | WO2006130314A1 (zh) |
Families Citing this family (345)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
US20060271520A1 (en) * | 2005-05-27 | 2006-11-30 | Ragan Gene Z | Content-based implicit search query |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9330668B2 (en) * | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
US8996385B2 (en) * | 2006-01-31 | 2015-03-31 | Honda Motor Co., Ltd. | Conversation system and conversation software |
JP4551961B2 (ja) * | 2006-03-31 | 2010-09-29 | パイオニア株式会社 | 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9396185B2 (en) * | 2006-10-31 | 2016-07-19 | Scenera Mobile Technologies, Llc | Method and apparatus for providing a contextual description of an object |
US20080221892A1 (en) * | 2007-03-06 | 2008-09-11 | Paco Xander Nathan | Systems and methods for an autonomous avatar driver |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8880405B2 (en) | 2007-03-07 | 2014-11-04 | Vlingo Corporation | Application text entry in a mobile environment using a speech processing facility |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8195660B2 (en) | 2007-06-29 | 2012-06-05 | Intel Corporation | Method and apparatus to reorder search results in view of identified information of interest |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US8639509B2 (en) * | 2007-07-27 | 2014-01-28 | Robert Bosch Gmbh | Method and system for computing or determining confidence scores for parse trees at all levels |
US8165877B2 (en) | 2007-08-03 | 2012-04-24 | Microsoft Corporation | Confidence measure generation for speech related searching |
US8135578B2 (en) * | 2007-08-24 | 2012-03-13 | Nuance Communications, Inc. | Creation and use of application-generic class-based statistical language models for automatic speech recognition |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8265789B2 (en) * | 2007-12-03 | 2012-09-11 | Electronics And Telecommunications Research Institute | Network-based robot system and method for action execution of robot |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US20090198496A1 (en) * | 2008-01-31 | 2009-08-06 | Matthias Denecke | Aspect oriented programmable dialogue manager and apparatus operated thereby |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9129601B2 (en) | 2008-11-26 | 2015-09-08 | At&T Intellectual Property I, L.P. | System and method for dialog modeling |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US8185482B2 (en) | 2009-03-30 | 2012-05-22 | Microsoft Corporation | Modeling semantic and structure of threaded discussions |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110145641A1 (en) * | 2009-12-11 | 2011-06-16 | Daniel D Evans | Method and system for VoiceXML quality assurance. |
KR101649911B1 (ko) | 2010-01-04 | 2016-08-22 | 삼성전자 주식회사 | 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법 |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8744860B2 (en) * | 2010-08-02 | 2014-06-03 | At&T Intellectual Property I, L.P. | Apparatus and method for providing messages in a social network |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US8886532B2 (en) | 2010-10-27 | 2014-11-11 | Microsoft Corporation | Leveraging interaction context to improve recognition confidence scores |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8769009B2 (en) | 2011-02-18 | 2014-07-01 | International Business Machines Corporation | Virtual communication techniques |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8843851B1 (en) * | 2011-07-28 | 2014-09-23 | Intuit Inc. | Proactive chat support |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9569439B2 (en) | 2011-10-31 | 2017-02-14 | Elwha Llc | Context-sensitive query enrichment |
US10475142B2 (en) | 2011-12-30 | 2019-11-12 | Elwha Llc | Evidence-based healthcare information management protocols |
US10528913B2 (en) | 2011-12-30 | 2020-01-07 | Elwha Llc | Evidence-based healthcare information management protocols |
US10552581B2 (en) | 2011-12-30 | 2020-02-04 | Elwha Llc | Evidence-based healthcare information management protocols |
US10340034B2 (en) | 2011-12-30 | 2019-07-02 | Elwha Llc | Evidence-based healthcare information management protocols |
US10679309B2 (en) | 2011-12-30 | 2020-06-09 | Elwha Llc | Evidence-based healthcare information management protocols |
US10559380B2 (en) | 2011-12-30 | 2020-02-11 | Elwha Llc | Evidence-based healthcare information management protocols |
US20130173296A1 (en) | 2011-12-30 | 2013-07-04 | Elwha LLC, a limited liability company of the State of Delaware | Evidence-based healthcare information management protocols |
US8825533B2 (en) | 2012-02-01 | 2014-09-02 | International Business Machines Corporation | Intelligent dialogue amongst competitive user applications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US20130317805A1 (en) * | 2012-05-24 | 2013-11-28 | Google Inc. | Systems and methods for detecting real names in different languages |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
EP2867800A4 (en) * | 2012-06-29 | 2016-01-27 | Nokia Technologies Oy | METHOD AND APPARATUS FOR PROVIDING TASK BASED SERVICE RECOMMENDATIONS |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR102072826B1 (ko) * | 2013-01-31 | 2020-02-03 | 삼성전자주식회사 | 음성 인식 장치 및 응답 정보 제공 방법 |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
JP6126870B2 (ja) * | 2013-03-01 | 2017-05-10 | 本田技研工業株式会社 | 音声対話システム及び音声対話方法 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014168730A2 (en) | 2013-03-15 | 2014-10-16 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9110889B2 (en) | 2013-04-23 | 2015-08-18 | Facebook, Inc. | Methods and systems for generation of flexible sentences in a social networking system |
US9606987B2 (en) | 2013-05-06 | 2017-03-28 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9280970B1 (en) * | 2013-06-25 | 2016-03-08 | Google Inc. | Lattice semantic parsing |
US9305554B2 (en) | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US10089976B2 (en) * | 2013-10-14 | 2018-10-02 | Honeywell International Inc. | Building automation systems with voice control |
US9613619B2 (en) * | 2013-10-30 | 2017-04-04 | Genesys Telecommunications Laboratories, Inc. | Predicting recognition quality of a phrase in automatic speech recognition systems |
US20150149176A1 (en) * | 2013-11-27 | 2015-05-28 | At&T Intellectual Property I, L.P. | System and method for training a classifier for natural language understanding |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150179170A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Discriminative Policy Training for Dialog Systems |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
US9653071B2 (en) * | 2014-02-08 | 2017-05-16 | Honda Motor Co., Ltd. | Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10839432B1 (en) | 2014-03-07 | 2020-11-17 | Genesys Telecommunications Laboratories, Inc. | Systems and methods for automating customer interactions with enterprises |
DK2933796T3 (en) * | 2014-04-17 | 2019-01-21 | Softbank Robotics Europe | EXECUTION OF SOFTWARE APPLICATIONS ON A ROBOT |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US10310808B2 (en) * | 2014-09-08 | 2019-06-04 | Google Llc | Systems and methods for simultaneously receiving voice instructions on onboard and offboard devices |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
CN104464733B (zh) * | 2014-10-28 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 一种语音对话的多场景管理方法及装置 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9836452B2 (en) * | 2014-12-30 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discriminating ambiguous expressions to enhance user experience |
US10572810B2 (en) | 2015-01-07 | 2020-02-25 | Microsoft Technology Licensing, Llc | Managing user interaction for input understanding determinations |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US9807045B2 (en) | 2015-06-10 | 2017-10-31 | Google Inc. | Contextually driven messaging system |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10249297B2 (en) * | 2015-07-13 | 2019-04-02 | Microsoft Technology Licensing, Llc | Propagating conversational alternatives using delayed hypothesis binding |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10276160B2 (en) * | 2015-11-12 | 2019-04-30 | Semantic Machines, Inc. | Automated assistant for user interaction via speech |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US20170177716A1 (en) * | 2015-12-22 | 2017-06-22 | Intel Corporation | Technologies for semantic interpretation of user input by a dialogue manager |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9779735B2 (en) | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US10229687B2 (en) * | 2016-03-10 | 2019-03-12 | Microsoft Technology Licensing, Llc | Scalable endpoint-dependent natural language understanding |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105845137B (zh) * | 2016-03-18 | 2019-08-23 | 中国科学院声学研究所 | 一种语音对话管理系统 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
WO2018018626A1 (en) | 2016-07-29 | 2018-02-01 | Microsoft Technology Licensing, Llc. | Conversation oriented machine-user interaction |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10446137B2 (en) | 2016-09-07 | 2019-10-15 | Microsoft Technology Licensing, Llc | Ambiguity resolving conversational understanding system |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN106557461B (zh) * | 2016-10-31 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析处理方法和装置 |
EP3430617B1 (en) | 2016-11-07 | 2019-10-23 | Google LLC | Recorded media hotword trigger suppression |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10026092B2 (en) * | 2016-12-09 | 2018-07-17 | Nuance Communications, Inc. | Learning and automating agent actions |
US10559309B2 (en) | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
GB2559618B (en) * | 2017-02-13 | 2020-07-08 | Toshiba Kk | A dialogue system, a dialogue method and a method of adapting a dialogue system |
US10497364B2 (en) | 2017-04-20 | 2019-12-03 | Google Llc | Multi-user authentication on a device |
EP3617872A4 (en) * | 2017-04-27 | 2020-04-29 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107441709B (zh) * | 2017-06-02 | 2020-11-24 | 华南理工大学 | 基于模糊行为树的游戏智能体动作序列生成方法 |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US11797877B2 (en) * | 2017-08-24 | 2023-10-24 | Accenture Global Solutions Limited | Automated self-healing of a computing process |
KR20190033384A (ko) * | 2017-09-21 | 2019-03-29 | 삼성전자주식회사 | 사용자 발화를 처리하기 위한 전자 장치 및 그 전자 장치의 제어 방법 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
EP3519936B1 (en) * | 2017-12-08 | 2020-04-08 | Google LLC | Isolating a device, from multiple devices in an environment, for being responsive to spoken assistant invocation(s) |
JP2019106054A (ja) * | 2017-12-13 | 2019-06-27 | 株式会社東芝 | 対話システム |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
TWI658404B (zh) * | 2018-02-09 | 2019-05-01 | 宏碁股份有限公司 | 語音辨識系統及其方法 |
JP6973157B2 (ja) * | 2018-02-16 | 2021-11-24 | 日本電信電話株式会社 | 議論構造拡張装置、議論構造拡張方法、及びプログラム |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
CN110459211B (zh) | 2018-05-07 | 2023-06-23 | 阿里巴巴集团控股有限公司 | 人机对话方法、客户端、电子设备及存储介质 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11087748B2 (en) * | 2018-05-11 | 2021-08-10 | Google Llc | Adaptive interface in a voice-activated network |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
AU2019289150A1 (en) * | 2018-06-17 | 2021-01-07 | Genesys Cloud Services Holdings II, LLC | Systems and methods for automating customer interactions with enterprises |
US10482182B1 (en) * | 2018-09-18 | 2019-11-19 | CloudMinds Technology, Inc. | Natural language understanding system and dialogue systems |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
GB2577879B (en) | 2018-10-08 | 2022-08-24 | B & W Group Ltd | Content playback system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR102623727B1 (ko) | 2018-10-29 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN109446376B (zh) * | 2018-10-31 | 2021-06-25 | 广东小天才科技有限公司 | 一种通过分词对语音进行分类的方法及系统 |
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
KR20200085143A (ko) * | 2019-01-04 | 2020-07-14 | 삼성전자주식회사 | 외부 장치를 등록하는 대화형 제어 시스템 및 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109817201B (zh) * | 2019-03-29 | 2021-03-26 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
US10991365B2 (en) * | 2019-04-08 | 2021-04-27 | Microsoft Technology Licensing, Llc | Automated speech recognition confidence classifier |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
JPWO2020240958A1 (zh) * | 2019-05-30 | 2020-12-03 | ||
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11790895B2 (en) * | 2019-06-26 | 2023-10-17 | Samsung Electronics Co., Ltd. | System and method for natural language understanding |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
US11074234B1 (en) * | 2019-09-24 | 2021-07-27 | Workday, Inc. | Data space scalability for algorithm traversal |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
TWI728507B (zh) * | 2019-10-15 | 2021-05-21 | 財團法人資訊工業策進會 | 產生一對話狀態追蹤模型之裝置及方法 |
WO2021216953A1 (en) * | 2020-04-23 | 2021-10-28 | Vigeo Technologies, Inc. | Systems, devices and methods for the dynamic generation of dialog-based interactive content |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11824819B2 (en) | 2022-01-26 | 2023-11-21 | International Business Machines Corporation | Assertiveness module for developing mental model |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0911808A1 (en) * | 1997-10-23 | 1999-04-28 | Sony International (Europe) GmbH | Speech interface in a home network environment |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
CN1389852A (zh) * | 2001-06-06 | 2003-01-08 | 松下电器产业株式会社 | 使用语音识别和自然语言对家居活动的自动控制 |
CN1455357A (zh) * | 2003-05-23 | 2003-11-12 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6275788B1 (en) * | 1996-09-26 | 2001-08-14 | Mitsubishi Denki Kabushiki Kaisha | Interactive processing apparatus having natural language interfacing capability, utilizing goal frames, and judging action feasibility |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JP3353651B2 (ja) * | 1997-06-23 | 2002-12-03 | 松下電器産業株式会社 | エージェントインタフェース装置 |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
US7565397B2 (en) * | 1998-06-15 | 2009-07-21 | Sybase, Inc. | Context reactive hints mechanism for natural language user interface |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
EP1119845A1 (en) * | 1998-10-05 | 2001-08-01 | Lernout & Hauspie Speech Products N.V. | Speech controlled computer user interface |
US6246981B1 (en) * | 1998-11-25 | 2001-06-12 | International Business Machines Corporation | Natural language task-oriented dialog manager and method |
US7082397B2 (en) * | 1998-12-01 | 2006-07-25 | Nuance Communications, Inc. | System for and method of creating and browsing a voice web |
US6631346B1 (en) * | 1999-04-07 | 2003-10-07 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for natural language parsing using multiple passes and tags |
US6377913B1 (en) * | 1999-08-13 | 2002-04-23 | International Business Machines Corporation | Method and system for multi-client access to a dialog system |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7177798B2 (en) * | 2000-04-07 | 2007-02-13 | Rensselaer Polytechnic Institute | Natural language interface using constrained intermediate dictionary of results |
US6654720B1 (en) * | 2000-05-09 | 2003-11-25 | International Business Machines Corporation | Method and system for voice control enabling device in a service discovery network |
JP2002032349A (ja) * | 2000-07-14 | 2002-01-31 | Nec Corp | ヒューマンマシンインタフェースシステム及びそのプログラムを記録したコンピュータ読取り可能な記録媒体 |
GB2365145A (en) * | 2000-07-26 | 2002-02-13 | Canon Kk | Voice control of a machine |
US7487440B2 (en) * | 2000-12-04 | 2009-02-03 | International Business Machines Corporation | Reusable voiceXML dialog components, subdialogs and beans |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
US7249018B2 (en) | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US6751591B1 (en) * | 2001-01-22 | 2004-06-15 | At&T Corp. | Method and system for predicting understanding errors in a task classification system |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US6973625B1 (en) * | 2001-07-06 | 2005-12-06 | Convergys Cmg Utah | Method for creating browser-based user interface applications using a framework |
DE10147549A1 (de) * | 2001-09-26 | 2003-04-10 | Philips Corp Intellectual Pty | Vermittlungsverfahren zwischen Dialogsystemen |
ITTO20011035A1 (it) * | 2001-10-30 | 2003-04-30 | Loquendo Spa | Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale. |
US6941558B2 (en) * | 2001-10-31 | 2005-09-06 | Agilent Technologies, Inc. | System and method for automatically generating an object-oriented class wrapper |
GB2383459B (en) * | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
US7353176B1 (en) * | 2001-12-20 | 2008-04-01 | Ianywhere Solutions, Inc. | Actuation system for an agent oriented architecture |
US7302394B1 (en) * | 2001-12-20 | 2007-11-27 | Ianywhere Solutions, Inc. | Front-end device independence for natural interaction platform |
US7231343B1 (en) * | 2001-12-20 | 2007-06-12 | Ianywhere Solutions, Inc. | Synonyms mechanism for natural language systems |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
US7260530B2 (en) * | 2002-02-15 | 2007-08-21 | Bevocal, Inc. | Enhanced go-back feature system and method for use in a voice portal |
US7403890B2 (en) * | 2002-05-13 | 2008-07-22 | Roushar Joseph C | Multi-dimensional method and apparatus for automated language interpretation |
US7502730B2 (en) * | 2002-06-14 | 2009-03-10 | Microsoft Corporation | Method and apparatus for federated understanding |
US7184960B2 (en) * | 2002-06-28 | 2007-02-27 | Intel Corporation | Speech recognition command via an intermediate mobile device |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US20040186704A1 (en) * | 2002-12-11 | 2004-09-23 | Jiping Sun | Fuzzy based natural speech concept system |
WO2005008358A2 (en) * | 2003-07-22 | 2005-01-27 | Kinor Technologies Inc. | Information access using ontologies |
JP4345406B2 (ja) * | 2003-08-26 | 2009-10-14 | 富士ゼロックス株式会社 | 対話支援システムおよび装置 |
US20050131677A1 (en) * | 2003-12-12 | 2005-06-16 | Assadollahi Ramin O. | Dialog driven personal information manager |
US7552055B2 (en) * | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US7412393B1 (en) * | 2004-03-01 | 2008-08-12 | At&T Corp. | Method for developing a dialog manager using modular spoken-dialog components |
EP1585042A1 (en) * | 2004-04-06 | 2005-10-12 | Sony Deutschland GmbH | Method for serving complex user requests |
US20090018829A1 (en) * | 2004-06-08 | 2009-01-15 | Metaphor Solutions, Inc. | Speech Recognition Dialog Management |
US20060004570A1 (en) * | 2004-06-30 | 2006-01-05 | Microsoft Corporation | Transcribing speech data with dialog context and/or recognition alternative information |
US7716056B2 (en) * | 2004-09-27 | 2010-05-11 | Robert Bosch Corporation | Method and system for interactive conversational dialogue for cognitively overloaded device users |
US20060149544A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | Error prediction in spoken dialog systems |
-
2005
- 2005-05-31 US US11/142,196 patent/US8041570B2/en active Active
- 2005-12-08 US US11/298,765 patent/US7904297B2/en active Active
-
2006
- 2006-05-08 WO PCT/US2006/017800 patent/WO2006130314A1/en active Application Filing
- 2006-05-08 CN CN2006800191924A patent/CN101203906B/zh active Active
- 2006-05-08 EP EP06759358A patent/EP1891625B1/en not_active Expired - Fee Related
- 2006-05-08 DE DE602006020135T patent/DE602006020135D1/de active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0911808A1 (en) * | 1997-10-23 | 1999-04-28 | Sony International (Europe) GmbH | Speech interface in a home network environment |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
CN1389852A (zh) * | 2001-06-06 | 2003-01-08 | 松下电器产业株式会社 | 使用语音识别和自然语言对家居活动的自动控制 |
CN1455357A (zh) * | 2003-05-23 | 2003-11-12 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
Non-Patent Citations (3)
Title |
---|
Danilo Mirkovic et al..Practical Plug-and-Play Dialogue Management.《PROCEEDINGS OF PACLING"05:6th MEETING OF THE PACIFIC ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》.2005,1-8. * |
Fuliang Weng et al..A Conversational Dialogue System for Cognitively Overloaded Users.《PROCEEDINGS OF INTERSPEECH 2004: 8th INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING(ICSLP)》.2004,233-236. * |
Manny Rayner et al..Plug and Play Speech Understanding.《ANNUAL MEETING OF THE ACL,PROCEEDINGS OF THE SECOND SIGDIAL WORKSHOP ON DISCOURSE AND DIALOGUE》.2001,第16卷1-10. * |
Also Published As
Publication number | Publication date |
---|---|
EP1891625A1 (en) | 2008-02-27 |
EP1891625B1 (en) | 2011-02-16 |
US20060271351A1 (en) | 2006-11-30 |
US20060271364A1 (en) | 2006-11-30 |
CN101203906A (zh) | 2008-06-18 |
WO2006130314A1 (en) | 2006-12-07 |
US8041570B2 (en) | 2011-10-18 |
US7904297B2 (en) | 2011-03-08 |
DE602006020135D1 (de) | 2011-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101203906B (zh) | 使用脚本进行对话管理的方法、设备和系统 | |
US20190130912A1 (en) | Generic virtual personal assistant platform | |
US7716056B2 (en) | Method and system for interactive conversational dialogue for cognitively overloaded device users | |
US20230084583A1 (en) | Response method in human-computer dialogue, dialogue system, and storage medium | |
JP4901155B2 (ja) | 音声認識装置が使用するのに適した文法を生成するための方法、媒体、およびシステム | |
US8165887B2 (en) | Data-driven voice user interface | |
US8321226B2 (en) | Generating speech-enabled user interfaces | |
US10579835B1 (en) | Semantic pre-processing of natural language input in a virtual personal assistant | |
US20070078815A1 (en) | Method and apparatus for organizing and optimizing content in dialog systems | |
WO2002049253A2 (en) | Method and interface for intelligent user-machine interaction | |
KR102335090B1 (ko) | 보안 처리 환경에서의 데이터 전송 | |
JP2001034451A (ja) | ヒューマン−マシンダイアログ自動生成方法、システム及びその装置 | |
CN101185116A (zh) | 在软件程序中使用强数据类型表示语音识别语法 | |
US20200210505A1 (en) | Electronic apparatus and controlling method thereof | |
CN108073587A (zh) | 一种自动问答方法、装置及电子设备 | |
US8406384B1 (en) | Universally tagged frequent call-routing user queries as a knowledge base for reuse across applications | |
US20220075960A1 (en) | Interactive Communication System with Natural Language Adaptive Components | |
CN110109675A (zh) | 智能合约处理方法、装置以及计算机可读存储介质 | |
US20040073540A1 (en) | Method and architecture for consolidated database search for input recognition systems | |
CN114596840A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
WO2022249221A1 (ja) | 対話装置、対話方法、およびプログラム | |
Griol et al. | Integration of context-aware conversational interfaces to develop practical applications for mobile devices | |
Hasibi | Adaptable Controlled Natural Languages for Online Query Systems | |
CN117216212A (zh) | 对话处理方法、对话模型训练方法、装置、设备及介质 | |
WO2023004226A1 (en) | Virtual conversational agent |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |