CN1422494A - 在电视会议和其他应用中预测事件的方法和装置 - Google Patents
在电视会议和其他应用中预测事件的方法和装置 Download PDFInfo
- Publication number
- CN1422494A CN1422494A CN01807753A CN01807753A CN1422494A CN 1422494 A CN1422494 A CN 1422494A CN 01807753 A CN01807753 A CN 01807753A CN 01807753 A CN01807753 A CN 01807753A CN 1422494 A CN1422494 A CN 1422494A
- Authority
- CN
- China
- Prior art keywords
- clue
- information
- video
- spokesman
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Abstract
本发明公开了利用声音和视觉线索预测事件的方法和装置。本发明处理音频和视频信息来识别一个或多个(1)声音线索、例如语调类型,音调与音量;(2)视觉线索、例如注视目光、面部姿势、身体姿势、手势以及面部表情;或(3)上述线索的组合;这些线索通常与一个事件相关联,例如电视会议的与会者在发言前表现的行为。这样本发明就能使视频处理系统预测事件,例如识别下一个发言人。预测发言人识别器以一种学习模式工作,根据在有或没有一个或多个预定义的声音或视觉线索的情况下与会者“会发言”或“不会发言”的概念来学习每个与会者的特征信息。预测发言人识别器以预测模式工作,将特征信息中嵌入的学习特征与音频和视频信息加以比较,从而预测下一个发言人。
Description
发明领域
本发明一般涉及视频信号处理领域,更具体地说,涉及预测事件的技术,例如在视听表演中(例如电视会议)预测下一个发言人。
发明背景
电视会议的应用日渐增加,它使远距的用户不仅在声音上,而且在视觉上相互交流。这样,即使远距的用户不能身在同处,但电视会议系统使用户好象在同一房间内进行交流,让他们通过可见的姿势和面部表情来更好地表达自己的意思。通过最终输出的视频信号跟踪某一与会者,是电视会议系统的一个重要方面。
电视会议系统常利用摇俯变焦(pan-tilt-zoom)(PTZ)摄像机来跟踪当前的发言人。通过PTZ摄像机,系统定位并进行光学变焦以完成跟踪任务。最初,电视会议系统中PTZ摄像机的控制系统要求操作者对摄像机作手动调节,才能始终聚焦在当前发言人的身上。但电视会议系统的用户对非手工操作的要求日益强烈,这使得PTZ摄像机的控制必须是全自动的。
人们已提出多种根据音频和视频信息来自动检测人物的方法。音频定位器通常用来处理从话筒阵列中获得的音频信息,以确定发言人的位置。具体地说,当知道各相对的话筒位置时,就可以用众所周知的三角技术来估计距单一源的声波传播时间差,从而测定声源的位置。同理,视频定位器通常定位视频图像中一个或多个关心的对象,例如在电视会议中发言人的头和肩膀。有许多已知的技术可用来检测图像中一个人的位置,例如,在“面部识别:从理论到应用”(NATO ASI Series,Springer Verlag,New York,H。Wechsleret al。,editors,1998)中所描述的技术,该文已作为参考包括在本文中。
虽然在电视会议系统中跟踪发言人的传统技术对于许多应用还能令人满意,但它们也受许多限制,如果能加以克服,则可大大扩展这种电视会议系统的利用和性能。具体地说,传统的电视会议系统本质上是反应式的。因此,只有当事件已经发生,注意力才集中在该事件上。例如,一旦另外一个人发言,摄像机在聚焦到他(她)身上之前总会有一点延迟。这样远距的用户就感受不到他们似乎是在同一间屋子里进行很自然的面对面的互动。
在面对面的互动中,人们观察到,当一个人马上就要发言或要接替另一个发言人时,总会出现一些信号。例如可参阅S.Duncan和Niederehe的“该你发言时的信号”,实验社会心理学杂志,Vol.23(2),pp234-247(1972);以及S.Duncan和D.W.Fiske,“面对面的互动”,Lawrence Erlbaum Publishers,Hillsdale,New Jersey,(1977)。例如,当一个人要接替另一人发言时,可以观察到微妙的线索,例如下一个发言人会身体前倾,目光注视当前的发言人或用手臂作手势。
因此在试图建立人机间自然的语言交流时,研究人员已经意识到了一个人在将不同类型的感官信息(线索)与上下文信息和以前获得的知识结合起来的能力方面的复杂程度。需要一种改进的预测事件的技术来将这种线索应用于电视会议系统中。还需要一种方法和装置来分析某些线索,例如面部表情,注视目光和身体姿势,以预测下一个发言人或其他事件。也需要一个发言人探测系统,它能将多种线索结合起来预测谁会是下一个发言者。还需要一种利用每个与会者的特征信息识别与会者发言之前会表现出那些线索来探测发言人的方法和装置。
发明概述
总地来说,本文公开了视频系统中预测事件的方法和装置。具体地说,本发明处理音频和视频信息(或二者)来识别某一事件发生前,一个人常表现出来的一个或多个线索,包括:(1)声音线索,例如语调类型,音调与音量;(2)视觉线索,例如注视目光,面部姿势,身体姿势,手势,以及面部表情;以及(3)上述线索的组合。例如,在电视会议快要换发言人时,某与会者在他(她)发言之前或当现在的发言人就要结束发言时,就会显露出某些声音或视觉的线索。用这种方式,本发明就可使视频处理系统预测事件,例如识别下一个发言人。
自适应位置定位器用一种已知的方式处理音频和视频信息来确定某人的位置。另外,本发明提供一种预测发言人识别器,它识别一个或多个音频和视频线索从而确定下一个发言人。该预测发言人识别器接收和处理音频和视频信号,以及面部的识别分析结果,来识别一个或多个声音和视觉线索从而确定下一个发言人。预测发言人识别器产生的发言人预测结果被用来使摄像机聚焦,并获得预测发言人的图像。
预测发言人识别器以一种学习模式工作,根据在有或没有一个或多个预定义的声音和视觉线索的情况下与会者“会发言”或“不会发言”的概念来学习每个与会者的特征信息。然后预测发言人识别器以预测模式将特征信息中嵌入的学习特征与音频和视频信息加以比较,从而预测下一个发言人。
参考以下详细说明和附图,就可获得对本发明,以及对本发明的特性和优点,更完全的理解。
附图简要说明
图1是根据本发明一个说明性实施例的视频处理系统的方框图;
图2是图解说明在图1的系统中实现的自适应跟踪视频处理操作的功能框图;
图3是图解说明图1的自适应位置定位器的功能框图;
图4是从过程角度说明图3的预测发言人识别器的流程图;
图5是说明图4的示范的特征简介的表格。
发明的详细说明
图1示出按本发明的视频处理系统10。本发明处理音频和视频信息来识别某一事件发生前,一个人常表现出来的一个或多个线索,包括:(1)声音线索,例如语调类型,音调与音量;(2)视觉线索,例如注视目光,面部姿势,身体姿势,手势,以及面部表情;或(3)上述线索的组合。例如,电视会议与会者开始或结束发言之前。虽然本发明是以电视会议系统探测发言人的变化这一内容来说明,但本发明可适用于检测与人们表现出的声音和视觉线索具有关联的任何事件,这对于本专业的技术人员而言,根据此文的内容,是显而易见的。
如图1所示,系统10包括处理器12,存储器14,输入/输出(I/O)装置15,以及自适应位置定位器300,以下结合图3进一步讨论,所有这些都通过总线17相互连接进行通信。系统10还包括摇俯变焦摄像机18,它连接到自适应位置定位器300,如图所示。系统10中还可另外包括一个或多个广角摄像机(图1中未示出),以下结合图3进一步讨论,以捕捉每个与会者22-1到22-N的视觉线索。例如,可以设置一个摄像机来获得与会者22-N的透视图,以检测他的前倾。
在所示实施例中,在桌子20边坐了与会者22-1到22-N的电视会议应用中采用了PTZ摄像机18。工作时,PTZ摄像机18,按照自适应位置定位器300根据从处理器12接收的指令的指引,跟踪一个关心的对象,在此例中即与会者22-k。另外,如图1所示,视频处理系统10包括话筒阵列16,以已知方式捕捉音频信息。
虽然本发明是以电视会议应用这一内容来说明的,但是,显然,视频处理系统10可以用在需要预测下一个发言人的其他应用中。而且,本发明也可应用在其他类型的电视会议应用中,比如,涉及会议式座位安排的应用,以及圆桌或长方桌安排等。一般来说,系统10的部分24可用在任何应用中,这些应用可以从本文的自适应位置定位器300提供的改进的跟踪功能获益。因此利用系统10的部分24,系统10的部分26就可以用,比如,其他的电视会议安排,或其他任何需跟踪一个或多个发言人的安排来代替。显然,也可不用PTZ摄像机而用其他图像捕捉装置来使用本发明。此处的术语“摄像机”应包括能与本文的自适应位置定位器300结合使用的任何类型的图像捕捉装置。
应当指出,系统10的元件或元件组也可以代表常规台式或便携式电脑的对应元件,以及这些和其他处理装置的部分或组合。而且,在本发明的其他实施例中,处理器12或PTZ摄像机18的部分或全部功能和附加的广角摄像机(图1中未示出)或系统10的其他元件都可以组合成一个单一装置。例如,PTZ摄像机18和附加的广角摄像机的功能可以结合成单一广角摄像机,利用广角图像的图像处理技术获得需要的近距图像。
另外,系统10的一个或多个元件可以用装入电脑,电视,机顶盒或其他处理装置中的专用集成电路(ASIC)或电路卡来实现。此处的术语“处理器”应包括微处理器,中央处理单元,微控制器,或其他可以用在既定数据处理装置中的任何其他数据处理元件。此外,应当指出,存储器14可代表任何电子存储器,光盘或磁盘存储器,磁带存储器,以及这些和其他类型存储装置的部分或组合。
自适应位置跟踪术语
图2是说明图1的自适应位置定位器300实现的跟踪和变焦特性的功能框图。如图2所示,跟踪和变焦特性包括检测和跟踪操作32和光学变焦操作34。参阅图像40,42,44来说明这些操作,这些图像是在系统10的部分26中为示范的电视会议应用所产生的图像。操作32和34可以在系统10中,利用存储在存储器14或通过I/O装置15从本地或远程的存储装置接入的一种或多种软件程序,由处理器12和自适应位置定位器300完成。
工作时,PTZ摄像机18产生图像40,它包括关心的对象,例如电视会议与会者22-k,以及另一对象,例如在关心的对象邻近的与会者22-k+1。图像40作为视频输入提供给检测和跟踪操作32,它利用已知的常规检测和跟踪技术检测和跟踪关心的对象。
例如,在电视会议应用中,该关心的对象22-k可能对应于当前的发言人。此时,检测和跟踪操作32利用音频定位来检测和跟踪该关心的对象22-k以确定哪一个与会者是当前发言人,以下要结合图3加以讨论。在另一变型中,也可利用动作检测,手势,摇头,以特殊方式动作或以特殊方式发言等来识别当前发言人。检测和跟踪操作32的输出包括识别具体关心的对象22-k的信息,以在图像42中标以阴影的形式表示。
图2的光学变焦操作34提供足够的变焦量以确保既可获得需要的输出图像质量,同时又允许关心的对象有一定的移动量。光学变焦操作34包括通过全景和倾斜操作调节关心的对象22-k的画面位置的画面位置调节部分和持续利用变焦操作直到满足指定的停止准则的变焦部分。通常,有多种不同类型的停止准则可以采用。在用固定的停止准则方法时,光学变焦继续进行直到关心的对象占据了图像的一定的百分比。例如,在电视会议应用中,光学变焦会继续进行,直到当前发言人的头部占据了图像垂直大小的大约25%到35%之间为止。当然,所用的具体百分比会根据跟踪应用的不同而变化。各具体应用的特定百分比可由本专业的技术人员直接确定。
如图2所示,光学变焦操作34的输出是一个光学变焦的图像44,其中关心的对象22-k近似在图像的中心,占据了按上述准则确定的所需的图像百分比。图像44可以由系统10存储,例如存储在存储器14中,或呈现给用户。
自适应位置定位器
图3是图1的系统10中采用的自适应位置定位器300的功能框图。通常,自适应位置定位器300处理音频和视频信息来确定发言人的位置。关于自适应位置定位器300的更详细的讨论,请参阅2000年5月3日登记的美国专利申请,其申请号为09/564016、题目为“在电视会议和其他应用中自适应位置确定的方法和装置”(AttorneyDocket No.700983),该申请已转让给本发明的受让人并作为参考包括在本文中。
此外,根据本发明,自适应位置定位器300包括预测发言人识别器400(以下会结合图4进一步讨论),用以识别一个或多个声音和视觉线索并据此预测下一个发言人。最初,在系统启动时,广角摄像机305和话筒阵列16都工作。广角摄像机305和话筒阵列16产生的信号可以选择在阶段315打上时间戳,以使自适应位置定位器300能判断何时产生的信号。如图3所示,广角摄像机305产生的时间戳信号被传送到面部识别模块320。面部识别模块320包括一个面部检测器,它可确定某一既定的关心部分(窗口)是否可以标记为面部区域。面部识别模块320对一既定的面部分配一个唯一的标识符。
广角摄像机305产生的图像、以及面部识别的结果和它们的位置都存储在画面缓冲器325中。但是,如果面部识别模块320不能对一既定的面部分配一个唯一的标识符,例如,由于发言人和广角摄像机305间的距离问题,那么只有面部检测信息和检测的面部在图像中的相应位置存储在画面缓冲器325中。一些附加的信息,例如与会者的服装颜色,也可存储在画面缓冲器325中。服装颜色特别有用,例如,如果面部识别模块320不能对一既定的面部分配一个唯一的标识符,但当第一与会者离开会议室而另一与会者坐在同一位置时,面部检测仍可继续进行。
面部识别模块320可以利用,例如,美国专利申请,申请号09/449250,1999年11月24日登记、题目为“在电视会议和其他应用中检测移动对象的方法和装置”,以及美国专利申请,申请号09/548734,2000年4月13日登记、题目为“在电视会议和其他应用中利用组合的视频和音频信息跟踪移动对象的方法和装置”(Attorney Docket No.700966)所说明的视频定位系统来实现。此二专利已转让给本发明的受让人,并作为参考包括在本文中。如上述结合图2进行的讨论,视频系统也尽量聚焦(变焦)到面部,使得面部处于正确的显示纵横比的条件下。
同理,如图3所示,话筒阵列16产生的时间戳信号传送到发言人识别模块330和音频定位器360。话筒阵列16产生的音频信号和发言人识别的结果都存储在画面缓冲器325中。此外,音频定位器360获得传送到空间变换模块370的识别与噪声源关联的全景(水平)和倾斜(垂直)角度的方向信息。音频定位器310可以利用例如在美国专利申请、申请号09/548734、2000年4月13日登记、题目为“在电视会议和其他应用中利用组合的视频和音频信息跟踪移动对象的方法和装置”(Attorney Docket No.700966)以及美国专利申请、申请号09/436193、1999年11月8日登记、题目为“改进的信号定位装置”中所说明的音频定位系统来实现,此二专利已转让给本发明的受让人,并作为参考包括在本文中。
在预定的时间间隔内(例如两秒)积累视频和音频信号,以便收集对应于有意义的事件的数据。在此预定时间间隔中产生的视频画面由动作检测器350作相互比较以检测动作。例如,如果一个与会者的手在移动,动作检测器350靠比较连续的视频画面检测到此动作,然后手移动的识别位置被传送到空间变换模块370。
动作检测器模块350可任选地利用动作试探法340来仅仅识别具有显著的移动量的画面部分。这样,动作检测器模块350仅把这种滤波后的信息传送给空间变换模块370。例如,为了检测头的转动,相应的动作试探法能指示需要转动多少才能触发响应。通常,动作试探法340尽量使摄像机18聚焦在当前发言人上,而不管其他的噪声或发言人的动作。换句话说,动作试探法340试图识别并抑制动作检测器350产生的虚假事件。至于动作试探法340中采用的各种策略的详细讨论,请参阅,例如,Ramesh Jain等人的“机器视力”,Mcgraw-Hill,New York(1995),作为参考包括在本文中。
于是,空间变换器370接收来自动作检测器模块350的位置信息和来自音频定位器360的方向信息。然后空间变换器370以已知方式映像位置信息和方向信息,以计算用来使PTZ摄像机18聚焦的边框。
处理声音和视觉线索
如图3所示,PTZ摄像机18产生的视频图像,以及画面缓冲器325和发言人识别模块330中的内容都加到预测发言人识别器400上,以下要结合图4进一步讨论。还有,画面缓冲器325的内容包括广角摄像机305产生的广角图像和相应的面部识别结果,以及话筒阵列16产生的音频信息和相应的发言人识别结果。这样,预测发言人识别器400就可从广角图像和音频信息中识别每个未发言与会者22-N的声音和视觉线索。
通常,自适应位置定位器300按上述方式处理音频和视频信息来确定发言人的位置。如图3所示,自适应位置定位器300与预测发言人识别器400相互配合,按本发明预测下一个发言人的身份,以下要结合图4进行讨论。如图3所示,预测发言人识别器400接收来自画面缓冲器325、PTZ摄像机18和发言人识别模块330的音频和视频信息。预测发言人识别器400处理接收的音频和视频信息以识别一个或多个声音和视觉线索并据此预测下一个发言人。如图3所示,预测发言人识别器400产生的发言人预测用来聚焦PTZ摄像机18。
图4是图1系统10采用的预测发言人识别器400的功能框图。如图4所示预测发言人识别器400包括视频线索识别器410和音频线索识别器420。当既定与会者出现在图像中时,其视频信号由视频线索识别器410处理,以识别一个与会者在发言之前通常表现出的一个或多个预定视觉线索,例如面部姿势(头的方向),注视目光(眼睛方向),面部表情,手和身体的姿势等。同理,音频信号由音频线索识别器420处理,以识别一个与会者在发言之前通常表现出的一个或多个预定音频线索,例如语调类型,音调与音量,发言速度,发言人识别和话音识别。可以用来识别下一个发言人身份的具体的声音和视觉线索处理过程在以下题目为“声音和视觉线索”一节中讨论。
学习模式
预测发言人识别器400采用一个学习模块450,以学习模式、根据在有或没有一个或多个预定义的声音和视觉线索的情况下与会者“会发言”或“不会发言”的概念来学习每个与会者的特征信息500。
如以下结合图5进行的讨论,每个与会者的声音和视觉线索可以存储在特征信息500中作为属性值的记录。此外,例如从发言人识别,面部识别或其他信息中可获得的与会者的身份也用属性值记录在特征信息500中。
记录中的每个属性可以有许多分立的或象征的值。例如,对于姿势模块,既定的与会者可能会用一些特定的姿势,例如举手要求允许发言,表示想要下一个发言。这些特定的姿势,以及其他线索模块的属性值是靠分析多个电视会议会话以确定与会者在发言前表现的手势、姿势的类型以及其它声音和视觉线索来确定的。
为了对与会者在可能“会发言”或“不会发言”之前通常表现出(和/或不表现)的预定声音和视觉线索进行描绘,学习模块450可以采用判定树(DT),例如在J.R.Quinlan的“学习有效分类过程及其在棋类终结游戏中的应用”,编者:R.S.Michalski等人,在“机器学习”(Machine Learning)中的:人为途径,Vol.1,Morgan KaufmanPublishers Inc.,Palo Alto,California(1983);或J.R.Quinlan“概率判定树”,编者:Y.Kodratoff和R.S.Michalski等人,在“机器学习”(Machine Learning)中的:人为途径,Vol.3,Morgan KaufmanPublishers Inc.,Palo Alto,California(1990)中所说明的判定树,均作为参考包括在本文中。在另一种途径中,可以采用Hidden Markov模型(HMMs)对与会者在可能“会发言”或“不会发言”之前通常表现出(和/或不表现)的预定声音和视觉线索进行描绘。
通常,判定树按一个训练组构建,具有节点和树叶,节点对应于需进行的某项测试,树叶对应于类别(即:“会发言”或“不会发言”)。判定树可具有的节点数取决于数据的复杂性。在最差的情况时,节点数最多可等于可能的属性值的数。举例来说,从树根到树叶的一条子通路在分解成规则时可以具有以下形式:
如果姿势=举手,和
身体姿势=前倾,和
头部姿势=...和
面部表情=...和
注视目光=朝发言人看和
==>“会发言”
此例也在图5的特征信息500中出现。注意在上述布尔表达式中字符“?”表示“不介意”条件或通配符。
预测模式
同理,预测发言人识别器400采用新发言人预测器470、以预测模式应用在特征信息500中的学习到的特征来预测下一个发言人。
当学习进行了一段足够的时间并建立了判定树后,在预测模式下对该判定树进行语法分析,以确定哪些模块的哪些特征足以确定谁是下一个发言人。这样,在预测模式下,新发言人预测器470所用的判定树引导PTZ摄像机18并确定利用哪些模块来获得谁是下一个发言人的结论。
应当指出,在会话中预测谁是下一个发言人可以看作是一个数据开发/知识发现的问题。在此域中,目的是看能否从数据中找到一种模式。我们想要建立的具体模式就是与会者是否表现出一些线索,预示着他们可能参加对话。专门采用判定树来来学习在数据中含有的同时发生的情况与明显学习到的结果之间的因果关系。例如可以学到以下的规则:如果一个与会者举手、身体前倾、而且该规则中其他同时发生的事件为未知,则该与会者可能即将发言(发生的结果)。
为了检测发言人的转换,当判定树在连续窗口给出一个不同与会者的类别(通过面部识别/发言人识别/音频定位),系统就假定不同的发言人开始发言。能用来表示当既定行为足以构成提示下一个发言人的“线索”时的精确阈可以靠经验确定。
如前所述,图4的预测发言人识别器400利用图5所示的特征信息500对某一与会者在可能“会发言”或“不会发言”时通常表现出或不表现的一个或多个预定声音和视觉线索进行描绘。图5是说明特征信息500可能实施的示范表格。如图5所示,特征信息500包括许多记录,例如记录505-515,当分解为规则时,每个都与从判定树树根到树叶的不同通路相关联。对于每条判定树的通路,特征信息500识别定义通路的字段550-565中的属性值对和字段570中的相应概念类别。
这样,当特征信息500中的既定规则提示一个新的与会者即将发言时,预测发言人识别器400可提供一个预测PTZ值给摄像机18,以使摄像机18在该与会者一开始发言时就聚焦在预测发言人上。在一个实施例中,可用另一台PTZ摄像机跟踪预测发言人,当发言人开始发言时可以选择相应的图像作为系统10的输出。
视觉和声音线索
如前所述,视觉线索识别器410识别一个与会者在发言之前通常表现出的一个或多个预定视觉线索,例如手势,面部姿势,注视目光,面部表情,手和身体的姿势,可能还有感情等。例如,注视目光的信息在识别一个人的注意焦点方面起重要作用,即,看哪里,他在注意些什么。注视目光方向由两个因素决定:头的取向和眼睛的取向。头的取向决定整个的注视方向,而眼睛的方向可以决定精确的注视方向并受头的取向的限制。因此,当一个人即将发言时,他的目光通常聚焦在当前的发言人上。
同理,以下每对属性值对应于提示某人要开始发言的视觉线索:
属性 | 值 |
注视目光 | 眼睛看当前发言人 |
手势 | 举手或手指 |
面部姿势 | 面部对着当前发言人;点头 |
面部表情 | 微笑 |
身体姿势 | 前倾 |
面部表情
面部表情可以按照以下文章中说明的技术获得,例如:“应用于人机界面的连续视频(图像)的面部分析”,Ph.D.Dissertation,University of Illinois at Urbana-Champaign(1999);或AntonioColmenarez等人的“嵌入的面部和面部表情识别的概率框架”,Proc.of the Int’l Conf.on Computer Vision and Pattern Recognition,Vol.I,592-97,Fort Collins,Colorado(1999),它们已作为参考包括在本文中。面部表情的强度可以按照以下文章中说明的技术获得,例如美国专利申请、申请号09/705666、2000年11月3日登记、题目为“利用双向星形拓扑Hidden Markov模型估计面部表情的强度”,该申请已转让给本发明的受让人,并作为参考包括在本文中。
头部姿势/面部姿势
头部或面部姿势可以按照以下文章中说明的技术获得,例如:Egor Elagin等的“基于群聚图匹配技术的面部自动姿势估计系统”,Proc.of the 3rd Int’l Conf.on Automatic Face and Gesture Recognition(第三届自动面部和姿势识别国际会议文集),Vol.I,136-141,Nara,Japan(1998.4.14-16),已作为参考包括在本文中。
注视目光
注视目光以及面部姿势可以按照以下文章中说明的技术获得,例如:John Heinzmann和Alexander Zelinsky的“利用增强实时跟踪范例作三维面部姿势和目光注视点估计”,Proc.of the 3rd Int’l Conf.on Automatic Face and Gesture Recognition(第三届自动面部和姿势识别国际会议文集),Vol.I,142-147,Nara,Japan(1998.4.14-16),已作为参考包括在本文中。
手势
手势可以按照以下文章中说明的技术获得,例如:Ming-HsuanYang和Narenda Ahuja的“利用运动轨迹识别手势”,Proc.of the IEEEComputer Society Conf.on Computer Vision and Pattern Recognition,Vol.I,466-472,Fort Collins,Coloraqdo(1999.6.13-15),已作为参考包括在本文中。
身体姿势
身体姿势可以按照以下文章中说明的技术获得,例如:RomerRosale和Stan Sclaroff的“不跟踪身体各部分理解身体姿势”,Proc.of the IEEEE Computer Society Conf.on Computer Vision and PatternRecognition,Vol.2,721-727,Hilton Head Island,South Carolina(2000.6.13-15),已作为参考包括在本文中。
同理,音频线索识别器420识别一个与会者更换在发言人改变之前常表现出的一个或多个预定音频线索,例如非话语声音,比如咕隆一声或清清喉咙。音频线索可以按照以下文章中说明的技术识别,例如:Frank Dellaert等人的“在话音中识别感情”,Proc.of Int’lConf.on Speech and Language Processing(话音和语言处理国际会议文集)(1996),已作为参考包括在本文中。一旦音频线索源被识别,就可利用发言人识别功能来识别谁在发言。此外,也可利用话音识别技术进一步改进发言人预测。例如,假定某人A在发言,正当他还在讲话时某人B开始说:“我不同意你的意见”。如果话音识别系统已经接受过这种句子的训练,那么,在系统能识别该句子的那一刹那就暗示某人B可能是下一个发言人。
发言人的情绪可以从声音和韵律等特性来估计,例如语速,音调与音量,语调,强度等。发言人的情绪常提示发言人即将结束发言。发言人的情绪可以按照以下文章中说明的技术识别,例如:FrankDellaert等人的“在话音中情绪”,Proc.of Int’l Conf.on Speech andLanguage Processing(话音和语言处理国际会议文集)(1996),已作为参考包括在本文中。
如前所述,本发明可用来检测与人们表现出的声音和视觉线索有关联的任何事件。除了上面已充分说明的检测更换发言人之外,另外的示范事件和对应线索包括:
事件 | 线索 | 动作 |
某人睡着了(让他睡) | 头下垂,眼睛闭上,打呼 | 调低音乐,关掉电视,开始录制节目 |
某人睡着了(把他弄醒) | 头下垂,眼睛闭上,打呼 | 调高音乐,启动闹铃 |
学生在课堂上想发言 | 举手 | 提醒老师 |
想去厕所的小孩 | 跳动,捂住身体 | 提醒家长 |
所以,本发明可以用来预测许多事件并在其之前采取相应的行动。例如,本发明可以用在车辆中检测司机是否快要睡着了,如果检测到此情况,就采取适当的措施。又如,本发明可以用来检测看电视的人是否睡着了,并能采取适当的措施开始录制其余的节目,以及关掉电视,电灯和其它的电器。
显然,以上说明的实施例和各种变型仅是为了说明本发明的原理,在不背离本发明的范围和精神的情况下本专业的技术人员可作各种改动。
Claims (12)
1.一种利用音频和视频信息中的至少一种信息预测事件的方法,所述方法包括以下步骤:
建立定义能提示某一既定事件的行为特征的多个线索;以及
处理所述音频和视频信息中的至少一种信息来识别一种所述线索(410,420)。
2.如权利要求1所述的方法,其特征在于:所述多个线索包括标识一个人通常在发言之前表现出的行为的至少一种线索。
3.如权利要求1所述的方法,其特征在于:所述多个线索包括标识一个人通常在结束发言之前表现出的行为的至少一种音频线索。
4.如权利要求1所述的方法,其特征在于还包括获得与所述标识的线索有关联的所述某人的图像的步骤。
5.如权利要求1所述的方法,其特征在于还包括保持至少一个人的简档(500)的步骤,所述简档(500)建立关于所述多个线索中一个或多个线索的阈值。
6.一种在视频处理系统(300)(10)中跟踪发言人(22-k)的方法,所述视频处理系统(300)(10)处理音频和视频信息中至少一种信息,所述方法包括以下步骤:
处理所述音频和视频信息中至少一种信息、以便识别定义提示一个人即将发言的行为特征的多种线索中至少一种线索;以及
获得与所述识别的线索有关联的所述某人的图像。
7.如权利要求6所述的方法,其特征在于:至少一台摄像机(18)按照与所述线索有关联的人所关联的全景、倾斜和变焦值来聚焦。
8.如权利要求6所述的方法,其特征在于:所述多个线索包括标识一个人通常在发言之前表现出的行为的至少一种音频线索。
9.一种利用音频和视频信息中的至少一种信息来预测事件的系统(300),它包括:
存储计算机可读代码的存储器;以及
工作时连接到所述存储器的处理器;所述处理器配置成:
建立定义能提示某一既定事件的行为特征的多个线索;以及
处理所述音频和视频信息中的至少一种信息来识别一种所述线索。
10.一种用于跟踪视频处理系统(300)(10)中的发言人(22-k)的系统(300),所述视频处理系统(300)(10)处理音频和视频信息中至少一种信息,它包括:
存储计算机可读代码的存储器;以及
工作时连接到所述存储器的处理器;所述处理器配置成:
处理所述音频和视频信息中至少一种信息、以便识别定义提示一个人即将发言的行为特征的多种线索中至少一种线索;以及
获得与所述识别线索有关联的所述某人的图像。
11.一种利用音频和视频信息中至少一种信息来预测事件的制造品,它包括:
在其上实现计算机可读代码工具(mesns)的计算机可读介质,所述计算机可读程序编码工具包括:
建立定义能提示某一既定事件的行为特征的多个线索的步骤;以及
处理所述音频和视频信息中至少一种信息、以便识别一种所述线索的步骤。
12.一种用于跟踪视频处理系统(300)(10)中的发言人(22-k)的制造品,所述视频处理系统(300)(10)处理音频和视频信息中至少一种信息,它包括:
在其上实现计算机可读代码工具(mesns)的计算机可读介质,所述计算机可读程序编码工具包括:
处理所述音频和视频信息中至少一种信息、以便识别定义提示一个人即将发言的行为特征的多种线索中至少一种线索的步骤;以及获得与所述识别线索有关联的所述某人的图像的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/730,204 US6894714B2 (en) | 2000-12-05 | 2000-12-05 | Method and apparatus for predicting events in video conferencing and other applications |
US09/730,204 | 2000-12-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1422494A true CN1422494A (zh) | 2003-06-04 |
Family
ID=24934375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN01807753A Pending CN1422494A (zh) | 2000-12-05 | 2001-12-03 | 在电视会议和其他应用中预测事件的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6894714B2 (zh) |
EP (1) | EP1260099A1 (zh) |
JP (1) | JP2004515982A (zh) |
CN (1) | CN1422494A (zh) |
WO (1) | WO2002047386A1 (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1333363C (zh) * | 2004-01-14 | 2007-08-22 | 索尼株式会社 | 音频信号处理设备和音频信号处理方法 |
CN100425071C (zh) * | 2004-03-22 | 2008-10-08 | 富士施乐株式会社 | 会议信息处理装置和方法 |
CN101350906B (zh) * | 2008-09-04 | 2012-06-27 | 北京中星微电子有限公司 | 图像矫正方法和图像矫正装置 |
CN103096017A (zh) * | 2011-10-31 | 2013-05-08 | 鸿富锦精密工业(深圳)有限公司 | 计算机操控权控制方法及系统 |
CN103780837A (zh) * | 2014-01-02 | 2014-05-07 | 中安消技术有限公司 | 一种运动检测和定位拍摄的方法及其装置 |
CN105960801A (zh) * | 2014-02-03 | 2016-09-21 | 谷歌公司 | 增强视频会议 |
CN106488170A (zh) * | 2015-08-28 | 2017-03-08 | 华为技术有限公司 | 视频通讯的方法和系统 |
CN106921842A (zh) * | 2015-12-28 | 2017-07-04 | 南宁富桂精密工业有限公司 | 录影播放系统及方法 |
CN108881765A (zh) * | 2018-05-25 | 2018-11-23 | 讯飞幻境(北京)科技有限公司 | 轻量录播方法、装置及系统 |
CN109031201A (zh) * | 2018-06-01 | 2018-12-18 | 深圳市鹰硕技术有限公司 | 基于行为识别的语音定位方法以及装置 |
CN111833876A (zh) * | 2020-07-14 | 2020-10-27 | 科大讯飞股份有限公司 | 会议发言控制方法、系统、电子设备及存储介质 |
CN111986703A (zh) * | 2020-08-20 | 2020-11-24 | 随锐科技集团股份有限公司 | 视频会议方法及系统、计算机可读存储介质 |
WO2021056165A1 (en) * | 2019-09-24 | 2021-04-01 | Polycom Communications Technology (Beijing) Co., Ltd. | Zoom based on gesture detection |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
WO2023166441A1 (en) * | 2022-03-03 | 2023-09-07 | International Business Machines Corporation | Improving front-end clipping using visual cues |
Families Citing this family (152)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349005B2 (en) * | 2001-06-14 | 2008-03-25 | Microsoft Corporation | Automated video production system and method using expert video production rules for online publishing of lectures |
US6937266B2 (en) * | 2001-06-14 | 2005-08-30 | Microsoft Corporation | Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network |
DE10129662A1 (de) * | 2001-06-20 | 2003-01-09 | Philips Corp Intellectual Pty | Kommunikationssystem mit Systemkomponenten zur Feststellung der Urheberschaft eines Kommunikationsbeitrages |
WO2003015407A1 (en) * | 2001-08-07 | 2003-02-20 | Polycom, Inc. | System and method for high resolution videoconferencing |
US8218829B2 (en) * | 2001-08-20 | 2012-07-10 | Polycom, Inc. | System and method for using biometrics technology in conferencing |
US7728870B2 (en) * | 2001-09-06 | 2010-06-01 | Nice Systems Ltd | Advanced quality management and recording solutions for walk-in environments |
US6873714B2 (en) * | 2002-02-19 | 2005-03-29 | Delphi Technologies, Inc. | Auto calibration and personalization of eye tracking system using larger field of view imager with higher resolution |
US6982748B2 (en) * | 2002-02-25 | 2006-01-03 | Koninklijke Philips Electronics N.V. | Automatically switched camera system with indicator for notifying the next subject of the camera system |
US20030220971A1 (en) * | 2002-05-23 | 2003-11-27 | International Business Machines Corporation | Method and apparatus for video conferencing with audio redirection within a 360 degree view |
US6940540B2 (en) * | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
US20040189801A1 (en) * | 2003-03-28 | 2004-09-30 | Chao-Hung Chang | Active video surveillance system and active video surveillance method therefore |
GB2400667B (en) * | 2003-04-15 | 2006-05-31 | Hewlett Packard Development Co | Attention detection |
US7607097B2 (en) * | 2003-09-25 | 2009-10-20 | International Business Machines Corporation | Translating emotion to braille, emoticons and other special symbols |
JP2005124160A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 会議支援システム、情報表示装置、プログラム、及び制御方法 |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
US20050080849A1 (en) * | 2003-10-09 | 2005-04-14 | Wee Susie J. | Management system for rich media environments |
US20050131697A1 (en) * | 2003-12-10 | 2005-06-16 | International Business Machines Corporation | Speech improving apparatus, system and method |
US20050131744A1 (en) * | 2003-12-10 | 2005-06-16 | International Business Machines Corporation | Apparatus, system and method of automatically identifying participants at a videoconference who exhibit a particular expression |
US20070183618A1 (en) * | 2004-02-10 | 2007-08-09 | Masamitsu Ishii | Moving object equipped with ultra-directional speaker |
US7512883B2 (en) * | 2004-06-30 | 2009-03-31 | Microsoft Corporation | Portable solution for automatic camera management |
US7623156B2 (en) * | 2004-07-16 | 2009-11-24 | Polycom, Inc. | Natural pan tilt zoom camera motion to preset camera positions |
US20060047515A1 (en) * | 2004-08-25 | 2006-03-02 | Brenda Connors | Analyzing human movement patterns |
JP4770178B2 (ja) * | 2005-01-17 | 2011-09-14 | ソニー株式会社 | カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法 |
US7812855B2 (en) * | 2005-02-18 | 2010-10-12 | Honeywell International Inc. | Glassbreak noise detector and video positioning locator |
US20070165106A1 (en) * | 2005-05-02 | 2007-07-19 | Groves Randall D | Distributed Videoconferencing Processing |
US7986335B2 (en) * | 2005-05-02 | 2011-07-26 | Lifesize Communications, Inc. | Set top box videoconferencing system |
EP1739966A1 (en) * | 2005-06-30 | 2007-01-03 | Pixartis SA | System for videoconferencing |
US7904300B2 (en) * | 2005-08-10 | 2011-03-08 | Nuance Communications, Inc. | Supporting multiple speech enabled user interface consoles within a motor vehicle |
JP2007147762A (ja) * | 2005-11-24 | 2007-06-14 | Fuji Xerox Co Ltd | 発話者予測装置および発話者予測方法 |
US7936885B2 (en) * | 2005-12-06 | 2011-05-03 | At&T Intellectual Property I, Lp | Audio/video reproducing systems, methods and computer program products that modify audio/video electrical signals in response to specific sounds/images |
NO326770B1 (no) * | 2006-05-26 | 2009-02-16 | Tandberg Telecom As | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon |
US8154583B2 (en) * | 2007-05-31 | 2012-04-10 | Eastman Kodak Company | Eye gazing imaging for video communications |
US8063929B2 (en) * | 2007-05-31 | 2011-11-22 | Eastman Kodak Company | Managing scene transitions for video communication |
US8154578B2 (en) * | 2007-05-31 | 2012-04-10 | Eastman Kodak Company | Multi-camera residential communication system |
US8253770B2 (en) * | 2007-05-31 | 2012-08-28 | Eastman Kodak Company | Residential video communication system |
US8159519B2 (en) * | 2007-05-31 | 2012-04-17 | Eastman Kodak Company | Personal controls for personal video communications |
AU2008202703B2 (en) * | 2007-06-20 | 2012-03-08 | Mcomms Design Pty Ltd | Apparatus and method for providing multimedia content |
US8208005B2 (en) * | 2007-07-31 | 2012-06-26 | Hewlett-Packard Development Company, L.P. | System and method of determining the identity of a caller in a videoconferencing system |
JP4896838B2 (ja) * | 2007-08-31 | 2012-03-14 | カシオ計算機株式会社 | 撮像装置、画像検出装置及びプログラム |
JP5559691B2 (ja) * | 2007-09-24 | 2014-07-23 | クアルコム,インコーポレイテッド | 音声及びビデオ通信のための機能向上したインタフェース |
KR102204485B1 (ko) * | 2007-09-26 | 2021-01-19 | 에이큐 미디어 인크 | 오디오-비주얼 내비게이션 및 통신 |
US8316089B2 (en) * | 2008-05-06 | 2012-11-20 | Microsoft Corporation | Techniques to manage media content for a multimedia conference event |
US20100169792A1 (en) * | 2008-12-29 | 2010-07-01 | Seif Ascar | Web and visual content interaction analytics |
US20100208078A1 (en) * | 2009-02-17 | 2010-08-19 | Cisco Technology, Inc. | Horizontal gaze estimation for video conferencing |
US8477174B2 (en) * | 2009-02-27 | 2013-07-02 | Avaya Inc. | Automatic video switching for multimedia conferencing |
EP2228987B8 (fr) * | 2009-03-12 | 2021-08-04 | Orange | Système d'interprétation d'un mouvement d'un interlocuteur, procédé et programme d'ordinateur correspondant. |
US8274544B2 (en) * | 2009-03-23 | 2012-09-25 | Eastman Kodak Company | Automated videography systems |
US8237771B2 (en) * | 2009-03-26 | 2012-08-07 | Eastman Kodak Company | Automated videography based communications |
US8253774B2 (en) | 2009-03-30 | 2012-08-28 | Microsoft Corporation | Ambulatory presence features |
US20100257462A1 (en) * | 2009-04-01 | 2010-10-07 | Avaya Inc | Interpretation of gestures to provide visual queues |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
JP5911796B2 (ja) * | 2009-04-30 | 2016-04-27 | サムスン エレクトロニクス カンパニー リミテッド | マルチモーダル情報を用いるユーザ意図推論装置及び方法 |
CA2765116C (en) | 2009-06-23 | 2020-06-16 | Nokia Corporation | Method and apparatus for processing audio signals |
US9277021B2 (en) * | 2009-08-21 | 2016-03-01 | Avaya Inc. | Sending a user associated telecommunication address |
US20110096135A1 (en) * | 2009-10-23 | 2011-04-28 | Microsoft Corporation | Automatic labeling of a video session |
JP5143114B2 (ja) * | 2009-12-02 | 2013-02-13 | 日本電信電話株式会社 | 発話の予備動作検出及び伝達方法及び装置及びプログラム |
US8395653B2 (en) * | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
AU2011201881B2 (en) * | 2010-05-18 | 2015-02-12 | Polycom, Inc. | Voice tracking camera with speaker indentification |
US8842161B2 (en) | 2010-05-18 | 2014-09-23 | Polycom, Inc. | Videoconferencing system having adjunct camera for auto-framing and tracking |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
US8248448B2 (en) | 2010-05-18 | 2012-08-21 | Polycom, Inc. | Automatic camera framing for videoconferencing |
KR101750338B1 (ko) * | 2010-09-13 | 2017-06-23 | 삼성전자주식회사 | 마이크의 빔포밍 수행 방법 및 장치 |
US8462191B2 (en) | 2010-12-06 | 2013-06-11 | Cisco Technology, Inc. | Automatic suppression of images of a video feed in a video call or videoconferencing system |
US8693713B2 (en) | 2010-12-17 | 2014-04-08 | Microsoft Corporation | Virtual audio environment for multidimensional conferencing |
US8698872B2 (en) * | 2011-03-02 | 2014-04-15 | At&T Intellectual Property I, Lp | System and method for notification of events of interest during a video conference |
KR20130129471A (ko) * | 2011-04-11 | 2013-11-28 | 인텔 코오퍼레이션 | 관심 객체 기반 이미지 처리 |
KR101786944B1 (ko) * | 2011-05-12 | 2017-10-18 | 삼성전자 주식회사 | 화자 표시 방법 및 이를 구현하는 영상 통화 단말기 |
WO2012169679A1 (ko) * | 2011-06-10 | 2012-12-13 | 엘지전자 주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템 |
US20140168375A1 (en) * | 2011-07-25 | 2014-06-19 | Panasonic Corporation | Image conversion device, camera, video system, image conversion method and recording medium recording a program |
WO2013019259A1 (en) | 2011-08-01 | 2013-02-07 | Thomson Licensing | Telepresence communications system and method |
US10122970B2 (en) | 2011-09-13 | 2018-11-06 | Polycom, Inc. | System and methods for automatic call initiation based on biometric data |
US10924582B2 (en) | 2012-03-09 | 2021-02-16 | Interdigital Madison Patent Holdings | Distributed control of synchronized content |
EP2817801B1 (en) | 2012-03-16 | 2017-02-22 | Nuance Communications, Inc. | User dedicated automatic speech recognition |
JP5982917B2 (ja) * | 2012-03-22 | 2016-08-31 | 株式会社リコー | 情報処理装置、操作権限付与プログラム及び投影システム |
US9264660B1 (en) * | 2012-03-30 | 2016-02-16 | Google Inc. | Presenter control during a video conference |
GB2511668A (en) * | 2012-04-12 | 2014-09-10 | Supercell Oy | System and method for controlling technical processes |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
JP5974649B2 (ja) * | 2012-06-08 | 2016-08-23 | 株式会社リコー | 情報処理装置、会議システム、プログラム |
TWI504251B (zh) * | 2012-07-04 | 2015-10-11 | Vivotek Inc | 攝像裝置在對焦時的提示聲音之處理方法 |
CN103677582A (zh) * | 2012-09-18 | 2014-03-26 | 联想(北京)有限公司 | 一种控制电子设备的方法及一种电子设备 |
US9148625B2 (en) * | 2012-09-21 | 2015-09-29 | Cisco Technology, Inc. | Transition control in a videoconference |
US20140085443A1 (en) * | 2012-09-26 | 2014-03-27 | Nokia Corporation | Method and apparatus for associating event information with captured media |
GB2509323B (en) | 2012-12-28 | 2015-01-07 | Glide Talk Ltd | Reduced latency server-mediated audio-video communication |
US9478233B2 (en) | 2013-03-14 | 2016-10-25 | Polycom, Inc. | Speech fragment detection for management of interaction in a remote conference |
WO2014168616A1 (en) | 2013-04-10 | 2014-10-16 | Thomson Licensing | Tiering and manipulation of peer's heads in a telepresence system |
US10284887B2 (en) | 2013-06-20 | 2019-05-07 | Interdigital Ce Patent Holdings | System and method to assist synchronization of distributed play out of content |
US20150085060A1 (en) | 2013-09-20 | 2015-03-26 | Microsoft Corporation | User experience for conferencing with a touch screen display |
US9363476B2 (en) | 2013-09-20 | 2016-06-07 | Microsoft Technology Licensing, Llc | Configuration of a touch screen display with conferencing |
US20150146078A1 (en) * | 2013-11-27 | 2015-05-28 | Cisco Technology, Inc. | Shift camera focus based on speaker position |
US10466657B2 (en) | 2014-04-03 | 2019-11-05 | Honda Motor Co., Ltd. | Systems and methods for global adaptation of an implicit gesture control system |
US10409382B2 (en) | 2014-04-03 | 2019-09-10 | Honda Motor Co., Ltd. | Smart tutorial for gesture control system |
US9342797B2 (en) | 2014-04-03 | 2016-05-17 | Honda Motor Co., Ltd. | Systems and methods for the detection of implicit gestures |
KR102193029B1 (ko) * | 2014-05-09 | 2020-12-18 | 삼성전자주식회사 | 디스플레이 장치 및 그의 화상 통화 수행 방법 |
US9883140B2 (en) * | 2014-05-19 | 2018-01-30 | Apple Inc. | Using the location of a near-end user in a video stream to adjust audio settings of a far-end system |
US9386272B2 (en) | 2014-06-27 | 2016-07-05 | Intel Corporation | Technologies for audiovisual communication using interestingness algorithms |
US9445048B1 (en) | 2014-07-29 | 2016-09-13 | Google Inc. | Gesture-initiated actions in videoconferences |
JP6415932B2 (ja) * | 2014-11-05 | 2018-10-31 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
JP6545950B2 (ja) * | 2014-12-03 | 2019-07-17 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
CA2874715C (en) * | 2014-12-15 | 2022-03-15 | Ibm Canada Limited - Ibm Canada Limitee | Dynamic video and sound adjustment in a video conference |
US9456181B2 (en) * | 2015-02-04 | 2016-09-27 | Citrix Systems, Inc. | Smart selection of video feeds during an online meeting |
US10244175B2 (en) * | 2015-03-09 | 2019-03-26 | Apple Inc. | Automatic cropping of video content |
US9672829B2 (en) * | 2015-03-23 | 2017-06-06 | International Business Machines Corporation | Extracting and displaying key points of a video conference |
CN108028021B (zh) * | 2015-09-29 | 2021-10-15 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
JP2017118364A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム |
JP6383349B2 (ja) * | 2015-12-24 | 2018-08-29 | 日本電信電話株式会社 | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム |
US10771508B2 (en) | 2016-01-19 | 2020-09-08 | Nadejda Sarmova | Systems and methods for establishing a virtual shared experience for media playback |
US9743042B1 (en) | 2016-02-19 | 2017-08-22 | Microsoft Technology Licensing, Llc | Communication event |
US10887628B1 (en) | 2016-04-27 | 2021-01-05 | United Services Automobile Services (USAA) | Systems and methods for adaptive livestreaming |
US10454877B2 (en) | 2016-04-29 | 2019-10-22 | Cisco Technology, Inc. | Interoperability between data plane learning endpoints and control plane learning endpoints in overlay networks |
US10091070B2 (en) | 2016-06-01 | 2018-10-02 | Cisco Technology, Inc. | System and method of using a machine learning algorithm to meet SLA requirements |
US9965683B2 (en) * | 2016-09-16 | 2018-05-08 | Accenture Global Solutions Limited | Automatically detecting an event and determining whether the event is a particular type of event |
US10321096B2 (en) * | 2016-10-05 | 2019-06-11 | Avaya Inc. | Embedding content of interest in video conferencing |
JP6775387B2 (ja) * | 2016-11-11 | 2020-10-28 | 日本電信電話株式会社 | 推定方法及び推定システム |
US10963813B2 (en) | 2017-04-28 | 2021-03-30 | Cisco Technology, Inc. | Data sovereignty compliant machine learning |
US10477148B2 (en) | 2017-06-23 | 2019-11-12 | Cisco Technology, Inc. | Speaker anticipation |
US10187579B1 (en) * | 2017-06-30 | 2019-01-22 | Polycom, Inc. | People detection method for auto-framing and tracking in a video conference |
US10608901B2 (en) | 2017-07-12 | 2020-03-31 | Cisco Technology, Inc. | System and method for applying machine learning algorithms to compute health scores for workload scheduling |
US10091348B1 (en) | 2017-07-25 | 2018-10-02 | Cisco Technology, Inc. | Predictive model for voice/video over IP calls |
US10303967B2 (en) * | 2017-08-21 | 2019-05-28 | Lifesize, Inc. | Identifying active areas of interest within video data |
US10805521B2 (en) | 2017-09-05 | 2020-10-13 | Facebook, Inc. | Modifying capture of video data by an image capture device based on video data previously captured by the image capture device |
US10868955B2 (en) | 2017-09-05 | 2020-12-15 | Facebook, Inc. | Modifying capture of video data by an image capture device based on video data previously captured by the image capture device |
US10666857B2 (en) | 2017-09-05 | 2020-05-26 | Facebook, Inc. | Modifying capture of video data by an image capture device based on video data previously captured by the image capture device |
US11122240B2 (en) | 2017-09-11 | 2021-09-14 | Michael H Peters | Enhanced video conference management |
US11290686B2 (en) | 2017-09-11 | 2022-03-29 | Michael H Peters | Architecture for scalable video conference management |
US10382722B1 (en) | 2017-09-11 | 2019-08-13 | Michael H. Peters | Enhanced video conference management |
US11785180B2 (en) | 2017-09-11 | 2023-10-10 | Reelay Meetings, Inc. | Management and analysis of related concurrent communication sessions |
US20210174702A1 (en) * | 2017-11-10 | 2021-06-10 | Nippon Telegraph And Telephone Corporation | Communication skill evaluation system, device, method, and program |
US10417502B2 (en) * | 2017-12-15 | 2019-09-17 | Accenture Global Solutions Limited | Capturing series of events in monitoring systems |
JP7276158B2 (ja) * | 2018-01-12 | 2023-05-18 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
US20190230310A1 (en) * | 2018-01-24 | 2019-07-25 | Microsoft Technology Licensing, Llc | Intelligent content population in a communication system |
JP2019139387A (ja) * | 2018-02-07 | 2019-08-22 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
KR102453084B1 (ko) * | 2018-04-17 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN110536097A (zh) * | 2018-05-25 | 2019-12-03 | 中兴通讯股份有限公司 | 一种视频控制方法、视频会议终端和多点控制单元mcu |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
US10867067B2 (en) | 2018-06-07 | 2020-12-15 | Cisco Technology, Inc. | Hybrid cognitive system for AI/ML data privacy |
US10623657B2 (en) * | 2018-06-12 | 2020-04-14 | Cisco Technology, Inc. | Audio assisted auto exposure |
US10446170B1 (en) | 2018-06-19 | 2019-10-15 | Cisco Technology, Inc. | Noise mitigation using machine learning |
US10681313B1 (en) * | 2018-09-28 | 2020-06-09 | Ambarella International Lp | Home monitoring camera featuring intelligent personal audio assistant, smart zoom and face recognition features |
US10904347B2 (en) | 2019-03-12 | 2021-01-26 | International Business Machines Corporation | Indicating in an electronic communication session a concentration level score of a user participating in the electronic communication session |
JP2019208215A (ja) * | 2019-06-20 | 2019-12-05 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
US11109152B2 (en) * | 2019-10-28 | 2021-08-31 | Ambarella International Lp | Optimize the audio capture during conference call in cars |
US11417318B2 (en) * | 2020-02-21 | 2022-08-16 | BetterUp, Inc. | Computationally reacting to a multiparty conversation |
US11521620B2 (en) * | 2020-02-21 | 2022-12-06 | BetterUp, Inc. | Synthesizing higher order conversation features for a multiparty conversation |
US20210327423A1 (en) * | 2020-04-15 | 2021-10-21 | Centurylink Intellectual Property Llc | Method and system for monitoring content of a communication session over a network |
US11563783B2 (en) * | 2020-08-14 | 2023-01-24 | Cisco Technology, Inc. | Distance-based framing for an online conference session |
WO2022146169A1 (en) * | 2020-12-30 | 2022-07-07 | Ringcentral, Inc., (A Delaware Corporation) | System and method for noise cancellation |
US11626109B2 (en) * | 2021-04-22 | 2023-04-11 | Automotive Research & Testing Center | Voice recognition with noise supression function based on sound source direction and location |
CN113347381B (zh) * | 2021-05-24 | 2022-09-02 | 随锐科技集团股份有限公司 | 预测不雅举止轨迹的方法及系统 |
EP4123505A1 (en) * | 2021-07-22 | 2023-01-25 | Plantronics, Inc. | Face detection guided sound source localization pan angle post processing for smart camera talker tracking and framing |
EP4167586A1 (de) * | 2021-10-14 | 2023-04-19 | COCOSOFT Systems GmbH | Verfahren zur steuerung einer kamera eines gerichtssaal-mediensystems |
US11563790B1 (en) * | 2022-01-31 | 2023-01-24 | Zoom Video Communications, Inc. | Motion-based frame rate adjustment for in-person conference participants |
US11915483B1 (en) * | 2022-09-23 | 2024-02-27 | Zoom Video Communications, Inc. | Applying a configuration for altering functionality of a component during a video conference |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0771279B2 (ja) | 1988-08-17 | 1995-07-31 | 富士通株式会社 | テレビ会議用画像処理装置 |
JPH06131437A (ja) | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
US5347306A (en) * | 1993-12-17 | 1994-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Animated electronic meeting place |
CA2148631C (en) * | 1994-06-20 | 2000-06-13 | John J. Hildin | Voice-following video system |
JPH08163522A (ja) * | 1994-11-30 | 1996-06-21 | Canon Inc | テレビ会議システムおよび端末装置 |
US5959667A (en) * | 1996-05-09 | 1999-09-28 | Vtel Corporation | Voice activated camera preset selection system and method of operation |
WO1997043857A1 (de) | 1996-05-10 | 1997-11-20 | Siemens Aktiengesellschaft | Verfahren zur automatischen zuordnung eines sprachsignals eines teilnehmers einer videokonferenz zu seinem bild |
US6275258B1 (en) * | 1996-12-17 | 2001-08-14 | Nicholas Chim | Voice responsive image tracking system |
US6072494A (en) | 1997-10-15 | 2000-06-06 | Electric Planet, Inc. | Method and apparatus for real-time gesture recognition |
US5940118A (en) * | 1997-12-22 | 1999-08-17 | Nortel Networks Corporation | System and method for steering directional microphones |
US6005610A (en) * | 1998-01-23 | 1999-12-21 | Lucent Technologies Inc. | Audio-visual object localization and tracking system and method therefor |
US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
US6392694B1 (en) * | 1998-11-03 | 2002-05-21 | Telcordia Technologies, Inc. | Method and apparatus for an automatic camera selection system |
GB9930731D0 (en) * | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
US6850265B1 (en) | 2000-04-13 | 2005-02-01 | Koninklijke Philips Electronics N.V. | Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications |
-
2000
- 2000-12-05 US US09/730,204 patent/US6894714B2/en not_active Expired - Fee Related
-
2001
- 2001-12-03 EP EP01991786A patent/EP1260099A1/en not_active Withdrawn
- 2001-12-03 JP JP2002548983A patent/JP2004515982A/ja not_active Withdrawn
- 2001-12-03 CN CN01807753A patent/CN1422494A/zh active Pending
- 2001-12-03 WO PCT/EP2001/014275 patent/WO2002047386A1/en not_active Application Discontinuation
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1333363C (zh) * | 2004-01-14 | 2007-08-22 | 索尼株式会社 | 音频信号处理设备和音频信号处理方法 |
CN100425071C (zh) * | 2004-03-22 | 2008-10-08 | 富士施乐株式会社 | 会议信息处理装置和方法 |
US7809792B2 (en) | 2004-03-22 | 2010-10-05 | Fuji Xerox Co., Ltd. | Conference information processing apparatus, and conference information processing method and storage medium readable by computer |
CN101350906B (zh) * | 2008-09-04 | 2012-06-27 | 北京中星微电子有限公司 | 图像矫正方法和图像矫正装置 |
CN103096017B (zh) * | 2011-10-31 | 2016-07-06 | 鸿富锦精密工业(深圳)有限公司 | 计算机操控权控制方法及系统 |
CN103096017A (zh) * | 2011-10-31 | 2013-05-08 | 鸿富锦精密工业(深圳)有限公司 | 计算机操控权控制方法及系统 |
CN103780837B (zh) * | 2014-01-02 | 2018-02-09 | 中安消技术有限公司 | 一种运动检测和定位拍摄的方法及其装置 |
CN103780837A (zh) * | 2014-01-02 | 2014-05-07 | 中安消技术有限公司 | 一种运动检测和定位拍摄的方法及其装置 |
CN105960801B (zh) * | 2014-02-03 | 2020-02-07 | 谷歌有限责任公司 | 增强视频会议 |
CN105960801A (zh) * | 2014-02-03 | 2016-09-21 | 谷歌公司 | 增强视频会议 |
CN106488170B (zh) * | 2015-08-28 | 2020-01-10 | 华为技术有限公司 | 视频通讯的方法和系统 |
CN106488170A (zh) * | 2015-08-28 | 2017-03-08 | 华为技术有限公司 | 视频通讯的方法和系统 |
CN106921842A (zh) * | 2015-12-28 | 2017-07-04 | 南宁富桂精密工业有限公司 | 录影播放系统及方法 |
CN106921842B (zh) * | 2015-12-28 | 2019-10-01 | 南宁富桂精密工业有限公司 | 录影播放系统及方法 |
CN108881765A (zh) * | 2018-05-25 | 2018-11-23 | 讯飞幻境(北京)科技有限公司 | 轻量录播方法、装置及系统 |
CN109031201A (zh) * | 2018-06-01 | 2018-12-18 | 深圳市鹰硕技术有限公司 | 基于行为识别的语音定位方法以及装置 |
WO2019227552A1 (zh) * | 2018-06-01 | 2019-12-05 | 深圳市鹰硕技术有限公司 | 基于行为识别的语音定位方法以及装置 |
WO2021056165A1 (en) * | 2019-09-24 | 2021-04-01 | Polycom Communications Technology (Beijing) Co., Ltd. | Zoom based on gesture detection |
CN111833876A (zh) * | 2020-07-14 | 2020-10-27 | 科大讯飞股份有限公司 | 会议发言控制方法、系统、电子设备及存储介质 |
CN111986703A (zh) * | 2020-08-20 | 2020-11-24 | 随锐科技集团股份有限公司 | 视频会议方法及系统、计算机可读存储介质 |
CN113053376A (zh) * | 2021-03-17 | 2021-06-29 | 财团法人车辆研究测试中心 | 语音辨识装置 |
WO2023166441A1 (en) * | 2022-03-03 | 2023-09-07 | International Business Machines Corporation | Improving front-end clipping using visual cues |
Also Published As
Publication number | Publication date |
---|---|
WO2002047386A1 (en) | 2002-06-13 |
US6894714B2 (en) | 2005-05-17 |
US20020101505A1 (en) | 2002-08-01 |
EP1260099A1 (en) | 2002-11-27 |
JP2004515982A (ja) | 2004-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1422494A (zh) | 在电视会议和其他应用中预测事件的方法和装置 | |
EP3855731B1 (en) | Context based target framing in a teleconferencing environment | |
WO2013039062A1 (ja) | 顔分析装置、顔分析方法、及び記録媒体 | |
Stiefelhagen et al. | Modeling focus of attention for meeting indexing | |
Dai et al. | Group interaction analysis in dynamic context | |
US20030154084A1 (en) | Method and system for person identification using video-speech matching | |
Sun et al. | A multimodal database for mimicry analysis | |
JP2006085440A (ja) | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム | |
JP4704174B2 (ja) | 状態識別装置、プログラムおよび方法 | |
JP2016100033A (ja) | 再生制御装置 | |
Zhang et al. | Boosting-based multimodal speaker detection for distributed meeting videos | |
CN114779922A (zh) | 教学设备的控制方法、控制设备、教学系统和存储介质 | |
CN109934150B (zh) | 一种会议参与度识别方法、装置、服务器和存储介质 | |
EP1936545A1 (en) | Action guideline decision device | |
CN112507829B (zh) | 一种多人视频手语翻译方法及系统 | |
Dai et al. | Group Interaction Analysis in Dynamic Context $^{\ast} $ | |
JP7334536B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Libal et al. | Multimodal classification of activities of daily living inside smart homes | |
Yu et al. | Towards smart meeting: Enabling technologies and a real-world application | |
Ronzhin et al. | A software system for the audiovisual monitoring of an intelligent meeting room in support of scientific and education activities | |
Li et al. | Audio-visual talking face detection | |
Prince et al. | Taking synchrony seriously: A perceptual-level model of infant synchrony detection | |
CN112905811A (zh) | 一种基于学生课堂行为分析的教学音视频推送方法及系统 | |
Al-Hames et al. | Automatic multi-modal meeting camera selection for video-conferences and meeting browsers | |
Okuno et al. | Realizing audio-visually triggered ELIZA-like non-verbal behaviors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |