CN103404169A - 采用基于图像的源位置的麦克风阵列转向 - Google Patents

采用基于图像的源位置的麦克风阵列转向 Download PDF

Info

Publication number
CN103404169A
CN103404169A CN2011800685535A CN201180068553A CN103404169A CN 103404169 A CN103404169 A CN 103404169A CN 2011800685535 A CN2011800685535 A CN 2011800685535A CN 201180068553 A CN201180068553 A CN 201180068553A CN 103404169 A CN103404169 A CN 103404169A
Authority
CN
China
Prior art keywords
audio signal
positional information
microphone array
optical image
image sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800685535A
Other languages
English (en)
Other versions
CN103404169B (zh
Inventor
G·埃尔南德斯-阿布雷戈
E·拉森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN103404169A publication Critical patent/CN103404169A/zh
Application granted granted Critical
Publication of CN103404169B publication Critical patent/CN103404169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/211Input arrangements for video game devices characterised by their sensors, purposes or types using inertial sensors, e.g. accelerometers or gyroscopes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6081Methods for processing data by generating or executing the game program for sound processing generating an output signal, e.g. under timing constraints, for spatialization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

用于基于相对于监听装置的对象的位置对音频信号进行波束形成的方法和系统,该位置由从包括该对象的光学图像所推断的位置数据来确定。在一个实施例中,对象的位置基于对象的视频图像来跟踪,并且从设置在固定位置的麦克风阵列所接收的音频信号基于被跟踪对象位置来滤波。可应用波束形成技术以强调与对象附近的源关联的音频信号的部分。

Description

采用基于图像的源位置的麦克风阵列转向
相关申请的交叉引用
本申请涉及2005年12月12日提交的标题为“METHODS AND SYSTEMS FOR ENABLING DEPTH ANDDIRECTION DETECTION WHEN INTERFACING WITH ACOMPUTER PROGRAM”、申请号为11/302511的美国专利申请,并且涉及2006年5月4日提交的标题为“SELECTIVE SOUND SOURCELISTENING IN CONJUNCTION WITH COMPUTER INTERACTIVEPROCESSING”的美国专利申请No.11/381721,为了所有目的通过引用将上述两个专利申请的每一个的公开完整地结合到本文中。
本申请还涉及2006年12月14日提交的标题为“METHODS AND APPARATUS FOR CAPTURING AUDIO SIGNALSBASED ON A VISUAL IMAGE”的美国专利申请No.11/18989,为了所有目的通过引用将其公开完整地结合到本文中。
技术领域
本发明涉及麦克风阵列转向,以及更具体来说,涉及基于对被跟踪对象所确定的位置信息将阵列转向。
背景技术
许多计算机平台应用利用监听装置来检测声音。麦克风通常用作检测声音的监听装置供结合这些应用使用。麦克风通常配置成检测来自固定区域的声音。不希望的背景噪声也常常被这些监听装置捕获,使得所产生音频信号劣化并且更难以与应用及关联计算机平台配合使用。
麦克风阵列对于通过聚焦于音频源并且消除干扰信号来改进所接收音频的质量是有用的。阵列对于定位在离音频源超过一臂长度的远场麦克风是特别有用的。将麦克风阵列转向到特定方向的常规技术一般依靠与信号如何到达阵列的不同麦克风有关的信息。但是,将阵列接收转向到其中的源的位置的检测是聚焦于音频信号的最棘手方面之一,并且当源动态改变位置时变得更加棘手。
解决定位音频源的问题的现有技术依靠大且复杂的麦克风阵列(例如具有3D麦克风几何结构),并且即使那样估计仍部分因物理限制(例如波束角分离等)而是有噪并且不准确的。因此,来自远场阵列麦克风的音频质量常常在它不适合于诸如语音识别之类的高级信号处理应用的范围上受损失。
附图说明
在说明书的结束部分具体指出并且明确要求保护本发明的实施例。但是,通过参照结合附图来理解的以下详细描述,可透彻地了解关于本发明的实施例的组织和操作方法连同其目的、特征和优点,附图包括:
图1示出按照一个实施例、音频波束形成系统的等距视图,在音频波束形成系统中至少从视觉图像数据所确定的位置信息用于聚焦麦克风阵列;
图2示出按照一个实施例、多玩家环境的等距视图,在多玩家环境中至少从视觉图像数据所确定的位置信息用于对沿不同用户的方向的音频信号进行滤波;
图3示出按照一个实施例的音频波束形成系统的功能模块的框图;
图4A和图4B是示出按照一个实施例、用于提供基于至少从视觉图像数据所确定的位置信息进行转向的音频信号的麦克风阵列的示意图;
图5A和图5B示出按照本发明的一个实施例、具有可基于视觉图像数据来跟踪的球部分的游戏控制器;
图6是按照一个实施例、基于至少从视觉图像数据所确定的位置信息来聚焦音频信号的示范方法的流程图;
图7A是按照一个实施例、基于至少从视觉图像数据所确定的位置信息的示范宽带波束形成方法的流程图;
图7B示出按照一个实施例的音频信号滤波模型;
图8示出按照本发明的一个实施例、可用于适配显示的硬件和用户接口;以及
图9示出按照本发明的一个实施例、可用于处理指令的附加硬件。
为了说明的清楚起见,图中所示的元件不一定按比例绘制。此外,在认为适当的情况下,附图之中重复了参考标号,以表示对应或相似的元件。
具体实施方式
本文描述的是用于基于至少从视觉图像数据所确定的位置信息对音频信号进行滤波的方法和系统。实施例在采用麦克风阵列所接收的音频信号的波束形成中采用从基于图像的对象跟踪系统所确定的位置数据。在一个实施例中,位置信息通过包含对象、例如游戏运动控制器的视觉帧的视频分析来确定。音频滤波器则去除与被跟踪对象并存的区域外部的声源。在某些实施例中,对于目标声源、例如持有对象的用户来改进音频质量,使得具有固定位置的远场麦克风可用于通常为近场麦克风所保留的目的(例如语音识别等)。
虽然提出许多具体细节以便透彻地了解本发明的实施例,但是本领域的技术人员将会理解,即使没有这些具体细节也可实施其它实施例。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。本文中的描述的一些部分根据对计算机存储器中的数据位或二进制数字信号的操作的符号表示和算法来提供。这些算法描述和表示可以是数据处理领域的技术人员用于向本领域的其它技术人员传达其工作的内容的技术。
如本文所使用的“算法”是引起预期结果的一系列独立动作或操作。它们包括物理量的物理操纵。这些量通常但不一定采取能够被存储、传递、组合、比较以及以其它方式操控的电或磁信号的形式。主要为了一般使用的原因,将这些信号称作位、值、元素、符号、字符、项、编号等,已经证明有时非常便利。
除非具体说明,或者另外如从以下论述显而易见,将要理解,在整个描述中,利用诸如“处理”、“计算”、“转换”、“协调”、“确定”或“识别”之类的术语的论述表示计算机平台的动作和过程,其中计算机平台是包括处理器的电子计算装置,处理器将表示为处理器的寄存器和可访问平台存储器中的物理(例如电子)量的数据操纵和变换为类似地表示为计算机平台存储器、处理器寄存器或显示屏幕中的物理量的其它数据。
计算机程序可存储在计算机可读存储介质中,例如但不限于任何类型的磁盘,包括软盘、光盘(例如只读光盘存储器(CD-ROM)、数字视频光盘(DVD)、Blu-Ray DiscsTM等)以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁或光卡或者适合于存储电子指令的任何其它类型的非暂时介质。
术语“耦合”和“连接”连同其派生在本文中可用于描述执行本文的操作的设备的组件之间的结构关系。应当理解,这些术语并不是要作为彼此的同义词。相反,在具体实施例中,“连接”可用于指明两个或更多单元相互直接物理或电气接触。“耦合”可用于指明两个或更多元件相互直接或间接地(隔着其它中间元件)进行物理或电接触,和/或两个或更多元件相互配合操作或通信(例如,如同因果关系一样)。
图1示出按照一个实施例、音频波束形成系统100的等距视图,在音频波束形成系统100中至少从视觉图像数据所确定的位置信息用于对麦克风阵列聚焦或转向。在本文详细描述的示范实施例中,音频波束形成系统100是游戏系统的组件。备选地,音频波束形成系统100可以是运动捕获系统的组件,它可用于许多容量(capacity),例如但不限于安全系统和通信系统。
音频波束形成系统100包括耦合到显示屏幕120的计算装置115。计算装置115包括计算机处理器,以及至少负责在显示屏幕120上生成输出,并且还可执行下列的一个或多个:用于对象位置跟踪的图像分析以及用于音频信号的滤波的音频信号处理,如本文所述。计算装置115可专门构造用于所需目的,或者它可包括通过计算机中存储的计算机程序有选择地激活或重新配置的通用计算机。在一个实施例中,计算装置115是具有作为常规显示器(例如LCD、OLED、CRT等)的显示屏幕120的游戏控制台(例如Sony
Figure BPA0000176180130000051
等)。
音频波束形成系统100还包括收集视场(FOV)125的视觉图像数据的光学传感器105。FOV125是光学传感器105的帧中成像的给定场景的角范围。有线连接的示例包括经由IEEE1394(火线)电缆、以太网电缆、通用串行总线(USB)电缆、高清晰度媒体接口(HDMI)等进行的连接。无线连接的示例包括无线保真(WiFiTM)连接、连接、
Figure BPA0000176180130000053
连接等。在所示实施例中,光学传感器105经由与固定定位(例如在显示屏幕120顶部)的光学传感器105的有线连接与计算装置115连接。在一个实施例中,光学传感器105是标准清晰度或高清晰度(HD)摄像机。
音频波束形成系统100将分析FOV125中包含的对象110的视觉图像捕获,以便确定对象110的位置。因此,基于来自光学传感器105的视觉图像数据,对象110将例如通过模式识别算法的执行以及作为时间(例如实时)的函数所确定的对象110的位置来识别。良好图像识别的典型距离大约为10英尺(3米)。在一个实施例中,对象110的位置通过位置信息来定义,位置信息在极坐标中包括半径r(130)、倾角θ(131)和方位角
Figure BPA0000176180130000061
(132)。例如,光学传感器105可基于识别对象110的大小的预定义信息和/或基于识别光学传感器105的FOV125的预定义信息来捕获深度信息(光学传感器105与对象110之间的半径(r)130)。当对象110进一步移动离开光学传感器105时(即,当半径(r)130增加时),如光学传感器105所捕获的对象110的图像变小。因此,对象110到光学传感器105的半径130可基于被跟踪对象110的图像大小(例如,如以像素测量)与被跟踪对象110的已知实际大小的比率来确定,只要光学传感器105的FOV125是已知的。在其它实施例中,光学传感器105是Z照相装置(能够捕获具有深度信息的视频的单透镜摄像机)或者立体摄像机(具有能够捕获三维图像的2个或更多透镜的摄像机)。对于这类实施例,光学传感器105能够捕获深度信息,而无需预先配置有识别对象110的大小的信息。
在对象110是音频波束形成系统100的用户的一个实施例中,头部跟踪采用模板匹配(用于速度性能)、结合基于眼部和其它脸部特征以识别用户脸部的位置的脸部检测代码的组合来完成。对于关于头部和脸部检测的附加信息,可参照美国专利申请10/663236。
在一个实施例中,对象110是音频波束形成系统100的一部分,并且可具有经由光学传感器105所提供的图像数据促进其识别的属性。对象110可以是经由有线或无线连接到计算装置115的用户输入装置或者计算装置115的控制器的至少一部分。图5A和图5B示出各具有可基于视觉图像数据来跟踪的球部分的示范游戏控制器110A和110B。这类控制器是市场销售的,如Sony
Figure BPA0000176180130000062
Move运动控制器。图5A中,游戏控制器110A具有球部分505,而在图5B中,游戏控制器110B具有球部分515。在某些实施例中,球部分505和515对应于图1的对象110。
球部分505、515能够具有不同颜色,以及在一个实施例中,球部分505、515能够点亮。虽然示出球形球部分,但是球部分505、515能够为了便于视觉跟踪而具有其它形状,例如部分球体、不完全球体、延长球、类似立方体形状等。
在其它实施例中,对象110(例如图5A的游戏控制器110A)包括在对象110中具有固定位置的一个或多个惯性传感器。在一个实施例中,惯性传感器包括一个或多个陀螺仪和一个或多个加速计(例如MEM),以便检测对象110的取向的变化(例如俯仰、滚动和扭曲的变化,本文中一般全部称作γ),并且测量沿一个或多个轴的加速度。取向的变化γ还可作为波束形成算法中的位置信息来包含。
在音频波束形成系统100包括对象110、例如游戏控制器的某些实施例中,由对象110所促进的对象110的视觉跟踪可按照如下方式连同脸部检测代码一起使用:使用对象110的位置,基于眼部和其它脸部特征来确定用户脸部的位置。描述用户脸部的位置的位置信息则用于本文所述的音频波束形成。
回到图1,音频波束形成系统100包括监听装置106。在一个实施例中,监听装置106包括形成麦克风阵列的多个麦克风。各麦克风可以是全向麦克风,使得监听装置106具有宽监听区域126(比FOV125要大许多)。虽然多个麦克风可包括按照任何几何结构(例如1-D、2-D和3-D阵列)所设置的任何数量的麦克风,但是在图4A所示的示范实施例中,麦克风阵列402包括在第一维、例如沿图1所示的x1或x2维间隔开的四个麦克风M0、M1、M2和M3。对于监听装置106和光学传感器105是同一摄像机的组成部分的一个实施例中,麦克风M0、M1、M2和M3可与光学传感器105共享光学传感器参考系150,使得方位角
Figure BPA0000176180130000071
132等于图4A中的
Figure BPA0000176180130000072
(M0、M1、M2和M3沿x1轴排列)。在其它实施例中,监听装置106和光学传感器105可以是同一摄像机的组成部分,但是监听装置106是固定基座的一部分,而光学传感器105相对于监听装置106沿X、Y、Z方向的任一个是可旋转的,或者监听装置106和光学传感器105是完全独立和无关的组件。对于那些实施例的任一个,麦克风M0、M1、M2和M3可具有将要通过校准例程来确定的与光学传感器105不同的参考系(例如M0、M1、M2和M3沿x2排列),使得基于光学传感器参考系150所确定的位置信息可应用于监听装置106所接收的音频信号。例如,可执行光学传感器105和监听装置106的每个的校准例程,因此全球参考系140(定义为具有与重力135对齐的轴y2的参考系)可由光学传感器105和监听装置106共享。
无论对象110是音频波束形成系统100的一部分(例如作为游戏控制器)还是音频波束形成系统100的用户,音频波束形成系统100均接收来自监听装置106的音频信号,设置成离开对象110超过一臂长度(例如,大约10英尺(3米))的监听装置106在远场容量中起作用。由音频波束形成系统100通过分析对象110的视觉图像对于对象110所确定的位置信息的至少某个分量(r、θ、
Figure BPA0000176180130000081
γ)将与监听装置106相关,使得麦克风阵列402所生成的音频信号可作为对象110的位置的函数来滤波。在一个实施例中,滤波将使用转向角
Figure BPA0000176180130000082
来强调最接近对象110的音频源。可去除或消除在比阈值高于和低于大约为
Figure BPA0000176180130000083
的角度的音频信号,以便使目标监听区域127定位到对象110(例如,以对象110为中心)。换言之,音频信号可基于对象110的位置从较大监听区域(例如监听区域126)“聚焦”到较小监听区域(例如目标区域127)。类似地,通过相对于对象110的移动而移动目标监听区域127,音频信号可基于对象110的位置来“转向”。换言之,音频信号滤波利用转向角,转向角被更新以跟随视觉跟踪对象110。应当注意,虽然示范实施例要求强调接近对象110的音频源,但是类似技术可实现相反方面(例如滤出(filter out)而不是滤进(filter in)接近对象110的音频源)。
图2示出按照一个实施例、多玩家环境的等距视图,在多玩家环境中至少从视觉图像数据所确定的位置信息用于对沿不同用户的方向的音频信号进行波束形成。在多玩家环境中,音频波束形成系统200包括在音频波束形成系统100(图1)中所述的相同组件,但是具有两个对象,即游戏控制器110A和110B。如所示,玩家A与游戏控制器110A关联,而玩家B与游戏控制器110B关联。对于图2所示的示范实施例,音频波束形成系统200包括与音频波束形成系统100相同数量的麦克风(即,一个监听装置106),其中游戏控制器110A和110B没有包括集成监听装置。对于这类实施例,远场麦克风阵列204的聚焦可在多玩家环境中基于分别对游戏控制器110A和110B所确定的位置信息用来强调目标监听区域227A和227B的任一个或两者。光学传感器107得到游戏现场218的图像。分析图像以得到如采用包括rA和rB、θA和θB
Figure BPA0000176180130000091
Figure BPA0000176180130000092
的位置信息向量所定义的游戏控制器110A和110B的位置。位置信息可通过分析所捕获图像中的相应游戏控制器的形状和大小来估计。从那个位置信息,计算装置115可在显示屏幕120中产生玩家的表示(分别为化身212a和212b),以及音频信号处理可被运行以控制目标监听区域227A和227B。因此,虽然仅基于音频处理可能很难可靠地跟踪作为声源的玩家A,但是当玩家A经过玩家B前面(或后面)时,视觉对象跟踪的使用通过消除检测问题来极大地改进音频波束形成。
在其它实施例中,音频信号处理可按照与被跟踪对象的取向的变化进一步相关的方式来运行。例如,音频转向角可响应对象取向的变化而从被跟踪对象的视觉确定位置偏移,如图2中由基于位置信息的γ分量从游戏控制器110B偏移长度L的监听区域227B所表示。
在其它实施例中,音频信号的转向可基于计算装置115上运行的游戏的状态或者基于游戏控制器110A和110B的状态而发生。例如,在游戏在玩家A与玩家B之间交替进行的情况下,音频波束形成系统200可基于所选对象来执行音频处理,以便在目标监听区域227A与目标监听区域227B之间进行交替。作为另一个示例,游戏控制器110A和110B的每个可具有用户激活按钮,该按钮改变游戏控制器的状态,以便调用音频信号处理,音频信号处理将监听区域聚焦为以游戏控制器为中心,由此提供各用户的虚拟近场麦克风。
图3示出按照一个实施例的音频波束形成系统300的功能模块的框图。图6是按照一个实施例、可由音频波束形成系统300来运行的、基于至少从视觉图像数据所确定的位置信息对音频信号进行滤波的示范方法的流程图。
首先参照图6,在操作605,包含FOV中的对象的视觉图像由例如视频装置301(图3)随时间而收集。
在操作602,来自麦克风阵列的音频信号例如由麦克风阵列402(图3)随时间而生成。如图3进一步所示,麦克风阵列402输出音频信号向量x=[x0,x1,x2,x3],其中x0,x1,x2和x3是对于从一个或多个源404到达的声音分别由麦克风M0、M1、M2和M3所接收和生成的时域信号。
在操作615(图6),各对象110(A、B等)随时间的对象位置信息由所接收图像数据(帧)以及从惯性传感器316所接收的惯性数据来生成。如图3进一步所示,例如,阵列{(rA0,θA0γA0),(rB0,θB0
Figure BPA0000176180130000102
γB0),(rA1,θA1
Figure BPA0000176180130000103
γA1),(rB1,θB1
Figure BPA0000176180130000104
γB1),...}可由对象跟踪模块315对于被跟踪对象100A、100B等随时间来输出。在所示示范实施例中,对象跟踪模块315是用于作为对计算装置115的附属物/升级进行提供的视频装置301的组件。然而,在其它实施例中,对象跟踪模块315是计算装置115的组件。将从对象跟踪模块315所输出的位置信息提供给所耦合应用引擎325(用于更新所渲染图形对象等)以及通信上耦合的音频信号处理器320。
取决于是否选择任何对象(例如图3的对象110A、110B等)以提供音频波束形成的位置基础,所接收音频信号要么在操作618(图6)在没有基于被跟踪对象位置的空间滤波的情况下被传递,要么在操作620基于被跟踪对象的位置信息来滤波。
一般来说,在620的音频信号的滤波可按照将使位置信息的至少一个分量(例如r、θ、
Figure BPA0000176180130000111
γ)的输入适合于定义转向角(例如)的本领域已知的任何方式进行。滤波将分离声源,以及强调(聚焦)或不强调定位到被跟踪对象110的位置的源(例如在监听区域轮廓阈值之内)。参照图4A和图4B,所接收数字信号y(t)能够被看作是各麦克风所接收的单独信号xn(t)的求和。由于麦克风之间的空间距离d,存在由各麦克风(在所示示例中定位到麦克风M0)所检测的信号中的延迟τn。因此,所接收信号能够表示为:
y ( t ) = 1 N - 1 Σ n = 0 N - 1 x n ( t - τ n ) - - - ( 1 )
假定仅对
Figure BPA0000176180130000114
方向进行转向(给定θ=π/2)。各输入信号的相位能够以下式来改变:
Figure BPA0000176180130000115
其中,d是麦克风之间的距离,f是输入信号的频率,
Figure BPA0000176180130000116
是对其进行转向的角度,以及c是给定介质中的波的传播速度。可类似地得出使用sin()函数的类似表示。
定向模式是输入信号的频率和转向角的函数:
D ( f , φ ) = 1 N - 1 Σ n = 0 N - 1 e j 2 πfnd ( cos φ - cos φ ′ ) c - - - ( 3 )
它可通过将下列形式的相位延迟加入来自各麦克风的信号来实现:
τ n = nd cos φ ′ c - - - ( 4 )
但是,等式(1)-(4)一般限制到“窄带”情况,其中信号的带宽足够窄,使得在麦克风阵列402的对端所接收的信号仍然彼此完全相互关联。在本文所述的波束形成系统结合到游戏系统的实施例中,这无法得到保证。例如,在图2所示的示范实施例中,监听装置106的大小是这样的,使得语音信号的带宽比麦克风阵列(例如麦克风阵列402)要宽,以及麦克风阵列将不会接收如许多阵列处理技术中通常假定的平面波前。因此,在某些实施例中,宽带波束形成算法由音频信号处理器320来执行。
图7A是按照一个实施例、基于至少从视觉图像数据所确定的位置信息的示范宽带波束形成方法的流程图。对于宽带波束形成实施例,所记录语音信号y(t)的例如大约每隔8毫秒的预定间隔在操作702形成为分析帧。信号则在操作704例如通过进行傅立叶变换从时域变换为频域,并且所产生等式可对频域输出信号Y(N)来求解。这相当于对J+1帧执行傅立叶变换(例如采用快速傅立叶变换(fft)),其中傅立叶变换中的各频率点是(J+1)×1列向量。频率点的数量等于N+1,并且每个频率点确定大小为具有适合被当作窄带信号的带宽。
在操作706,(例如从操作615)所接收的位置信息用于将一系列延迟应用于输入信号,使得波束形成对多个频率点执行。滤波器组用于补偿在麦克风中对于不同频率分量所接收的每一个信号的相位差。对于这类实施例,所接收信号可描述为:
y ( t ) = 1 N - 1 Σ n = 0 N - 1 Σ i = 1 j x n ( t - iT s ) × w n , i * - - - ( 5 )
其中J是关联到n个麦克风的每个的多个延迟元件的数量。w* n,i的集合是以J个频率点划分输入信号的有限脉冲滤波器或无限脉冲滤波器的系数,以及Ts是滤波器的相邻元件之间的延迟。图7B示出示范滤波器750,其中Δ表示组成滤波器的元件中应用的延迟,以及w* n-1,i是滤波器的权重集合。滤波器750可通过硬件或软件或者硬件和软件两者的组合来实现(例如通过音频信号处理器320)。各麦克风和各频率点i的滤波器系数可从最佳地分出定位到被跟踪对象110的位置的声源和源自所去除的对象定位监听区域外部的音频信号的部分的输入信号xn-1(t)来计算。在其它实施例中,当对象110移动时或者当选择不同对象时,计算滤波器系数以用于将音频信号从第一位置转向到第二位置。
在其它实施例中,为了避免空间和频率混叠,在操作706所采用的滤波器设计成使得满足下列条件:
2 πf τ n = nd cos φ c - - - ( 6 )
因此,方法700生成适合采用以被跟踪对象的最近确定位置信息周期地更新的滤波器来分离输入宽带语音信号的频率分量的滤波器。例如,对于在操作615的对象110的位置的每个新读数,计算新转向角(例如
Figure BPA0000176180130000138
),并且采用那个转向角来更新滤波器的系数。
图8还示出按照本发明的一个实施例、可用于基于眼部跟踪来适配显示的硬件和用户接口。图8示意示出3娱乐装置、可适合实现本文所述的自适应显示方法的控制台的总体系统架构。平台单元1400提供有可连接到平台单元1400的各种外围装置。平台单元1400包括:Cell处理器1428;
Figure BPA0000176180130000133
动态随机存取存储器(XDRAM)单元1426;具有专用视频随机存取存储器(VRAM)单元1432的现实模拟器图形单元1430;以及I/O桥接器1434。平台单元1400还包括通过I/O桥接器1434可访问的用于从磁盘1440A进行读取的Blu
Figure BPA0000176180130000134
Disk
Figure BPA0000176180130000135
光盘读取器1440和可移动插入式硬盘驱动器(HDD)1436。可选地,平台单元1400还包括类似地通过I/O桥接器1434可访问的用于读取袖珍闪存卡、Memory
Figure BPA0000176180130000136
存储卡等的存储卡读取器1438。
I/O桥接器1434还连接到多个通用串行总线(USB)2.0端口1424、吉比特以太网端口1422、IEEE802.11b/g无线网络(Wi-Fi)端口1420以及能够支持总共七个蓝牙连接的无线链路端口1418。
在操作中,I/O桥接器1434处理所有无线、USB和以太网数据,包括来自一个或多个游戏控制器1402的数据。例如,当用户正进行游戏,I/O桥接器1434经由蓝牙链路接收来自游戏(运动)控制器1402的数据,并且将它导向Cell处理器1428,Cell处理器1428相应地更新游戏的当前状态。
除了游戏控制器1402之外,无线、USB和以太网端口还提供其它外围装置的连通性,例如:遥控1404;键盘1406;鼠标1408;便携娱乐装置1410,例如SonyPortable娱乐装置;视频图像传感器,例如Eye视频图像传感器1412;麦克风耳机1414;麦克风阵列1415。因此,这类外围装置大体上可无线地连接到平台单元1400;例如,便携娱乐装置1410可经由Wi-Fi自组连接进行通信,而麦克风耳机1414可经由蓝牙链路进行通信。
这些接口的提供意味着,Playstation3装置也潜在地与其它外围装置兼容,例如数字录像机(DVR)、机顶盒、数字视频图像传感器、便携媒体播放器、基于IP的语音电话、移动电话、打印机和扫描仪。
游戏控制器1402可操作以经由蓝牙链路与平台单元1400无线地通信,或者连接到USB端口,由此还提供用以对游戏控制器1402的电池进行充电的电力。游戏控制器1402还能够包括存储器、处理器、存储读卡器、诸如闪速存储器之类的永久存储器、诸如LED或红外光的光发射器、麦克风和喇叭、数字视频图像传感器、内部时钟、诸如面向游戏控制台的球形部分之类的可识别/可标识形状以及使用诸如WiFiTM等的协议的无线通信。
游戏(运动)控制器1402是设计成与两手配合使用的控制器。除了一个或多个模拟操纵杆和常规控制按钮之外,游戏控制器还易受三维位置确定的影响。因此,游戏控制器的用户的手势和移动可被转化为对游戏的输入,作为常规按钮或操纵杆命令的补充或替代。可选地,诸如PlaystationTM Portable装置之类的其它无线使能外围装置可用作控制器。在PlaystationTM Portable装置的情况下,附加游戏或控制信息(例如控制指令或生命数量)可在装置的屏幕上提供。还可使用其它备选或补充控制装置,例如跳舞毯(未示出)、光枪(未示出)、转向轮和踏板(未示出)等。
遥控1404还可操作以经由蓝牙链路与平台单元1400无线地通信。遥控1404包括适合于Blu RayTM Disk BD-ROM读取器1440的操作和光盘内容的导航的控件。
除了常规预先记录和可记录CD以及所谓的超级音频CD之外,Blu RayTM Disk BD-ROM读取器1440还可操作以读取与Playstation和PlayStation2装置兼容的CD-ROM。除了常规预先记录和可记录DVD之外,读取器1440还可操作以读取与Playstation2和PlayStation3装置兼容的DVD-ROM。读取器1440还可操作以读取与Playstation3装置兼容的BD-ROM以及常规预先记录和可记录Blu-Ray光盘。
平台单元1400可操作以提供由Playstation3装置经由现实模拟器图形单元1430通过到诸如显示器120之类的显示和声音输出装置的音频和视频连接器所生成或解码的音频和视频。音频连接器1450可包括常规模拟和数字输出,而视频连接器1452可以不同地包括分量视频、S视频、合成视频以及一个或多个高清晰度多媒体接口(HDMI)输出。因此,视频输出可采取诸如PAL或NTSC之类的格式或者720p、1080i或1080p高清晰度。
在一个实施例中,视频图像传感器1412包括单个电荷耦合器件(CCD)和LED指示器。在一些实施例中,传感器1412包括基于软件和硬件的实时数据压缩和编码设备,使得压缩视频数据可采取诸如基于图像内的MPEG(运动图像专家组)标准之类的适当格式来传送以供平台单元1400进行解码。视频图像传感器LED指示器设置成响应来自平台单元1400的适当控制数据而照亮,例如以便表示不利的照明条件。视频图像传感器1412的实施例可经由HDMI、USB、蓝牙或Wi-Fi通信端口不同地连接到平台单元1400。视频图像传感器的实施例可包括一个或多个关联麦克风,并且还能够传送音频数据。在视频图像传感器的实施例中,CCD可具有适合于高清晰度视频捕获的分辨率。在使用中,由视频图像传感器所捕获的图像例如可结合在游戏中或者解释为游戏控制输入。在另一个实施例中,视频图像传感器是适合于检测红外光的红外视频图像传感器。
图9示出按照本发明的一个实施例、可用于处理指令的附加硬件。如图6进一步所示,图8的Cell处理器1428具有包括四个基本组件的架构:外部输入和输出结构,包括存储控制器1560和双总线接口控制器1570A、B;主处理器,称作功率处理元件1550;八个协处理器,称作协作处理元件(SPE)1510A-H;以及连接上述组件的循环数据总线,称作元件互连总线1580。与Playstation2装置的Emotion Engine的6.2GFLOP相比,Cell处理器的总浮点性能为1428GFLOP。
功率处理元件(PPE)1550基于以3.2GHz的内部时钟运行的符合双向并发多线程功率1470的PowerPC核心(PPU)1555。它包括512kB第2级(L2)高速缓存1552以及32kB第1级(L1)高速缓存1551。PPE1550能够每时钟周期进行八个单位置操作,从而转换成在3.2GHz的25.6GFLOP。PPE1550的主要作用是充当处理大多数计算工作负荷的SPE1510A-H的控制器。在操作中,PPE1550保持任务队列,从而调度SPE1510A-H的任务并且监测其进度。因此,每个SPE1510A-H运行内核,其作用是取任务,运行任务,并且与PPE1550同步。
各协作处理元件(SPE)1510A-H包括相应协作处理单元(SPU)1520A-H和相应存储器流控制器(MFC)1540A-H,相应存储器流控制器(MFC)1540A-H又包括相应动态存储器存取控制器(DMAC)1542A-H、相应存储器管理单元(MMU)1544A-H和总线接口(未示出)。每个SPU1520A-H是时钟为3.2GHz并且包括大体上可扩展到4GB的256kB本地RAM1530A-H的RISC处理器。每个SPE给出理论25.6GFLOPS的单精度性能。SPU能够在单个时钟周期中对4个单精度浮点构件、4个32位数、8个16位整数或者16个8位整数进行操作。在同一时钟周期中,它还能够执行存储器操作。SPU1520A-H没有直接访问系统存储器XDRAM1426;将SPU1520A-H所形成的64位地址传递给MFC1540A-H,MFC1540A-H指示其DMA控制器1542A-H经由元件互连总线1580和存储控制器1560来访问存储器。
元件互连总线(EIB)1580是Cell处理器1428内部的逻辑循环通信总线,它将上述处理器元件、即PPE1550、存储控制器1560、双总线接口控制器1570A、B以及8个SPE1510A-H-总共12个参与方连接起来。参与方能够以每个时钟周期8个字节的速率同时对总线进行读取和写入。如前面所述,每个SPE1510A-H包括用于调度较长读和写序列的DMAC1542A-H。EIB包括四个信道,在顺时针和逆时针方向各两个。因此,对于12个参与方,任何两个参与方之间的最长步进式数据流在适当方向为六个步长。因此,在通过参与方之间的仲裁完全利用的情况下,12个时隙的理论峰值瞬时EIB带宽为每时钟96B。这等于在3.2GHz的时钟速率的307.2GB/s(吉字节每秒)的理论峰值带宽。
存储控制器1560包括由Rambus Incorporated所开发的XDRAM接口1378。存储控制器采用25.6GB/s的理论峰值带宽与Rambus XDRAM1426进行接口。
双总线接口控制器1570A、B包括Rambus
Figure BPA0000176180130000171
系统接口1572A、B。将该接口组织为各为8位宽的12个信道,其中具有入站的五个通路和出站的七个通路。
要理解,以上描述意在是说明性而不是限制性的。例如,虽然图中的流程图示出本发明的某些实施例所执行的操作的特定顺序,但是应当理解,这种顺序不作要求(例如备选实施例可按照不同顺序来执行操作、组合某些操作、重叠某些操作等)。此外,通过阅读和了解以上描述,许多其它实施例将是本领域的技术人员显而易见的。虽然参照具体示范实施例描述了本发明,但是将会知道,本发明并不局限于所述的实施例,而是能够在所附权利要求书的精神和范围之内,经过修改和变更来实施。因此,本发明的范围应当参照所附权利要求连同这类权利要求涵盖的完整等效范围共同确定。

Claims (20)

1.一种聚焦麦克风阵列的方法,包括:
接收来自所述麦克风阵列的音频信号,其中所述阵列设置成离第一对象第一距离;
通过分析所述第一对象的视觉图像来确定相对于所述麦克风阵列的所述第一对象的位置信息;以及
基于所述第一对象的所述位置信息对所述音频信号进行滤波。
2.如权利要求1所述的方法,其中,对所述音频信号进行滤波还包括将所述音频信号从第一位置转向到所述第一对象的位置。
3.如权利要求1所述的方法,其中,对所述音频信号进行滤波还包括去除源自以所述第一对象为中心的监听区域外部的所述音频信号的部分。
4.如权利要求1所述的方法,其中,所述视觉图像是形成视频段的多个图像之一,并且其中所述方法还包括接收来自设置成离所述对象所述第一距离的光学图像传感器的所述视觉图像。
5.如权利要求4所述的方法,还包括:
基于所述视频段中的所述视觉图像的变化来跟踪所述第一对象的位置的变化;以及
基于所述第一对象位置的变化将所述音频信号转向。
6.如权利要求5所述的方法,其中,分析所述视觉图像还包括:
采用模式识别算法来识别所述光学图像传感器的视场中的对象;以及
计算相对于所述光学图像传感器的所述第一对象的位置。
7.如权利要求6所述的方法,其中,计算相对于所述光学图像传感器的所述第一对象的位置还包括确定从光轴指向所述光学图像传感器的视场中的所述第一对象的中心的三维向量。
8.如权利要求6所述的方法,还包括接收所述对象的取向的变化,以及其中,基于所述第一对象的所确定位置对所述音频信号进行滤波还包括基于所述取向变化从所述第一对象的所确定位置偏移音频转向角。
9.如权利要求1所述的方法,其中,基于所述第一对象的所确定位置对所述音频信号进行滤波还包括:
将所接收音频信号变换为频域;
将所述音频信号分离为离散频带;以及
应用所述位置信息的至少一个分量以对所述频带的每个进行滤波。
10.如权利要求1所述的方法,还包括:
分析所述视觉图像,以便确定相对于所述监听装置的第二对象的位置;以及
基于所述第二对象的所确定位置将所述音频信号从所述第一对象转向到所述第二对象。
11.如权利要求10所述的方法,其中,到所述第二对象的转向还包括基于所述第一对象的所确定位置来去除源自所述第一对象附近的所述音频信号的部分。
12.一种其上存储了指令集的非暂时计算机可读介质,所述指令集在由处理系统运行时使所述处理系统执行如权利要求1所述的方法。
13.一种系统,包括:
计算平台;
麦克风阵列,耦合到所述计算平台;以及
光学图像传感器,耦合到所述计算平台,其中所述计算平台还包括:
对象跟踪模块,通过分析来自所述光学图像传感器的图像信号来确定相对于所述监听装置的第一对象的位置信息;以及
音频信号处理器,基于所述第一对象的位置信息对来自所述监听装置的音频信号进行滤波。
14.如权利要求13所述的系统,其中,所述麦克风阵列与所述光学图像传感器集成到设置成离所述对象某个距离的摄像机。
15.如权利要求14所述的系统,其中,所述对象跟踪器基于视频段中的所述视觉图像的变化来跟踪所述第一对象的所述位置信息的变化,并且其中所述音频信号处理器采用基于所述位置信息的变化所生成的滤波器系数来将所述音频信号转向。
16.如权利要求13所述的系统,其中,所述音频信号处理器:
将所接收音频信号变换为频域;
将所述音频信号分离为离散频带;以及
应用所述位置信息的至少一个分量以对所述频带的每个进行滤波。
17.如权利要求13所述的系统,其中,所述系统还包括所述第一对象,所述第一对象包括一个或多个惯性传感器,并且所述第一对象采集惯性数据并且将其传送给所述计算平台。
18.如权利要求17所述的系统,其中,所述音频信号处理器基于所述惯性数据采用从所述第一对象的所确定位置偏移的转向角对所述音频信号进行滤波。
19.如权利要求17所述的系统,其中,所述系统还包括第二对象,并且其中所述对象跟踪模块通过分析所述图像信号来确定相对于所述监听装置的所述第二对象的位置;以及
其中所述音频信号处理器基于所述第二对象的位置信息将所述音频信号从所述第一对象转向到所述第二对象。
20.如权利要求19所述的系统,其中,所述音频信号处理器基于所述第一对象的所述位置信息去除源自所述第一对象的所述音频信号的部分。
CN201180068553.5A 2010-12-16 2011-11-30 聚焦麦克风阵列的方法及系统 Active CN103404169B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US12/969,896 US8761412B2 (en) 2010-12-16 2010-12-16 Microphone array steering with image-based source location
US12/969896 2010-12-16
US12/969,896 2010-12-16
PCT/US2011/062657 WO2012082379A1 (en) 2010-12-16 2011-11-30 Microphone array steering with image-based source location

Publications (2)

Publication Number Publication Date
CN103404169A true CN103404169A (zh) 2013-11-20
CN103404169B CN103404169B (zh) 2018-06-12

Family

ID=46234474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180068553.5A Active CN103404169B (zh) 2010-12-16 2011-11-30 聚焦麦克风阵列的方法及系统

Country Status (3)

Country Link
US (1) US8761412B2 (zh)
CN (1) CN103404169B (zh)
WO (1) WO2012082379A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714734A (zh) * 2013-12-11 2015-06-17 三星电子株式会社 用于跟踪音频的方法和电子装置
WO2015168901A1 (en) * 2014-05-08 2015-11-12 Intel Corporation Audio signal beam forming
CN105611478A (zh) * 2016-03-14 2016-05-25 互联天下科技发展(深圳)有限公司 一种实时定位录音装置及方法
CN105702261A (zh) * 2016-02-04 2016-06-22 厦门大学 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置
CN107925821A (zh) * 2015-08-14 2018-04-17 诺基亚技术有限公司 监控
CN108243302A (zh) * 2016-12-26 2018-07-03 奥林巴斯株式会社 传感器信息取得装置、传感器信息取得方法及记录介质
CN109696658A (zh) * 2017-10-23 2019-04-30 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪系统及其方法
CN111724823A (zh) * 2016-03-29 2020-09-29 联想(北京)有限公司 一种信息处理方法及装置、电子设备
CN112351248A (zh) * 2020-10-20 2021-02-09 杭州海康威视数字技术股份有限公司 一种关联图像数据和声音数据的处理方法
CN113196737A (zh) * 2019-01-09 2021-07-30 杭州他若定位科技有限公司 使用基于图像的对象跟踪进行定向声音捕获
CN113519168A (zh) * 2019-03-18 2021-10-19 脸谱公司 基于麦克风阵列和深度相机组件输入的扬声器波束控制

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120277001A1 (en) * 2011-04-28 2012-11-01 Microsoft Corporation Manual and Camera-based Game Control
CN104025188B (zh) * 2011-12-29 2016-09-07 英特尔公司 声学信号修改
US8704070B2 (en) * 2012-03-04 2014-04-22 John Beaty System and method for mapping and displaying audio source locations
US9760966B2 (en) 2013-01-08 2017-09-12 Nvidia Corporation Parallel processor with integrated correlation and convolution engine
GB2516056B (en) * 2013-07-09 2021-06-30 Nokia Technologies Oy Audio processing apparatus
JP5958717B2 (ja) * 2013-07-19 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム、指向性制御方法、収音システム及び収音制御方法
US20150022636A1 (en) * 2013-07-19 2015-01-22 Nvidia Corporation Method and system for voice capture using face detection in noisy environments
WO2015048028A1 (en) 2013-09-24 2015-04-02 Sony Computer Entertainment Inc. Gaze tracking variations using selective illumination
WO2015048030A1 (en) 2013-09-24 2015-04-02 Sony Computer Entertainment Inc. Gaze tracking variations using visible lights or dots
US9468373B2 (en) 2013-09-24 2016-10-18 Sony Interactive Entertainment Inc. Gaze tracking variations using dynamic lighting position
US9769550B2 (en) 2013-11-06 2017-09-19 Nvidia Corporation Efficient digital microphone receiver process and system
US9402095B2 (en) * 2013-11-19 2016-07-26 Nokia Technologies Oy Method and apparatus for calibrating an audio playback system
US9338575B2 (en) * 2014-02-19 2016-05-10 Echostar Technologies L.L.C. Image steered microphone array
US9282399B2 (en) 2014-02-26 2016-03-08 Qualcomm Incorporated Listen to people you recognize
KR20160122835A (ko) 2014-03-18 2016-10-24 로베르트 보쉬 게엠베하 적응형 음향 강도 분석장치
US20150281839A1 (en) * 2014-03-31 2015-10-01 David Bar-On Background noise cancellation using depth
US10031721B2 (en) * 2014-05-15 2018-07-24 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
US9338544B2 (en) 2014-06-03 2016-05-10 Cisco Technology, Inc. Determination, display, and adjustment of best sound source placement region relative to microphone
EP2988302A1 (en) * 2014-08-21 2016-02-24 Patents Factory Ltd. Sp. z o.o. System and method for separation of sound sources in a three-dimensional space
DE102014217598A1 (de) * 2014-09-03 2016-03-03 Gesellschaft zur Förderung angewandter Informatik e.V. Verfahren und Anordnung zur Erfassung von akustischen und optischen Informationen sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) * 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10043281B2 (en) 2015-06-14 2018-08-07 Sony Interactive Entertainment Inc. Apparatus and method for estimating eye gaze location
US20170188140A1 (en) * 2015-12-24 2017-06-29 Intel Corporation Controlling audio beam forming with video stream data
BR112018074203A2 (pt) * 2016-05-30 2019-05-14 Sony Corporation dispositivo e método de processamento audiovisual, e, programa
US10074012B2 (en) 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
CN107026934B (zh) 2016-10-27 2019-09-27 华为技术有限公司 一种声源定位方法和装置
GB2556058A (en) * 2016-11-16 2018-05-23 Nokia Technologies Oy Distributed audio capture and mixing controlling
CN108089152B (zh) * 2016-11-23 2020-07-03 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及系统
US10531187B2 (en) 2016-12-21 2020-01-07 Nortek Security & Control Llc Systems and methods for audio detection using audio beams
US10291998B2 (en) * 2017-01-06 2019-05-14 Nokia Technologies Oy Discovery, announcement and assignment of position tracks
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
WO2018194661A1 (en) 2017-04-21 2018-10-25 Hewlett-Packard Development Company, L.P. Audio data gather
US10978187B2 (en) 2017-08-10 2021-04-13 Nuance Communications, Inc. Automated clinical documentation system and method
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
KR20190053055A (ko) 2017-11-09 2019-05-17 삼성전자주식회사 음원 취득 장치를 이용한 설비 고장 위치 판단 방법 및 이를 수행하는 설비 고장 위치 판단 시스템
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US11515020B2 (en) 2018-03-05 2022-11-29 Nuance Communications, Inc. Automated clinical documentation system and method
US20190272147A1 (en) 2018-03-05 2019-09-05 Nuance Communications, Inc, System and method for review of automated clinical documentation
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
EP3854108A1 (en) 2018-09-20 2021-07-28 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US10832695B2 (en) 2019-02-14 2020-11-10 Microsoft Technology Licensing, Llc Mobile audio beamforming using sensor fusion
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
CN114051738A (zh) 2019-05-23 2022-02-15 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
CN114051637A (zh) 2019-05-31 2022-02-15 舒尔获得控股公司 集成语音及噪声活动检测的低延时自动混波器
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
JP2022545113A (ja) 2019-08-23 2022-10-25 シュアー アクイジッション ホールディングス インコーポレイテッド 指向性が改善された一次元アレイマイクロホン
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN113038070B (zh) * 2019-12-25 2022-10-14 浙江宇视科技有限公司 一种设备调焦方法、装置和云平台
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
WO2022075035A1 (ja) * 2020-10-05 2022-04-14 株式会社オーディオテクニカ 音源定位装置、音源定位方法及びプログラム
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
TWI751866B (zh) * 2020-12-29 2022-01-01 仁寶電腦工業股份有限公司 影音通訊系統及其控制方法
US11785380B2 (en) 2021-01-28 2023-10-10 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060280312A1 (en) * 2003-08-27 2006-12-14 Mao Xiao D Methods and apparatus for capturing audio signals based on a visual image
US20070025562A1 (en) * 2003-08-27 2007-02-01 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection
US20070060336A1 (en) * 2003-09-15 2007-03-15 Sony Computer Entertainment Inc. Methods and systems for enabling depth and direction detection when interfacing with a computer program

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843568A (en) 1986-04-11 1989-06-27 Krueger Myron W Real time perception of and response to the actions of an unencumbered participant/user
US4787051A (en) 1986-05-16 1988-11-22 Tektronix, Inc. Inertial mouse system
US5128671A (en) 1990-04-12 1992-07-07 Ltv Aerospace And Defense Company Control device having multiple degrees of freedom
US5388059A (en) 1992-12-30 1995-02-07 University Of Maryland Computer vision system for accurate monitoring of object pose
US5528265A (en) 1994-07-18 1996-06-18 Harrison; Simon J. Orientation-operated cursor control device
SE504846C2 (sv) 1994-09-28 1997-05-12 Jan G Faeger Styrutrustning med ett rörligt styrorgan
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US6144367A (en) 1997-03-26 2000-11-07 International Business Machines Corporation Method and system for simultaneous operation of multiple handheld control devices in a data processing system
US6720949B1 (en) 1997-08-22 2004-04-13 Timothy R. Pryor Man machine interfaces and applications
US6375572B1 (en) 1999-10-04 2002-04-23 Nintendo Co., Ltd. Portable game apparatus with acceleration sensor and information storage medium storing a game progam
US20020085097A1 (en) 2000-12-22 2002-07-04 Colmenarez Antonio J. Computer vision-based wireless pointing system
US6982697B2 (en) 2002-02-07 2006-01-03 Microsoft Corporation System and process for selecting objects in a ubiquitous computing environment
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US8797260B2 (en) 2002-07-27 2014-08-05 Sony Computer Entertainment Inc. Inertially trackable hand-held controller
US8686939B2 (en) 2002-07-27 2014-04-01 Sony Computer Entertainment Inc. System, method, and apparatus for three-dimensional input control
US7918733B2 (en) 2002-07-27 2011-04-05 Sony Computer Entertainment America Inc. Multi-input game control mixer
US8019121B2 (en) * 2002-07-27 2011-09-13 Sony Computer Entertainment Inc. Method and system for processing intensity from input devices for interfacing with a computer program
US9474968B2 (en) 2002-07-27 2016-10-25 Sony Interactive Entertainment America Llc Method and system for applying gearing effects to visual tracking
US10086282B2 (en) 2002-07-27 2018-10-02 Sony Interactive Entertainment Inc. Tracking device for use in obtaining information for controlling game program execution
US20060282873A1 (en) 2002-07-27 2006-12-14 Sony Computer Entertainment Inc. Hand-held controller having detectable elements for tracking purposes
US7627139B2 (en) * 2002-07-27 2009-12-01 Sony Computer Entertainment Inc. Computer image and audio processing of intensity and input devices for interfacing with a computer program
US7760248B2 (en) * 2002-07-27 2010-07-20 Sony Computer Entertainment Inc. Selective sound source listening in conjunction with computer interactive processing
US20040212589A1 (en) 2003-04-24 2004-10-28 Hall Deirdre M. System and method for fusing and displaying multiple degree of freedom positional input data from multiple input sources
US7038661B2 (en) 2003-06-13 2006-05-02 Microsoft Corporation Pointing device and cursor for use in intelligent computing environments
US7489299B2 (en) 2003-10-23 2009-02-10 Hillcrest Laboratories, Inc. User interface devices and methods employing accelerometers
DE102004000043A1 (de) * 2004-11-17 2006-05-24 Siemens Ag Verfahren zur selektiven Aufnahme eines Schallsignals
US8310656B2 (en) 2006-09-28 2012-11-13 Sony Computer Entertainment America Llc Mapping movements of a hand-held controller to the two-dimensional image plane of a display screen
US8150063B2 (en) * 2008-11-25 2012-04-03 Apple Inc. Stabilizing directional audio input from a moving microphone array

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060280312A1 (en) * 2003-08-27 2006-12-14 Mao Xiao D Methods and apparatus for capturing audio signals based on a visual image
US20070025562A1 (en) * 2003-08-27 2007-02-01 Sony Computer Entertainment Inc. Methods and apparatus for targeted sound detection
US20070060336A1 (en) * 2003-09-15 2007-03-15 Sony Computer Entertainment Inc. Methods and systems for enabling depth and direction detection when interfacing with a computer program

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714734A (zh) * 2013-12-11 2015-06-17 三星电子株式会社 用于跟踪音频的方法和电子装置
CN104714734B (zh) * 2013-12-11 2019-09-13 三星电子株式会社 用于跟踪音频的方法和电子装置
WO2015168901A1 (en) * 2014-05-08 2015-11-12 Intel Corporation Audio signal beam forming
US9913027B2 (en) 2014-05-08 2018-03-06 Intel Corporation Audio signal beam forming
CN107925821A (zh) * 2015-08-14 2018-04-17 诺基亚技术有限公司 监控
CN107925821B (zh) * 2015-08-14 2020-12-11 诺基亚技术有限公司 监控
CN105702261A (zh) * 2016-02-04 2016-06-22 厦门大学 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置
CN105611478A (zh) * 2016-03-14 2016-05-25 互联天下科技发展(深圳)有限公司 一种实时定位录音装置及方法
CN105611478B (zh) * 2016-03-14 2019-04-23 互联天下科技发展(深圳)有限公司 一种实时定位录音装置及方法
CN111724823B (zh) * 2016-03-29 2021-11-16 联想(北京)有限公司 一种信息处理方法及装置
CN111724823A (zh) * 2016-03-29 2020-09-29 联想(北京)有限公司 一种信息处理方法及装置、电子设备
CN108243302A (zh) * 2016-12-26 2018-07-03 奥林巴斯株式会社 传感器信息取得装置、传感器信息取得方法及记录介质
CN109696658A (zh) * 2017-10-23 2019-04-30 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪系统及其方法
US11525883B2 (en) 2017-10-23 2022-12-13 Beijing Boe Technology Development Co., Ltd. Acquisition equipment, sound acquisition method, and sound source tracking system and method
CN113196737A (zh) * 2019-01-09 2021-07-30 杭州他若定位科技有限公司 使用基于图像的对象跟踪进行定向声音捕获
CN113196737B (zh) * 2019-01-09 2022-10-11 杭州他若定位科技有限公司 使用基于图像的对象跟踪进行定向声音捕获
CN113519168A (zh) * 2019-03-18 2021-10-19 脸谱公司 基于麦克风阵列和深度相机组件输入的扬声器波束控制
CN112351248A (zh) * 2020-10-20 2021-02-09 杭州海康威视数字技术股份有限公司 一种关联图像数据和声音数据的处理方法

Also Published As

Publication number Publication date
CN103404169B (zh) 2018-06-12
US20120155703A1 (en) 2012-06-21
US8761412B2 (en) 2014-06-24
WO2012082379A1 (en) 2012-06-21

Similar Documents

Publication Publication Date Title
CN103404169A (zh) 采用基于图像的源位置的麦克风阵列转向
CN102257830B (zh) 具有最少用户输入的跟踪系统校准
CN103559006B (zh) 利用视线跟踪的自适应显示
CN104010706B (zh) 视频游戏的方向输入
JP4921550B2 (ja) ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
JP5512804B2 (ja) オブジェクトの位置及び向きを用いた追跡システムの較正
CN102707797B (zh) 通过自然用户界面控制多媒体系统中的电子设备
EP2427811B1 (en) Base station movement detection and compensation
JP6001542B2 (ja) 携帯デバイスによるインタラクティブアプリケーションのビデオキャプチャを可能とするためのシステム
US8253801B2 (en) Correcting angle error in a tracking system
KR20180107782A (ko) 가상현실 헬멧 및 그 사용 방법
EP4184927A1 (en) Sound effect adjusting method and apparatus, device, storage medium, and computer program product
CN101479782A (zh) 多输入游戏控制混合器
JP2014241592A (ja) オプティカルフローに基づく傾きセンサー
CN104162274A (zh) 利用图像分析和超声波通信对控制器三维定位的确定
CN104043245B (zh) 游戏控制器
US20150138063A1 (en) Motion control of a virtual environment
CN112637529B (zh) 一种录像处理方法、装置、存储介质及电子设备
US8885878B2 (en) Interactive secret sharing
CN103327234A (zh) 图像处理装置、以及图像处理方法
Churnside et al. The Virtual Maestro-The Creation of an Immersive, Interactive Orchestral Experience

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant