CN1258162A - 便携式捕获设备的语音控制输入 - Google Patents

便携式捕获设备的语音控制输入 Download PDF

Info

Publication number
CN1258162A
CN1258162A CN99118355A CN99118355A CN1258162A CN 1258162 A CN1258162 A CN 1258162A CN 99118355 A CN99118355 A CN 99118355A CN 99118355 A CN99118355 A CN 99118355A CN 1258162 A CN1258162 A CN 1258162A
Authority
CN
China
Prior art keywords
capture device
voice
cognition
model
control input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99118355A
Other languages
English (en)
Other versions
CN1214612C (zh
Inventor
T·C·奥利弗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of CN1258162A publication Critical patent/CN1258162A/zh
Application granted granted Critical
Publication of CN1214612C publication Critical patent/CN1214612C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32122Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate device, e.g. in a memory or on a display separate from image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3222Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of processing required or performed, e.g. forwarding, urgent or confidential handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3274Storage or retrieval of prestored additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3278Transmission

Abstract

公开一种接收用于操作控制的语音命令的诸如手持文件扫描仪或数字摄像机的便携式捕获设备(100)。“扫描”,“存储”,“删除”,“左”,“图像放大”和“发送”等命令是说明性的,这里捕获设备(100)执行与命令名字相关的预定操作。在一个实施例中,便携式捕获设备(100)通过语音分析软件(124)训练自己去识别用户的口头命令。语音分析软件(124)可位于捕像设备(100)内,或者在主机系统(200)上并由捕像设备(100)在连接到主机系统(200)时访问。

Description

便携式捕获设备的语音控制输入
本申请是1998年2月19日登记的题为《用于便携式扫描应用的扫描图像的语音注释》的Thomas C.0liver的系列号为09/026,082的申请的部分继续申请,该申请在这里引作参考。
本发明涉及手持文件扫描仪或数字摄像机等便携式捕获设备。本发明更具体地涉及用于便携式手持文件扫描仪或数字摄像机的语音控制输入。
手持文件扫描仪或数字摄像机等便携式捕获设备已被证明在某些情况下是十分有用的工具。它们在从离开用户办公室和工作地点的不同的位置捕捉或存储信息方面的可携带性和简易性是这类捕获设备的主要优点。
虽然这类便携式捕获设备已经很小,但人们还希望将其尺寸减得更小或是更便于携带。然而,目前的物理用户接口要求大大限制了尺寸的进一步减小。例如,大多数便携式手持文件扫描仪一般具有让用户控制许多不同操作的10至15个用户输入键。这些操作包括:启动与停止扫描;存储与删除扫描信息;发送扫描信息;以及在扫描仪显示屏上对扫描数据进行观察、变焦和画面平移。这些键必须足够大,适当地隔开,以便用户易于控制和按键。这些键还必须以这样一种方式放置,以便在捕获设备的正常转移和操作过程中,以及使用便携式扫描仪设备来扫描文件时,用户可以操作该便携式扫描仪设备但不会按键激活各种并不想激活的功能。键有时要组合使用,使得扫描仪设备用起来有点笨拙。因为用户输入键所占的物理空间,这类捕获设备上的输出显示屏常常必须很小,使得显示屏用起来起不到所希望的那么多作用。对于便携式数字摄像机可以说也是一样。
因此,在本专业内显然需要一种能够减少操作便携式捕获设备所需的用户输入键数量、而同时降低用户接口的复杂性的改进的方法和装置。在本专业内还需要进一步减小便携式捕获设备的尺寸,以便进一步提高其可携带性和使用的简易性。在本专业内的另一个需要是在便携式捕获设备中使用更大、更易读的显示屏,而同时保持便携式捕获设备的较小的总体尺寸。本发明满足本专业内的这些及其它需要。
本发明的一个方面是利用用户语音输入来控制诸如手持文件扫描仪或数字摄像机之类的便携式捕获设备的操作。
本发明的另一个方面是减少便携式捕获设备上的用户输入键的数量。
本发明的再另一个方面是通过省去一些用户输入键来减小便携式捕获设备的总体尺寸。
本发明的又另一个方面是通过利用已被省去的许多用户输入键原来占据的一些物理空间来增加便携式捕获设备的输出显示范围,且同时减小便携式捕获设备的总体尺寸。
本发明的另一个方面是让便携式捕获设备的操作由用户说出的可闻密码来开启。
本发明的又另一个方面是把便携式捕获设备连接到主机,以便训练便携式捕获设备识别用户的语音控制输入命令。
本发明在另一个实施例中的又另一个方面是利用设置在便携式捕获设备中不需要由主机训练的有限的语音控制输入命令集。
本发明的以上和其它方面在接收语音控制输入命令来控制其操作的便携式捕获设备中得以实现。为了启动捕获设备的动作,比如利用便携式手持文件扫描仪的扫描动作,用户接通捕获设备的电源,然后输入语音控制输入命令“扫描”,该语音控制输入命令“扫描”被捕获设备通过位于捕获设备内的语音传感元件拾取。捕获设备在识别命令“扫描”之后将等候一段预定的时间,通常是几秒钟,以便用户将捕获设备放到文件上。在延时之后,捕获设备准备扫描,这通过可闻高频笛音或可闻字“扫描”的重复来提示用户。然后,用户将便携式手持文件扫描仪在文件表面移过。便携式手持文件扫描仪在探测到预定的时间段内没有移动之后,将会再次发出高频笛音或输出另一个可闻字比如“完了”或“停”,来提示用户捕获设备相信不应继续在扫描方式下了。如果捕获设备在高频笛音或可闻字输出之后的预定时间内,通常是几秒钟,没有探测到继续的移动,便携式手持文件扫描仪离开扫描方式,并开始处理扫描数据,以备在便携式手持文件扫描仪显示屏上输出给用户。在本发明的另一个实施例中,用户按下便携式手持文件扫描仪上的键来停止扫描方式。然后,便携式手持文件扫描仪处理扫描数据以便输出给用户。
一旦图像输出到显示屏上,用户可以发出语音控制输入命令来“存储”或“删除”扫描图像。用户也可以通过发出“放大”、“缩小”、“左”、“右”、“上”或“下”等语音控制输入命令来观察图像的不同部分。用户也可以借助已建立的连接、通过发出“发送”或“全部发送”等语音控制输入命令,将一幅或多幅扫描图像传输到主机上。一旦捕获设备识别命令,它就进行所需操作。如果捕获设备处理语音输入命令而未发现匹配项时,就将可闻字或高频笛音等无匹配项提示输出给用户。然后,捕获设备等候接收下一个语音控制输入命令。
通过使用口头密码,语音控制输入使得供捕获设备用的装置向特定的用户“开启”。一旦捕获设备接通电源,在接收并处理正确的密码之前它不会动作。只要用户的密码没被偷听,这可以避免除了用户之外的人使用捕获设备。
在本发明的一个实施例中,便携式手持文件扫描仪等便携式捕获设备通过语音分析软件,被训练来识别用户的口头语音控制输入命令。语音分析软件可以设置在捕获设备内,或者设置在主机系统内,当捕获设备连接到主机系统时,供捕获设备访问。在本发明的最佳实施例中,使用联机方式,以便利用主机系统内可获得的更大的计算能力,并降低捕获设备的复杂性。
例如,在训练方式中使用语音分析软件时,要把捕获设备可以通过语音控制输入命令执行的预定功能清单给予用户。例如,命令1可以表示执行文件或图像的扫描功能的指令集。在选择命令1进行训练和分析时,语音分析软件将提示用户选择用户想用来调用扫描功能指令集的字。然后,将提示用户多次重复所选字。合乎逻辑的选择应该是选择字“扫描”,但用户所选的任何字都是可用的。字“扫描”的每次重复都被捕获设备拾取,并被语音分析软件分析,以便产生包含用户发出“扫描”命令的语音的变化和音调的识别模型。用户所选用来调用各种功能的所有字的识别模型都存储在捕获设备的静态存储器的命令识别表内。在命令识别表内的识别模型各自链接预定的、也存储在静态存储器内的各种功能的指令集。因此,当口头语音控制输入命令字被捕获设备接收和识别时,与该命令字相关的指令集就被执行。由于功能的指令集取决于用户的字选择和随后对那个字选择的训练和语音分析,所以,本实施例是与语言无关的,使得可以将外语用作语音控制输入命令字。
在本发明的另一个实施例中,不向用户提供字选择来进行训练和语音分析。命令识别表内的识别模型是预定的,并与用户必须使用的特定字相关。例如,用户可能必须修正他或她的命令字“扫描”的发音,直到捕获设备可以识别象用户那样说出的命令。因此,在该实施例中,设备要先对准一种特定的语言,在该语言中,命令字表示所引起的动作。可以为使用表示所引起动作的外文字的用户制作该设备的外语型式。
便携式捕获设备具有由控制器控制的语音声频输入/输出系统。当接收语音控制输入命令时,控制器将数字化语音输入存储在动态存储器内。然后,控制器处理命令,并且把命令识别模型与存储在静态存储器中命令识别表内的识别模型进行比较。当找到匹配项之后,开始执行与识别模型相关的指令集。特定命令的指令集可以包括通过输出可闻高频笛音、命令名称的可闻播放,或使发光二极管(LED)发光,向用户认可命令。特定命令也可以具有内嵌在指令集中的一次或多次延时,让用户有时间实际操作捕获设备或取消命令。如果用户对刚发出的命令改变主意,或者,如果捕获设备未正确地理解命令,用户可以通过捕获设备上的取消或清除键,或者通过可以取消所接收的先前命令的语音控制输入命令,在命令执行之前将其取消。否则,如果没有接收到取消命令的输入,就会执行该命令的指令集。
对于允许对诸如利用数字摄像机获得的捕获图像数据文件、或诸如利用便携式扫描仪获得的文档数据文件进行语音注释的便携式捕获设备,捕获设备从语音注释中分辨语音控制输入命令。在本发明的一个实施例中,语音控制输入注释命令用于制备捕获设备,以便接受紧接在后面的、作为当前图像数据文件或文档数据文件的语音注释的语音输入。无语音输入的预定时间段内的静寂用来表示语音注释完毕。在本发明的另一个实施例中,采用了类似于磁带记录器上的记录键的使用范例。将捕获设备上的一个键按下并保持按下状态,表示下一个语音输入是为着注释用的,不是一条命令。一旦语音注释完毕,用户释放该键,所获得的语音注释经捕获设备处理,并连接到当前的图像数据文件或文档数据文件。
通过阅读以下结合附图对本发明的更具体的描述,就可以更好地理解本发明的以上和其它方面、特征和优点,其中:
图1表示本发明的捕获设备的方框图;
图2表示与本发明的捕获设备通信的主机系统的方框图;
图3表示本发明的捕获设备操作中的语音控制输入的总体流程的流程图;
图4表示本发明的捕获设备处理语音控制输入命令的流程图;
图5表示本发明的捕获设备执行命令的总体流程图;以及
图6表示训练本发明的捕获设备来识别语音控制输入命令的流程图。
以下描述针对目前能考虑到的实施本发明的最好方式。该描述并不是要用于限制,而仅仅是为了描述本发明的基本原则。本发明的范围应该以后附的权利要求书为基准来确定。
图1表示本发明的捕获设备的方框图。现在参考图1,通过按下电源接通键来接通捕获设备100的电源,该电源接通键是捕获设备100上的几个控制键120之一。捕获设备100从内部电池(图1未示出)接收其电力,或者通过连接到捕获设备100并接通电源(图1亦未示出)的电力电缆接收其电力。通过用户靠得足够近说话、以便被语音传感元件102拾取来提供控制捕获设备100的语音输入命令。语音传感元件102将用户的语言转换为模拟信号。连接到语音传感元件102的是模数转换器104,该模数转换器104将语音传感元件102产生的模拟信号转换成数字信号。数字信号由模数转换器104发送到控制器106,该控制器106将信号存入连接到控制器106的动态存储器118。然后,在本发明的最佳实施例中,控制器106调用存储在本发明的静态存储器116中的语音分析软件120,以便对存储在动态存储器118内的数字信号进行一系列频率域变换。语音分析软件120产生识别模型,该识别模型是频谱变换,与存储在静态存储器116的命令识别表122内的命令的识别模型(也是频谱变换)相比较。本专业的技术人员会知道,用来识别语音模型的任何其他适当方法都可以用在本发明中取代频谱变换。
如果有匹配项,那么控制器106访问连接到命令识别模型的命令识别表122内的指令集。例如,在说出扫描文件的语音控制输入命令之后,用户这样便携式捕获设备100,以便图像拾取部件112与文件表面的部分或全部接触。图像拾取部件112光学性地从文件的表面读取取样点,并产生各取样点的灰度值。控制器106接收取样点的灰度值,并将之组成图像阵列。该结果可以输出到连接到控制器106的显示屏114,显示出扫描文件表面的视觉影像。控制器106还将灰度值转换为用于显示或存储的二进制格式。或者灰度格式或者二进制格式的图像阵列由控制器106传递,并作为文档数据文件存储在静态存储器116内。
在扫描文件之后,用户可以对语音传感元件102说话,以便用描述性的叙述或其他用户认为有用的信息对文档数据文件进行语音注释。在本发明的一个实施例中,为了分辨语音注释(这是在一段较长的时间内相当连续的语音输入流)与语音控制输入命令(这通常是一两个单词),用户在说话前将几个控制键120中的一个按下并保持按下的状态,将按下键的输入信号发送给控制器106,指示以下语音输入流是注释而非命令。在用户完成语音注释之后,用户释放控制键120,将松开键的输入信号发送给控制器106,这标志着语音输入流的结束。所获取的语音输入流作为语音注释文件存储在静态存储器116内,并与已经被扫描和存储在静态存储器116内的文档数据文件连接。
在本发明的另一个实施例中,语音控制输入命令之一是语音注释命令。在发出语音控制输入注释命令之后,接着的用于注释目的的语音输入流被获取,并被作为语音注释文件存储,与已被获取并存储在捕获设备中的图像数据文件或文档数据文件相连接。当用户停止说话的时间超过预定的时间段、比如在5秒至10秒之间时,设备将这段预定时间内没有语音输入解释为语音输入流的结束。
当接收并识别语音控制输入注释命令,或者,将几个控制键120之一按下并保持按下的状态、表示以下语音输入是为着注释目的之后,来自用户的语音输入被语音传感元件102获取,并转换为模拟信号。模数转换器104将语音传感元件102产生的模拟信号转换为数字信号。将数字信号发送给控制器106。控制器106将语音注释数字信号作为单独的语音注释文件存储在静态存储器116内,并将图像数据文件或文档数据文件与语音注释文件相连接。
用户可能要求文件扫描设备100重放语音注释文件。控制器106从静态存储器116中检索所需的语音注释文件,并将之传递给把数字信号转换为模拟信号的数模转换器108,并将模拟信号传递给产生声频输出的扬声器110。此外,特定的命令指令集可以利用数模转换器108和扬声器110,,向用户发送听得到的输出信号,或者使发光二极管(LED)(图1未示出)发光,以确认接收到所述命令。
图像数据文件或文档数据文件及所连接的语音注释文件可以通过连接到控制器106的主机连接122复制到另一个设备上,比如主机系统200上(图2)。
图2表示与本发明相关的主机系统的方框图。现在参考图2,主机系统200包含处理单元202。处理单元202通过系统总线204与主机系统200的其他单元通信。键盘206让用户可以将信息输入到主机系统200,图形显示器210允许主机系统200将信息输出给用户。鼠标208也用来输入信息,存储设备212用来在主机系统200内存储数据和程序。也连着系统总线204的通信接口214从捕获设备100(图1)接收信息。连接到系统总线204的扬声器/声卡216将声频信息输出给用户。有些主机系统可能没有声卡,在这种情况下扬声器仅由软件驱动。也连接到系统总线204上的存储器218包含操作系统220、文件转移软件222、语音分析软件224、用户接口程序226和声频文件转换软件228。
文件转移软件222通过通信接口214和系统总线204接收从捕获设备100的主机连接122(图1)传输的图像数据文件或文档数据文件和所连接的语音注释文件,并将之存入存储设备212。当用户访问用户接口程序226,并选择具有语音注释文件的图像数据文件或文档数据文件时,声频文件转换软件228将语音注释文件解压并转换为扬声器/声卡216可以识别的声频文件格式。扬声器/声卡216将声频信息输出给用户。在听到声频信息之后,用户可以选择观察图像数据文件或文档数据文件。如果这样,将用户接口程序226挂起,调用与图像数据文件或文档数据文件相关的应用程序,将所述文件显示在图形显示器210上。
在本发明的与语言无关的最佳实施例中,也位于捕获设备100内的语音分析软件224被用户用来训练捕获设备100识别任何语言的用户的语音控制输入命令。捕获设备100首先连接到主机系统200以利用更大的计算能力。然后,用户访问语音分析软件224并选择由用户选择的调用所述功能的字来代表的特定功能,以便训练,比如扫描功能。然后用户将用户所选择的代表扫描功能的字重复几次。最可能被用户选中的字是等同或接近扫描功能的字,不管用户说的是什么语言。对于说英语的用户,最可能被选中的字是“扫描”。用户对字“扫描”的重复被语音传感元件102(图1)所获取,在捕获设备100内被处理成为信号,并通过主机连接122传输给通信接口214。通信接口214通过系统总线204将每一种信号传输给存储器218,在此,语音分析软件224分析每一种信号。语音分析软件224根据每一种采样信号产生识别模型,以便包含用户在发出“扫描”命令时的语音方面的变化和音调。对于可以利用捕获设备100的语音输入控制命令调用的每一项功能都重复该过程。然后,把为所选择的用于训练的全部字生成的识别模型从主机系统200下载到捕获设备100上,并存储在静态存储器116(图1)命令识别表126内,以备随后控制操作使用。
图3表示捕获设备的语音控制输入操作的总体流程的流程图。现在参考图3,在步骤300,捕获设备100(图1)接通电源。在步骤302,语音传感元件102(图1)接收第一语音控制输入命令,该第一语音控制输入命令在本发明的最佳实施例中是密码。步骤304调用图4来处理语音控制输入命令。从图4返回之后,步骤306确定在图4的步骤408中执行的、对于在步骤302中接收的语音控制输入命令的识别模型与存储在命令识别表126内的任一识别模型的比较中是否发现匹配项。如果没有发现匹配项,步骤310向用户输出无匹配项的提示,这可能是听得到的字或者特殊的高频笛音模型。然后,控制过程返回步骤302,在此,捕获设备100等待下一个语音控制输入命令。
如果步骤306确定从图4的步骤408中发现了匹配项,那么控制过程转向步骤308,步骤308调用图5,以便执行与命令相关的指令集。从图5返回之后,步骤312确定是否接收到下一个语音控制输入命令,或者电源是否断开。如果接收到下一个命令,控制返回步骤302。如果电源断开,那么捕获设备100的操作结束。
图4表示本发明的捕获设备处理语音控制输入命令的流程图。现在参考图4,在步骤400中由语音传感元件102(图1)获取的语音控制输入命令被语音传感元件102以模拟信号的形式输出。在步骤402中,模数转换器104(图1)接收模拟信号作为输入信号,将模拟信号转换为数字信号,并将数字信号输出给控制器106(图1)。在步骤404,控制器106接收数字信号作为输入信号,并将数字信号存入动态存储器118(图1)。在步骤406,控制器106调用语音分析软件120来对在步骤404存储的数字信号进行频率域转换,产生识别模型。在步骤408,控制器106将来自步骤406的识别模型与存储在静态存储器116(图1)的命令识别表126内的语音控制输入命令的识别模型进行比较。然后,控制过程转向图3。
图5表示本发明的捕获设备执行命令的总体流程图。本专业的技术人员会知道这些步骤的顺序可以根据与特殊命令相关的所需操作大大地改变。现在参考图5,步骤500访问与在步骤302接收的语音控制输入命令匹配的识别模型相链接的指令集。步骤502确定指令集是否以延时指令开始。如果回答是,那么在步骤504执行延时指令,暂停指令集内的剩余指令的进一步执行,直到延时所指定的时间过去。在步骤504的延时之后,或者如果步骤502确定没有延时指令,控制过程转向步骤506。
步骤506确定指令集内的下一个指令是否需要输出对所述命令的确认。如果回答是,那么在步骤508执行确认指令。根据特定的命令,所述确认可以用以下方式作出:听得到的高频笛音、所接收的语音控制输入命令的语音重放、使LED发光,或者其他合适的方法。在步骤508执行确认指令之后,或者如果步骤506确定没有确认指令,则控制过程转向步骤510。
步骤510确定指令集内的下一个指令在剩余指令的进一步执行之前是否需要用户的确认输入信号。某些命令,比如删除命令,可能需要确认来作为帮助防止有用数据的无意中的损坏的安全预防措施。如果在步骤510回答是,那么步骤512确定是否从用户接收到了正确的确认输入信号。根据特定的命令,确认可能要求用户按下所述几个控制键120之一。或者,用户还得发出另一个语音控制输入命令作为确认。如果没有接收到正确的确认输入信号,或者在步骤512根本没有接收到输入信号,控制过程返回图3的步骤302,以便等待下一个语音控制输入命令。如果在步骤512接收到正确的确认输入信号,或者如果步骤510确定没有确认指令,则控制过程转向步骤514。
步骤514确定是否接收到取消命令的输入信号。如果在步骤514接收到取消输入信号,那么控制转向图3的步骤302,以便等待下一个语音控制输入命令。如果在步骤514没有接收到取消输入信号,那么控制过程转向执行命令的指令集的剩余指令的步骤516。当执行指令集的最后一个指令之后,控制过程转向图3的步骤312。
图6表示训练本发明的捕获设备来识别用户语音控制输入命令的流程图。现在参考图6,在步骤600,把语音分析软件224载入主机系统200(图2)的存储器218。捕获设备100在步骤602接通电源。在步骤604,把捕获设备100(图1)连接到主机系统200。这可以通过电缆、红外光束或其他合适的连接。在步骤606,在语音分析软件224内接受来自用户的输入信号,该语音分析软件224选择用于对调用所述功能的命令字进行训练和语音分析的第一功能。然后语音分析软件224在步骤608提示用户对着捕获设备100的语音传感元件102(图1)出声重复用户选作调用第一功能的命令字好几次。在步骤610,由语音传感元件102获取的命令字的多次语音输入被捕获设备100处理成为数字信号,并发送给主机系统200内的语音分析软件224。在步骤612,语音分析软件224分析在步骤610接收到的多次数字信号,并产生命令字的识别模型。在步骤614,把步骤612的识别模型存入存储器218。
步骤616确定用户是否选择用于对调用下一项功能的命令字进行训练和语音分析的下一项功能,或者是否接收到用户已完成选择用于训练和语音分析的功能的指示。如果在步骤616选择了下一项功能,则控制过程返回步骤606。如果接收到用户已完成选择功能的指示,那么在步骤618语音分析软件224将在步骤612确定、并在步骤614存储的所有识别模型通过在步骤602建立的连接传输给捕获设备100。在步骤620,把步骤618中传输的识别模型存入静态存储器116的命令识别表126内,使得每项功能的识别模型链接到也存储在命令识别表126内的指令集,以备在接收到被处理成为识别模型时与在步骤612确定的识别模型之一匹配的语音控制输入命令之后执行。在步骤620之后,对捕获设备100的命令字的训练和语音分析结束。
如此描述过本发明的当前最佳实施例之后,本专业的技术人员应该了解,他们自己可以在不偏离权利要求中限定的本发明的范围的情况下,提出结构与电路上的许多更改以及本发明的许多不同的实施例和应用。这里所公开的和所描述的意在说明,在任何意义上都不是对本发明的限制,本发明的范围由以下权利要求限定。

Claims (10)

1.捕获设备(100)的语音控制输入方法,所述方法包括以下步骤:(a)用所述捕获设备(100)中的语音传感元件(102)获取(302)
第一语音控制输入命令;(b)将所述第一语音控制输入命令转换(400)为第一模拟信号;(c)将所述第一模拟信号转换(402)为第一数字信号;(d)将所述第一数字信号转换(406)为第一识别模型;(e)比较(408)所述第一识别模型与存储在所述捕获设备(100)
的静态存储器(116)的命令识别表(126)内的至少一个识别
模型;以及(f)当所述第一识别模型与存储在所述命令识别表(126)内的所述
至少一个识别模型匹配(306)时,执行(308)链接到所述至
少一个识别模型的第一指令集。
2.根据权利要求1的捕获设备(100)的语音控制输入方法,其特征在于所述捕获设备(100)是扫描设备。
3.根据权利要求1的捕获设备(100)的语音控制输入方法,其特征在于所述捕获设备(100)是数字摄像机。
4.根据权利要求1的捕获设备(100)的语音控制输入方法,其特征在于步骤(b)还包括步骤(b1),步骤(c)还包括步骤(c1)至(c3):(b1)将所述第一模拟信号输入到所述捕获设备(100)内的模数转换器(104);(c1)在所述模数转换器(104)中将所述第一模拟信号转换为所述第一数字信号;(c2)将来自所述模数转换器(104)的所述第一数字信号传输到所述捕获设备(100)内的控制器(106);以及(c3)由所述控制器(106)将所述第一数字信号存入所述捕获设备(100)的动态存储器(118)。
5.根据权利要求1的捕获设备(100)的语音控制输入方法,其特征在于步骤(d)还包括步骤(d1):(d1)对存储在所述捕获设备(100)的动态存储器(118)内的所述第一数字信号进行(406)多次频率域变换,产生所述第一识别模型,其中所述第一识别模型是所述第一数字信号的频谱变换。
6.根据权利要求1的捕获设备(100)的语音控制输入方法,其特征在于步骤(a)还包括在步骤(a)之前执行的步骤(a0a)至(a0j):(a0a)将语音分析软件(224)载入(600)主机系统(200)的存储器(218);(a0b)将所述捕获设备(100)与所述主机系统(200)相连接(604);(a0c)选择(606)一种预定功能,利用所述语音分析软件(224)对用于调用所述预定功能的至少一个字进行训练和语音分析;(a0d)在所述捕获设备(100)的所述语音传感元件(102)内获取(610)所述至少一个字的多次语音输入;(a0e)在所述捕获设备(100)内将所述多个语音输入处理(610)成为多个数字信号;(a0f)将所述多个数字信号从所述捕获设备(100)发送(610)给所述主机系统(200);(a0g)用所述语音分析软件(224)分析(612)所述多个数字信号;(a0h)从用所述语音分析软件(224)对所述多个数字信号的所述分析中产生(612)所述至少一个识别模型;(a0i)将所述至少一个识别模型存入(614)所述主机系统(200)的所述存储器(218);(a0j)将所述主机系统(200)的存储器(218)内的所述至少一个识别模型传输(618)到所述捕获设备(100)的所述静态存储器(116)的所述命令识别表(126)内,其中,所述至少一个识别模型被链接到存储在所述命令识别表(126)内的所述第一指令集,以便执行所述预定的功能;以及(a0k)对于多项预定功能,重复步骤(a0c)至(a0j),其中,从关于多个所述多个至少一个字的所述多个语音输入产生多个识别模型,并且,其中所述多个识别模型存储在所述捕获设备(100)的所述静态存储器(116)的所述命令识别表(126)内,其中,所述多个识别模型中的每一个被链接到存储在所述命令识别表(126)内的多个预定指令集之一,以便执行所述多种预定的功能之一。
7.根据权利要求6的捕获设备(100)的语音控制输入方法,其特征在于步骤(a0a)被新的步骤(a0a)代替,步骤(a0b)、(a0f)和(a0i)被取消,步骤(a0j)被新的步骤(a0j)代替:(a0a)访问所述捕获设备(100)的所述静态存储器(116)内的语音分析软件(124);以及(a0j)将所述至少一个识别模型存入所述捕获设备(100)的所述静态存储器(116)的所述命令识别表(126)内,其中,所述至少一个识别模型被链接到存储在所述命令识别表(126)内的所述第一指令集,以便执行所述预定的功能。
8.根据权利要求6或权利要求7的捕获设备(100)的语音控制输入方法,其特征在于所述至少一个字是与语言无关的。
9.根据权利要求1的捕获设备(100)的语音控制输入方法,其特征在于代表语音注释命令的所述第一识别模型与存储在所述命令识别表(126)内的所述至少一个识别模型匹配,并且,其中在步骤(f)执行的所述第一指令集还包括以下步骤(f1)至(f8):(f1)执行步骤(f2)至(f6),直到在预定的时间间隔内没有语音输入;(f2)利用所述捕获设备(100)内的所述语音传感元件(102)获取语音输入流;(f3)将所述语音输入流转换为第二模拟信号;(f4)将所述第二模拟信号输入到所述捕获设备(100)内的模数转换器(104);(f5)在所述模数转换器(104)内将所述第二模拟信号转换为所述第二数字信号;(f6)将来自所述模数转换器(104)的所述第二数字信号传输到所述捕获设备(100)内的控制器(106);(f7)由所述控制器(106)将所述第二数字信号作为语音注释文件存入所述捕获设备(100)的所述静态存储器(116);以及(f8)将所述语音注释文件与存储在所述静态存储器(116)内的数据文件连接。
10.根据权利要求l的捕获设备(100)的语音控制输入方法,其特征在于还包括以下步骤:(g)在控制器(106)内从所述捕获设备(100)上的注释控制键接
收按下键的输入信号;(h)执行步骤(i)至(m),直到在所述控制器(106)内从所述注
释控制键接收到松开键的输入信号;(i)利用所述语音传感元件(102)获取语音输入流;(j)将所述语音输入流转换为第二模拟信号;(k)将所述第二模拟信号输入到所述捕获设备(100)内的模数转换
器(104);(l)在所述模数转换器(104)内将所述第二模拟信号转换为所述第
二数字信号;(m)将来自所述模数转换器(104)的所述第二数字信号传输到所述
捕获设备(100)内的控制器(106);(n)在所述控制器(106)内从所述捕获设备(100)上的所述注释
控制键接收松开键的输入信号;(o)由所述控制器(106)将所述第二数字信号作为语音注释文件存
入所述捕获设备(100)的所述静态存储器(116);以及(p)将所述语音注释文件与存储在所述静态存储器(116)内的数据
文件连接。
CNB99118355XA 1998-12-23 1999-08-23 便携式捕获设备的语音控制输入 Expired - Fee Related CN1214612C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/219,970 US6289140B1 (en) 1998-02-19 1998-12-23 Voice control input for portable capture devices
US09/219970 1998-12-23

Publications (2)

Publication Number Publication Date
CN1258162A true CN1258162A (zh) 2000-06-28
CN1214612C CN1214612C (zh) 2005-08-10

Family

ID=22821493

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB99118355XA Expired - Fee Related CN1214612C (zh) 1998-12-23 1999-08-23 便携式捕获设备的语音控制输入

Country Status (6)

Country Link
US (1) US6289140B1 (zh)
EP (1) EP1014338A1 (zh)
JP (1) JP2000215021A (zh)
KR (1) KR20000057082A (zh)
CN (1) CN1214612C (zh)
TW (1) TW442772B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100345056C (zh) * 2002-12-12 2007-10-24 富士胶片株式会社 数字照相机
CN100403255C (zh) * 2005-03-17 2008-07-16 英华达(上海)电子有限公司 一种利用声音操作游戏的方法
CN101827220A (zh) * 2009-03-05 2010-09-08 汤姆森许可贸易公司 创建照片动画系列的方法以及实现该方法的设备
US7813630B2 (en) 2007-12-19 2010-10-12 Chi Mei Communication Systems, Inc. Image capturing device with a voice command controlling function and method thereof
CN101964204A (zh) * 2010-08-11 2011-02-02 方正科技集团苏州制造有限公司 一种录音和笔记对应的方法
CN102404454A (zh) * 2011-11-16 2012-04-04 北京百纳威尔科技有限公司 移动终端的拍摄控制方法及装置
CN102708540A (zh) * 2012-04-21 2012-10-03 上海量明科技发展有限公司 一种针对截屏区域进行缩放的方法及客户端
WO2014023080A1 (en) * 2012-08-05 2014-02-13 Hiti Digital, Inc. Image capture device and method for image processing by voice recognition
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
CN107786766A (zh) * 2016-08-29 2018-03-09 河源市新天彩科技有限公司 一种扫描仪的操作方法及扫描仪
CN109542386A (zh) * 2017-09-22 2019-03-29 卡西欧计算机株式会社 录音装置
CN111586255A (zh) * 2020-04-01 2020-08-25 武汉中观自动化科技有限公司 一种支持语音控制的扫描仪装置及扫描方法

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099306A (ja) * 1998-05-28 2000-04-07 Canon Inc 制御装置およびその制御方法およびその動作処理を実行するプログラムを記憶した記憶媒体
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US6449496B1 (en) * 1999-02-08 2002-09-10 Qualcomm Incorporated Voice recognition user interface for telephone handsets
EP1159688A2 (en) 1999-03-05 2001-12-05 Canon Kabushiki Kaisha Database annotation and retrieval
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6519607B1 (en) * 1999-10-28 2003-02-11 Hewlett-Packard Company Image driven operating system
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
DE10011178A1 (de) * 2000-03-08 2001-09-13 Siemens Ag Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
US6857008B1 (en) * 2000-04-19 2005-02-15 Cisco Technology, Inc. Arrangement for accessing an IP-based messaging server by telephone for management of stored messages
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US7487112B2 (en) 2000-06-29 2009-02-03 Barnes Jr Melvin L System, method, and computer program product for providing location based services and mobile e-commerce
US7133837B1 (en) * 2000-06-29 2006-11-07 Barnes Jr Melvin L Method and apparatus for providing communication transmissions
US7978219B1 (en) * 2000-08-30 2011-07-12 Kevin Reid Imes Device, network, server, and methods for providing digital images and associated processing information
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6903767B2 (en) 2001-04-05 2005-06-07 Hewlett-Packard Development Company, L.P. Method and apparatus for initiating data capture in a digital camera by text recognition
US7183944B2 (en) * 2001-06-12 2007-02-27 Koninklijke Philips Electronics N.V. Vehicle tracking and identification of emergency/law enforcement vehicles
US20040201681A1 (en) * 2001-06-21 2004-10-14 Jack Chen Multimedia data file producer combining image and sound information together in data file
GB2380556A (en) * 2001-10-05 2003-04-09 Hewlett Packard Co Camera with vocal control and recording
KR20030029308A (ko) * 2001-10-06 2003-04-14 정용석 음성분석을 이용한 건강진단 시스템 및 그 방법
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US20040052403A1 (en) * 2002-01-25 2004-03-18 Houvener Robert C. High volume mobile identity verification system and method
US20030204403A1 (en) * 2002-04-25 2003-10-30 Browning James Vernard Memory module with voice recognition system
US10489449B2 (en) 2002-05-23 2019-11-26 Gula Consulting Limited Liability Company Computer accepting voice input and/or generating audible output
US8611919B2 (en) * 2002-05-23 2013-12-17 Wounder Gmbh., Llc System, method, and computer program product for providing location based services and mobile e-commerce
EP1378911A1 (en) * 2002-07-02 2004-01-07 RAI RADIOTELEVISIONE ITALIANA (S.p.A.) Metadata generator device for identifying and indexing of audiovisual material in a video camera
US20040041921A1 (en) * 2002-08-29 2004-03-04 Texas Instruments Incorporated Voice recognition for file naming in digital camera equipment
US7986974B2 (en) * 2003-05-23 2011-07-26 General Motors Llc Context specific speaker adaptation user interface
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20040267534A1 (en) * 2003-06-27 2004-12-30 General Motors Corporation Selective vehicle component control
US7417751B2 (en) * 2003-08-12 2008-08-26 Hewlett-Packard Development Company, L.P. Scanning to storage medium using scanning device
JP2005181365A (ja) * 2003-12-16 2005-07-07 Olympus Corp 撮像装置
GB2409365B (en) 2003-12-19 2009-07-08 Nokia Corp Image handling
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US20070003168A1 (en) * 2005-06-29 2007-01-04 Microsoft Corporation Computer input device
US7627703B2 (en) * 2005-06-29 2009-12-01 Microsoft Corporation Input device with audio capabilities
US8694322B2 (en) * 2005-08-05 2014-04-08 Microsoft Corporation Selective confirmation for execution of a voice activated user interface
JP4890552B2 (ja) * 2005-08-29 2012-03-07 エブリックス・テクノロジーズ・インコーポレイテッド モバイル画像認識を介した双方向性
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070136063A1 (en) * 2005-12-12 2007-06-14 General Motors Corporation Adaptive nametag training with exogenous inputs
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
WO2007079357A2 (en) * 2005-12-21 2007-07-12 Sandisk Corporation Voice controlled portable memory storage device
US8161289B2 (en) 2005-12-21 2012-04-17 SanDisk Technologies, Inc. Voice controlled portable memory storage device
US7917949B2 (en) 2005-12-21 2011-03-29 Sandisk Corporation Voice controlled portable memory storage device
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
US7792678B2 (en) * 2006-02-13 2010-09-07 Hon Hai Precision Industry Co., Ltd. Method and device for enhancing accuracy of voice control with image characteristic
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
JP5144424B2 (ja) * 2007-10-25 2013-02-13 キヤノン株式会社 撮像装置及び情報処理方法
CN101425004B (zh) * 2007-10-29 2011-12-07 福建星网锐捷通讯股份有限公司 用声音作为计算机系统输入控制的方法和装置
CA2665014C (en) * 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
US20110010497A1 (en) * 2009-07-09 2011-01-13 Sandisk Il Ltd. A storage device receiving commands and data regardless of a host
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
KR20120086088A (ko) * 2011-01-25 2012-08-02 삼성전자주식회사 이미지 처리 방법 및 장치
US20120290689A1 (en) * 2011-05-15 2012-11-15 Adam Beguelin Network Interface Auto Configuration of Wireless Devices
US20140348394A1 (en) * 2011-09-27 2014-11-27 Picsured, Inc. Photograph digitization through the use of video photography and computer vision technology
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9020825B1 (en) * 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN103902193A (zh) * 2012-12-30 2014-07-02 青岛海尔软件有限公司 利用语音操作电脑进行幻灯片切换的系统及方法
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
CN104065806A (zh) * 2013-03-20 2014-09-24 辉达公司 对移动信息设备的语音控制
US10699201B2 (en) * 2013-06-04 2020-06-30 Ent. Services Development Corporation Lp Presenting relevant content for conversational data gathered from real time communications at a meeting based on contextual data associated with meeting participants
US10842002B2 (en) * 2013-06-27 2020-11-17 General Scientific Corporation Head-mounted medical/dental accessories with voice-controlled operation
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US10529359B2 (en) 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
CN106125523A (zh) * 2016-08-25 2016-11-16 海南政法职业学院 一种新型会计教学专用打印设备
US10248652B1 (en) * 2016-12-09 2019-04-02 Google Llc Visual writing aid tool for a mobile writing device
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
CN113747069A (zh) * 2019-05-15 2021-12-03 深圳市大疆创新科技有限公司 一种拍摄控制方法、装置及控制设备、拍摄设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5697337A (en) 1979-12-31 1981-08-06 Minolta Camera Co Ltd Voice control camera
JPS58195957A (ja) * 1982-05-11 1983-11-15 Casio Comput Co Ltd 音声によるプログラム実行方式
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
HUT59761A (en) * 1986-11-25 1992-06-29 Zone Technology Pty Ltd Digital picture pick-up system
JP2687712B2 (ja) 1990-07-26 1997-12-08 三菱電機株式会社 一体型ビデオカメラ
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5335313A (en) 1991-12-03 1994-08-02 Douglas Terry L Voice-actuated, speaker-dependent control system for hospital bed
AU4771893A (en) * 1992-07-14 1994-01-31 Sierra Matrix, Inc. Hands-free ultrasonic test view (hf-utv)
CA2157910A1 (en) * 1993-03-10 1994-09-15 Bruce Barker Data entry device
US5794251A (en) * 1994-06-06 1998-08-11 Canon Kabushiki Kaisha Information file processing apparatus and method
US5546145A (en) * 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
US5544654A (en) * 1995-06-06 1996-08-13 Acuson Corporation Voice control of a medical ultrasound scanning machine
JPH08340318A (ja) * 1995-06-13 1996-12-24 Kokusai Electric Co Ltd データ伝送方法及び装置
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100345056C (zh) * 2002-12-12 2007-10-24 富士胶片株式会社 数字照相机
CN100403255C (zh) * 2005-03-17 2008-07-16 英华达(上海)电子有限公司 一种利用声音操作游戏的方法
US7813630B2 (en) 2007-12-19 2010-10-12 Chi Mei Communication Systems, Inc. Image capturing device with a voice command controlling function and method thereof
CN101827220B (zh) * 2009-03-05 2014-08-13 汤姆森许可贸易公司 创建照片动画系列的方法以及实现该方法的设备
CN101827220A (zh) * 2009-03-05 2010-09-08 汤姆森许可贸易公司 创建照片动画系列的方法以及实现该方法的设备
CN101964204A (zh) * 2010-08-11 2011-02-02 方正科技集团苏州制造有限公司 一种录音和笔记对应的方法
CN102404454A (zh) * 2011-11-16 2012-04-04 北京百纳威尔科技有限公司 移动终端的拍摄控制方法及装置
CN102708540A (zh) * 2012-04-21 2012-10-03 上海量明科技发展有限公司 一种针对截屏区域进行缩放的方法及客户端
WO2014023080A1 (en) * 2012-08-05 2014-02-13 Hiti Digital, Inc. Image capture device and method for image processing by voice recognition
CN104584527A (zh) * 2012-08-05 2015-04-29 诚研科技股份有限公司 图像拾取装置与利用语音识别进行图像处理的方法
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
CN107786766A (zh) * 2016-08-29 2018-03-09 河源市新天彩科技有限公司 一种扫描仪的操作方法及扫描仪
CN109542386A (zh) * 2017-09-22 2019-03-29 卡西欧计算机株式会社 录音装置
CN109542386B (zh) * 2017-09-22 2022-05-06 卡西欧计算机株式会社 录音装置
CN111586255A (zh) * 2020-04-01 2020-08-25 武汉中观自动化科技有限公司 一种支持语音控制的扫描仪装置及扫描方法

Also Published As

Publication number Publication date
CN1214612C (zh) 2005-08-10
US6289140B1 (en) 2001-09-11
KR20000057082A (ko) 2000-09-15
TW442772B (en) 2001-06-23
EP1014338A1 (en) 2000-06-28
JP2000215021A (ja) 2000-08-04

Similar Documents

Publication Publication Date Title
CN1214612C (zh) 便携式捕获设备的语音控制输入
US6295391B1 (en) Automatic data routing via voice command annotation
US5583965A (en) Methods and apparatus for training and operating voice recognition systems
EP0633682B1 (en) Audio data processing
US7330538B2 (en) Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US5822405A (en) Automated retrieval of voice mail using speech recognition
US6366882B1 (en) Apparatus for converting speech to text
KR19990067916A (ko) 자동 호출 및 데이터 전송 프로세싱 시스템 및 방법
US20160125861A1 (en) Performance recording apparatus
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
US20030189642A1 (en) User-designated image file identification for a digital camera
CN207938056U (zh) 可访问的电子门进入系统
US6631348B1 (en) Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
KR101032752B1 (ko) 보이스 메일 시스템
CN1122983A (zh) 记录和有选择地传送传真系统多终端标识的方法
CN202798910U (zh) 可语音控制的扫描仪
KR20200054152A (ko) 인공지능스피커와 연동하여 인터랙티브 프로그램을 제어하는 전자펜 시스템
CN109817218A (zh) 医疗语音识别的方法及系统
KR20200030228A (ko) 인공지능스피커와 연동되는 전자펜 시스템
JPH03162165A (ja) 留守番電話機
RU2316145C1 (ru) Способ управления услугами сервисного центра в системе связи (варианты) и устройство для его осуществления
KR200294684Y1 (ko) 대화형 디지털 액자
CN1433236A (zh) 动作辨识系统
JP2005020440A (ja) 携帯端末装置
JPH06325100A (ja) ファイリング装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee