CN1258162A

CN1258162A - 便携式捕获设备的语音控制输入

Info

Publication number: CN1258162A
Application number: CN99118355A
Authority: CN
Inventors: T·C·奥利弗
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1998-12-23
Filing date: 1999-08-23
Publication date: 2000-06-28
Anticipated expiration: 2019-08-23
Also published as: CN1214612C; US6289140B1; KR20000057082A; TW442772B; EP1014338A1; JP2000215021A

Abstract

公开一种接收用于操作控制的语音命令的诸如手持文件扫描仪或数字摄像机的便携式捕获设备(100)。“扫描”,“存储”,“删除”,“左”,“图像放大”和“发送”等命令是说明性的,这里捕获设备(100)执行与命令名字相关的预定操作。在一个实施例中,便携式捕获设备(100)通过语音分析软件(124)训练自己去识别用户的口头命令。语音分析软件(124)可位于捕像设备(100)内,或者在主机系统(200)上并由捕像设备(100)在连接到主机系统(200)时访问。

Description

便携式捕获设备的语音控制输入

本申请是1998年2月19日登记的题为《用于便携式扫描应用的扫描图像的语音注释》的Thomas C.0liver的系列号为09/026,082的申请的部分继续申请，该申请在这里引作参考。

本发明涉及手持文件扫描仪或数字摄像机等便携式捕获设备。本发明更具体地涉及用于便携式手持文件扫描仪或数字摄像机的语音控制输入。

手持文件扫描仪或数字摄像机等便携式捕获设备已被证明在某些情况下是十分有用的工具。它们在从离开用户办公室和工作地点的不同的位置捕捉或存储信息方面的可携带性和简易性是这类捕获设备的主要优点。

虽然这类便携式捕获设备已经很小，但人们还希望将其尺寸减得更小或是更便于携带。然而，目前的物理用户接口要求大大限制了尺寸的进一步减小。例如，大多数便携式手持文件扫描仪一般具有让用户控制许多不同操作的10至15个用户输入键。这些操作包括：启动与停止扫描；存储与删除扫描信息；发送扫描信息；以及在扫描仪显示屏上对扫描数据进行观察、变焦和画面平移。这些键必须足够大，适当地隔开，以便用户易于控制和按键。这些键还必须以这样一种方式放置，以便在捕获设备的正常转移和操作过程中，以及使用便携式扫描仪设备来扫描文件时，用户可以操作该便携式扫描仪设备但不会按键激活各种并不想激活的功能。键有时要组合使用，使得扫描仪设备用起来有点笨拙。因为用户输入键所占的物理空间，这类捕获设备上的输出显示屏常常必须很小，使得显示屏用起来起不到所希望的那么多作用。对于便携式数字摄像机可以说也是一样。

因此，在本专业内显然需要一种能够减少操作便携式捕获设备所需的用户输入键数量、而同时降低用户接口的复杂性的改进的方法和装置。在本专业内还需要进一步减小便携式捕获设备的尺寸，以便进一步提高其可携带性和使用的简易性。在本专业内的另一个需要是在便携式捕获设备中使用更大、更易读的显示屏，而同时保持便携式捕获设备的较小的总体尺寸。本发明满足本专业内的这些及其它需要。

本发明的一个方面是利用用户语音输入来控制诸如手持文件扫描仪或数字摄像机之类的便携式捕获设备的操作。

本发明的另一个方面是减少便携式捕获设备上的用户输入键的数量。

本发明的再另一个方面是通过省去一些用户输入键来减小便携式捕获设备的总体尺寸。

本发明的又另一个方面是通过利用已被省去的许多用户输入键原来占据的一些物理空间来增加便携式捕获设备的输出显示范围，且同时减小便携式捕获设备的总体尺寸。

本发明的另一个方面是让便携式捕获设备的操作由用户说出的可闻密码来开启。

本发明的又另一个方面是把便携式捕获设备连接到主机，以便训练便携式捕获设备识别用户的语音控制输入命令。

本发明在另一个实施例中的又另一个方面是利用设置在便携式捕获设备中不需要由主机训练的有限的语音控制输入命令集。

本发明的以上和其它方面在接收语音控制输入命令来控制其操作的便携式捕获设备中得以实现。为了启动捕获设备的动作，比如利用便携式手持文件扫描仪的扫描动作，用户接通捕获设备的电源，然后输入语音控制输入命令“扫描”，该语音控制输入命令“扫描”被捕获设备通过位于捕获设备内的语音传感元件拾取。捕获设备在识别命令“扫描”之后将等候一段预定的时间，通常是几秒钟，以便用户将捕获设备放到文件上。在延时之后，捕获设备准备扫描，这通过可闻高频笛音或可闻字“扫描”的重复来提示用户。然后，用户将便携式手持文件扫描仪在文件表面移过。便携式手持文件扫描仪在探测到预定的时间段内没有移动之后，将会再次发出高频笛音或输出另一个可闻字比如“完了”或“停”，来提示用户捕获设备相信不应继续在扫描方式下了。如果捕获设备在高频笛音或可闻字输出之后的预定时间内，通常是几秒钟，没有探测到继续的移动，便携式手持文件扫描仪离开扫描方式，并开始处理扫描数据，以备在便携式手持文件扫描仪显示屏上输出给用户。在本发明的另一个实施例中，用户按下便携式手持文件扫描仪上的键来停止扫描方式。然后，便携式手持文件扫描仪处理扫描数据以便输出给用户。

一旦图像输出到显示屏上，用户可以发出语音控制输入命令来“存储”或“删除”扫描图像。用户也可以通过发出“放大”、“缩小”、“左”、“右”、“上”或“下”等语音控制输入命令来观察图像的不同部分。用户也可以借助已建立的连接、通过发出“发送”或“全部发送”等语音控制输入命令，将一幅或多幅扫描图像传输到主机上。一旦捕获设备识别命令，它就进行所需操作。如果捕获设备处理语音输入命令而未发现匹配项时，就将可闻字或高频笛音等无匹配项提示输出给用户。然后，捕获设备等候接收下一个语音控制输入命令。

通过使用口头密码，语音控制输入使得供捕获设备用的装置向特定的用户“开启”。一旦捕获设备接通电源，在接收并处理正确的密码之前它不会动作。只要用户的密码没被偷听，这可以避免除了用户之外的人使用捕获设备。

在本发明的一个实施例中，便携式手持文件扫描仪等便携式捕获设备通过语音分析软件，被训练来识别用户的口头语音控制输入命令。语音分析软件可以设置在捕获设备内，或者设置在主机系统内，当捕获设备连接到主机系统时，供捕获设备访问。在本发明的最佳实施例中，使用联机方式，以便利用主机系统内可获得的更大的计算能力，并降低捕获设备的复杂性。

例如，在训练方式中使用语音分析软件时，要把捕获设备可以通过语音控制输入命令执行的预定功能清单给予用户。例如，命令1可以表示执行文件或图像的扫描功能的指令集。在选择命令1进行训练和分析时，语音分析软件将提示用户选择用户想用来调用扫描功能指令集的字。然后，将提示用户多次重复所选字。合乎逻辑的选择应该是选择字“扫描”，但用户所选的任何字都是可用的。字“扫描”的每次重复都被捕获设备拾取，并被语音分析软件分析，以便产生包含用户发出“扫描”命令的语音的变化和音调的识别模型。用户所选用来调用各种功能的所有字的识别模型都存储在捕获设备的静态存储器的命令识别表内。在命令识别表内的识别模型各自链接预定的、也存储在静态存储器内的各种功能的指令集。因此，当口头语音控制输入命令字被捕获设备接收和识别时，与该命令字相关的指令集就被执行。由于功能的指令集取决于用户的字选择和随后对那个字选择的训练和语音分析，所以，本实施例是与语言无关的，使得可以将外语用作语音控制输入命令字。

在本发明的另一个实施例中，不向用户提供字选择来进行训练和语音分析。命令识别表内的识别模型是预定的，并与用户必须使用的特定字相关。例如，用户可能必须修正他或她的命令字“扫描”的发音，直到捕获设备可以识别象用户那样说出的命令。因此，在该实施例中，设备要先对准一种特定的语言，在该语言中，命令字表示所引起的动作。可以为使用表示所引起动作的外文字的用户制作该设备的外语型式。

便携式捕获设备具有由控制器控制的语音声频输入/输出系统。当接收语音控制输入命令时，控制器将数字化语音输入存储在动态存储器内。然后，控制器处理命令，并且把命令识别模型与存储在静态存储器中命令识别表内的识别模型进行比较。当找到匹配项之后，开始执行与识别模型相关的指令集。特定命令的指令集可以包括通过输出可闻高频笛音、命令名称的可闻播放，或使发光二极管(LED)发光，向用户认可命令。特定命令也可以具有内嵌在指令集中的一次或多次延时，让用户有时间实际操作捕获设备或取消命令。如果用户对刚发出的命令改变主意，或者，如果捕获设备未正确地理解命令，用户可以通过捕获设备上的取消或清除键，或者通过可以取消所接收的先前命令的语音控制输入命令，在命令执行之前将其取消。否则，如果没有接收到取消命令的输入，就会执行该命令的指令集。

对于允许对诸如利用数字摄像机获得的捕获图像数据文件、或诸如利用便携式扫描仪获得的文档数据文件进行语音注释的便携式捕获设备，捕获设备从语音注释中分辨语音控制输入命令。在本发明的一个实施例中，语音控制输入注释命令用于制备捕获设备，以便接受紧接在后面的、作为当前图像数据文件或文档数据文件的语音注释的语音输入。无语音输入的预定时间段内的静寂用来表示语音注释完毕。在本发明的另一个实施例中，采用了类似于磁带记录器上的记录键的使用范例。将捕获设备上的一个键按下并保持按下状态，表示下一个语音输入是为着注释用的，不是一条命令。一旦语音注释完毕，用户释放该键，所获得的语音注释经捕获设备处理，并连接到当前的图像数据文件或文档数据文件。

通过阅读以下结合附图对本发明的更具体的描述，就可以更好地理解本发明的以上和其它方面、特征和优点，其中：

图1表示本发明的捕获设备的方框图；

图2表示与本发明的捕获设备通信的主机系统的方框图；

图3表示本发明的捕获设备操作中的语音控制输入的总体流程的流程图；

图4表示本发明的捕获设备处理语音控制输入命令的流程图；

图5表示本发明的捕获设备执行命令的总体流程图；以及

图6表示训练本发明的捕获设备来识别语音控制输入命令的流程图。

以下描述针对目前能考虑到的实施本发明的最好方式。该描述并不是要用于限制，而仅仅是为了描述本发明的基本原则。本发明的范围应该以后附的权利要求书为基准来确定。

图1表示本发明的捕获设备的方框图。现在参考图1，通过按下电源接通键来接通捕获设备100的电源，该电源接通键是捕获设备100上的几个控制键120之一。捕获设备100从内部电池(图1未示出)接收其电力，或者通过连接到捕获设备100并接通电源(图1亦未示出)的电力电缆接收其电力。通过用户靠得足够近说话、以便被语音传感元件102拾取来提供控制捕获设备100的语音输入命令。语音传感元件102将用户的语言转换为模拟信号。连接到语音传感元件102的是模数转换器104，该模数转换器104将语音传感元件102产生的模拟信号转换成数字信号。数字信号由模数转换器104发送到控制器106，该控制器106将信号存入连接到控制器106的动态存储器118。然后，在本发明的最佳实施例中，控制器106调用存储在本发明的静态存储器116中的语音分析软件120，以便对存储在动态存储器118内的数字信号进行一系列频率域变换。语音分析软件120产生识别模型，该识别模型是频谱变换，与存储在静态存储器116的命令识别表122内的命令的识别模型(也是频谱变换)相比较。本专业的技术人员会知道，用来识别语音模型的任何其他适当方法都可以用在本发明中取代频谱变换。

如果有匹配项，那么控制器106访问连接到命令识别模型的命令识别表122内的指令集。例如，在说出扫描文件的语音控制输入命令之后，用户这样便携式捕获设备100，以便图像拾取部件112与文件表面的部分或全部接触。图像拾取部件112光学性地从文件的表面读取取样点，并产生各取样点的灰度值。控制器106接收取样点的灰度值，并将之组成图像阵列。该结果可以输出到连接到控制器106的显示屏114，显示出扫描文件表面的视觉影像。控制器106还将灰度值转换为用于显示或存储的二进制格式。或者灰度格式或者二进制格式的图像阵列由控制器106传递，并作为文档数据文件存储在静态存储器116内。

在扫描文件之后，用户可以对语音传感元件102说话，以便用描述性的叙述或其他用户认为有用的信息对文档数据文件进行语音注释。在本发明的一个实施例中，为了分辨语音注释(这是在一段较长的时间内相当连续的语音输入流)与语音控制输入命令(这通常是一两个单词)，用户在说话前将几个控制键120中的一个按下并保持按下的状态，将按下键的输入信号发送给控制器106，指示以下语音输入流是注释而非命令。在用户完成语音注释之后，用户释放控制键120，将松开键的输入信号发送给控制器106，这标志着语音输入流的结束。所获取的语音输入流作为语音注释文件存储在静态存储器116内，并与已经被扫描和存储在静态存储器116内的文档数据文件连接。

在本发明的另一个实施例中，语音控制输入命令之一是语音注释命令。在发出语音控制输入注释命令之后，接着的用于注释目的的语音输入流被获取，并被作为语音注释文件存储，与已被获取并存储在捕获设备中的图像数据文件或文档数据文件相连接。当用户停止说话的时间超过预定的时间段、比如在5秒至10秒之间时，设备将这段预定时间内没有语音输入解释为语音输入流的结束。

当接收并识别语音控制输入注释命令，或者，将几个控制键120之一按下并保持按下的状态、表示以下语音输入是为着注释目的之后，来自用户的语音输入被语音传感元件102获取，并转换为模拟信号。模数转换器104将语音传感元件102产生的模拟信号转换为数字信号。将数字信号发送给控制器106。控制器106将语音注释数字信号作为单独的语音注释文件存储在静态存储器116内，并将图像数据文件或文档数据文件与语音注释文件相连接。

用户可能要求文件扫描设备100重放语音注释文件。控制器106从静态存储器116中检索所需的语音注释文件，并将之传递给把数字信号转换为模拟信号的数模转换器108，并将模拟信号传递给产生声频输出的扬声器110。此外，特定的命令指令集可以利用数模转换器108和扬声器110，，向用户发送听得到的输出信号，或者使发光二极管(LED)(图1未示出)发光，以确认接收到所述命令。

图像数据文件或文档数据文件及所连接的语音注释文件可以通过连接到控制器106的主机连接122复制到另一个设备上，比如主机系统200上(图2)。

图2表示与本发明相关的主机系统的方框图。现在参考图2，主机系统200包含处理单元202。处理单元202通过系统总线204与主机系统200的其他单元通信。键盘206让用户可以将信息输入到主机系统200，图形显示器210允许主机系统200将信息输出给用户。鼠标208也用来输入信息，存储设备212用来在主机系统200内存储数据和程序。也连着系统总线204的通信接口214从捕获设备100(图1)接收信息。连接到系统总线204的扬声器/声卡216将声频信息输出给用户。有些主机系统可能没有声卡，在这种情况下扬声器仅由软件驱动。也连接到系统总线204上的存储器218包含操作系统220、文件转移软件222、语音分析软件224、用户接口程序226和声频文件转换软件228。

文件转移软件222通过通信接口214和系统总线204接收从捕获设备100的主机连接122(图1)传输的图像数据文件或文档数据文件和所连接的语音注释文件，并将之存入存储设备212。当用户访问用户接口程序226，并选择具有语音注释文件的图像数据文件或文档数据文件时，声频文件转换软件228将语音注释文件解压并转换为扬声器/声卡216可以识别的声频文件格式。扬声器/声卡216将声频信息输出给用户。在听到声频信息之后，用户可以选择观察图像数据文件或文档数据文件。如果这样，将用户接口程序226挂起，调用与图像数据文件或文档数据文件相关的应用程序，将所述文件显示在图形显示器210上。

在本发明的与语言无关的最佳实施例中，也位于捕获设备100内的语音分析软件224被用户用来训练捕获设备100识别任何语言的用户的语音控制输入命令。捕获设备100首先连接到主机系统200以利用更大的计算能力。然后，用户访问语音分析软件224并选择由用户选择的调用所述功能的字来代表的特定功能，以便训练，比如扫描功能。然后用户将用户所选择的代表扫描功能的字重复几次。最可能被用户选中的字是等同或接近扫描功能的字，不管用户说的是什么语言。对于说英语的用户，最可能被选中的字是“扫描”。用户对字“扫描”的重复被语音传感元件102(图1)所获取，在捕获设备100内被处理成为信号，并通过主机连接122传输给通信接口214。通信接口214通过系统总线204将每一种信号传输给存储器218，在此，语音分析软件224分析每一种信号。语音分析软件224根据每一种采样信号产生识别模型，以便包含用户在发出“扫描”命令时的语音方面的变化和音调。对于可以利用捕获设备100的语音输入控制命令调用的每一项功能都重复该过程。然后，把为所选择的用于训练的全部字生成的识别模型从主机系统200下载到捕获设备100上，并存储在静态存储器116(图1)命令识别表126内，以备随后控制操作使用。

图3表示捕获设备的语音控制输入操作的总体流程的流程图。现在参考图3，在步骤300，捕获设备100(图1)接通电源。在步骤302，语音传感元件102(图1)接收第一语音控制输入命令，该第一语音控制输入命令在本发明的最佳实施例中是密码。步骤304调用图4来处理语音控制输入命令。从图4返回之后，步骤306确定在图4的步骤408中执行的、对于在步骤302中接收的语音控制输入命令的识别模型与存储在命令识别表126内的任一识别模型的比较中是否发现匹配项。如果没有发现匹配项，步骤310向用户输出无匹配项的提示，这可能是听得到的字或者特殊的高频笛音模型。然后，控制过程返回步骤302，在此，捕获设备100等待下一个语音控制输入命令。

如果步骤306确定从图4的步骤408中发现了匹配项，那么控制过程转向步骤308，步骤308调用图5，以便执行与命令相关的指令集。从图5返回之后，步骤312确定是否接收到下一个语音控制输入命令，或者电源是否断开。如果接收到下一个命令，控制返回步骤302。如果电源断开，那么捕获设备100的操作结束。

图4表示本发明的捕获设备处理语音控制输入命令的流程图。现在参考图4，在步骤400中由语音传感元件102(图1)获取的语音控制输入命令被语音传感元件102以模拟信号的形式输出。在步骤402中，模数转换器104(图1)接收模拟信号作为输入信号，将模拟信号转换为数字信号，并将数字信号输出给控制器106(图1)。在步骤404，控制器106接收数字信号作为输入信号，并将数字信号存入动态存储器118(图1)。在步骤406，控制器106调用语音分析软件120来对在步骤404存储的数字信号进行频率域转换，产生识别模型。在步骤408，控制器106将来自步骤406的识别模型与存储在静态存储器116(图1)的命令识别表126内的语音控制输入命令的识别模型进行比较。然后，控制过程转向图3。

图5表示本发明的捕获设备执行命令的总体流程图。本专业的技术人员会知道这些步骤的顺序可以根据与特殊命令相关的所需操作大大地改变。现在参考图5，步骤500访问与在步骤302接收的语音控制输入命令匹配的识别模型相链接的指令集。步骤502确定指令集是否以延时指令开始。如果回答是，那么在步骤504执行延时指令，暂停指令集内的剩余指令的进一步执行，直到延时所指定的时间过去。在步骤504的延时之后，或者如果步骤502确定没有延时指令，控制过程转向步骤506。

步骤506确定指令集内的下一个指令是否需要输出对所述命令的确认。如果回答是，那么在步骤508执行确认指令。根据特定的命令，所述确认可以用以下方式作出：听得到的高频笛音、所接收的语音控制输入命令的语音重放、使LED发光，或者其他合适的方法。在步骤508执行确认指令之后，或者如果步骤506确定没有确认指令，则控制过程转向步骤510。

步骤510确定指令集内的下一个指令在剩余指令的进一步执行之前是否需要用户的确认输入信号。某些命令，比如删除命令，可能需要确认来作为帮助防止有用数据的无意中的损坏的安全预防措施。如果在步骤510回答是，那么步骤512确定是否从用户接收到了正确的确认输入信号。根据特定的命令，确认可能要求用户按下所述几个控制键120之一。或者，用户还得发出另一个语音控制输入命令作为确认。如果没有接收到正确的确认输入信号，或者在步骤512根本没有接收到输入信号，控制过程返回图3的步骤302，以便等待下一个语音控制输入命令。如果在步骤512接收到正确的确认输入信号，或者如果步骤510确定没有确认指令，则控制过程转向步骤514。

步骤514确定是否接收到取消命令的输入信号。如果在步骤514接收到取消输入信号，那么控制转向图3的步骤302，以便等待下一个语音控制输入命令。如果在步骤514没有接收到取消输入信号，那么控制过程转向执行命令的指令集的剩余指令的步骤516。当执行指令集的最后一个指令之后，控制过程转向图3的步骤312。

图6表示训练本发明的捕获设备来识别用户语音控制输入命令的流程图。现在参考图6，在步骤600，把语音分析软件224载入主机系统200(图2)的存储器218。捕获设备100在步骤602接通电源。在步骤604，把捕获设备100(图1)连接到主机系统200。这可以通过电缆、红外光束或其他合适的连接。在步骤606，在语音分析软件224内接受来自用户的输入信号，该语音分析软件224选择用于对调用所述功能的命令字进行训练和语音分析的第一功能。然后语音分析软件224在步骤608提示用户对着捕获设备100的语音传感元件102(图1)出声重复用户选作调用第一功能的命令字好几次。在步骤610，由语音传感元件102获取的命令字的多次语音输入被捕获设备100处理成为数字信号，并发送给主机系统200内的语音分析软件224。在步骤612，语音分析软件224分析在步骤610接收到的多次数字信号，并产生命令字的识别模型。在步骤614，把步骤612的识别模型存入存储器218。

步骤616确定用户是否选择用于对调用下一项功能的命令字进行训练和语音分析的下一项功能，或者是否接收到用户已完成选择用于训练和语音分析的功能的指示。如果在步骤616选择了下一项功能，则控制过程返回步骤606。如果接收到用户已完成选择功能的指示，那么在步骤618语音分析软件224将在步骤612确定、并在步骤614存储的所有识别模型通过在步骤602建立的连接传输给捕获设备100。在步骤620，把步骤618中传输的识别模型存入静态存储器116的命令识别表126内，使得每项功能的识别模型链接到也存储在命令识别表126内的指令集，以备在接收到被处理成为识别模型时与在步骤612确定的识别模型之一匹配的语音控制输入命令之后执行。在步骤620之后，对捕获设备100的命令字的训练和语音分析结束。

如此描述过本发明的当前最佳实施例之后，本专业的技术人员应该了解，他们自己可以在不偏离权利要求中限定的本发明的范围的情况下，提出结构与电路上的许多更改以及本发明的许多不同的实施例和应用。这里所公开的和所描述的意在说明，在任何意义上都不是对本发明的限制，本发明的范围由以下权利要求限定。

Claims

1.捕获设备(100)的语音控制输入方法，所述方法包括以下步骤：(a)用所述捕获设备(100)中的语音传感元件(102)获取(302)

第一语音控制输入命令；(b)将所述第一语音控制输入命令转换(400)为第一模拟信号；(c)将所述第一模拟信号转换(402)为第一数字信号；(d)将所述第一数字信号转换(406)为第一识别模型；(e)比较(408)所述第一识别模型与存储在所述捕获设备(100)

的静态存储器(116)的命令识别表(126)内的至少一个识别

模型；以及(f)当所述第一识别模型与存储在所述命令识别表(126)内的所述

至少一个识别模型匹配(306)时，执行(308)链接到所述至

少一个识别模型的第一指令集。

2.根据权利要求1的捕获设备(100)的语音控制输入方法，其特征在于所述捕获设备(100)是扫描设备。

3.根据权利要求1的捕获设备(100)的语音控制输入方法，其特征在于所述捕获设备(100)是数字摄像机。

4.根据权利要求1的捕获设备(100)的语音控制输入方法，其特征在于步骤(b)还包括步骤(b1)，步骤(c)还包括步骤(c1)至(c3)：(b1)将所述第一模拟信号输入到所述捕获设备(100)内的模数转换器(104)；(c1)在所述模数转换器(104)中将所述第一模拟信号转换为所述第一数字信号；(c2)将来自所述模数转换器(104)的所述第一数字信号传输到所述捕获设备(100)内的控制器(106)；以及(c3)由所述控制器(106)将所述第一数字信号存入所述捕获设备(100)的动态存储器(118)。

5.根据权利要求1的捕获设备(100)的语音控制输入方法，其特征在于步骤(d)还包括步骤(d1)：(d1)对存储在所述捕获设备(100)的动态存储器(118)内的所述第一数字信号进行(406)多次频率域变换，产生所述第一识别模型，其中所述第一识别模型是所述第一数字信号的频谱变换。

6.根据权利要求1的捕获设备(100)的语音控制输入方法，其特征在于步骤(a)还包括在步骤(a)之前执行的步骤(a0a)至(a0j)：(a0a)将语音分析软件(224)载入(600)主机系统(200)的存储器(218)；(a0b)将所述捕获设备(100)与所述主机系统(200)相连接(604)；(a0c)选择(606)一种预定功能，利用所述语音分析软件(224)对用于调用所述预定功能的至少一个字进行训练和语音分析；(a0d)在所述捕获设备(100)的所述语音传感元件(102)内获取(610)所述至少一个字的多次语音输入；(a0e)在所述捕获设备(100)内将所述多个语音输入处理(610)成为多个数字信号；(a0f)将所述多个数字信号从所述捕获设备(100)发送(610)给所述主机系统(200)；(a0g)用所述语音分析软件(224)分析(612)所述多个数字信号；(a0h)从用所述语音分析软件(224)对所述多个数字信号的所述分析中产生(612)所述至少一个识别模型；(a0i)将所述至少一个识别模型存入(614)所述主机系统(200)的所述存储器(218)；(a0j)将所述主机系统(200)的存储器(218)内的所述至少一个识别模型传输(618)到所述捕获设备(100)的所述静态存储器(116)的所述命令识别表(126)内，其中，所述至少一个识别模型被链接到存储在所述命令识别表(126)内的所述第一指令集，以便执行所述预定的功能；以及(a0k)对于多项预定功能，重复步骤(a0c)至(a0j)，其中，从关于多个所述多个至少一个字的所述多个语音输入产生多个识别模型，并且，其中所述多个识别模型存储在所述捕获设备(100)的所述静态存储器(116)的所述命令识别表(126)内，其中，所述多个识别模型中的每一个被链接到存储在所述命令识别表(126)内的多个预定指令集之一，以便执行所述多种预定的功能之一。

7.根据权利要求6的捕获设备(100)的语音控制输入方法，其特征在于步骤(a0a)被新的步骤(a0a)代替，步骤(a0b)、(a0f)和(a0i)被取消，步骤(a0j)被新的步骤(a0j)代替：(a0a)访问所述捕获设备(100)的所述静态存储器(116)内的语音分析软件(124)；以及(a0j)将所述至少一个识别模型存入所述捕获设备(100)的所述静态存储器(116)的所述命令识别表(126)内，其中，所述至少一个识别模型被链接到存储在所述命令识别表(126)内的所述第一指令集，以便执行所述预定的功能。

8.根据权利要求6或权利要求7的捕获设备(100)的语音控制输入方法，其特征在于所述至少一个字是与语言无关的。

9.根据权利要求1的捕获设备(100)的语音控制输入方法，其特征在于代表语音注释命令的所述第一识别模型与存储在所述命令识别表(126)内的所述至少一个识别模型匹配，并且，其中在步骤(f)执行的所述第一指令集还包括以下步骤(f1)至(f8)：(f1)执行步骤(f2)至(f6)，直到在预定的时间间隔内没有语音输入；(f2)利用所述捕获设备(100)内的所述语音传感元件(102)获取语音输入流；(f3)将所述语音输入流转换为第二模拟信号；(f4)将所述第二模拟信号输入到所述捕获设备(100)内的模数转换器(104)；(f5)在所述模数转换器(104)内将所述第二模拟信号转换为所述第二数字信号；(f6)将来自所述模数转换器(104)的所述第二数字信号传输到所述捕获设备(100)内的控制器(106)；(f7)由所述控制器(106)将所述第二数字信号作为语音注释文件存入所述捕获设备(100)的所述静态存储器(116)；以及(f8)将所述语音注释文件与存储在所述静态存储器(116)内的数据文件连接。

10.根据权利要求l的捕获设备(100)的语音控制输入方法，其特征在于还包括以下步骤：(g)在控制器(106)内从所述捕获设备(100)上的注释控制键接

收按下键的输入信号；(h)执行步骤(i)至(m)，直到在所述控制器(106)内从所述注

释控制键接收到松开键的输入信号；(i)利用所述语音传感元件(102)获取语音输入流；(j)将所述语音输入流转换为第二模拟信号；(k)将所述第二模拟信号输入到所述捕获设备(100)内的模数转换

器(104)；(l)在所述模数转换器(104)内将所述第二模拟信号转换为所述第

二数字信号；(m)将来自所述模数转换器(104)的所述第二数字信号传输到所述

捕获设备(100)内的控制器(106)；(n)在所述控制器(106)内从所述捕获设备(100)上的所述注释

控制键接收松开键的输入信号；(o)由所述控制器(106)将所述第二数字信号作为语音注释文件存

入所述捕获设备(100)的所述静态存储器(116)；以及(p)将所述语音注释文件与存储在所述静态存储器(116)内的数据

文件连接。