CN102144209B

CN102144209B - 电子设备中的多层次话音反馈

Info

Publication number: CN102144209B
Application number: CN200980134444.1A
Authority: CN
Inventors: J·E·马森; J·波特科尔
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2008-09-05
Filing date: 2009-09-01
Publication date: 2014-05-21
Anticipated expiration: 2029-09-01
Also published as: EP3026541B1; US20100063818A1; US8768702B2; US9691383B2; CN102144209A; CN103558964B; CN103558964A; EP2329348B1; WO2010027953A1; US20140108017A1; EP3026541A1; EP2329348A1

Abstract

本发明旨在向电子设备的用户提供话音反馈。由于每个电子设备显示画面可包括数个朗读元素(即，为其提供话音反馈的元素)，元素可被排序。为此，电子设备可使层次与每个朗读元素的显示相关联。电子设备随后可根据相关联的层次，提供所显示的朗读元素的话音反馈。为了降低设计话音反馈系统中的复杂性，话音反馈特征可被结合到用于向用户显示内容的模型-视图-控制器(MVC)设计中。例如，MVC设计的模型和视图可包括与朗读属性相关联的附加变量。电子设备可利用任何适当的方法，接收每个朗读元素的音频文件，例如包括通过向主设备提供朗读元素的列表和指令主设备的文本到语音引擎产生和提供音频文件。

Description

电子设备中的多层次话音反馈

技术领域

本公开旨在在电子设备中提供多层次话音反馈。

背景技术

许多电子设备提供用户可以使用的大量功能或操作。可用功能或操作的数目常常超过利用电子设备的输入机构可以得到的输入的数目。为了使用户可以使用并未特别依赖特定输入(例如，不与按键序列或按钮按压相关联的输入，诸如可从Apple Inc.获得的iPod上的MENU按钮)的电子设备操作，电子设备可提供具有可选选项的菜单，其中所述选项与电子设备操作相关联。例如，响应于从输入机构(例如，MENU按钮)接收到与菜单相关联的输入，电子设备可在显示器上显示具有可选选项的菜单。

由于菜单一般被显示在电子设备显示器上，因此可能要求用户看着显示器来选择特定选项。有时这并不可取。例如，如果用户希望节约电力(例如，便携式电子设备中的电力)，那么要求电子设备显示菜单并移动用户操纵的突出显示区域以提供选择会耗尽电力。作为另一个例子，如果用户在阴暗的环境中，并且显示器不包括背光，那么用户不能区分菜单的显示选项。作为又一个例子，如果用户是盲人，或者视觉受损，那么用户不能观看显示的菜单。

为了克服这个问题，一些系统可以响应于检测到用户的输入或者电池状态的变化，提供音频反馈，如在共同转让的美国专利公布No.2008/0129520、标题为“ELECTRONIC DEVICE WITH ENHANCEDAUDIO FEEDBACK”(代理案号No.P4250US1)中所述，该专利公布在此整体引为参考。在一些情况下，电子设备可提供话音反馈，该话音反馈描述用户可选择的选项或者用户可指令电子设备执行的操作。如果同时显示数个菜单，或者如果显示器包括不同的模块或显示区(例如，数个视图)，那么电子设备难以确定为其提供话音反馈的对象或菜单选项，或者对象或菜单选项的顺序。

发明内容

本发明旨在提供用于向用户提供多层次(multi-tiered)话音反馈的系统和方法。特别地，本发明旨在按照预定顺序(例如，基于与每个显示对象相关联的层次)，提供数个显示对象(例如，菜单项)的话音反馈。

在一些实施例中，可以提供用于向电子设备的用户提供话音反馈的方法、电子设备和计算机可读介质。电子设备可显示数个元素，并识别所述元素中为其提供话音反馈的至少两个元素。电子设备可确定与每个所识别元素的显示相关联的层次，其中所述层次定义每个所显示元素的相对重要性。电子设备随后可按照所确定层次的顺序，提供所识别元素的话音反馈，例如，以使得首先对最重要的元素提供话音反馈，随后对第二重要的元素提供话音反馈，直到对每个元素提供了话音反馈为止。

在一些实施例中，可以提供为显示内容提供音频反馈的方法、电子设备和计算机可读介质。电子设备可指令显示器显示数个元素，其中朗读属性与所述元素中的至少两个元素相关联。电子设备可确定与所述至少两个元素中的每一个相关联的层次，并产生包括所述至少两个元素的队列。所确定的层次可设定元素在所产生的队列中的顺序。电子设备可指令音频输出端按照队列的顺序，依次朗读每个队列元素，其中音频输出端包括与所述至少两个元素中的每一个相关联的话音反馈。

在一些实施例中，可以提供用于朗读由电子设备显示的元素的文本的方法、电子设备和计算机可读介质。电子设备可显示与朗读属性相关联的数个元素。朗读属性可识别每个元素的要朗读的文本。电子设备可把数个元素显示在数个视图中，其中每个视图与朗读顺序相关联。电子设备可产生包括所述数个元素的队列，其中队列中的元素的顺序是根据每个视图的朗读顺序设定的(例如，以使得具有较高朗读顺序的元素在队列的头部)。电子设备可等待第一超时时间过去，和识别与队列的每个元素相关联的音频文件。在第一超时时间之内，电子设备可修改音频重放，以使语音更易于听到，和在检测到事务的时候，避免电子设备朗读。音频文件可包括每个元素的要朗读的口头朗读属性文本。电子设备可按照队列的顺序，顺序重放所识别的音频文件，并暂停第二超时时间。第二超时时间允许电子设备使音频重放返回到朗读前的配置(例如，音乐重放)。在一些实施例中，电子设备可从主设备接收音频文件，所述主设备根据每个元素的要朗读的朗读属性文本，利用文本到语音引擎产生所述音频文件。

附图说明

根据结合附图进行的下述详细说明，本发明的上述及其它特征、本发明的本质和各种优点将更明显，其中：

图1是按照本发明的一个实施例的电子设备的示意图；

图2是按照本发明的一个实施例的具有对其可应用话音反馈的内容的说明性显示屏幕的示意图；

图3是按照本发明的一个实施例的与图2的显示画面相关联的用于重放的朗读项目的说明性队列的示意图；

图4是按照本发明的一个实施例的在接收到用户对图2的显示画面的选项的选择之后电子设备显示画面的示意图；

图5是按照本发明的一个实施例的与图4的显示画面相关联的用于重放的朗读项目的说明性队列的示意图；

图6是按照本发明的一个实施例的具有不同标记选项的图4的电子设备显示画面的示意图；

图7是按照本发明的一个实施例的与图6的显示画面相关联的用于重放的朗读项目的说明性队列的示意图；

图8是按照本发明的一个实施例的响应于用户选择图6的突出显示菜单选项而提供的电子设备显示画面的示意图；

图9是按照本发明的一个实施例的与图8的显示画面相关联的用于重放的朗读项目的说明性队列的示意图；

图10是按照本发明的一个实施例的说明性“现在播放”显示画面的示意图；

图11是按照本发明的一个实施例的用于现在播放显示画面的朗读项目的说明性队列的示意图；

图12是按照本发明的一个实施例的用于朗读出朗读字符串(speakable string)的说明性状态图；

图13是按照本发明的一个实施例的包括电子设备和主设备的说明性通信系统的示意图；

图14是用于向电子设备提供静态字符串的说明性处理的流程图；和

图15是用于向电子设备提供动态字符串的说明性处理的流程图。

具体实施方式

提供了一种基于与所显示的选项相关联的各层次来提供选择性话音反馈的电子设备。

电子设备可以包括处理器和显示器。电子设备可向用户显示任何适当的信息。例如，显示器可包括标题栏、具有可选选项的菜单、显示与一个或多个选项相关联的信息的信息区、识别可供选择的媒体或文件的信息或者任何其它适当的信息。当用户使用显示器时，电子设备可提供不同显示元素的话音反馈。

每个显示元素可以与不同的属性相关联。在一些实施例中，将为其提供话音反馈的显示元素可以与朗读属性相关联。朗读属性可包括相关联元素的要朗读的文本。另外，作为为显示每个元素而实现的视图的一部分，该元素可以与朗读顺序或层次相关联。当电子设备显示元素(例如，作为视图的一部分)时，电子设备可根据朗读属性和朗读顺序，确定为其提供话音反馈的文本(例如，要朗读的文本)和与每个元素相关联的顺序或层次。电子设备可选择具有最高层次的元素，并为所选择的要素提供话音反馈(例如，朗读)。电子设备随后可相继选择具有次高层次的每个元素，并按照层次顺序，为后续的各元素提供话音反馈(例如，利用其中依据与每个元素相关联的层次来设定元素的顺序的队列)。当电子设备提供话音反馈时，不包括朗读属性或朗读顺序的元素(例如，不为其提供话音反馈的元素)可被电子设备忽略或跳过。

电子设备可利用任何适当的方法，确定在特定时间要朗读出哪个元素。在一些实施例中，电子设备可响应于检测到事务(transaction)(例如，关于什么元素能够被朗读的决定)，提供话音反馈。例如，响应于确定显示画面已转变，或者响应于接收到使显示画面改变的用户动作(例如，用户选择某一选项，或者移动突出显示区)，电子设备可检测到事务。响应于检测到事务，电子设备可识别更新的显示画面的朗读元素，和与朗读元素(例如，事务内要顺序朗读出的元素)相关联的层次。电子设备随后可根据所识别的更新显示画面的元素，创建将为其提供话音反馈的元素的新队列，并根据新创建的队列提供话音反馈。在一些实施例中，可通过替换现有队列的不朗读的相同或较低层次的各个项目，构成新的队列。朗读的特定元素和朗读各个元素的顺序可随每个事务而变化。

可利用任何适当的方法，产生响应于接收到为所显示的特定元素提供话音反馈的指令而被重放的音频文件。在一些实施例中，为了利用文本-语音(TTS)引擎提供高质量音频，可从与电子设备连接的主设备接收音频文件。如果电子设备的资源有限(例如，由电子设备的便携性所导致的固有存储、处理和电力限制)，那么这种方法特别可取。电子设备可向主设备提供列举与将由电子设备朗读出的每个元素相关联的字符串的文件。主设备随后可利用文本到语音引擎，把字符串转换成语音，并把语音的音频文件提供给电子设备。电子设备随后可参考字符串到音频文件的映射以响应于确定将提供所显示元素的话音反馈而提供供重放的恰当音频文件。

图1是按照本发明的一个实施例的电子设备的示意图。电子设备100可包括处理器102、存储装置104、存储器106、输入机构108、音频输出端110、显示器112和通信电路114。在一些实施例中，可以组合或省略一个或多个电子装置组件100(例如，可以组合存储装置104和内存106)。在一些实施例中，电子设备100可包括未被组合或包括在图1中所示的那些组件中的其它组件(例如，电源或总线)，或者图1中所示组件的数个实例。为了简单起见，图1中只示出了每种组件中的一个。

处理器102可包括用于控制电子设备100的操作和性能的任何处理电路。例如，处理器102可被用于运行操作系统应用程序、固件应用程序、媒体重放应用程序、媒体编辑应用程序、或者任何其它应用程序。在一些实施例中，处理器可以驱动显示器和处理从用户接口接收的输入。

例如，存储装置104可包括一个或多个存储介质，所述存储介质包括硬盘驱动器、固态驱动器、闪速存储器、诸如ROM之类的永久性存储器、任何其它适当类型的存储组件或者它们的任意组合。例如，存储装置104可以保存媒体数据(例如，音乐和视频文件)、应用程序数据(例如，用于在设备100上实现各种功能)、固件、用户偏好信息数据(例如，媒体重放偏好)、认证信息(例如，与授权用户相关联的数据的库)、生活方式信息数据(例如，食物偏好)、健身信息数据(例如，由健身监测设备获得的信息)、事务信息数据(例如，诸如信用卡信息之类的信息)、无线连接信息数据(例如，使电子设备100能够建立无线连接的信息)、预约信息数据(例如，记录用户订阅的播客或电视节目或其它媒体的信息)、联系信息数据(例如，电话号码和电子邮件地址)、日历信息数据和任何其它适当的数据，或者它们的任意组合。

内存106可包括高速缓冲存储器，诸如RAM之类的半永久性存储器，和/或用于临时保存数据的一种或多种不同类型的存储器。在一些实施例中，内存106还可用于保存用于操作电子设备应用程序的数据，或者可被保存在存储装置104中的任何其它类型的数据。在一些实施例中，内存106和存储装置104可被结合成单个存储介质。

输入机构108可向电子设备的输入/输出电路提供输入。输入机构108可包括任何适当的输入机构，诸如，例如按钮、小键盘、标度盘(dial)、点触轮或者触摸屏。在一些实施例中，电子设备100可包括电容性感测机构，或者多触摸电容性感测机构。在共同拥有的申请日为2004年7月10日、题为“Gestures for Touch Sensitive Input Device”的美国专利申请No.10/902,964和申请日为2005年1月18日、题为“Mode-BasedGraphical User Interfaces for Touch Sensitive Input Device”的美国专利申请No.11/028,590中描述了一些感测机构，这两件专利申请均在此整体引为参考。

音频输出端110可包括内置到电子设备100中的一个或多个扬声器(例如，单声道扬声器或立体声扬声器)，或者与音频输出机构耦接的音频连接器(例如，音频插孔或者适当的蓝牙连接)。例如，音频输出端110可利用有线或无线连接，向头戴式送受话器、头戴式受话器或者耳塞提供音频数据。

显示器112可包括用于提供用户可视的显示画面的显示电路(例如，屏幕或投影系统)。例如，显示器112可包括结合在电子设备100中的屏幕(例如，LCD屏幕)。作为另一个例子，显示器112可包括在远离电子设备100的表面上提供内容的显示的可移动显示器或者投影系统(例如，视频投影仪)。在一些实施例中，显示器112可包括编码器/解码器(编解码器)，以把数字媒体数据转换成模拟信号。例如，显示器112(或者电子设备100内的其它适当的电路)可包括视频编解码器、音频编解码器或者任何其它适当类型的编解码器。

显示器112还可包括显示驱动器电路、用于驱动显示驱动器的电路或者这两者。在处理器102的指导下，显示器112可显示内容(例如，媒体重放信息，在电子设备上实现的应用程序的应用程序屏幕，关于进行中的通信操作的信息，关于到来的通信请求的信息，或者设备操作屏幕)。

输入机构108、音频输出端110和显示器112中的一个或多个可以与输入/输出电路耦接。输入/输出电路可把模拟信号和其它信号转换成数字数据(以及如果需要的话，对其进行编码/解码)。在一些实施例中，输入/输出电路还可把数字数据转换成任何其它类型的信号，反之亦然。例如，输入/输出电路可接收和转换物理接触输入(例如，来自多触摸屏幕)，物理移动(例如，来自鼠标或传感器)，模拟音频信号(例如，来自麦克风)，或者任何其它输入。数字数据可被提供给处理器102、存储装置104、内存106、或者电子设备100的任何其它组件，或者可从处理器102、存储装置104、内存106、或者电子设备100的任何其它组件接收数字数据。在一些实施例中，在电子设备100中可以包括输入/输出电路的数个实例。

利用任何适当的通信协议，通信电路114可以与其它设备或者与一个或多个服务器通信。电子设备100可包括通信电路的一个或多个实例，以便利用不同的通信网络，同时进行数种通信操作。例如，通信电路可支持Wi-Fi(例如，802.11协议)、以太网、蓝牙^TM(它是Bluetooth Sig，Inc.拥有的商标)、射频系统、蜂窝网络(例如，GSM、AMPS、GPRS、CDMA、EV-DQ、EDGE、3GSM、DECT、IS-136/TDMA、iDen、LTE或者任何其它适当的蜂窝网络或协议)、红外、TCP/IP(例如，在每个TCP/IP层中使用的任意协议)、HTTP、BitTorrent、FTP、RTP、RTSP、SSH、IP话音(VOIP)、任何其它通信协议或者它们的任意组合。在一些实施例中，通信电路114可包括在电子设备100和主设备之间提供有线通信链路的一个或多个通信端口。例如，便携式电子设备可包括接纳使便携式电子设备耦接到主计算机的电缆的一个或多个连接器(例如，30针连接器或USB连接器)。利用主计算机上的软件(例如，可从Apple Inc.获得的iTunes)，便携式设备可与主计算机通信。

在一些实施例中，电子设备100可包括总线，所述总线提供用于向控制处理器102、存储装置104、内存106、输入/输出电路108、传感器110、和包括在电子设备中的任何其它组件传送数据，从上述组件传送数据，或者在上述组件之间传送数据的数据传送路径。

电子设备可提供任何适当的显示内容——包括，例如，菜单选项或者可供向用户重放的内容——的话音反馈(例如，诸如艺术家姓名、媒体标题或者专辑之类的与媒体相关联的元数据的话音反馈)。图2是按照本发明的一个实施例的具有对其可应用话音反馈的内容的说明性显示屏幕的示意图。显示画面200包括在其上显示内容的数个区域。例如，显示画面200可包括标题栏210、菜单220和附加信息230。标题栏210可包括指示电子设备所使用的模式或应用程序的标题212。例如，标题212可包括iPod(例如，当未选择任何应用程序时最上面的标题)、音乐、视频、照片、播客、其它(extras)和设置。可以得到其它标题，例如，当附属设备与电子设备耦接时(例如，无线电附件或健身附件)。标题栏210还可包括任何其它适当的信息，例如包括电池指示符214。

菜单220可包括数个可选选项222，例如包括用于选择模式或应用程序的选项，或者用于与所选择的特定模式或应用程序相关联的选项。通过把突出显示区224导航到某一选项上，用户可从菜单220中选择选项。当突出显示区在特定选项之上时，用户可提供选择指令(例如，通过按下按钮，或者提供任何其他适当的输入)，以选择所述特定选项。附加信息230可包括任何适当的信息，例如包括与由标题212识别的模式或应用程序、一个或多个显示的选项222、由突出显示区224识别的特定选项相关联的信息，或者任何其它适当的信息。

电子设备可利用任何适当的方法，产生显示画面200或者任何其它显示画面。在一些实施例中，可以使用模型-视图-控制器(MVC)架构或设计。模型可包括与供控制器显示的视图联系的任何适当信息(例如，控制器可查询模型，以构成视图，或者修改视图的在运行时与模型的联系)。例如，模型可包括一个或多个字符串或图像。每个视图可被配置成显示(例如，支持)一种或多种类型的元素。视图可把所支持的类型传给get_Property调用，响应于此，模型可把与所支持类型相关联的数据提供给供设备显示的视图。可以组合数个视图，以形成每个显示画面。例如，显示画面200可包括显示画面的每个区域的至少一个视图。

为了使提供所显示内容的话音反馈更容易，电子设备可把话音反馈变量和设置结合到与内容的实际显示相关联的MVC架构中。在一些实施例中，模型可包括另外的朗读属性字段。朗读属性字段可包括为提供话音反馈所需的或者可用于提供话音反馈的任何适当信息。在一些实施例中，朗读属性字段可包括将提供话音反馈的指示(例如，切换设置)。电子设备可利用任何适当的方法，确定要朗读的文本。在一些实施例中，视图或调度系统可查询与视图相关联的类型的属性ID。在一些实施例中，可以替代地或另外地提供根据属性ID(例如，利用散列表)生成的固定大小的ID，以识别为其提供话音反馈的文本。在一些实施例中，朗读属性可以替代地或另外地包括将由电子设备朗读的一串文本，或者到具有要显示在模型中的文本的字段的指针。

电子设备可把层次或重要性包含在MVC架构的任何适当组件中，例如包括作为与每个视图相关联的朗读顺序变量。朗读顺序可提供显示在对应视图中的朗读元素——例如，可被显示的其它视图中的相关其它文本——的重要性的指示。例如，所述指示可包括语音的层次。电子设备可定义任何适当的朗读顺序或层次，例如包括上下文(例如，与菜单标题相关联)、焦点(例如，列表控制，诸如突出显示区位置)、选择(例如，与列表上的某一项目相关联的选项)、属性(例如，媒体的详细说明或歌词)、细节和空闲。根据模型或者显示在视图中的元素，每个视图可以与一个或多个层次或朗读顺序相关联。例如，如果在视图内同时显示菜单选项和相关联的设置(例如，背光选项224和设置226)，那么视图可以与数个层次相关联。可替换地，可在不同的视图中提供菜单选项和设置。

如果一个或数个视图被显示成显示画面的一部分，那么电子设备可从模型取回要显示的元素，和显示所述元素的方式。另外，电子设备可从每个模型取回朗读属性，和从每个所显示的视图取回朗读顺序。电子设备可为显示画面的任何适当的朗读元素提供话音反馈。例如，电子设备可提供一个或多个视图的话音反馈。作为另一个例子，电子设备可为特定视图中的一个或多个元素提供话音反馈。在一些实施例中，电子设备可以为特定视图中的处于每个层次的仅仅一个元素提供话音反馈(例如，提供菜单220中的仅仅一个元素的话音反馈，在菜单220中每个选项与特定层次相关联)。

为了按照恰当的顺序提供所显示的朗读元素的话音反馈，电子设备的语音调度器可定义为其提供话音反馈的项目(例如，朗读项目)的队列，其中朗读顺序或层次设定各元素在队列中的顺序。电子设备可朗读所显示元素的任意适当组合。例如，电子设备可以仅仅朗读一个菜单项(例如，用突出显示区识别的菜单项)。作为另一个例子，电子设备可朗读数个菜单项(例如，跟在突出显示的菜单项之后的所有菜单项)。作为又一个例子，电子设备可以朗读所有菜单项。为了确保电子设备首先朗读用突出显示区识别的菜单项，电子设备可以把较高的层次或顺序与对应的菜单项联系起来。本讨论将互换地使用术语“朗读”朗读元素或字符串和“播放”与朗读元素或字符串相关联的“音频文件”来描述提供朗读元素的话音反馈。

在一些实施例中，语音调度器可以只把每个视图的每个层次的一个朗读元素包括在队列中。例如，这可为电子设备提供一种仅仅朗读被突出显示的菜单项的简易机制(例如，通过只把焦点层次分配给“音乐”菜单选项，仅仅朗读“音乐”，而不朗读菜单220中的其它项目)。如果在某一事务内，在给定层次的视图之内数个所显示的项目发生变化，那么语音调度器可以只把最近变化的项目放入队列中。为了提供与在单个事务中的相同朗读顺序相关联的数个项目的话音反馈，电子设备可把所述数个项目显示在与相同的朗读顺序相关联的不同视图中。语音调度器可使用任何适当的方法来提供具有相同层次(例如，下面更详细说明的现在播放显示画面中的空闲层次)的视图的不同元素的话音反馈。例如，语音调度器可遵循一个或多个资源文件中的元素的顺序、以视图的图形位置为基础的顺序、按字母顺序、或者利用任何适当的顺序。

图3是按照本发明的一个实施例的与图2的显示画面相关联的用于重放的朗读项目的说明性队列的示意图。可利用任何适当的方法描述队列300。在图3的例子中，队列300可包括要相继朗读的朗读字符串的列表310。作为视图的一部分，每个朗读字符串可以与在对应列340中识别的朗读层次相关联。利用来自显示画面200(图2)的元素，朗读字符串可包括具有上下文层次342的iPod字符串312和具有焦点层次343的音乐字符串313(例如，用突出显示区识别的菜单项是唯一被朗读的菜单项)。在其中朗读所有菜单项(例如，并不仅仅朗读用突出显示区识别的菜单项)的实现方式中，朗读字符串可包括例如全部具有选择层次(例如，在音乐字符串313的焦点层次之下的层次)的视频字符串、照片字符串、播客字符串、其它字符串、设置字符串、随机播放歌曲字符串和背光字符串。另外，由于背光选项可以和相关联的设置一起被显示，因此队列300还可包括在朗读了背光字符串之后朗读的、与属性层次相关联的On字符串。在其中只朗读突出显示选项的实现方式中，响应于检测到突出显示区已被放在菜单中的背光选项之上，电子设备可把焦点层次分配给背光字符串，并把选择层次分配给On字符串。电子设备可识别与每个朗读字符串相关联的音频文件(例如，利用散列或数据库)，并按照由队列300设定的顺序，相继重放每个所识别的音频文件。

当电子设备显示画面上的内容发生变化时，电子设备可修改提供的话音反馈，以反映变化后的显示画面。图4是按照本发明的一个实施例的在接收到用户对图2的显示画面的选项的选择之后电子设备显示画面的示意图。类似于显示画面200(图2)，显示画面400包括显示内容的数个区域。例如，显示画面400可包括标题栏410、菜单420和附加信息430。标题栏410可包括指示电子设备所使用的模式或应用程序的标题412。在图4的例子中，标题412可包括音乐，其指示所选择的菜单220(图2)的选项。

菜单420可包括数个可选选项422，例如，包括与所选择的特定模式或应用程序相关联的选项。通过把突出显示区424导航到某一选项之上，用户可以从菜单420中选择该选项。当突出显示区在特定选项之上时，用户可提供选择指令(例如，通过按下按钮，或者提供任何其它适当的输入)，以选择所述特定选项。在图4的例子中，选项422可包括Cover Flow(封面流)、播放列表、艺术家、专辑、歌曲、流派、作曲家、有声读物和搜索。附加信息430可包括任何适当的信息，例如包括与由标题412识别的模式或应用程序、一个或多个所显示的选项422、由突出显示区424识别的特定选项相关联的信息，或者任何其它适当的信息。

响应于确定所显示的内容已发生变化(例如，响应检测到事务)，语音调度器可更新或修改为显示画面提供话音反馈的朗读项目的队列。例如，语音调度器可确定与改变后的显示画面的每个视图相关联的朗读属性，从而产生所述队列。图5是按照本发明的一个实施例的与图4的显示画面相关联的用于重放的朗读项目的说明性队列的示意图。可以使用任何适当的方法来描述队列500。在图5的例子中，队列500包括要相继朗读的朗读字符串的列表510。作为视图的一部分，每个朗读字符串可与在对应栏540中识别的朗读层次相关联。利用来自显示画面400(图4)的元素，朗读字符串可包括具有上下文层次542的音乐字符串512，和具有焦点层次543的Cover Flow字符串513(例如，用突出显示区识别的菜单选项)。在朗读所有菜单选项的实现方式中，队列500可包括例如全部具有选择层次(例如，在Cover Flow字符串513的焦点层次543之下的层次)的播放列表字符串、艺术家字符串、专辑字符串、歌曲字符串、流派字符串、作曲家、有声读物字符串和搜索字符串。电子设备可识别与每个朗读字符串相关联的音频文件(例如，利用散列或数据库)，并按照由队列500设定的顺序，相继重放每个所识别的音频文件。

在一些实施例中，当所显示的内容保持不变，但是用户控制的标记(例如，突出显示区)变化时，电子设备提供的话音反馈会变化。这使用户可以识别响应于在用户移动标记的时候，用户对由标记识别的选项的选择，将执行的动作。图6是按照本发明的一个实施例的具有不同标记选项的图4的电子设备显示画面的示意图。类似于显示画面400(图4)，显示画面600包括显示内容的数个区域。例如，显示画面600包括标题栏610、菜单620和附加信息630。标题栏610包括指示电子设备所使用的模式或应用程序的标题612，它可以是和显示画面400相同的模式(例如，音乐)。

菜单620可包括和显示画面400相同的可选选项622。如图6中所示，用户已把突出显示区624导航到艺术家选项(例如，而不是如显示画面400中的Cover Flow选项)之上。所显示的附加信息630可包括任何适当的信息，例如包括与由标题612识别的模式或应用程序、一个或多个所显示的选项622、由突出显示区624识别的特定选项相关联的信息，或者任何其它适当的信息。在图4和6的例子中，所显示的辅助信息可以不同，从而反映突出显示区624的位置。

响应于确定突出显示区的位置已发生变化(例如，响应于检测到事务)，语音调度器可更新为显示画面提供话音反馈的朗读项目的队列。例如，语音调度器可确定与改变后的显示画面的每个视图相关联的修改、变更或更新后的朗读属性，以产生所述队列。图7是按照本发明的一个实施例的与图6的显示画面相关联的用于重放的朗读项目的说明性队列的示意图。可利用任何适当的方法描述队列700。在图7的例子中，队列700包括要相继朗读的朗读字符串的列表710。作为视图的一部分，每个朗读字符串与在对应列740中识别的朗读层次相关联。利用来自显示画面600(图6)的元素，朗读字符串可包括具有上下文层次742的音乐字符串712，和具有焦点层次743的艺术家字符串713(例如，用突出显示区识别的菜单选项)。特别地，队列700中的朗读字符串的列表可不同于队列500(图5)中的朗读字符串的列表，以反映突出显示区被下移到艺术家选项。例如，可从队列700中除去将会在队列700之前的队列500中朗读的朗读字符串。电子设备可识别与每个朗读字符串相关联的音频文件(例如，利用散列或数据库)，并按照由队列700设置的顺序，相继重放每个所识别的音频文件。在其中提供非突出显示菜单选项的话音反馈的实现方式中，队列700可包括例如全部具有选择层次(例如，在艺术家字符串713的焦点层次743之下的层次)的专辑字符串、歌曲字符串、流派字符串、作曲家、有声读物字符串、搜索字符串、Cover Flow字符串和播放列表字符串。可按照任何适当的方式对其它菜单选项排序，例如包括作为从由突出显示区识别的菜单项开始的重复列表。

响应于检测到事务，电子设备可重放朗读选项音频文件的任意部分。在一些实施例中，如果在用户提供访问显示画面400的指令时电子设备开始重放与显示画面200相关联的音频文件，或者在用户把突出显示区移动到在显示画面600中反映的位置的时候，电子设备开始重放与显示画面400的朗读字符串相关联的音频文件，那么电子设备可根据与音频文件相关联的层次和/或朗读项目的语音调度器队列的修改，有选择地停止重放该音频文件或者继续重放该音频文件。在一些实施例中，语音调度器首先确定更新后的队列，并比较初始队列和更新后的队列。特别地，语音调度器可从队列的开始，确定初始队列和更新队列的保持相同的各个部分，和更新队列中朗读元素的顺序开始发生变化的位置。例如，当语音调度器从队列300移动到队列500时，语音调度器可确定这两个队列并不共有任何共有的朗读字符串，于是从初始位置就不同。作为另一个例子，当语音调度器从队列500移动到队列700时，语音调度器可确定这两个队列共有与上下文层次相关联的朗读字符串，不过从与焦点层次相关联的朗读字符串开始变得不同。

语音调度器还可确定目前对其提供音频的朗读字符串分别在初始队列和更新队列(如果有的话)上的位置。例如，当语音调度器从队列500移动到队列700时，语音调度器可确定为其重放音频文件的朗读字符串是朗读字符串“音乐”(例如，由队列500和700共有的朗读字符串)，还是不同的朗读字符串(例如，不为队列500和700共有的朗读字符串)。如果语音调度器确定目前朗读的朗读字符串属于由初始队列和更新队列共有的朗读字符串，那么语音调度器可继续朗读或重放与朗读字符串相关联的音频，随后继续按照由更新队列设定的顺序，重放与更新队列的朗读字符串相关联的音频。例如，如果当用户使显示画面从显示画面400改变成显示画面600时，电子设备正在重放与朗读字符串“音乐”(它具有上下文层次)相关联的音频，那么当电子设备重放完与朗读字符串“音乐”相关联的音频时，电子设备可提供与朗读字符串“艺术家”(与显示画面600相关联的队列中的下一个项目)相关联的音频(例如，而不是与朗读字符串“Cover Flow”相关联的音频，“Cover Flow”是队列中的与显示画面400相关联的下一个朗读字符串)。

如果语音调度器改为确定目前朗读的朗读字符串不属于由初始队列和更新队列共有的朗读字符串的范围，那么电子设备可停止重放与目前朗读的朗读字符串相关联的音频。例如，一旦语音调度器确定目前朗读的语音不在共有的朗读字符串的范围内，电子设备就可停止重放音频。电子设备随后可重新开始重放与更新队列的任意适当的朗读字符串相关联的音频，例如，包括从更新队列中从其开始改变朗读元素的顺序的朗读字符串开始的更新队列的各朗读字符串。例如，如果当用户使电子设备从显示画面400移动到显示画面600时，电子设备目前正在朗读朗读字符串“Cover Flow”，那么电子设备可停止重放与朗读字符串“CoverFlow”相关联的音频(例如，只重放“Cover Flow”的音频)，并开始重放与朗读字符串“艺术家”(例如，不同于队列500的队列700的第一个朗读字符串)相关联的音频。在其中朗读所有菜单项的实现方式中，如果当用户使电子设备从显示画面400移动到显示画面600时，电子设备目前正在朗读朗读字符串“流派”，那么电子设备可停止重放与朗读字符串“流派”相关联的音频，并开始重放与朗读字符串“艺术家”相关联的音频。随后当在与显示画面600相关联的队列(例如，队列700)中到达朗读字符串“流派”时，可再次朗读朗读字符串“流派”。因此，如果用户以适当的速度，沿着显示在显示画面400中的选项移动突出显示区，那么电子设备可以仅仅重放显示画面400的每个选项的部分(例如，第一个音节)。

在一些实施例中，电子设备可以提供未由电子设备固件或操作系统静态提供的菜单项的话音反馈。例如，电子设备可提供根据用户(例如，从主设备)提供给电子设备的内容而产生的动态字符串的话音反馈。在一些实施例中，电子设备可提供由用户传送给电子设备的媒体的话音反馈(例如，根据与所传送的媒体相关联的元数据)。图8是按照本发明的一个实施例的响应于用户选择图6的突出显示菜单选项而提供的电子设备显示画面的示意图。类似于显示画面600(图6)，显示画面800可包括显示内容的数个区域。例如，显示画面800可包括标题栏810、菜单820和附加信息830。标题栏810可包括指示电子设备使用中的模式或应用程序的标题812(例如，“艺术家”)。

菜单820可包括与“艺术家”模式相关联的任何适当列表，例如，包括电子设备可以得到的媒体(例如，电子设备保存的媒体)的艺术家姓名的列表822。电子设备可利用任何适当的方法收集艺术家姓名，例如包括从与媒体相关联的元数据收集艺术家姓名。所显示的附加信息830可包括任何适当的信息，例如包括与在菜单820中识别的一位或多位艺术家相关联的信息(例如，与可从用突出显示区824识别的艺术家获得的媒体有关的信息)，或者用标题612识别的模式或应用程序。

响应于检测到事务(例如，对图6的显示画面600中的艺术家选项的用户选择)，语音调度器可更新朗读项目的队列，以反映所显示的动态艺术家姓名。例如，语音调度器可确定与改变后的显示画面的每个视图相关联的修改、变更或更新后的朗读属性，从而产生队列。图9是按照本发明的一个实施例的与图8的显示画面相关联的用于重放的朗读项目的说明性队列的示意图。可以利用任何适当的方法描述队列900。在图9的例子中，队列900包括要相继朗读的朗读字符串的列表910。作为视图的一部分，每个朗读字符串可以与在对应列940中识别的朗读层次相关联。利用来自显示画面800(图8)的元素，朗读字符串可包括具有上下文层次942的艺术家字符串912和具有焦点层次943的共有字符串913(例如，用突出显示区识别的艺术家)。在其中提供非突出显示菜单选项的话音反馈的实现方式中，队列900可包括例如全部具有选择层次(例如，在共有字符串813的焦点层次843之下的层次)的Corrs字符串、Craig David字符串、Creed字符串、D12字符串、Da Brat字符串和Daniel Beddingfield字符串。可按照任何适当的方式对其它艺术家排序，例如包括作为从用突出显示区识别的艺术家开始的重复列表。

在一些实施例中，电子设备可根据媒体重放的状态，有选择地提供话音反馈。例如，当电子设备在重放媒体时，电子设备可不提供特定元素或者在特定模式下的话音反馈。图10是按照本发明的一个实施例的说明性“现在播放”显示画面的示意图。显示画面1000包括标题栏1010、菜单1020和附加信息1030。标题栏1010包括指示电子设备在使用的模式或应用程序的标题1012。例如，标题1012可包括iPod(例如，当没有选择任何应用程序时最上面的标题)、音乐、视频、照片、播客、其它(Extras)、设置和现在播放。标题栏1010还可包括任何其它适当的信息，例如包括电池指示符1014。

菜单1020可包括数个可选选项1022，例如包括用于选择模式或应用程序的选项，或者与所选择的特定模式或应用程序相关联的选项。通过把突出显示区1024导航到某一选项之上，用户可从菜单1020中选择选项。在突出显示区被放在特定选项之上的时候，用户可提供选择指令(例如，通过按下按钮或者提供任何其它适当的输入)，以选择所述特定选项。例如，为了查看与目前重放的媒体(例如，目前播放或暂停的媒体)相关联的信息，用户可选择现在播放选项。响应于接收到对现在播放选项的用户选择，电子设备可显示与现在播放的媒体有关的附加信息1030。例如，附加信息1030可包括覆盖在专辑封套上的艺术家1032、标题1034和专辑1036。在一些实施例中，艺术家1032、标题1034和专辑1036中的每一个都可以与相同或不同的视图相关联(例如，通过把相同的层次用于所有附加信息元素来允许附加信息的话音反馈的不同视图)。

响应于接收到对显示画面1000(图10)的现在播放选项的选择，语音调度器可更新朗读项目的队列，从而朗读与现在播放的媒体有关的一个或多个字符串。例如，语音调度器可确定与改变后的显示画面的每个视图相关联的修改、变更或更新后的朗读属性，从而产生队列。图11是按照本发明的一个实施例的用于现在播放显示画面的朗读项目的说明性队列的示意图。可利用任何适当的方法描述队列1100。在图11的例子中，队列1100包括要相继朗读的朗读字符串的列表1110。作为视图的一部分，每个朗读字符串可以与在对应列1140中识别的朗读层次相关联。利用来自显示画面1000(图10)的元素，朗读字符串可包括具有上下文层次1142的iPod字符串1112、具有焦点层次1143的现在播放字符串1113(例如，用突出显示区识别的菜单选项)、具有空闲层次1144的Mika字符串1114、具有空闲层次1145的Grace Kelly字符串1115和具有空闲层次1146的Life in Cartoon Motion字符串1116。

为了确保不会在不适合的时间提供艺术家、标题和专辑的话音反馈，当重放媒体时(例如，未被暂停时)，电子设备可以不提供与空闲层次相关联的朗读元素的话音反馈。例如，电子设备可首先确定是否正在重放媒体。响应于确定没有正在重放任何媒体，电子设备可提供队列1100中的所有元素——包括与空闲层次相关联的元素——的话音反馈。如果电子设备代之以确定目前正在重放媒体，那么电子设备可提供队列1100中各个视图的与除空闲层次之外的层次相关联的元素的话音反馈。响应于检测到正在重放媒体，语音调度器可从队列1100中除去与空闲层次相关联的元素，或者代之以跳过队列1100中与空闲层次相关联的元素。电子设备可向任何适当的显示信息分配空闲层次，例如包括向显示在附加信息窗口或区域中的信息(例如，保存在设备上的歌曲或照片的数目)分配空闲层次。

电子设备可利用任何适当的方法，确定在何时要朗读什么字符串。图12是按照本发明的一个实施例的用于朗读出朗读字符串的说明性状态图。状态图1200可包括数种状态和达到这数种状态中的每种状态的数条路径。电子设备可开始于空闲状态1202。例如，当不显示任何内容时，电子设备可保持空闲状态。作为另一个例子，当显示内容，但是所显示的内容与话音反馈无关(例如，显示专辑封面)时，电子设备可保持空闲状态。作为又一个例子，当显示朗读内容，但是朗读内容都已被朗读时，电子设备可保持空闲状态。

当处于空闲状态1202时，电子设备可监测显示画面的事务。电子设备做出的关于什么元素要朗读的任何决定都会导致事务。可利用数种不同的方法开始(和由电子设备检测)事务。例如，响应于接收到用户指令(例如，对导致显示画面改变的可选选项的用户选择)，可检测到事务。作为另一个例子，响应于显示画面的转变(例如，例如由于超时或者由于用户移动突出显示区而导致的显示画面变化)，可检测到事务。响应于检测到事务，电子设备可进入更新步骤1204。在更新步骤1204，电子设备可更新与提供话音反馈相关联的变量或字段。例如，例如根据可从用于产生事务后显示画面的各视图的一个或多个模型获得的字段，语音调度器可产生供电子设备朗读的各个项目的队列。在更新步骤1204之后，电子设备可进入PreSpeakTimeout状态1206。

在PreSpeakTimeout状态1206，电子设备可暂停第一超时时间。在该超时时间内，电子设备可进行任何适当的操作，例如包括产生要朗读的朗读字符串的队列，识别与朗读字符串相关联的音频文件，和进行准备供重放的音频文件的初始操作，隐藏(duck)或衰减在先音频输出(例如，由于音乐重放而导致的输出)，或者进行任何其它适当的操作。例如，电子设备可减小在先的音频反馈(例如，隐藏)，以致朗读的字符串更清楚。作为另一个例子，在话音反馈期间，电子设备可暂停媒体的重放(以致用户不会错过任何媒体)。作为又一个例子，电子设备可使用PreSpeakTimeout状态，以确保没有检测到更新的事务(例如，突出显示区的后续移动)，以避免部分地朗读文本。电子设备可保持PreSpeakTimeout状态1206任何适当的持续时间，例如包括在0ms-500ms范围中的持续时间(例如，100ms)。一旦与PreSpeakTimeout状态1206相关联的第一超时时间已过去，电子设备就可进入重新开始步骤1208，从而进入朗读状态1210。

在朗读状态1210，电子设备朗读置于在更新步骤1204期间产生的队列中的朗读项目。例如，电子设备可识别与在所产生的队列中的朗读项目相关联的音频文件，并重放所识别的音频文件。当电子设备朗读完由语音调度器产生的话音反馈队列中的第一个项目时，电子设备可确定已提供了恰当的话音反馈，并进入完成步骤1212。在完成步骤1212，语音调度器可从队列中除去朗读过的朗读元素，或者把指针移动到队列中的下一个朗读元素。在一些实施例中，电子设备可代之以刚好在朗读朗读元素之前(例如，当在朗读状态1210下的时候)，从队列中除去该朗读元素，以致当电子设备在完成步骤1212之后返回朗读状态1210时，电子设备所识别的第一个朗读元素是要朗读的下一个元素。电子设备可在朗读状态1210和完成步骤1212之间连续移动，直到在更新步骤(例如，更新步骤1204)中产生的队列中的所有朗读项目都已被朗读为止(即，所述队列为空，或者指针已到达队列的结尾)，或者直到显示画面被改变并且执行新的更新步骤为止。

响应于当在朗读状态1210下的时候检测到事务(例如，如上所述)，电子设备可进入更新步骤1214。在更新步骤1214，电子设备可更新与提供话音反馈相关联的变量或字段，以与由所述事务引起的显示画面相符。例如，语音调度器可在更新后的话音反馈队列中，根据事务之后的显示画面，更新朗读元素和为其提供话音反馈的朗读元素的顺序。在一些实施例中，电子设备还可从队列的第一个朗读元素开始，确定更新队列的与初始的话音反馈队列(例如，在步骤1214之前)匹配的部分，并识别正在为其提供话音反馈的当前朗读元素。如果电子设备确定当前的朗读元素在初始队列和更新队列共有的那部分朗读元素之内，那么电子设备可返回到朗读状态1210，并继续朗读更新队列的下一个朗读元素(例如，利用完成步骤1212和朗读状态1210)。如果电子设备代之以确定当前的朗读元素不在初始队列和更新队列共有的那部分朗读元素之内，那么电子设备可停止朗读当前的朗读元素(例如，停止重放与当前的朗读元素相关联的音频文件)，并返回朗读状态1210。当返回到朗读状态1210时，电子设备可提供更新队列的朗读元素的话音反馈，例如，从队列的在所确定的那部分共有朗读元素之后的第一个朗读元素开始。

一旦电子设备已提供了由语音调度器产生的队列中的每个元素的话音反馈(例如，一旦队列为空)，电子设备就可进入no_ready_queue步骤1216。在no_ready_queue步骤1216，电子设备可从语音调度器接收朗读项目的队列为空的指示(例如，no_ready_queue变量)。电子设备可从no_ready_queue步骤1216进入PostSpeakTimeout状态1218。在状态1218，电子设备暂停第二超时时间。在该超时时间内，电子设备可进行任何适当的操作，例如包括准备供重放的其它音频，初始化用户选择的操作(例如，响应于检测到对于所显示和朗读的菜单选项之一的选择指令)，或者任何其它适当的操作。电子设备可代之以或者另外地从隐藏或衰减模式恢复音频输出(例如，从在PreSpeakTimeout状态1206期间启动的隐藏或衰减模式恢复到重放音频或其它媒体的正常模式)。可替换地，电子设备可重新开始被暂停的媒体的重放。电子设备可保持PostSpeakTimeout状态1218任何适当的持续时间，例如包括在0ms-500ms范围中的持续时间(例如100ms)。一旦与PostSpeakTimeout状态1218相关联的第一超时时间已过去，电子设备就进入重新开始步骤1220，从而返回空闲状态1202。

在一些实施例中，当在PostSpeakTimeout状态1218下时，电子设备可检测到事务(例如，上面所述的事务)，并且进入更新步骤1222。更新步骤1222可包括更新步骤1214的一些或全部特征。在更新步骤1222，电子设备可更新与提供话音反馈相关联的变量或字段，以与由所述事务引起的显示画面相符。例如，语音调度器可在更新的话音反馈队列中，根据事务之后的显示画面，更新朗读元素和为其提供话音反馈的朗读元素的顺序。另外，在一些实施例中，电子设备可从队列的第一个朗读元素开始，确定更新队列的与初始话音反馈队列(例如，在步骤1222之前)匹配的部分，并识别正在为其提供话音反馈的当前朗读元素(例如，如上结合更新步骤1214所述)。电子设备随后返回朗读状态1210，并提供更新队列的朗读元素的话音反馈，例如从队列的在所确定的那部分共有朗读元素之后的第一个朗读元素开始。

在一些实施例中，电子设备可能在朗读过程中检测到错误。例如，在play_error步骤1224，电子设备可接收到与朗读状态1210相关联的错误的指示。电子设备可在步骤1224接收到错误的任何适当的指示，例如包括play_error变量。电子设备随后可进入ErrorSpeaking状态1226。在ErrorSpeaking状态1226，电子设备可执行任何适当的操作。例如，电子设备可进行调试操作，或者用于识别错误的来源的其它操作。作为另一个例子，电子设备可收集与错误相关联的信息，以提供给软件的开发人员，供调试或修改之用。如果电子设备完成与ErrorSpeaking状态1226相关联的一个或多个操作，电子设备可进入完成步骤1228，从而返回到朗读状态1210，以继续提供由语音调度器产生的队列中的朗读元素的话音反馈。

可替换地，如果电子设备未能完成与ErrorSpeaking状态1226相关联的所有操作，电子设备可进入重新开始步骤1230，从而返回到朗读状态1210。电子设备可能因任何适当的原因——例如包括未能接收到有效的“完成”消息，接收到取消ErrorSpeaking操作或者返回到朗读状态1210的用户指令，错误超时(例如，100ms)，或者任何其它适当的原因，或者根据任何其它适当的条件——不能执行与朗读状态1210相关联的操作。

电子设备可利用任何适当的方法，获得与每个朗读元素相关联的音频文件。在一些实施例中，音频文件可由电子设备本地保存，例如作为设备的固件或软件的一部分。不过，这种方法的固有局限性在于固件通常被全球提供给在语言和口音不同的不同地点销售或使用的所有电子设备。为了确保用恰当的语言或者恰当的口音提供话音反馈，需要使每个设备使用的固件个人化。这会由于需要保存和提供数个版本的固件而导致成本相当高，并且会由于固件或软件提供者可需要管理不同固件或软件对于不同设备的分发而明显更复杂。另外，音频文件的大小(例如，与文本文件相对比)可较大，并且不容许以固件或软件更新的形式提供。

在一些实施例中，电子设备可利用在设备上运行的文本-语音(TTS)引擎，本地产生音频文件。利用这种方法，电子设备可用与设备相关联的语言，把与不同菜单选项相关联的文本字符串提供给设备的TTS引擎，从而产生话音反馈用音频文件。由于可用TTS引擎能够操作的文本字符串中的变化来反映朗读元素存在于其中的显示画面的改变，这种方法便于更容易的固件或软件更新。不过，可从电子设备获得的TTS引擎会限制这种方法。特别地，如果电子设备的资源有限，例如存储器、处理能力或电源电力有限(例如，与便携式电子设备相关联的限制)，那么TTS引擎产生的语音的质量会降低。例如，不能获得与方言或口音相关联的语调，或者不支持与特定语言(例如，过度不同于默认语言的语言)相关联的语音。

在一些实施例中，电子设备可代之以或者另外地从电子设备连接到的主设备接收与朗读元素相关联的音频文件。图13是按照本发明的一个实施例的包括电子设备和主设备的说明性通信系统的示意图。通信系统1300包括电子设备1302和通信网络1310，电子设备1302可利用通信网络1310与在通信网络1310内的其它设备进行有线或无线通信。例如，电子设备1302可通过通信网络1310，与主设备1320进行通信操作。尽管通信系统1300可包括数个电子设备1302和主设备1320，不过为了避免使图13过于复杂，图13中只分别表示了一个电子设备和一个主设备。

可以使用可用于建立通信网络的任何适当的电路、设备、系统或者它们的组合(例如，包括通信塔和电信服务器的无线通信基础结构)建立通信网络1310。通信网络1310能够利用任何适当的短程或长程通信协议，提供无线通信。在一些实施例中，例如，通信网络1310可以支持Wi-Fi(例如，802.11协议)、蓝牙(注册商标)、射频系统(例如，1300MHz，2.4GHz和5.6GHz通信系统)、红外、由无线和蜂窝电话机及个人电子邮件设备使用的协议，或者支持电子设备1302和主设备1320之间的无线通信的任何其它协议。例如通过利用电子设备1302和/或主设备1320上的任何适当端口(例如，30针，USB，火线，串行或以太网)，通信网络1310可代之以或者另外地能够提供电子设备1302和主设备1320之间的有线通信。

电子设备1302可包括接收媒体或数据的任何适当设备。例如，电子设备1302可包括电子设备100(图1)的一个或多个特征。电子设备1302可利用任何适当的方法，通过通信链路1340与主设备1320耦接。例如，电子设备1302可利用任何适当的无线通信协议通过通信链路1340连接到主设备1320。作为另一个例子，通信链路1340可以是既与电子设备1302耦接，又与媒体提供者1320耦接的有线链路(例如，以太网电缆)。作为又一个例子，通信链路1340可包括有线链路和无线链路的组合(例如，用于与主设备1320无线通信的附属设备可以耦接到电子设备1302)。在一些实施例中，任何适当的连接器、适配器(dongle)或扩展坞可作为通信链路1340的一部分用来耦接电子设备1302和主设备1320。

主设备1320可包括向电子设备1302提供音频文件的任何适当类型的设备。例如，主设备1320可包括计算机(例如，桌上型或膝上型计算机)、服务器(例如，可通过因特网或利用专用通信链路使用的服务器)、信息亭、或者任何其它适当的设备。主设备1320可利用任何适当的方法，提供用于电子设备的朗读元素的音频文件。例如，主设备1320可包括TTS引擎，该TTS引擎可以访问比电子设备1302上本地可用的资源更多的资源。利用更全面的主设备TTS引擎，主设备1320可产生与电子设备的朗读元素的文本字符串相关联的音频文件。主设备TTS引擎使电子设备可以用不同的语言或者用个性化的口音或话音模式(例如，利用名人的话音或者特定地区的口音)，来提供话音反馈。TTS引擎可包括通用语音字典，和不同声音的发音规则，以产生所提供文本的音频，并把所产生的音频转换成供电子设备重放的适当格式(例如，AIFF文件)。在一些实施例中，TTS引擎可包括用于进行特定于音乐的处理(例如，用“featuring”代替字符串“feat.”或者“ft.”)的预处理器。在一些实施例中，主设备1320可限制传给电子设备的媒体的数量，以考虑到保存与提供话音反馈相关联的音频文件所需的存储空间(例如，根据保存在电子设备上的媒体文件的预期数目，计算预期为话音反馈音频文件所需要的空间)。

主设备可利用任何适当的方法，识别为其提供音频文件的文本字符串。在一些实施例中，主设备可识别与从主设备传给电子设备的数据相关联的文本字符串，并把所识别的文本字符串提供给TTS引擎，以产生对应的音频文件。例如，这种方法可用于与从主设备传给电子设备的媒体文件(例如，音乐或视频)的元数据(例如，标题、艺术家、专辑、流派或任何其它元数据)相关联的文本字符串。在一些实施例中，电子设备可识别为其向主设备提供音频反馈的特定元数据(例如，电子设备识别标题、艺术家和专辑元数据)。主设备可以利用任何适当的方法来命名音频文件，和把音频文件保存在电子设备中。例如，音频文件名称和存储位置(例如，目录号)可以是对朗读的文本字符串应用散列的结果。

不过，对于不是从主设备传给电子设备的朗读元素(例如，电子设备固件的菜单选项的文本)，主设备不知道TTS引擎将为其提供音频文件的文本字符串。在一些实施例中，电子设备可提供文本文件(例如，XML文件)，所述文本文件包括与其话音反馈将被提供给主设备的每个静态朗读元素相关联的字符串。电子设备可在任何适当时候，产生具有朗读元素字符串的文本文件。在一些实施例中，每次电子设备启动时，可根据在编译期间从固件或软件源代码提取的数据，产生所述文件。例如，当电子设备编译与显示画面的模型和视图相关联的源代码时，电子设备可识别具有朗读属性的元素(例如，朗读元素)，并提取与朗读元素相关联的、要朗读的文本字符串和优先权。在一些实施例中，电子设备可响应于检测到话音反馈语言的变化，产生文本文件，发出反馈话音，或者建立变化。

可用在电子设备启动时产生的数据文件(例如，XML文件)，把所提取的文本提供给主设备。这种方法使得能够用固件或软件更新，更容易地改变朗读元素，这是因为编译后的固件或软件代码可包括主设备产生话音反馈用音频文件所需的所提取的朗读元素信息。响应于接收到文本文件，主设备可利用TTS引擎，产生每个朗读元素的音频文件。在一些实施例中，文本文件可包括语言变化的指示，以指令主设备为改变后的文本，或者利用改变后的话音或语言，产生新的音频文件。在共同转让的美国专利公布No.2006/0095848、题为“AUDIO USER INTERFACEFOR COMPUTING DEVICES”(代理卷号No.P3504US1)中更详细地说明了根据接收到的文本文件来产生音频文件的系统和方法，该专利在此整体引为参考。

下面的流程图说明向电子设备提供用于话音反馈的音频文件的说明性处理。图14是用于向电子设备提供静态字符串的说明性处理的流程图。处理1400开始于步骤1402。在步骤1404，电子设备产生列举静态字符串的数据文件。例如，电子设备可从固件提取由电子设备显示的、可为其提供话音反馈的文本的字符串。在步骤1406，电子设备把该文件提供给主设备。例如，电子设备可利用有线或无线通信路径，把文件提供给主设备。

在步骤1408，主设备可把所提供的数据文件的静态字符串转换成音频文件。例如，主设备可利用TTS引擎产生每个静态字符串的音频(例如，产生音频，压缩音频，和把音频转换成可由电子设备重放的文件格式)。在步骤1410，主设备可把所产生的音频传给电子设备。例如，主设备可通过通信路径，把所产生的音频文件传给电子设备。随后在步骤1412，结束处理1400。主设备可把音频文件保存在电子设备上的任意适当位置，例如包括保存在由要朗读的文本串的散列而产生的位置或目录号处。

图15是用于向电子设备提供动态字符串的说明性处理的流程图。处理1500开始于步骤1502。在步骤1504，主设备可识别要传给电子设备的媒体。例如，主设备可取回要传送的媒体(例如，播放列表内的媒体)的列表，以便传送给电子设备。在步骤1506，主设备可识别与所识别的媒体相关联的元数据字符串。例如，主设备可取回要传给电子设备的每个所识别媒体项的、由主设备识别的特定元数据字符串(例如，艺术家、标题和专辑字符串)。

在步骤1508，主设备可把所识别的元数据字符串(例如，动态字符串)转换成音频文件。例如，主设备可利用TTS引擎产生每个动态字符串的音频(例如，产生音频，压缩音频，和把音频转换成可由电子设备重放的文件格式)。在步骤1510，主设备可把所产生的音频传给电子设备。例如，主设备可通过通信路径，把所产生的音频文件传给电子设备。处理1500随后在步骤1512结束。主设备可把音频文件保存在电子设备上的任意适当位置，例如包括保存在由要朗读的文本字符串的散列所产生的位置或目录号处。

本发明的上述实施例是出于举例说明的目的给出的，而不是对本发明的限制，并且本发明仅由下面的权利要求限定。

Claims

1.一种向电子设备的用户提供话音反馈的方法，包括:

显示多个元素;

识别所述多个元素中的为其提供话音反馈的至少两个元素，其中话音反馈层次与所述多个元素中的所述至少两个元素之中的每个元素相关联;

确定与所述多个元素中的所识别的至少两个元素中的每个元素的显示相关联的话音反馈层次;

响应于所述识别和确定，产生包括所述多个元素中的所述所识别的至少两个元素的初始队列;

基于所确定的层次，对所述初始队列中的所识别的元素进行排序;和

按照所确定的层次的顺序，为所述多个元素中的所述所识别的至少两个元素提供话音反馈。

2.按照权利要求1所述的方法，还包括:

取回与所述多个元素中的所述所识别的至少两个元素中的每个元素相关联的音频文件;和

重放取回的音频文件。

3.按照权利要求1所述的方法，还包括:

改变所显示的多个元素中的至少一个元素;和

响应于所述改变，更新所述初始队列的至少一部分。

4.按照权利要求3所述的方法，还包括:

响应于所述改变，重新识别所述多个元素中的为其提供话音反馈的至少两个元素;

重新确定与所述多个元素中的重新识别出的至少两个元素中的每一个元素的显示相关联的层次;和

产生修订队列，所述修订队列包括所述多个元素中的所述重新识别出的至少两个元素。

5.按照权利要求4所述的方法，还包括:

检测在所述改变期间为其提供话音反馈的所识别的元素;

比较所述初始队列和所述修订队列，以识别所述初始队列和所述修订队列的共有部分;

确定检测到的元素不在所述修订队列的与所述初始队列共有的部分中;以及

停止为检测到的元素提供话音反馈。

6.一种朗读电子设备显示的元素的文本的系统，所述系统包括:

用于定义朗读属性与其相关联的多个元素的装置;

用于把所述多个元素显示在多个视图中的装置，其中每个视图与朗读顺序相关联;

用于产生包括所述多个元素的队列的装置，其中所述队列中的多个元素的顺序是根据所述朗读顺序设定的;

用于暂停第一超时时间的装置;

用于识别与所述队列中的所述多个元素中的每个元素相关联的音频文件的装置，其中所述音频文件包括每个元素的要朗读文本;

用于按照所述队列的顺序，依次重放所识别的音频文件的装置;和

用于暂停第二超时时间的装置。

7.按照权利要求6所述的系统，其中所述用于识别与所述队列中的所述多个元素中的每个元素相关联的音频文件的装置还包括:

用于根据所述要朗读文本的散列，取回与所述多个元素中的每个元素相关联的音频文件的装置。

8.按照权利要求6所述的系统，其中主设备利用文本到语音引擎，产生所述音频文件。

9.按照权利要求8所述的系统，还包括:

用于把所述多个元素中的每个元素的要朗读文本提供给所述主设备的装置;和

用于接收通过利用所述文本到语音引擎而产生的音频文件的装置，所述文本到语音引擎被应用于所提供的所述多个元素中的每个元素的所述要朗读文本。

10.按照权利要求6所述的系统，还包括:

用于改变所显示的多个元素中的至少一个元素的装置;和

用于产生修订队列的装置，所述修订队列包括根据与所显示的视图相关联的朗读顺序而排序的改变后的所显示的多个元素。

11.一种向电子设备的用户提供话音反馈的系统，包括:

用于显示多个元素的装置;

用于识别所述多个元素中的为其提供话音反馈的至少两个元素的装置，其中话音反馈层次与所述多个元素中的所述至少两个元素中的每个元素相关联;

用于确定与所述多个元素中的所识别的至少两个元素中的每个元素的显示相关联的话音反馈层次的装置;

用于响应于所述识别和确定，产生包括所述多个元素中的所述所识别的至少两个元素的初始队列的装置;

用于基于所确定的层次，对所述初始队列中的所识别的元素进行排序的装置;和

用于按照所确定的层次的顺序，为所述多个元素中的所述所识别的至少两个元素提供话音反馈的装置。

12.按照权利要求11所述的系统，还包括:

用于取回与所述多个元素中的所述所识别的至少两个元素中的每个元素相关联的音频文件的装置;和

用于重放取回的音频文件的装置。

13.按照权利要求11所述的系统，还包括:

用于改变所显示的多个元素中的至少一个元素的装置;和

用于响应于所述改变，更新所述初始队列的至少一部分的装置。

14.按照权利要求13所述的系统，还包括:

用于响应于所述改变，重新识别所述多个元素中的为其提供话音反馈的至少两个元素的装置;

用于重新确定与所述多个元素中的重新识别出的至少两个元素中的每一个元素的显示相关联的层次的装置;和

用于产生修订队列的装置，所述修订队列包括所述多个元素中的所述重新识别出的至少两个元素。

15.按照权利要求14所述的系统，还包括:

用于检测在所述改变期间为其提供话音反馈的所识别的元素的装置;

用于比较所述初始队列和所述修订队列，以识别所述初始队列和所述修订队列的共有部分的装置;

用于确定检测到的元素不在所述修订队列的与所述初始队列共有的部分中的装置;以及

用于停止为检测到的元素提供话音反馈的装置。