CN103003880A

CN103003880A - 为视频确定代表图像

Info

Publication number: CN103003880A
Application number: CN2011800365645A
Authority: CN
Inventors: M.A.佩特斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2010-07-26
Filing date: 2011-07-21
Publication date: 2013-03-27
Anticipated expiration: 2031-07-21
Also published as: RU2591656C2; WO2012014129A2; US20130121586A1; EP2599083B1; KR20130036765A; WO2012014129A3; CN103003880B; JP5746765B2; JP2013539255A; EP2599083A2; US9135509B2; RU2013108227A

Abstract

视频包括至少一个镜头（SH），镜头是表示从特定位置查看的场景的连续序列的图像。从镜头（SH）中选择图像，以便获得均匀分布于所述镜头的选择图像（SI）的连续序列。满足预定义相似性测试的选择图像的至少一个连续子序列（SB1，SB2，SB3）被识别。从时间上与满足预定义相似性测试的选择图像的最长连续子序列（SB2）相符的镜头的连续部分（SP）中选择图像。所选择的图像构成镜头的代表图像（RI）。

Description

为视频确定代表图像

技术领域

本发明的方面涉及为视频中的至少一个镜头（shot）确定代表图像的方法。例如，该方法可以用于帮助用户在诸如电影、广播录像或个人录像之类的相对大的视频实体中找到特定视频块。本发明的其他方面涉及在视频中浏览的方法、在视频的集合中搜索视频的方法、视频处理器、存储介质以及计算机程序。

背景技术

为视频确定代表图像能够服务于各种用途。例如，代表图像可以帮助用户在视频中浏览，以便找到感兴趣的特定部分。例如，感兴趣的部分可以涉及用户想要显示给家人或朋友的特定事件。作为另一示例，感兴趣的部分可以与中断用户观看视频的点相对应。视频的各自部分的综述能够包括这些各自部分的各自代表图像。这样的基于视觉的综述一般将允许用户方便地找到感兴趣的特定部分。代表图像也可以帮助用户在视频的集合中找到特定视频。已提议用于为视频确定代表图像的各种技术。这些技术中的一些技术从包括相对多动作的场景中选择图像来构成代表图像。

由Zhuang Y.等人发表在the proceedings of the International Conference on Image Processing（ICIP’98）、1998年第1卷第866页上的题为“Adaptive Key Frame Extraction Using Unsupervised Clustering”的文章描述一种用于基于无监督聚类（cluster）的关键帧提取的算法。根据镜头边界检测算法获得包括N个帧的视频镜头，N是整数。视频镜头的N个帧被聚成M个聚类，M是整数。每个聚类具有质心，在向该聚类添加新图像时需要重新计算质心。对于考虑之中的帧，计算在那个帧与每个聚类的质心之间相似性的测量。如果如此为考虑之中的帧计算的相似性的所有测量低于阈值的话，则为那个帧创建新的聚类。否则，考虑之中的帧被分配到已有聚类，即其相似性的测量具有最高值的聚类。阈值参数越高，则将获得的聚类的数量M就越大。一旦已形成聚类，从具有的大小大于N/M即聚类的平均大小的每一个聚类中提取关键帧。聚类的关键帧是最靠近聚类质心的帧。

发明内容

需要允许以相对快速且有效的方式为视频确定代表图像的解决方案。

根据本发明的方面，提供一种为视频中的至少一个镜头确定代表图像的方法，镜头是表示从特定位置查看的场景的图像的连续序列。该方法包括：

- 镜头采样步骤，其中从镜头中选择图像，以便获得均匀地分布于所述镜头的选择图像的连续子序列；

- 稳定镜头部分识别步骤，其中识别满足预定义相似性测试的选择图像的至少一个连续子序列；和

- 代表图像指定步骤，其中从时间上与满足预定义相似性测试的选择图像的最长连续子序列相符的镜头的连续部分中选择图像，从而所选择的图像构成所述镜头的代表图像。

因此，在图像内容方面是相对稳定的镜头的最长连续部分提供代表图像。因而有效地从具有相对长的观看时间的内容块中提取代表图像。结果，具有相对高的用户将把代表图像与镜头相关联的概率。而且，由于从中提取代表图像的镜头的部分的稳定性，所以代表图像一般将具有相对好的质量。

本发明的另一个优点涉及以下方面。根据本发明确定代表图像能够利用相对较少的图像比较来实现。例如，对于考虑之中的图像的相似性测试可以通过仅将那个图像与一个其他图像进行比较来执行。这与在上文提到的文章中描述的算法形成对比，其中该算法对于每一个聚类需要图像比较，并且此外需要聚类质心的重新计算。图像比较一般在计算上是密集的，并因此是相对慢的。本发明因而允许代表图像以相对快速的方式来确定，这是由于减少在这样做时所涉及的图像比较的数量。

本发明的实现方式有利地包括在单独的段落中描述的以下附加特征之中的一个或多个。这些附加特征均有助于以相对快速且有效的方式来确定视频的代表图像。

在稳定镜头部分识别步骤中，对于各自选择图像有利地执行以下一系列步骤：

差异测量确定步骤，其中根据预定义方案将选择图像的至少一个图像属性与另一选择图像的图像属性进行比较，以便确定选择图像的差异测量；和

差异测量评估步骤，其中分别地，根据选择图像的差异测量是否低于阈值，将选择图像分类为或不分类为属于满足相似性测试的选择图像的连续子序列。

预定义方案可以定义：选择图像与紧邻的选择图像进行比较。

预定义方案可以定义：如果紧接在前的选择图像属于满足相似性测试的选择图像的连续子序列，该选择图像与开始这个选择图像的连续子序列的选择图像进行比较。在图像内容遍及该连续子序列缓慢但确实改变的意义上说，这样的方案允许避免连续子序列中的图像内容的缓慢“漂移（drift）”。如果预定义方案规定只将该选择图像与紧邻的选择图像进行比较的话，这样的缓慢漂移可能发生。

在差异测量确定步骤中，各自图像属性差异有利地被组合为构成差异测量的差异度量，这些各自图像属性差异通过将该选择图像的各自图像属性与至少一个其他选择图像的图像属性进行比较而获得。

在镜头采样步骤中，从每个序列的N个连续图像中有利地选择一个图像，N是大于1的整数。与其中选择镜头的所有图像的实现方式相比，在具有这个附加特征的实现方式中将具有较少的计算工作量。实际上，N代表子采样因数。N越大，则将需要越少的计算工作量。然而，N越大，能够识别镜头中的最长稳定部分的精度就越低。能够找到在这两个方面之间适当的折衷。

在代表图像指定步骤中，有利地为代表图像提供长度指示，该长度指示表示被从中选择代表图像的镜头的连续部分覆盖的时间间隔。

该方法可以有利地包括：

镜头关联步骤，其中镜头与至少一个其他镜头相关联，其中当与该镜头进行比较时，至少一个其他镜头满足镜头相似性测试；以及

长度指示升级步骤，其中通过给镜头的代表图像添加已与该镜头相关联的各自其他镜头的各自代表图像的各自长度指示来升级该镜头的代表图像的长度指示。当两个或更多交替系列的相似镜头出现在视频中时，可以有利地使用这些附加特征来确定代表图像。例如，视频部分可以表示在两个人员A与B之间的对话，从而人员A的镜头和人员B的镜头根据谁在说话而交替出现。实际上，能够认为：视频部分包括交换若干次的人员A的单一镜头和人员B的单一镜头。

根据本发明的另一方面，在视频中浏览的方法使用为视频中包括的各自镜头已确定的各自代表图像以及各自代表图像的各自长度指示。该方法包括：

分段定义步骤，其中定义视频中的各自分段，从而对于视频中的各自分段执行以下步骤：

代表图像选择步骤，其中比较分段中的各自镜头的各自代表图像的各自长度指示，从而选择具有最大长度指示的代表图像来构成该分段的代表图像。

该方法有利地包括导航启用步骤，其中生成包括视频中的各自分段的各自代表图像的导航屏幕，从而各自代表图像被包括在与各自分段相关联的各自可选区域中。

根据本发明的又一方面，为视频确定代表图像的方法使用为视频中包括的各自镜头已确定的各自代表图像以及这些各自代表图像的各自长度指示。该方法包括代表图像选择步骤，其中比较各自代表图像的各自长度指示，从而选择具有最大长度指示的代表图像来构成视频的代表图像。

根据本发明的还一方面，在视频的集合中搜索视频的方法使用为集合中的各自视频已选择的各自代表图像，该方法包括：

搜索步骤，其中识别该集合中满足搜索标准的各自视频；

搜索结果处理步骤，其中在满足搜索标准的各自视频之中，识别其各自代表图像满足图像相似性测试的各自视频；和

搜索表示步骤，其中其各自代表图像满足图像相似性测试的各自视频被联合指示为单个搜索结果项。

参考附图的详细描述阐述上文概述的本发明以及附加特征。

附图说明

图1是显示能够为视频中包括的各自镜头确定代表图像的视频处理器的功能图。

图2是显示视频处理器执行的各种操作的概念图。

图3是显示形成视频处理器的一部分的稳定镜头部分识别模块的功能图。

图4是显示稳定镜头部分识别模块执行的各种操作的概念图。

图5是显示使用视频处理器产生的结果的视频浏览器的功能图。

图6是显示代表图像选择模块执行的各种操作的概念图。

图7是显示包括各自分段的各自代表图像的导航屏幕的概念图。

图8是显示使用代表图像选择模块产生的结果的视频搜索引擎的功能图。

具体实施方式

图1功能地显示视频处理器VPR。视频处理器VPR包括各种功能模块：镜头检测模块SHD、镜头采样模块SHS、稳定镜头部分识别模块SPI和代表图像指定模块RID。视频处理器VPR耦合到其中至少部分且临时存储视频VD的数据存储装置DSA。视频处理结果可以存储在与视频VD相关联的数据存储装置DSA中，如图1所示。例如，视频处理器VPR可以形成视频服务器、个人多媒体设备或个人通信设备的一部分。

例如，上述的功能模块均可以利用已加载到指令执行设备中的指令集来实现。在这样的基于软件的实现方式中，该指令集定义将在下文描述的所涉及的功能模块执行的操作。在这方面，至少部分地，图1能够被视为表示一种方法，从而功能模块或者功能模块的组合能够被视为表示该方法的步骤。例如，镜头采样模块SHS能够被视为表示镜头采样步骤，稳定镜头部分识别模块SPI能够被视为表示稳定部分识别步骤，等等。类似的评论适用于其他功能模块，在下文将参考其他附图来描述这些其他功能模块。

视频处理器VPR基本上如下操作。镜头检测模块SHD检测视频VD中包括的各种镜头SH。镜头是表示从特定位置查看的场景的连续序列的图像。镜头检测模块SHD可以以常规方式操作。例如，镜头检测模块SHD可以检测视频VD中的镜头切换（shot cut）。相对短的一系列的相继图像中相对显著的变化表征镜头切换。例如，镜头切换可以包括特殊效果，诸如时强时弱（fading）。通过应用合适的算法以及通过应用合适的镜头切换检测参数，有可能以足够可靠的方式来检测镜头切换。具有丰富的与这个主题有关的文献。镜头通常被包括在两个相继的镜头切换之间，其中第一镜头切换标记镜头的开始，而后一个标记结束。镜头检测模块SHD因而可以提供将视频VD有效地分成各自镜头SH的镜头切换标记器SC。镜头切换标记器SC可以与视频VD相关联来存储。

镜头采样模块SHS选择需要为其确定代表图像的镜头。镜头采样模块SHS随后从那个镜头中选择图像，以便获得均匀地分布于该镜头的连续序列的选择图像SI。例如，镜头采样模块SHS可以从镜头中的每个系列的N个连续图像中选择一个图像，N是大于1的整数。这实际上是视频子采样处理，其中采样速率等于N。连续序列的选择图像SI具有的图像速率比视频VD的图像速率低N倍。例如，连续序列的选择图像SI可以临时存储在数据存储装置DSA中。

稳定镜头部分识别模块SPI识别满足预定义相似性测试的选择图像的一个或多个连续子序列SB。这种相似性测试通常比一般用于镜头切换检测的测试更为严格。否则，稳定镜头部分识别模块SPI可以系统地将镜头中的所有选择图像识别为属于满足预定义相似性测试的单个连续子序列。例如，预定义相似性测试可以基于图像属性，诸如亮度、色度、纹理、边缘。这将在下文更详细地进行讨论。

稳定镜头部分识别模块SPI可以采用子序列标记器SM的形式提供输出。子序列标记器SM指示已被识别为满足预定义相似性测试的一个或多个连续子序列SB的选择图像。例如，子序列标记器可以指示标记子序列的开始或标记子序列的结束的选择图像的序列号。具有最低序列号的子序列标记器通常指示第一子序列的开始。具有一个序列号但是最低序列号的子序列标记器通常指示第一子序列的结束，诸如此类。这仅是一个示例。能够使用时间指示来替代序列号。在任何情况中，子序列标记器SM提供有关已识别的选择图像的连续子序列SB的位置信息和长度信息。

代表图像指定模块RID确定满足预定义相似性测试的选择图像的最长连续子序列。能够基于稳定镜头部分识别模块SPI提供的序列标记器SM来确定选择图像的最长连续步序列。例如，代表图像指定模块RID可以通过比较定界（delimit）满足预定义相似性测试的选择图像SI的各自子序列的子序列标记器SM的各自配对之间的各自距离来确定最长连续子序列。最长距离指示最长连续子序列。

代表图像指定模块RID从时间上与上述的选择图像的最长连续子序列相符的镜头的连续部分中选择图像。如此选择的图像构成该镜头的代表图像RI。代表图像指定模块RID可以采用代表图像标识符IR的形式提供输出。代表图像标识符IR独特地指定视频VD中的代表图像RI以及代表图像RI所属的镜头。

代表图像指定模块RID可以进一步提供代表图像RI的长度指示LI。长度指示LI表示被从中选择代表图像RI的镜头的连续部分覆盖的时间间隔。长度指示LI可以包括在代表图像标识符IR中。

代表图像指定模块RID可以基于指示满足预定义相似性测试的选择图像的最长子序列的子序列标记器SM来确定长度指示LI。例如，假设子序列标记器SM采用定界已识别的子序列的选择帧的序列号的形式。在这种情况下，指示最长子序列的子序列标记器SM之间的差异与最长子序列中包括的选择帧的数量相对应。如果镜头采样模块SHS应用恒定采样速率，那么选择帧的这个数量可以构成长度指示LI。选择帧的数量也可以被该序列的选择帧的帧速率相除。因此，获得最长子序列的持续时间，其可以构成长度指示LI。

图1所示的视频处理器VPR可以采用如上所述的方式来确定视频VD中包括的各自镜头SH的各自代表图像RI。为此，镜头采样模块SHS可以相继地选择视频VD中的各自镜头SH。镜头采样模块SHS、稳定镜头部分识别模块SPI以及代表图像指定模块RID随后对于当前选择的镜头执行如上所述的操作。因此，视频处理器VPR随后为各自镜头SH提供各自的代表图像标识符IR，其中这些标识符IR有效地指向各自的代表图像RI。视频处理器VPR进一步为各自代表图像RI提供各自长度指示LI。各自代表图像标识符IR以及各自长度指示LI与视频VD以及各自的镜头切换标记器SC相关联进行存储，其中镜头切换标记器识别视频VD中的各自镜头SH。所有这个数据能够被联合存储在如图1所示的数据存储装置DSA中。交替地，假定在涉及视频VD的不同类型的数据之间具有某种形式的链接，可以将该数据存储在不同的存储装置中。

图2概念地显示镜头采样模块SHS、稳定镜头部分识别模块SPI以及代表图像指定模块RID执行的各种操作。图2包括表示包括在两个相继镜头切换SC_i、SC_i+1之间的短SH的上水平分段。相对小的垂直线表示在镜头SH内的图像。这些图像被均匀地部署在表示时间T的水平轴上。图2包括具有相似水平轴的下水平分段，其中在水平轴上借助于相对小的垂直线来表示镜头中的选择图像SI。如图2所示，从镜头中由4个连续图像构成的每一个系列中选择一个图像。在图2的下水平分段中表示的选择图像SI从1到12进行编号。

选择图像2和3构成满足相似性测试的选择图像的第一连续子序列SB1。第一连续子序列SB1具有2个选择图像的长度L1。选择图像5、6、7和8构成满足相似性测试的选择图像的第二连续子序列SB2。第二连续子序列SB2具有4个选择图像的长度L2。选择图像9、10和11构成满足相似性测试的选择图像的第三连续子序列SB3。第三连续子序列具有3个选择图像的长度L3。

在图2的上水平分段中，指示镜头SH的连续稳定部分SP。这个连续稳定部分SP在时间上与选择图像的第二连续子序列SB2相符，其中第二连续子序列SB2是满足预定义相似性测试的选择图像的最长连续子序列。连续稳定部分SP因而构成镜头SH的最长稳定部分。在这个上下文中，术语“稳定”指的是图像内容的稳定性；连续稳定部分SP对于相对长的持续时间是相对静态的。

从图2所示的镜头的连续稳定部分SP中选择图像，其中连续稳定部分SP是镜头的最长稳定部分。从镜头的连续稳定部分SP中选择的图像构成所涉及的镜头的代表图像RI。原则上，所选择的图像可以是镜头的连续稳定部分SP中的任何图像。这是因为镜头的连续稳定部分SP是相对静态的，这意味着在其中包括的图像是彼此相对类似的。否则，构成第二子序列SB2的选择图像5、6、7和8将不会满足相似性测试。在图2中，被选择为代表图像RI的图像位于连续稳定部分SP的中心。这只是一个示例。连续稳定部分SP的任何其他图像诸如第一图像或最后图像也可以被选择来构成代表图像RI。代表图像RI甚至能够随机地进行选择。

代表图像RI通常将具有相对好的质量。这是因为从图像内容方面是相对稳定的镜头的部分中选择代表图像RI。例如，如果图像已被编码，编码损失在图2所示的镜头的连续稳定部分SP中将是相对适度的，这是因为那个部分SP中的图像是相对类似的。例如，假设这些图像已根据MPEG标准进行编码，这意味着运动估计和量化。在这种情况下，对于图2所示的连续稳定部分SP中的图像的运动估计将是相对精确的。将具有相对小的残留物（residue）。此外，连续稳定部分SP中的图像通常将经历适度的量化。

图3功能地显示稳定镜头部分识别模块SPI的实现方式。为简单起见，这个实现方式将被称为稳定镜头部分识别模块SPI。稳定镜头部分识别模块SPI包括各种功能模块：图像属性确定IPD模块、图像属性比较模块IPC、阈值比较模块THC以及子序列识别模块SBI。对于基于软件的实现方式来说，至少部分地，图3能够被视为表示一种方法，从而功能模块或功能模块的集合能够被视为该方法的步骤。

图3所示的稳定镜头部分识别模块SPI基本上如下操作。图像属性确定模块IPD确定选择图像的至少一个图像属性。图像属性确定模块IPD因而对于各自选择图像SI可以提供图像属性IP的各自集合。例如，图像属性IP的集合可以包括亮度直方图、色度直方图、纹理信息和边缘信息。图像属性可以采用在名为MPEG 7的标准中定义的信息的形式。

图像属性比较模块IPC根据预定义方案SCH将考虑之中的选择图像的图像属性IP的集合与另一选择图像的图像属性集合进行比较。例如，预定义方案SCH可以规定：在图像属性方面，将考虑之中的选择图像与紧接在考虑之中的选择图像之前的选择图像进行比较。作为另一示例，预定义方案SCH可以首先验证以下情形是否适用：紧接在考虑之中的图像之前的选择图像属于满足相似性测试的选择图像的连续子序列。如果上文定义的情形适用的话，在图像属性IP方面，将考虑之中的图像与开始这个选择图像的连续子序列的选择图像进行比较。

对于任何预定义方案SCH来说，图像属性比较模块IPC为考虑之中的选择图像确定一组图像属性差异。这组图像属性差异源于根据预定义方案SCH进行的图像属性比较。图像属性比较模块IPC有利地将考虑之中的选择图像的图像属性差异组合为差异度量DM，其构成一维差异测量。图像属性比较模块IPC因而为各自选择图像SI提供各自差异度量DM。如果选择图像对于该选择图像根据预定义方案SCH与之进行比较的一个或多个其他选择图像而言是相对类似的，选择图像的差异度量DM将具有相对低的值。相反，如果根据预定义方案SCH进行比较的图像是相对不同的，那么差异度量DM将具有相对高的值。

阈值比较模块THC将图像属性比较模块IPC提供的各自差异度量DM与阈值TH进行比较。这个比较为各自选择图像SI提供各自的相似性决定SD。如果选择图像的差异度量DM低于阈值TH，那么对于选择图像的相似性决定SD是肯定的。否则，相似性决定SD是否定的。实际上，相似性决定SD指示所涉及的选择图像相对于在图像属性方面该选择图像已与之进行比较的一个或多个其他选择图像而言是否是足够相似的。换句话说，相似性决定SD指示已比较的选择图像是否满足预定义相似性测试。

子序列识别模块SBI基于阈值比较模块THC提供的各自相似性决定SD来识别满足预定义相似性测试的选择图像的一个或多个子序列SB。假设：肯定的相似性决定跟随在否定的相似性决定之后。在这种情况下，肯定的相似性决定标记满足相似性测试的选择图像的子序列的开始。子序列至少包括肯定的相似性决定所基于的选择图像。进一步假设：进一步肯定的相似性决定跟随在上述的肯定的相似性决定之后。在这种情况下，可以说是（as it were），子序列被延长，并且进一步包括这个进一步肯定的相似性决定所基于的选择图像。该子序列继续被延长，直至否定的相似性决定出现。否定的相似性决定随后标记选择图像的子序列的结束。新的肯定的相似性决定将标记选择图像的新的子序列的开始。

可以说是，用于将差异度量DM变换成相似性决定SD的阈值TH能够是临界参数。阈值TH表示预定义相似性测试的严重程度。如果阈值TH太高的话，那么能够发生：很少识别或甚至根本不识别选择图像的子序列SB。相反，如果阈值TH太低的话，那么能够频繁发生：镜头的所有选择图像被识别为属于覆盖整个镜头的单个子序列。例如，可以采用实验方式来确定阈值TH的适当水平。

子序列识别模块SBI提供与图1所示的稳定镜头部分识别模块SPI的输出相对应的输出。即，子序列识别模块SBI提供指示已被识别为满足预定义相似性测试的选择图像的一个或多个连续子序列SB的子序列标记器SM。子序列标记器SM提供有关已识别的选择图像的连续子序列SB的位置信息和长度信息。

图4概念地显示稳定镜头部分识别模块SPI执行的各种操作。图4包括表示也在图2中显示的镜头的选择图像SI的上水平分段。即，图4的上水平分段与图2的下水平分段相对应。从1到12编号的选择图像SI被均匀地部署在表示时间T的水平轴上。图4包括其中指示各自差异度量DM的中间水平分段。图4进一步包括其中指示各自相似性决定SD的下水平分段。

图4构成其中预定义方案SCH规定考虑之中的选择图像与紧接在前的选择图像进行比较的示例。在图4中，略微弯曲的箭头指示这些图像比较。例如，假设：选择图像2在考虑之中。在这种情况下，选择图像2在图像属性方面与选择图像1进行比较。这个比较产生差异度量DM2。可以说是，差异度量DM2转换成否定的相似性决定（-）。这是因为差异度量DM2超过上述的阈值TH。现在，假设：选择图像3在考虑之中。在这种情况下，选择图像3在图像属性方面与选择图像2进行比较。这个比较产生差异度量DM3，因为差异度量DM3低于阈值TH，所以差异度量DM3转换成肯定的相似性决定（+）。

图4显示：相似性决定中否定到肯定转变标记满足预定义相似标准的选择图像的子序列SB的开始。相似性决定中肯定到否定转变标记子序列SB的结束。子序列包括一个或多个连续的肯定相似性决定所基于的选择图像。例如，转换成肯定的相似性决定（+）的差异度量DM3之前是转换成否定的相似性决定（-）的差异度量DM2。这标记选择图像的第一子序列SB1的开始。差异度量DM3之后跟随着转换成否定的相似性决定（-）的差异度量DM4。这标记第一子序列SB1的结束。差异度量DM3基于选择图像2和3，这些选择图像2和3因而形成第一子序列SB1。

作为另一示例，转换成肯定的相似性决定（+）的差异度量DM6之前是转换成否定的相似性决定（-）的差异度量DM5。这标记选择图像的第二子序列SB2的开始。差异度量DM6之后跟随着差异度量DM7和DM8，其中每一个差异度量同样转换成肯定的相似性决定（+）。可以说是，第二子序列SB2继续。差异度量DM9转换成否定的相似性决定（-）。这标记第二子序列SB2的结束。具有三个连续的差异度量DM6、DM7和DM8，这些差异度量转换成三个连续的肯定的相似性决定（+）。这三个连续的差异度量DM6、DM7和DM8基于连续出现并因而形成第二子序列SB2的选择图像5、6、7和8。

图5显示视频浏览器VBR。视频浏览器VBR包括分段定义模块SDF、代表图像选择模块RIS以及导航启用模块NAV。例如，这些进一步功能模块可以包括在图1所示的视频处理器VPR中。交替地，图5所示的功能模块可以包括在另一个视频处理器中。在任何情况下，对于基于软件的实现方式而言，至少部分地，图3能够被视为表示一种方法，从而功能模块或功能模块的组合能够被视为该方法的步骤。

图5所示的视频浏览器VBR使用图1所示的视频处理器VPR提供的结果。这些结果包括对于视频VD中的各自镜头SH已确定的各自代表图像RI。这些结果对于各自代表图像进一步包括各自长度指示LI。如上文所提及的，这些结果可以采用各自镜头SH的各自代表图像标识符IR的形式，其中这些标识符有效地指向各自代表图像。各自长度指示LI能够被包括在各自代表图像标识符IR中。所有这个数据可以存储在数据存储装置DSA中，其中该数据存储装置可以与图1所示的相对应或可以是该数据已被传送至的另一数据存储装置。

视频浏览器VBR基本上如下操作。分段定义模块SDF允许定义视频VD中的各自分段SE。例如，视频VD能够有效地被分成覆盖给定长度的各自相继时间间隔的各自分段SE。作为进一步示例，视频VD能够被分成各自10分钟时间间隔。例如，如果视频VD是电影或广播记录，那么这样的划分能够是合适的。分段定义模块SDF可以将特定分段细分成各种子分段。例如，特定10分钟时间间隔可以被细分成各自1分钟时间间隔。

如果视频VD包括个人记录，能够基于记录的日期和时间来定义各自分段SE。例如，已在彼此之后不久制作的记录肯定是相互关联的，并因此能够被分成分段。已在同一天制作的记录也能够被分成分段。例如，这些记录可能涉及特定事件，诸如生日、婚礼或访问特定目的地的一日游。已连续几天制作的记录也能够被分成分段。例如，这些记录可能涉及假期。这些示例表明：能够基于记录的日期和时间在不同的分层水平上定义分段。

代表图像选择模块RIS检索分段SE中各自镜头SH的各自代表图像的各自长度指示LI。代表图像选择模块RIS比较这些各自长度指示LI，以便确定最大长度指示LI_k=MAX。代表图像选择模块RIS随后选择具有这个最大长度指示LI的代表图像RI_k。这个选择的代表图像RI_k构成该分段的代表图像RI_SE。代表图像选择模块RIS因而可以为已定义的视频VD的各自分段定义各自代表图像。

图6概念地显示代表图像选择模块RIS执行的操作。图6包括表示视频VD中的特定分段SE的上水平分段。这个特定分段SE包括不同长度的四个各自镜头SH1-SH4。这四个各自镜头SH1-SH4具有四个各自代表图像RI1-RI4。四个各自代表图像RI1-RI4具有四个各自长度指示LI1-LI4。这指示在图6的下水平分段中。镜头SH3的代表图像RI3具有最大长度指示LI3=5，尽管镜头SH3不是分段SE中的四个各自镜头SH1-SH4之中最长的。然而，镜头SH3包括满足预定义相似性测试的选择图像的连续子序列，其长于其他三个镜头SH1、SH2和SH4之中任何镜头中的任何其他的连续子序列。换句话说，镜头SH3包括在四个各自镜头SH1-SH4中已识别的稳定视频部分之中最长的稳定视频部分。因此，镜头SH3的代表图像RI3具有最大长度指示LI3=5，并因此被选择来构成分段SE的代表图像RI_SE。

代表图像选择模块RIS可以可选地包括镜头关联模块SAM和长度指示升级模块LIU。这些模块可以有利地用于在具有两个或更多交替系列的相似镜头的视频分段中选择代表图像。例如，视频部分可以表示在两个人员A与B之间的对话，从而人员A的镜头和人员B的镜头根据谁在说话而交替出现。实际上，能够考虑：视频分段包括被若干次互换的人员A的单镜头和人员B的单镜头。

镜头关联模块SAM能够将一个镜头与另一个镜头进行比较，以便验证这一个镜头和另一个镜头是否满足预定义镜头相似性测试。镜头相似性测试可以基于与图像相似性测试所基于的图像属性相同的图像属性，其中如上文参考图1-4所述，图像相似性测试用于识别选择图像的连续子序列。参考图3，图像属性确定模块IPD可以存储已确定的图像属性IP的各自集合。图5所示的镜头关联模块SAM随后可以使用这些结果来确定两个镜头是否满足预定义镜头相似性测试。如果这两个镜头满足预定义镜头相似性测试，那么镜头关联模块SAM将这两个镜头彼此关联。以类似方式，镜头关联模块SAM可以将更进一步的镜头与已彼此相关联的这两个镜头相关联。

长度指示升级模块LIU升级已与至少一个其他镜头相关联的镜头的代表图像RI的长度指示LI。即，长度指示LI通过给其添加已与该镜头相关联的各自其他镜头的各自代表图像的各自长度指示来升级。而且，对于已彼此相关联的各自镜头可以保持单个代表图像。这个单个代表图像具有已如上所述升级的长度指示。如果长度指示已被升级，那么代表图像选择模块RIS将考虑这个升级的长度指示来确定分段的代表图像RI_SE。

导航启用模块NAV生成包括已为视频VD中的各自分段选择的各自代表图像RI的导航屏幕NVS。在导航屏幕NVS中，各自代表图像RI包括在与视频VD中的各自分段相关联的各自区域中。除了代表图像之外，这些各自区域可以进一步包括文本信息。例如，文本信息可以指示特定时间间隔、记录的日期和时间或二者。在任何情况下，特定分段通过选择与特定分段相关联且包括其代表图像的区域而是可选择的。例如，这个选择能够借助于导航屏幕上的指针以及计算机鼠标来完成。分段定义模块SDF随后可以将这个选择分段分成各自子分段，其中代表图像选择模块RIS可以采用如上所述的方式为这些各自子分段确定代表图像。

图7显示导航屏幕NVS的示例。在这个示例中，导航屏幕表示视频VD中的五个各自分段SE1-SE5。这五个各自分段SE1-SE5借助于如上所述已选择的五个代表图像RI_SE1-RI_SE5来表示。这五个代表图像RI_SE1-RI_SE5包括在与五个各自分段SE1-SE5相关联的五个各自区域AE1-AE2中。在该示例中，选择分段SE3，这导致与这个分段相关联的区域AE3被高亮显示。

图6所示的代表图像选择模块RIS也可以用于为整个视频VD选择代表图像RI。为了这样做，代表图像选择模块RIS执行与上文所述的操作类似的操作。即，代表图像选择模块RIS在整个视频VD中检索各自镜头SH的各自代表图像RI的各自长度指示LI。代表图像选择模块RIS比较这些各自长度指示LI，以便确定最大长度指示。代表图像选择模块RIS随后选择具有这个最大长度指示的代表图像。这个选择的代表图像构成整个视频的代表图像。

图8显示视频搜索引擎VSE。视频搜索引擎VSE包括检索模块SRCH、搜索结果处理模块SRP和搜索结果指示模块SRI。视频搜索引擎VSE通信地耦合到视频的集合VDC。如在先前的段落中所述的，已为集合中的各自视频VD_l-VD_N选择了各自代表图像RI_{VD_1}-RI_{VD_N}。

视频搜索引擎VSE基本上如下操作。搜索模块SRCH接收搜索标准CT，并且在响应中识别集合中满足搜索标准CT的各自视频。搜索结果处理模块SRP在满足搜索标准CT的各自视频之中识别其各自代表图像满足图像相似性测试的各自视频。这个图像相似性测试可以基于一个或多个图像属性，并且如果是这样的话，这个图像相似性测试涉及在上文针对图3所示的图像属性比较模块IPC所描述的操作。图像相似性测试可以是相对严格的。如果已识别了至少部分是相同的各自视频，这些各自视频的代表图像将是相对类似的或甚至是相同的。这是因为已从已被发现是足够相似的图像的最长子序列中选择代表图像，如上所述。

搜索结果指示模块SRI将其各自代表图像满足图像相似性测试的各自视频联合指示为单个搜索结果项。被指示为单个搜索结果项的各自视频通常将至少部分是相同的。将至少部分是相同的各自视频指示为单个搜索结果项，这帮助用户理解和评估搜索结果。

最后评论

以上参考附图的详细描述仅是在权利要求书中定义的本发明以及附加特征的说明。本发明能够以许多不同的方式来实现。为了说明此，简要地指示一些替换方案。

本发明可以有利应用于与视频内容的代表图像的识别相关的众多类型的产品或方法中。例如，本发明可以有利用于任何类型的能够处理视频内容的消费电子设备诸如家庭影院设备中。本发明也可以采用能够由任何类型的设备中的通用处理器执行的软件程序的形式。

例如，图1所示的视频处理器VPR可以形成能够从中下载视频的视频服务器的一部分。客户站随后可以从视频服务器与视频服务器已生成的镜头切换标记器以及代表图像标识符一起下载视频。图3所示的视频浏览器VBR可以形成客户站的一部分，以便允许基于代表图像标识符以及尤其这些标识符中包括的长度指示来方便浏览视频。

具有从镜头中选择图像以便获得均匀地分布于镜头的选择图像的连续子序列的许多方式。子采样处理是有利的，但不是必要的。原则上，镜头的所有图像能够被选择。如果应用子采样，那么选择图像不一定被精确等距地间隔开。例如，选择图像可以位于呈现出轻微不规则性的时间网格（grid）上。

具有识别满足预定义相似性测试的选择图像的连续子序列的许多方式。例如，有可能在第一阶段分析所有的图像，以便获得能够在第二阶段经历预定义相似性测试的图像分析结果。而且，具有用于将选择图像相互比较的许多不同方案。例如，选择图像可以与紧接在前的选择图像进行比较，以及与已被发现满足预定义相似性测试的进一步在前的选择图像进行比较。然而，与上文描述的那些方案相比，这个方案是更加计算密集的。进一步应注意：预定义相似性测试可以涉及为各自图像属性确定各自差异度量。在这种情况下，为了作出各自部分相似性决定，可以为各自差异度量定义各自阈值。例如，各自部分相似性决定能够有效地借助于AND（与）函数被分成整体相似性决定。

具有在时间上与满足预定义相似性测试的选择图像的最长连续子序列相符的镜头的连续稳定部分之中为镜头选择代表图像的许多方式。代表图像可以是最长连续子序列中的选择图像之一。代表图像也可以是临时位于两个这样的选择图像之间的图像。因为图像在时间上与满足预定义相似性测试的选择图像的最长连续子序列相符的镜头的连续稳定部分中是相对相似的，所以可以使用任何特定的选择方案。原则上，甚至可以从时间上与最长连续子序列相符的镜头的连续稳定部分中随机地选择图像。

术语“图像”应该在广义上被理解。该术语包含任何类型的表示视觉信息的数据。例如，该术语与诸如图片、帧和场之类的其他术语是可互换的。

通常，具有许多不同的实现本发明的方式，从而不同的实现方式可以具有不同的拓扑结构。在任何给定的拓扑结构中，单个模块可以执行若干功能，或者若干模块可以联合执行单个功能。就此而论，附图是非常图解的。例如，参考图3，图像属性确定模块IPD和图像属性比较模块IPC可以形成单个软件模块的一部分。

具有可以借助于硬件或软件或二者的组合来实现的许多功能。基于软件的实现方式的描述并不排除基于硬件的实现方式，并且反之亦然。包括一个或多个专用电路以及一个或多个适当编程的处理器的混合实现方式也是可能的。例如，上文参考附图描述的各种功能可以借助于一个或多个专用电路来实现，从而特定的电路拓扑结构定义特定的功能。

具有存储和分发允许根据本发明来识别代表图像的指令集即软件的许多方式。例如，软件可以存储在适当的介质诸如磁盘、光盘或存储电路中。其中存储软件的介质可以作为单个产品来提供或与可以执行软件的另一产品一起来提供。这样的介质也可以是允许软件被执行的产品的一部分。软件也可以经由通信网络来分发，其中通信网络可以是有线、无线或混合的网络。例如，软件可以经由因特网来分发。可以使得软件可用于借助于服务器来下载。下载可能需要付费。

以上评论表明：参考附图的详细描述是本发明的说明而非限制。具有众多的落入所附的权利要求书的范围内的替换方案。权利要求中的任何参考符号不应被解释为限制权利要求。词“包括”并不排除除了权利要求中所列的元素或步骤之外的其他元素或步骤的存在。在元素或步骤之前的词“一”或“一个”并不排除多个这样的元素或步骤的存在。各自的从属权利要求定义各自附加特征的纯粹事实并不排除除了权利要求书中反映的附加特征之外的附加特征的组合。

Claims

1.一种为视频（VD）中的至少一个镜头（SH）确定代表图像（RI）的方法，镜头是表示从特定位置查看的场景的连续序列的图像，所述方法包括：

- 镜头采样步骤（SHS），其中从镜头中选择图像，以便获得均匀地分布于所述镜头的选择图像（SI）的连续序列；

- 稳定镜头部分识别步骤（SPI），其中识别满足预定义相似性测试的选择图像的至少一个连续子序列（SB）；和

- 代表图像指定步骤（RID），其中从时间上与满足预定义相似性测试的选择图像的最长连续子序列相符的镜头的连续部分（SP）中选择图像，从而所选择的图像构成所述镜头的代表图像（RI）。

2.根据权利要求1的方法，其中在稳定镜头部分识别步骤（SPI）中，对于各自选择图像执行以下一系列步骤：

差异测量确定步骤（IPD，IPC），其中根据预定义方案（SCH）将选择图像的至少一个图像属性（IP）与另一选择图像的图像属性进行比较，以便为所述选择图像确定差异测量（DM）；和

差异测量评估步骤（SBI），其中分别地，根据所述选择图像的差异测量是否低于阈值（TH），将所述选择图像分类或者不分类为属于满足相似性测试的选择图像的连续子序列（SB）。

3.根据权利要求2的方法，其中所述预定义方案（SCH）定义：将所述选择图像与紧邻的选择图像进行比较。

4.根据权利要求2的方法，其中所述预定义方案（SCH）定义：如果紧接在前的选择图像属于满足相似性测试的选择图像的连续子序列，将所述选择图像与开始这个选择图像的连续子序列的选择图像进行比较。

5.根据权利要求2的方法，从而在差异测量确定步骤（IPD，IPC）中，各自图像属性差异被组合为构成差异测量的差异度量（DM），所述各自图像属性差异通过将所述选择图像的各自图像属性（IP）与至少一个其他选择图像的各自图像属性进行比较来获得。

6.根据权利要求1的方法，从而在镜头采样步骤（SHS）中，从每个系列的N个连续图像中选择一个图像，N是大于1的整数。

7.根据权利要求1的方法，从而在代表图像指定步骤（RID）中，为所述代表图像（RI）提供长度指示（LI），所述长度指示表示被从中选择所述代表图像的镜头的连续部分（SP）覆盖的时间间隔。

8.根据权利要求7的方法，包括：

镜头关联步骤（SAM），其中镜头与至少一个其他镜头相关联，其中当与所述镜头进行比较时，所述至少一个其他镜头满足镜头相似性测试；和

长度指示升级步骤（LIU），其中所述镜头的代表图像（RI）的长度指示（LI）通过给其添加已与所述镜头相关联的各自其他镜头的各自代表图像的各自长度指示来升级。

9.一种在视频（VD）中浏览的方法，所述方法使用通过执行根据权利要求7的方法获得的结果，所述结果包括已为所述视频中包括的各自镜头（SH）确定的各自代表图像（RI）以及所述各自代表图像的各自长度指示（LI），所述方法包括：

分段定义步骤（SDF），其中定义所述视频中的各自分段（SE），从而对于所述视频中的各自分段执行以下步骤：

代表图像选择步骤（RIS），其中比较分段（SE）中的各自镜头（SH1-SH4）的各自代表图像（RI1-RI4）的各自长度指示（LI1-LI4），从而选择具有最大长度指示的代表图像来构成所述分段的代表图像（RI_SE）。

10.根据权利要求9的在视频（VD）中浏览的方法，其中已为所述视频中的各自分段（SE1-SE5）选择各自代表图像（RI_SE1-RI_SE5），所述方法包括：

导航启用步骤（NAV），其中生成包括所述视频中的各自分段的各自代表图像的导航屏幕（NVS），从而所述各自代表图像被包括在与所述各自分段相关联的各自可选区域（AE1-AE5）中。

11.一种为视频（VD）确定代表图像的方法，所述方法使用通过执行根据权利要求7 的方法获得的结果，所述结果包括已为所述视频中包括的各自镜头（SH）确定的各自代表图像（RI）以及所述各自代表图像的各自长度指示（LI），所述方法包括：

代表图像选择步骤（RIS），其中比较所述各自代表图像的各自长度指示，从而选择具有最大长度指示的代表图像来构成所述视频的代表图像。

12.一种在视频的集合（VDC）中搜索视频（VD）的方法，所述方法使用通过执行根据权利要求11的方法获得的结果，所述结果包括所述集合中的各自视频（VD1-VD-N）的各自代表图像（RI_{VD_1}-RI_{VD_N}），所述方法包括：

搜索步骤（SRCH），其中识别所述集合中满足搜索标准的各自视频；

搜索结果处理步骤（SRP），其中在满足搜索标准的各自视频之中，识别其各自代表图像满足图像相似性测试的各自视频；和

搜索表示步骤（SRI），其中其各自代表图像满足图像相似性测试的各自视频被联合指示为单个搜索结果项。

13.一种能够为视频（VD）中的至少一个镜头（SH）确定代表图像（RI）的视频处理器（VPR），镜头是表示从特定位置查看的场景的连续序列的图像，所述视频处理器（VPR）包括：

- 镜头采样模块（SHS），被安排为从镜头中选择图像，以便获得均匀地分布于所述镜头的选择图像（SI）的连续序列；

- 稳定镜头部分识别模块（SPI），被安排为识别满足预定义相似性测试的选择图像的至少一个连续子序列（SB）；和

- 代表图像指定步骤（RID），被安排为从时间上与满足预定义相似性测试的选择图像的最长连续子序列相符的所述镜头的连续部分（SP）中选择图像，从而所选择的图像构成所述镜头的代表图像（RI）。

14.一种存储介质，在所述存储介质上存储通过执行根据权利要求7的方法获得的结果，所述结果包括已为视频（VD）中包括的各自镜头（SH）确定的各自代表图像（RI）以及所述各自代表图像的各自长度指示（LI）。

15.一种包括指令集的计算机程序产品，其使得能够执行所述指令集的处理器能够执行根据权利要求1的方法。