CN101501776B

CN101501776B - 视频对象剪切和粘贴

Info

Publication number: CN101501776B
Application number: CN2006800322009A
Authority: CN
Inventors: J·孙; H-Y·沈; Y·李
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2005-07-01
Filing date: 2006-06-29
Publication date: 2013-03-06
Anticipated expiration: 2026-06-29
Also published as: EP1899897A2; KR20080040639A; JP2009500752A; WO2007005839A2; US20070003154A1; CA2613116A1; JP4954206B2; CN101501776A; EP1899897B1; EP1899897A4; BRPI0613102A2; US7609888B2; WO2007005839A3; AU2006265633A1

Abstract

描述了视频对象剪切和粘贴(100)。在一个实现中，在3-D图形剪切分割(204)之前，执行视频帧(108)到区域(318)的预分割(202)。3-D图形剪切分割(204)使用时间相干性(326)和全局色彩模型(320)来实现视频对象边界(504)的准确度。接着可使用2-D局部图形剪切分割(206)来精细化(508)边界。边界可以在用户选定的窗口序列(502)中跟踪，并且使用局部色彩模型(336)来精细化。

Description

视频对象剪切和粘贴

发明背景

从视频序列剪切移动对象和向视频序列粘贴移动对象在视频处理领域具有许多应用。允许这种剪切和粘贴的对象的数字分割成为了视频处理中越来越流行的研究领域。

通常，对视频对象的剪切和粘贴由色度抠像(chorma keying)执行，色度抠像也称为蓝屏抠图(matting)或“蓝屏”。在色度抠像中，前景对象是在单色背景(通常为蓝色或绿色)前方记录的视频，接着使用利用已知背景色的抠图技术从背景分离出来。这些技术的简单性使得能够进行快速的前景分离。一些系统甚至实时地计算色度抠像。然而，这些方法被限于简单的单色背景。当前景对象包含类似于背景的色彩时通常会发生错误。

视频对象剪切的一些传统方式涉及轮廓跟踪。虽然可以将这些现有的方法应用到一般背景，以便在跟踪过程中得到更高的健壮性，但是它们使用不准确和粗糙地表示对象边界的平滑曲线。由于粗糙边界描述器不能捕捉轮廓的细节，所以这些技术对于多数剪切和粘贴应用是不够的。这些粗略的边界技术可由自动抠像交互地精细化，这提供了用于通过样条曲线编辑的详细的边界调整的用户界面。然而，由于每个视频帧必须由用户个别地修改，适当地描绘边界细节的手动工作是非常昂贵的。

最近，常规的视频抠图技术放松了单色背景要求，以允许平滑的色彩改变而非单个背景色。这种情况下视频抠图的成功与否取决于各种技术，诸如可多准确地传播三分图以及贝叶斯抠图能多良好地在每个个别的帧中执行。

当背景是复杂的时，对于一般的视频序列视频抠图有两个主要的难点。第一，许多视频包含快速移动、渐变轮廓以及经常改变的拓扑，这对于要现有技术光流算法要用于双向传播三分图是非常有挑战性的。第二，即使可以使用相当多的用户交互获取准确的三分图，当前景/背景包含复杂的纹理时或者前景色彩类似于背景色彩时，贝叶斯抠图技术通常产生不令人满意的结果。换而言之，当背景比仅简单的单色要复杂时，那么在视频播放期间随着视频对象的改变和移动自动确定哪里是视频对象的视觉边缘是复杂且处理器密集型的任务。

发明内容

提供本概述以用简化的形式引入在以下详细描述中进一步描述的一系列概念。本概述并不旨在标识所作权利要求的主题的关键特征或必要特征，也不旨在用于协助确定所作权利要求的主题的范围。

考虑到上述，描述了视频对象剪切和粘贴。在一个实现中，在3-D图形剪切分割之前，会将视频帧预分割成区域。3-D图形剪切分割使用时间相干性和全局色彩模型来实现视频对象边界的准确度。接着可使用2-D局部图形剪切分割来精细化边界。边界可以在用户选定的窗口序列中跟踪，并且使用局部色彩模型来精细化。

附图简述

图1是示例性视频剪切和粘贴系统的图示。

图2是示例性视频剪切和粘贴过程的概观的图示。

图3是示例性视频剪切和粘贴引擎的框图。

图4是示例性3-D图表构造的图示。

图5是用于精细化视频对象的边界的示例性技术的图示。

图6是示例性3-D和2-D分割结果的图示。

图7是从视频序列分割视频对象的示例性方法的流程图。

详细描述

概观

描述了用于从移动视频序列(视频剪辑)有时复杂的背景自动分离(即“剪切”)移动和改变的视觉对象，使得它能够被粘贴在例如不同的移动背景上的系统和方法。重要的是，该系统和方法可以保存被剪切的视频对象的精细的外边界细节。

该系统和方法可以采用具有在常规技术上改进的特征的3-维(3-D)图形剪切分割来使用仅少量关键帧遮片的用户输入来捕捉复杂的形状变形。而且，使用局部色彩模型，即使当色彩模糊或指定的前景和背景的对比度较低时仍能正确地定位视频对象边界。设计出双向特征跟踪技术以使用局部色彩模型准确地跟踪视觉区域。得到的剪切视频对象序列准备好被组合到其他背景上。

示例性系统

图1示出了示例性系统100，其中视频剪切和粘贴引擎102驻留在计算设备104中。视频剪切和粘贴引擎102可以从视频剪辑108中剪切出按时间排列的视频对象106(在该例中为移动舞者)，这样使得视频对象106可以被粘贴到不同的移动背景中。系统100通过用更快、更易于使用并且相比常规技术更高效的方式来区分(即“分割”)要从周围背景“遮片”110剪切出的视频对象106来执行这种“图形剪切”。

3-D图形剪切操作从表示时间间隔的2-维(2-D)表面(视频帧)的时间序列(视频剪辑108)剪切出视频对象106，其中视频对象106在此期间移动并且会在逐个2-D帧上改变其在帧上的覆盖区域。3-D图形剪切不同于2-D图形剪切，2-D图形剪切中从单个2-D表面分离出视觉对象，如同从一张纸上剪切出对象。3-D图形剪切的“三维”是指(视频帧的)两个空间维度移动通过第三个时间维度(即被播放)，而非长度、宽度和深度三个空间维度。然而，此处所描述的示例性技术并不限于3-D图形剪切，各方面也可应用于4维图形剪切，其中例如在空间上将全息对象从其周围环境中剪切出来，并将其插入到具有不同周围环境的不同空间中。

此处所描述的系统和方法具有在应用相干抠图(coherent matting)之前生成准确的二值分割的优势。即经修改的相干抠图在产生正被剪切的视频对象106的Alpha遮片之前使用二值分割。例如，相干抠图可以比常规的贝叶斯抠图产生更好的结果，因为它使用alpha遮片的规则化项来充分地利用二值分割中的信息。而且，在提供二值视频分割时，示例性系统获取相比轮廓跟踪和三分图传播的常规技术更为准确的结果，并使用易于使用的用户界面(UI)来进行边界精细化。

本主题的一个实现另外使用2-D图像分割方法，通过这种方法可使用简单的用户交互结合图形剪切算法来容易地获取准确的对象边界。

此处所描述的系统和方法将常规的象素级的3-D图形剪切扩展成基于区域的3-D图形剪切，以处理视频对象106而非仅是象素。示例性局部精细化方法也使用跟踪特征。

图2示出了由视频剪切和粘贴引擎102实现的示例性图形剪切过程的一个实现的概观200。在概观200中，在3-D图形剪切204之前发生预分割202。对输入视频序列执行“分水岭”划分(即使用“分水岭算法”)。这极大地加速了分割，即通过在3-D图形剪切发生前执行该分水岭分割极大地加快了视频剪切和粘贴操作。该分水岭划分由使用能量评估的粗略的到图形区域的二值预分割组成。

接着，3-D图形剪切204将选自视频剪辑的少量模型视频帧用作分割过程的初始点。可以由于这些模型视频帧在显示视频对象106和背景之间对比的功效而选择它们。示例性图形剪切过程接着自动兴盛跨相邻视频帧的相应“候选”图像区域的帧间连接，以便随着对象经过时间跨视频帧移动和改变保持准确的对象分割。

用户可以使用局部色彩模型用局部2-D图形剪切206进一步精细化自动生成的视频对象边界。也可以提供关键帧之间的双向特征跟踪来允许用户对自动生成的视频对象边界作出局部修正。

也提供了用于覆盖(override)自动分割以指定或修正对象边界中的精细细节的边界精细208的手动工具。

示例性经修改的相干抠图过程210自动地为视频剪辑108的帧生成遮片序列。示例性经修改的相干抠图过程210使用遮片序列从视频剪辑108提取指定的视频对象106并提取视频对象的前景色。

其他特征包括图的保存，用户可以用此来将用户的交互以及剪切和粘贴设置保存到文件中以供以后使用和修改；以及对象粘贴，用户可以用此来将分割的对象放置到新的背景中。

示例性引擎

图3更详细地示出了图1的视频剪切和粘贴引擎102。图3中所示的视频剪切和粘贴引擎102旨在为了概观而提供一个示例性安排。所示组件或相似组件的许多其他安排也是可能的。这种视频剪切和粘贴引擎102可以用硬件、软件或硬件、软件和固件的组合等来执行。

示例性引擎102包括旨在找到视频对象106及其背景之间的边界的二值分割器302。即，二值分割器302旨在为每个象素确定，象素是在前景(正被剪切的视频对象106)中还是在背景(遮片的部分)中。理想上，视频对象106中的象素和视频对象106之外下一个相邻象素之间会有完美的剪切或“分割”。然而，示例性引擎102通过考虑3-D视频卷的时间上改变的视频帧的区域而非个别的象素来获取超过常规技术的速度和准确性。

二值分割器302包括3-D图形剪切分割引擎304，用于执行找到视频对象边界的总体处理；以及2-D局部边界精细化器306，用于精细化3-D图形剪切分割引擎304获取的结果。这些组件都与用户界面308交互。

3-D图形剪切分割引擎304还包括帧预分割引擎310以及3-D图形引擎312。帧预分割引擎310还包括3-D卷缓冲区314、分水岭划分器316以及用于由分水岭划分器316确定的区域318的存储区。3-D图形引擎312还包括全局色彩能量评估器320、帧内连接器324以及帧间连接器326。全局色彩能量评估器320还可以包括色彩比较器322。

2-D局部边界精细化器306可以包括局部2-D图形剪切器328以及分割覆盖器(overrider)320。局部2-D图形剪切器328还包括双向特征跟踪器332、视频管道引擎334以及局部色彩建模器336。视频管道引擎包括窗口指定器338。分割覆盖器330通常包括用户工具340，例如用户界面刷工具，用于指定视频帧的前景和背景区。用户界面308可以包括视频显示342、显示控件344、关键帧输入器346以及对象选择器348。

图保存器350可以保存由二值分割器302获得的二值分割。这可以包括用户使用局部2-D图形分割器328以及用户工具340等以某种程度的手动干预执行的边界修改。

使用来自二值分割器302的二值分割结果，遮片提取器352可以应用经修改的相干抠图算法354，以获取视频剪辑108中每个帧的alpha遮片，即“遮片序列”356。前景色提取器358提取3-D视频对象106作为对象序列360。对象粘贴器362可以将对象序列360置于多个新背景364之一中。

在一个实现中，示例性视频剪切和粘贴引擎102的操作可以如下总结。视频帧的预分割区域318由分水岭划分器316来确定。3-D图形剪切分割引擎304接着将分割应用到空间-时间视频卷的预分割区域，该卷可以保存在缓冲器314中。3-D图形引擎312以保存视频对象106的时间相干性的方式连接预分割区域318。2-D局部边界精细化器306可以取得该初始分割结果并允许用户指定要局部精细化的区域318，其中局部2-D图形剪切器328具有使用局部色彩而非来自整个背景的色彩的局部色彩建模器336。

以下是对视频对象剪切和粘贴引擎102更为详细的描述。在典型的情况下，用户首先使用关键帧输入器346从视频剪辑108选择一些关键帧，并使用可包括常规的图像快照工具的对象选择器348提供它们精确的前景/背景分割。在一个实现中，引擎102以十帧的间隔请求关键帧采样，并生成介于中间的帧的背景遮片，但是根据具体视频剪辑108中的对象移动采样率可能不同。对于较慢的移动和形变的对象，可用使用较低的采样率。

3-D图形剪切分割引擎304对视频剪辑108的空间时间卷起作用，该卷可以存储在3-D卷缓冲器314中。为了使得优化过程易于处理，帧预分割引擎310使用分水岭技术(诸如Vincent和Soille分水岭算法)将视频剪辑108中的每个帧预分割成多个原子区域318。3-D图形引擎312基于这些原子区域318构造3-D图形。可以使用诸如Mortensen和Barrett的急剧下降(tobogganing)的替换预分割技术。在任一情况下，3-D图形剪切分割引擎304形成保存逐个帧的一组区域候选的时间上的连接，并由此嵌入时间一致性而无需显式的移动估计。

图4示出了从中可以分割和剪切出3-D视频对象106的3-D图形400的示例性构造的概观。在一个实现中，对于区域r 318，3-D图形引擎312使用三个能量来构造3-D图形400。首先，3-D图形引擎312按照能项E1将区域318连接到前景虚拟节点(例如404)以及背景虚拟节点(例如406)。第二，帧内连接器324按照能项E2在单个帧(t)内将区域318连接到邻近区域(例如408、410、412、414)。接着，帧间连接器326使用能项E3将区域318连接到相邻帧上的候选区域(例如前一帧t-1上的候选区域414、416和418；以及后续的帧t+1上的候选区域422、424、426、428和430)。候选区域于是是表示邻近帧上可能在不同的时间点上(即在相邻视频帧上)成为当前区域402的区域。

回到图3的引擎组件，3-D图形引擎312在每对选定的关键帧之间构造3-D图形400，在由帧预分割引擎310获得的“原子”区域318上构造，而非常规技术中的个别象素上。3-D图形引擎312通过使用色彩比较器322比较每个区域318与关键帧中的前景/背景色彩分布的色彩一致性，并接着在视频对象106的前景/背景边界上最大化各区域中间的色彩差异来执行分割。此外，3-D图形引擎312通过使用三个能量的优化来利用嵌入在3-D图形中的时间相干性。实际上，3-D图形剪切分割引擎304可以准确地定位视频对象的轮廓的大部分。

更详细地，3-D图形引擎312将唯一的标签x∈{1(前景)，0(背景)}分配给每个区域318。关键帧中的区域318已经具有标签，例如来自对象选择器348，而3-D图形引擎312将标签分配给其他帧中的区域。

3-D图形引擎312构造由来自关键帧输入器346的两个连续的关键帧界定的3-D卷

节点集

包含由分水岭划分器316生成的原子区域(例如318)。弧集A包含两种弧：连接一个帧内的节点的帧内弧A_I，以及跨帧连接节点的帧间弧A_T。

为了构造帧内弧A_I，帧内连接器324将每个区域r_t 318连接到同一帧(I_t)中的每个相邻区域(例如402、404、406和408)。为了构造帧间弧A_I，帧间连接器326将每个区域r_t 318连接到相邻帧(I_t±1)中位于给定范围内(通常为15个象素)中的每个候选区域(例如422、424、426、428、430)，拍簇明显不相关的区域，它的平均色与区域r_t 318的颜色的差异大于阀值Tc(通常为30象素)。为了处理具有不同形状的区域，诸如“L”形和细长区域，使用形态学扩大(morphologicaldilation)而非区域中心之间的欧几里德距离来计算区域之间的邻近性。3-D图形引擎312对相邻帧上可能的对应关系保存一组这种候选连接，并且由色彩比较器322提供的优化决定应该切掉哪个。保存跨帧的可能的对应区域之间的候选连接导致比仅确定一个对应关系的传统跟踪方法更高的健壮性。

3-D图形生成器312通过使得色彩比较器322最小化在3-D图形Γ上定义的如在公式(1)中所示的能量函数来标记对应的区域：

其中x_r是区域r 318的前景/背景标签，而X＝{x_r：

_r}。第一项是“可能性能量”E₁，它表示区域r 318的色彩与从关键帧中的色彩信息构造的前景/背景色彩模型的一致性程度。第二和第三项是“优先(prior)能量”E₂和E₃。E₂表示同一帧中两个相邻区域之间的色差，并且由帧内连接器324用于鼓励两个相似的相邻区域在前景中或在背景中待在一起。第三项E3表示两个相邻帧中两个相邻区域之间的色差，并且由帧间连接器326用于通过帧间弧A_T将时间相干性嵌入到图形剪切优化过程中。帧间连接器326形成帧之间的时间连接，即通过将一个帧中的单个区域连接到后续帧中的多个候选区域，而在最终优化中维护若干个连接。

全局色彩能量评估器320对关键帧中的色彩采样，以为E₁构造前景/背景色彩模型。在一个实现中，全局色彩能量评估器320使用高斯混合模型(GMM)来描述前景/背景色彩分布。前景GMM的第m个分量被示为(w_m ^f，μ_m ^f，∑_m ^f)，表示权重、平均色彩和协方差矩阵。全局色彩能量评估器320使用M个分量来描述前景或背景色，因此，m∈[1，M]，通常M＝6。

对于给定的色彩c，它到前景GMM的距离如公式(2)中定义：

d^{f} (c) = \min_{m &Element; [1, M]} [\hat{D} (w_{m}^{f}, Σ_{m}^{f},) + \overset{&OverBar;}{D} (c, μ_{m}^{f}, Σ_{m}^{f})], - - - (2)

其中，如在公式(3)中所示：

\hat{D} (w, Σ) = - \log w + \frac{1}{2} \log \det Σ, - - - (3)

且其中，如在公式(4)中所示：

\overset{&OverBar;}{D} (c, μ, Σ) = \frac{1}{2} {(c - μ)}^{T} Σ^{- 1} (c - μ) . - - - (4)

对于区域r 318，它到前景GMM的距离被定义为该区域内所有象素的距离的期望值，表示为<d^f>_r。类似地定义到背景色彩的距离<d^b>_r。接着，如表(1)中定义可能性能量E₁(x_r)：

表(1)：可能性能量

	r∈{F}	r∈{B}	r{F}∪{B}
				E₁(x_r＝1)	0	∞	<d^f>_r
E₁(x_r＝0)	∞	0	<d^b>_r

{F}和{B}是分别是关键帧中前景区域和背景区域的集合，它们的标签被输入。将0和∞分配给E₁在优化中实施这些硬性限制。

关于两个区域r和s之间的色彩相似性定义两个能量E₂和E₃，如在公式(5)中所示：

E (x_{r}, x_{s}) = | x_{r} - x_{s} | \cdot e^{- β {| | c_{r} - c_{s} | |}^{2}} - - - (5)

其中‖c_r-c_s‖是RGB色差的L₂模。

健壮参数β对色彩对比度加权，并且可以被设置成

β = {(2 &lang; {| | c_{r} - c_{s} | |}^{2} &rang;)}^{- 1},

其中<·>是期望算子。全局色彩能量评估器320为E2和E3单独来计算β。因数|x_r-x_s|允许只为跨分割边界的连接考虑能量。当相邻节点被分配不同的标签时，优先能量E2和E3是惩罚项。

3-D图形引擎312通过使用高效的图形剪切算法全局最小化公式(1)的目标函数，并且每个区域的所得标签确定视频卷中的分割。

在3-D图形构造中，到图形中虚拟前景(或背景)节点的弧的边成本是E₁(0)(E₁(1))，而帧内或帧间弧的边成本是e^{-β‖cr-cs‖2}。具有类似色彩的节点之间的弧c_r-c_s应该具有较高的成本。

在一个实现中，全局色彩能量评估器320将默认参数固定为λ₁＝24，λ₂＝12。有了这些值，3-D图形剪切分割引擎304可以以合理的速度成功地计算视频对象106的边界。

由于全局色彩能量评估器320从关键帧中全局地构造前景/背景色彩分布，因此在前景色彩与视频剪辑108的不同部分的背景色彩匹配(反之亦然)的区域中，3-D图形剪切分割结果较差。因此，2-D局部边界精细化器306包括视频管道引擎334，允许用户应用非常局部化的边界精细化。“视频管道”是跨时间的视频帧所占面积的较小的区域(所显示的、移动视频的较小的部分)，其中在图形剪切分割中仅使用局部色彩模型。通过隔离局部色彩，可以显著地改进分割边界。视频管道引擎334包括窗口指定器338，允许用户指定视频帧中会进行局部化的边界精细化的区域。在一个实现中，用户画出跨帧传播并将分割限制在其自身边界内的矩形(窗口)。经由窗口指定器338画出矩形可以经由用户界面308和显示控件344完成。

在一个实现中，视频管道引擎334的窗口指定器338将视频管道定义成矩形窗口{W_t}_t＝1 ^T，即跨T帧的视频帧的子部分。为了指定视频管道，用户仅需选择两个关键窗口W₁和W_T，它们是正选择的视频管道的第一和最后一个窗口。中间的剩余窗口由双向特征跟踪器332自动地定位。

在一个实现中，视频管道引擎334确定在W₁和W_T之间至少有一个关键帧，使得局部色彩建模器336能够获取局部前景/背景色彩模型以供精细化。同样地，视频管道引擎334确定管边界在分割边沿处(在视频对象106的边缘处的前景和背景之间)是正确的，因为交叉点提供了优化中的硬性限制。

当2-D局部边界精细化器306执行跟踪之后，局部2-D图形剪切器328使用从关键帧上相应的视频管道窗口构造的局部前景和背景色彩模型将限制的2-D象素层图形剪切分割应用到每个视频管道窗口。最后，2-D局部边界精细化器306无缝地将从每个视频管道得出的该精细化的分割结果连接到与视频管道窗口相邻的现有视频对象边界上。

图5示出了使用刚描述的视频管道的示例性2-D边界精细化。视频管道窗口502被用户放置在现有分割结果506的边界504上。局部2-D图形剪切器328使用由局部色彩建模器336找到的局部色彩执行分割。在该边界精细化中，依照现有分割结果，窗口502的边缘上的最外面的象素被标记为前景/背景硬性限制，这样使得为窗口502的内部象素确定的无论什么都可以无缝地与来自3-D图形剪切分割的现有分割结果506连接。在窗口选择开始时，窗口502的每个内部象素的前景/背景状态是不确定的，并且要根据与更为精细的边界508的关系来确定。该2-D图形剪切分割结果即，精细化的边界508(被示为虚线)被用于替换先前的分割边界504。两个交叉点510和512(视频管道窗口502与先前的分割边界504在该处相交)保持在它们相同的位置中，但是剩余的精细化边界508可以不同于先前的边界504。

双向特征跟踪

现在更详细地描述双向特征跟踪器332。给定两个关键窗口W₁和W_T，即视频管道的第一个窗口和最后一个窗口，双向特征跟踪器332跟踪中间帧中窗口的位置。W₁和W_T的大小可以不同，并可由用户调整。在跟踪之前，中间的窗口是从W₁和W_T线性内插的(位置和大小)。

视频管道引擎334将p_t表示为视频管道中每个窗口W_T的中心位置。视频管道引擎334也为每个窗口的位置定义搜索范围S_t。窗口的所有位置{p_t}_t＝2 ^T-1可以通过最小化以下公式(6)中所示的目标函数来解出：

{p_{t}^{*}} = \arg \min_{{p_{t}}} Σ_{t = 2}^{T - 1} \min (D (p_{t}, p_{1}), D (p_{t}, p_{T})) +

Σ_{t = 2}^{T} {η_{1} | | (p_{t} - p_{t - 1}) - ({\hat{p}}_{t} - {\hat{p}}_{t - 1}) | | + η_{2} D (p_{t}, p_{t - 1})}, - - - (6)

其中D(p_t1，p_t2)是当窗口W_t1和W_t2的中心p_t1和p_t2对准时，两个窗口W_t1和W_t2在它们的重叠区域内之间的色彩距离的平方和。项

和

是优化之前窗口W_t-1和W_t的位置，这是通过线性内插计算的。在一个实现中，η₁＝0.1而η₂＝1。

公式(6)中的第一项被设计成对于关键窗口优化的窗口的色彩一致性。视频管道引擎334选择最匹配的关键窗口用于计算该成本，以允许特征随着时间改变。第二项实施视频管道的平滑。第三项用于最小化相邻窗口之间的色差。注意，关键窗口的位置在该优化过程中是固定的，因为它们是由用户放置的。跟踪被称为是“双向的”，因为每个窗口从两个方向上的两个关键窗口接收信息。

在一个实现中，可以使用动态规划(DP)算法来优化公式(6)的目标函数。双向特征跟踪器332可以将通用换算方法用于优化。首先，双向特征跟踪器332为视频剪辑108中的每个帧构造高斯金字塔(pyramid)，且每个较高的层具有其紧靠着的较低的层的一半的帧大小。双向特征跟踪器332相应地调整窗口的位置和大小。接着它从金字塔的顶端开始在每个层执行最优化，搜索范围S_t以先前级别中的优化位置为中心。对于顶层，双向特征跟踪器332从关键窗口线性地内插W_t的初始位置。通常，对于NTSC视频(720×480象素)，有L＝4层，在每个层处S_t是7×7的方形窗口。

一旦定位了视频管道，2-D局部边界精细化器306在每个窗口内执行2-D图形剪切分割，以精细化现有分割边界。在象素级构造2-D图形，如公式(7)中所示：

其中x_i是象素i的标签，是所有被跟踪的象素，而A′_I是象素之间的八邻域关系。E₁和E₂具有与公式(1)中类似的定义，除了现在由象素代替区域。在一个实现中，λ₁′的值通常被设置为10。

为了将精细化无缝地嵌入到现有分割中，局部2-D图形剪切器328依照现有分割结果自动地生成前景和背景硬性限制。如图5中所示，窗口内除窗口边界上的象素之外的所有象素的标签由局部2-D图形剪切器328解出。如果位于现有分割的前景中，窗口边界上的象素被标记为前景硬性限制。否则，它们被标记为背景硬性限制。由于这些硬性限制，局部2-D图形剪切器328在产生无缝地连接到正好在窗口之外的现有边界的窗口内结果，如图5中所示。

如所述的，在视频管道中必须至少有一个关键帧。视频管道引擎334收集关键帧中窗口内的象素，以计算视频管道的前景/背景GMM模型以得到上述E₁项。与3-D图形剪切分割引擎304所使用的全局色彩模型相比，局部2-D图形剪切器328在局部窗口中使用更准确的色彩模型，并获得显著改进的结果，这就是它为什么被用于2-D局部边界精细化。

图6示出了在局部精细化之前和之后的分割结果。由2-D局部边界精细化器306对3-D图形剪切分割引擎304产生的精细化无需准确的用户交互，实际上用户仅需要以排除不相关的色彩的方式将视频管道窗口置于帧上。在帧602a中，在所示人员制服上的臂章具有与背景中旗帜类似的红色。因为3-D图形剪切分割引擎304使用全局色彩能量评估器320，因为3-D图形引擎312决定红色臂章是背景的部分——因为臂章在制服的视觉外边上，并且与绿色制服的剩余部分具有显著不同的色彩而可能引入边界错误(如帧602b中所示)。实际上，全局色彩能量评估器320将红色考虑为强背景色彩，因为在帧602a中红旗的显著出现。然而在帧604中，2-D局部边界精细化器306在较小的矩形视频管道窗口606中使用局部色彩建模器336。采用排除不相关的全局色彩信息的局部色彩模型，由此可以更为精确地精细化边界。

示例性分割覆盖器

当在实际视频对象边界周围有模糊的边缘或者边界的对比度很低时，局部2-D图形剪切器328可能不能产生正确的视频对象边界。对于诸如人的手指的视频的细的视觉结构尤其如此，其中可能不能自动地区分精细的结构。可以提供分割覆盖器330以手动地克服这些困难。在一个实现中，分割覆盖器330具有允许用户能够例如使用用于标识明确的前景和明确的背景区域两个覆盖刷来非常精确地直接控制对象边界的的用户工具340。而且，可以将用户的覆盖操作保存到盘中，并将其载入以供以后使用。

一旦示例性二值分割器302分割了视频剪辑108，那么遮片提取器352即提取视频对象106以供粘贴。在一个实现中，遮片提取器352采用经修改的相干抠图算法354以为视频对象边界计算部分alpha遮片。在一个实现中，遮片提取器352通过引入alpha的规则化项来改进常规的Bayesian抠图。因此，它产生符合先前的二值分割边界的alpha遮片，并且即使当前景/背景色彩相似时也能很好地执行。

遮片提取器352通过(通常按10个象素)扩大二值视频对象边界来处理不确定的边界区域。对于前景中的小洞或细缝，该扩大会导致在附近不会采样背景色。在这种情况下，遮片提取器352改为采样来自邻近帧的背景色。

遮片提取器352获取视频对象的alpha遮片以组成遮片序列356，并且具有前景色彩提取器358以获取视频对象序列360的前景色彩。接着，对象粘贴器362能够将剪切出的视频对象序列360粘贴到新的背景364上。

实验结果

在示例实验中，在3.1GHz的计算机上执行测试。使用DV摄像机在逐行扫描模式下以12.5帧/秒的速率拍摄源视频剪辑108。每个视频剪辑108被分成大约每段30个帧，并且个别地加载和处理每个段。通常每10个帧采样关键帧，而有些视频剪辑108由于快速移动和阴影改变需要更为密集的采样。

处理时间大约为对每个上述的视频剪辑108的分段半个小时。在一个示例实验中，大约该时间的20％由帧预分割引擎310用于预处理和其他计算；大约40％的时间被视频管道引擎334用于跟踪和调整，而另外40％的时间被分割覆盖器330用于覆盖操作。

保存中间结果

通过对于每个分段仅执行一次预处理，而来自分水岭划分器316和3-D图形剪切分割引擎304的结果通常可以由图保存器350保存，并按需重新使用。3-D图形引擎312通常不负责许多所使用的处理时间。

示例性方法

图7描述了从视频序列中分割出视频对象的示例性方法700。在流程图中，使用各个框来概括操作。示例性方法700的部分可以由硬件、软件或两者的组合来执行，例如由示例性视频剪切和粘贴引擎102的组件来执行。

在框702处，在视频序列的帧内建立区域。例如，帧预分割引擎310可以应用分水岭算法，以将视频帧呈现成原子区域。使用区域而非象素具有很多优势。首先，对区域操作会需要较少的处理能力并加快视频剪切和粘贴操作。由于在视频序列播放期间给定的区域会改变位置、形状和颜色等，定义这种移动对象的边界的一个难题是在视频序列的帧中准确地跟踪区域。

因此，在框704处，将时间相干性嵌入到区域的3-D图形中。举例而言，3-D图形引擎312不仅通过在同一帧上的相邻区域之间形成关联而且在该区域和时间上相邻的视频帧上的可能的“候选”区域之间形成关联来构造3-D图形。这导致当标识序列的帧之间的给定区域时的一致性，并且这又导致了对视频序列中视频对象的更加清晰地划界，因为随着区域跨多个帧移动和变形，对于给定的区域是视频对象106的部分还是背景的部分不确定性较少。

在框706处，基于全局色彩模型应用3-D图形剪切分割。举例而言，3-D图形剪切分割引擎304可以通过使用少量关键帧(即选定作为要剪切出的视频对象的好的模型)开始寻找视频对象的视觉边界。在视频序列中从这些关键模型帧到其他帧操作，全局色彩模型允许从背景色中从区分出视频对象的视觉边缘。由于是在区域上而非个别象素上构造3-D图形的，因此该分割要比常规的分割技术要快。

在框708处，基于局部色彩模型应用2-D图形剪切分割。举例而言，2-D局部边界精细化器306可以将边界精细化限制于包含在视频帧中用户选定的窗口中的边界。可以跨视频序列的帧自动传播选定窗口，并且要用于作出有关精细化视频对象边界的决定的色彩可以被限于窗口序列内的那些色彩。当视频对象在其视觉边缘处具有精细细节时，这可以产生更为精确的视频对象边界。

结论

以上讨论描述了用于视频对象剪切和粘贴的示例性系统和方法。虽然用结构化特征和/或方法动作专用的语言描述了本主题，但是应该理解在所附权利要求书中定义的本主题并不必限于上述的特定特征和动作。而是上述特定的特征和动作是作为用于实现本权利要求的示例性形式来公开的。

Claims

1.一种用于视频对象剪切和粘贴的方法，包括：

将视频序列(108)的帧预分割(202)成区域(318)；

选择所述视频序列(108)的两个模型帧(110)，其中所述两个模型帧(110)中的每个具有表示视频对象(106)的前景和背景；

从由所述两个模型帧在时间上界定的帧的3-D卷构造3-D图形(400)，包括

将单个帧上的区域(318)与同一帧上的相邻区域(408、410、412、414)相关联，和

将单个帧上的区域(318)与相邻帧上的候选对应区域(416、418、420)(422、424、426、428、430)相关联；

依照全局色彩模型(706)将3-D图形(400)分割成相关联的前景区域和相关联的背景区域，其中所述相关联的前景区域表示所述视频序列(108)的帧中的视频对象(106)，其中将3-D图形分割成相关联的前景区域和相关联的背景区域是通过将所述3-D图形(400)的能量函数最小化(322)来实现的；

指定所述3-D图形(400)的视频管道部分(334)，其中所述视频管道(334)包括视频帧的部分(502)和所述视频序列(108)的其他视频帧的相应部分；以及

将局部色彩模型(336)应用到所述视频管道部分(334)内的2-D图形剪切分割(328)，以精细化带有所述视频管道(334)的所述前景区域和所述背景区域之间的边界(504)。

2.如权利要求1所述的方法，其特征在于，预分割(202)帧使用分水岭技术(316)或急剧下滑技术之一。

3.如权利要求1所述的方法，其特征在于，将单个帧上的区域(318)与相邻帧上的候选对应区域(416、418、420)(422、424、426、428、430)相关联还包括：将所述单个帧上的区域(318)与所述相邻帧上位于所述区域在所述相邻帧上的可能的对应位置的给定范围内的区域相关联。

4.如权利要求1所述的方法，其特征在于，将单个帧上的区域(318)与相邻帧上的候选对应区域(416、418、420)(422、424、426、428、430)相关联还包括：依照所述单个帧上的区域和所述相邻帧上的区域之间的色彩能量比较(320)来将所述单个帧上的区域与所述相邻帧上的区域相关联。

5.如权利要求1所述的方法，其特征在于，所述要最小化的能量函数(322)如下表示：

色彩同与所述两个模型帧内的色彩信息相关联的前景/背景色彩模型的一致性；E₂表示同一帧内两个相邻区域之间的色差；E₃表示两个相邻帧内两个区域之间的色差；λ₁和λ₂是常数。

6.如权利要求1所述的方法，其特征在于，所述全局色彩模型(320)包括从两个模型帧(110)全局导出的前景/背景色彩分布。

7.如权利要求1所述的方法，其特征在于，指定视频管道部分(334)还包括指定第一帧上的第一视频管道窗口(502)和第二帧上的第二视频管道窗口(502)，其中所述两个模型帧(110)至少之一是在所述第一帧和所述第二帧之间的。

8.如权利要求7所述的方法，还包括在所述视频序列(108)的一部分中双向地跟踪(332)所述第一视频管道或第二视频管道窗口(502)之一，以在所述第一帧和所述第二帧之间的帧上自动地生成所述视频管道(334)的其他窗口。

9.如权利要求1所述的方法，还包括使用从所述两个模型帧之一中所述第一视频管道窗口和第二视频管道窗口(502)之一的色彩导出的局部前景和背景色彩模型(336)，将2-D图形剪切分割(206)应用到所述视频管道部分(334)的每个窗口(502)上。

10.如权利要求9所述的方法，还包括将视频管道窗口(502)内的精细化边界(508)无缝地连接到与所述视频管道窗口(502)相邻的之前存在的边界(510，512)上。

11.如权利要求8所述的方法，还包括在所述3-D分割或所述2-D分割之一发生后，通过手动地分配(340)视频帧的前景和背景象素，来覆盖(330)所述3-D分割和所述2-D分割。

12.如权利要求1所述的方法，还包括应用经修改的相关抠图技术(210，354)以从所述背景区域分离出所述前景区域。