CN1711776A - 用于非线性的多运动模型和移动边界提取的方法和设备 - Google Patents

用于非线性的多运动模型和移动边界提取的方法和设备 Download PDF

Info

Publication number
CN1711776A
CN1711776A CNA2003801030216A CN200380103021A CN1711776A CN 1711776 A CN1711776 A CN 1711776A CN A2003801030216 A CNA2003801030216 A CN A2003801030216A CN 200380103021 A CN200380103021 A CN 200380103021A CN 1711776 A CN1711776 A CN 1711776A
Authority
CN
China
Prior art keywords
model
motion
prime
ref
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003801030216A
Other languages
English (en)
Inventor
M·帕尼科尼
J·J·小卡里格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Electronics Inc
Original Assignee
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Electronics Inc filed Critical Sony Electronics Inc
Publication of CN1711776A publication Critical patent/CN1711776A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/12Systems in which the television signal is transmitted via one channel or a plurality of parallel channels, the bandwidth of each channel being less than the bandwidth of the television signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Abstract

公开了一种用于非线性的多运动模型和移动边界提取的方法和设备。在一个实施例中,接收一个输入图像,将该输入图像划分成区域/块,并且将新的多运动模型应用于每个区域以提取运动和相关的移动边界。

Description

用于非线性的多运动模型和移动边界提取的方法和设备
发明领域
[0001]本发明有关图像处理。更具体而言,本发明涉及图像中的对象运动的估计。
发明背景
[0002]用于视频编码的标准运动模型包括应用于固定区域(运动块)以估计运动的参数的模型。这些方法是有限的,因为所述模型无法处理运动块内部存在多个(不同的)运动的情况。这带来一个问题。
[0003]运动估计中的一个基本问题是处理多运动和移动对象边界的模型的能力。诸如仿射或透视模型之类的标准运动模型考虑到区域(即,运动块)的平滑形变以捕获运动块中的所有像素的相关运动(比如转换、变焦、旋转)。在其上估计运动的区域或块不能选择太小;这是从(1)编码的角度来看的,因为较大的区域意味着较小的运动开销,并且也是从(2)估计的角度来看的,较大的区域允许更好的运动参数的估计。
[0004]从常见运动模型的标准局限性方面出现的一个关键问题是运动块内部的多个运动的出现。运动区域内的移动对象边界是两种可能非常不同的运动(对象的运动以及比方说背景的运动)的象征。此外,移动对象边界暗指一些像素将相对于过去的或未来的运动估计而被遮蔽(occlude)(隐藏)。这种遮蔽效应可能会偏置运动估计,导致较高的预测误差,并且使得难以精确地提取对象边界。
[0005]运动分割方面的方法往往依赖于光流估计或参数的(即,仿射)运动模型;这些将在对象边界附近具有常见问题并且具有遮蔽效应。在分割区段中,且由此在对象边界中的某种平滑度能够利用MAP/Bayesian方法中的先验概率项加以实现。这是在没有任何明确的耦合模型以说明对象边界和运动区段的情况下、分割区段的连通性上的更多约束条件。曲率演变模型可以用来捕获移动对象的边界。然而,这种方法不包括运动估计/区段,并且依赖于用于对象边界的演变的模型中的临时差分算子。
[0006]在另一种方法中,级别设置方法的上下文隐式地对对象边界的轮廓和多个仿射运动区段建模,然而,运动估计仅相对一个参考坐标系来进行,也就是根据帧n-1来确定帧n的运动。正如上面所论述的那样,这有问题。一些靠近对象边界的像素可能会被遮蔽;这将进而又偏置边界的估计,因为由于遮蔽而使得靠近边界的运动区段不可靠。
[0007]由此,对于常见的运动模型而言存在问题。
附图简要说明
[0008]本发明是以示例的方式来举例说明的,并不局限于附图的图形;其中相似的参考指示类似组件并且其中:
[0009]图1举例说明了其中可以使用本发明的技术的网络环境;
[0010]图2是其中可以实现本发明的实施例的计算机系统的框图;
[0011]图3以流程图形式举例说明了发明的一个实施例;
[0012]图4以流程图形式举例说明了视频编码的一个实施例;
[0013]图5举例说明了运动分割成2个区域的一个实施例;
[0014]图6举例说明了控制像素的时间参考赋值的函数的一个实施例的性状;
[0015]图7、图8和图9都是示例,举例说明了应用于局部块区域的本发明运动模型的实施例如何实现分离成过去的和未来的运动参考,由此移动边界的提取被捕获;
[0016]图10是举例说明本发明运动模型的实施例如何估计移动边界的位置的示例;
[0017]图11是举例说明标准运动模型与本发明运动模型的实施例之间的比较的示例;
[0018]图12是举例说明3个运动、它们的移动以及最小预测误差参考帧的示例;和
[0019]图13举例说明了控制用于3个运动的时间参考赋值的接口函数的一个实施例的性状。
详细描述
[0020]描述了一种用于非线性的多运动模型和移动边界提取的方法和设备。
[0021]本发明涉及用于估计视频图像中的对象运动的新运动模型。在本发明的一个实施例中,使用了一种涉及空间和时间变量之间的非线性耦合的新运动模型,一种类型的区域竞争以分离多个运动,以及边界建模以提取移动对象边界的估计。所述模型是小型的并且能够用于运动分割和/或视频编码应用。
[0022]在本发明的另一个实施例中,已经使用运动模型的扩展来解决在背景部分中论述的问题。这种模型的基本特征如下:
1)引入时间变量以供相对于过去的和未来的帧的组合运动估计用;
2)允许多个运动(2个运动或更多)同时存在;
3)从用于边界选择的一种类型的区域竞争来确定对象边界提取(所并入的边界的曲率);和
4)使用非线性函数来控制/精细化对象边界的估计。
[0023]本发明能够处理多个运动(两个或更多)。然而,为了不至不必要地混淆本发明,所述详述最初将讨论两个运动,并扩展到说明书中稍后所描述的多于两个的运动。
[0024]本领域的技术人员将会认识到:时间变量的使用允许两个运动的引入而且还避免了遮蔽效应。如果靠近移动对象边界的一些像素例如被隐藏在先前帧中,那么运动区域(这些像素属于所述区域)将势必相对于未来参考其运动(且反之亦然)以便降低预测误差。这在某种意义上讲是一类″区域竞争″,其中由于通过选择过去或者未来作为它们用于运动估计的参考帧,2个运动区域竞争以降低它们的预测误差,而获得对象边界。因此,隐式地根据这类区域竞争来确定我们的模型中的移动对象边界。这与显式地引入轮廓模型(即,有效的轮廓模型)的模型相反;这些方法可能会随着轮廓演变而具有有关轮廓的离散化和长度/曲率的控制的显著问题。
[0025]在本发明的一个实施例中,运动模型局部地应用于图像中的区域/块,并且可以把它看作为对运动估计或运动分割的精细化阶段的一部分。也就是说,如果在经过一遍图像(比如说最初使用一个标准仿射运动模型)的运动估计/分割算法之后一些区域中的预测误差超过某个质量阈值的话,那么本发明运动模型的一个实施例可以被应用于那些区域。图3以流程图形式300举例说明了该过程。
[0026]在302,来自标准运动模型的用于区域的预测误差被接收。在304,做出关于预测误差(接收自302的)是否大于一个第一预置阈值的判断。如果预测误差(来自于302的)不大于该第一阈值,那么可以进行其它306处理。如果预测误差大于该第一阈值,那么在308捕获用于区域的2个或更多的运动以及相关边界以便提取。接下来,在310,做出检查以判断预测误差(来自于308的)是否大于一个第二预置阈值。如果预测误差(来自于308的)不大于该第二阈值,那么可以进行其它306处理。如果预测误差大于该第二阈值,那么在312捕获用于区域的更多复合运动和相关边界以便提取。在虚线块314中是执行本发明的一些技术的地方。
[0027]在本发明的另一个实施例中,运动模型中的扩展可以用于对象边界的真实非刚性形变。例如,图3中的框312也可以指代一个更复杂的模型以处理真实非刚性形变。诸如边界到边界匹配的扩展可以被使用并且被引入图3中举例说明的结构当中。
[0028]对于视频编码应用,对运动块/区域的简单分割(用于低开销的)以捕获多个运动(以降低预测误差)可以利用块的四叉树分割加以实现,在其中大的预测误差块被划分成用于改进的运动估计的子块。同样,可以利用边界/划分的直线模型来对具有大预测误差的块进行四叉树分割。在本发明的一个实施例中,进一步就运动分割问题本身来调整方法,这涉及获得移动对象边界的位置和局部形状的良好估计的能力。
[0029]图4以流程图形式400举例说明了视频编码的一个实施例。在这里,运动模型被用来估计运动并消除时间冗余度,从而导致微小的运动残留需要编码。稍后论述的是本发明的附加实施例以及运动模型如何可以被高效且有效地使用于编码。
[0030]在图4中,在402接收输入图像。在404对给定帧执行运动估计,并且运用多运动和边界提取发明来对遮蔽区域以及移动边界进行标识。在406对剩余的运动残留进行编码。
[0031]在本发明的一个实施例中,时间变量被用于2个运动的表示。在该运动模型中,使用相对于过去和未来的同时估计(即,使用2个参考帧),以便比方说在过去的帧中被遮蔽的靠近边界的像素将根据未来的帧(其中它们未被遮蔽)来选择估计,且反之亦然。它是在模型中采用的遮蔽的这种二元性。
[0032]在本发明的一个实施例中,非线性方面被用在时间变量(由此是边界模型)以控制和精细化边界接口的估计。
[0033]在本发明的一个实施例中,可以局部地使用已扩展的运动模型,并且作为连续迭代方法的一部分,正如在图3中举例说明的那样。视作为不良的(由于高预测误差)区域,比方说在一个第一遍分割过程中,可以利用已扩展的运动模型加以重新估计以捕获多个运动和移动边界。
[0034]如上所述,通过运动模型中的时间变量来隐式地定义边界,所述运动模型的函数形式考虑到将由平滑的小型支持的区域定义的运动域。
[0035] 标准的模型回顾
[0036]为了让读者更快速而充分地理解本发明的实施例,给出了标准的运动模型回顾。通常用在运动估计中的标准的运动模型是仿射模型,该仿射模型采用了如下形式:
             x′=vx(x,y)=ax+by+c
             y′=vy(x,y)=dx+ey+f
其中(x′,y′)是参考帧(即,先前帧)上的像素位置。如果(a=e,d=-b),那么只允许转换、变焦和旋转运动;这些在大部分的情况下是主流模式。非线性的透视模型是仿射模型到8个参数的一种扩展以处理到图像平面的投影。在一些区域(运动块)上应用运动模型,并且参数的估计可以涉及线性最小二乘方投影、预测误差的直接最小化、预测误差的多分辨率最小化等等。
[0037] 运动模型
[0038]本发明的实施例包括解决多个运动和移动对象边界的估计的模型。使用过去的和未来的运动估计。这涉及时间变量t′(对于基于过去的帧的运动估计而言t′=-1,以及对于基于未来的帧的运动估计而言t′=0)的使用。用于2个运动的模型(稍后论述更为普通的情况)采用如下形式:
            t′=F(s)
            s=B(x,y)                (1)
x ′ = v 1 x ( x , y ) + ( v 2 x ( x , y ) ) ( t ′ + 1 )
y ′ = v 1 y ( x , y ) + ( v 2 y ( x , y ) ) ( t ′ + 1 )
其中B(x,y)包含有关边界/接口模型的信息,并且 v1=(vi x,vi y)是对于i=1、2个运动的运动模型向量映射。
作为模型的一种实现方式,我们考虑模型(即,像素坐标的平滑函数)
            s=B(x,y)=gx+hy+αx2+βy2+i
其中{g,h,α,β,i}是用于模型边界曲线的参数。我们还为 vi采用标准的仿射运动模型,所以上面的等式变为:
            t′=F(s)
            s=gx+hy+αx2+βy2+i
            x′=ax+by+c+(a′x+b′y+c′)(t′+1)
            y′=dx+ey+f+(d′x+e′y+f′)(t′+1)
其中{a,b,c,d,e,f,a′,b′,c′,d′,e′,f′}是仿射运动模型的参数。
[0039]模型的描述如下:
第一,考虑上面的最后两个等式。这些等式对两个运动进行建模,一个是6个参数仿射运动,另一个是另外6个参数仿射运动。
对于具有t′=-1的像素而言,由下式给出运动向量:
                vx=x′-x=(α-1)x+by+c;
                vy=y′-y=dx+(e-1)y+f
对于具有t′=0的像素而言,由下式给出运动向量:
                vx=(a+a′-1)x+(b+b′)y+c+c′
                vy=(d+d′)x+(e+e′-1)y+f+f′
时间变量的耦合考虑到了在这个实施例中2个不同的运动存在的情况(即,具有不同的转换、旋转和变焦)。运动区域到2个运动的划分是根据该区域是否为运动估计使用过去的或未来的帧而定义的。这是在图5中示出的。
[0040]在图5中,运动分割成2个区域是通过用于运动估计的区域的帧参考而获得的。在这个示例中,以速率V0移动的对象是前景对象。通过最小化预测误差(对于过去的和未来的参考帧)来确定模型。最低预测误差将会导致避免任何遮蔽效应以及由此具有定位真实移动边界的最佳潜能的底部划分(510)。502是先前的帧,504是当前的帧,以及506是未来的或下一个帧。508是当前帧到两个运动的一个可能划分。510是当前帧到两个运动的另一个划分,并且当与508划分相比较时是较低预测误差的情况。
[0041]等式(1)中的时间变量是像素位置的平滑函数,并且从-1到0变化。操作上,当前帧上的运动块中的指定像素位置定义时间变量t′。然后,在最后2个等式中使用这个时间变量以确定运动向量。然后,通过将运动向量在时间t′指向帧上存在的像素位置来形成预测;如果t′=0,则在预测中使用未来的帧,如果t′=-1,则使用过去的帧。对于t′∈(-1,0)的情况,使用过去和未来的帧的线性组合。
[0042]所述时间变量控制对象边界的运动。将边界定义成s=-0.5,通常这是一个由多项式gx+hy+αx2+βy2+i=-0.5描述的曲线。接口模型的平滑度允许每个运动区域将由平滑的小型支持定义。在离开接口饱和到0或-1的意义上,以及定义边界的条件t′=F(-0.5)=-0.5,选择非线性函数F来作为边界的代表。非线性函数 F ( s ) = ( tanh ( ( s + 0.5 ) / w ) - 1 2 实现了这个特征,其中w控制边界处的斜度。让参数w指代边界或接口的″宽度″。在图6中示出了对应不同边界宽度的函数F的一些标绘。
[0043]如图6所示,是在运动模型的一个实施例中使用的函数t′=F(s)的性状600。所述函数控制对用于运动估计的过去的(t′=-1)或未来的(t′=0)参考帧的像素的赋值,所述运动估计具有在s=-0.5处定义的对象边界。这个函数的特征为宽度参数(w)且在-1和0处适当饱和。
[0044]模型中的关键特征是控制时间变量从-1(过去的帧)到0(未来的帧)的延伸的″边界宽度″(w)。靠近边界(由宽度w定义的)的像素是一类混合态,即,2个域的线性组合。也就是说,对于边界区域内的像素而言,所述预测为:
Ipred(x,y)=(1+t′)Ifuture(x′,y′)-t′Ipast(x′,y′)
以及混合状态可以定义为:
混合状态:对于域1而言加权(1+t′),并且对于域2而言加权-t′。
其中t′∈(-1,0)(回想一下时间是参考运动区域/域的)。在本发明的一个实施例中,w本身可以在模型中动态变化。然后,系统将自然地选择表征边界的宽度/粗糙度的数值w,并且确定边界层中的哪些像素是2个域的混合。
[0045]纯状态:
在本发明的一个实施例中,在运动参数的估计步骤期间,为了利用精细边界干净地提取2个(纯的)域,w是固定的且是小的。例如,宽度参数定为w=1/3,然后利用连续地较精细接口宽度来执行重新估计(如图5中所示)。利用模型中的非线性函数F(s)和w的减少量来控制和精细化边界的估计。随着接口宽度减小,远离边界的像素对于它们的参考帧而言变为″凝固的″。仅仅允许在边界附近的像素(通过s=-0.5而确定的)使它们的时间变量改变(即,迁移到另一个参考帧处),由此来修改边界。
[0046] 模型参数的估计
[0047]在本发明的一个实施例中,运动模型参数的估计是从预测误差的最小化获得的。
e = Σ ( x , y ) ∈ motion _ block ( I ( x , y ) - I pred ( x , y ) ) 2
Ipred(x,y)=(1+t′)Ifuture(x′,y′)-t′Ipast(x′,y′)
其中(x′,y′,t′)是模型参数的函数(参见等式(1))。注意,对于每个像素而言,所述预测是过去的和未来的帧的线性组合;可以运用简单的双线性时间内插。模型参数的估计可以利用多分辨率层(如下所述)而从最陡下降算法中获得。
[0048]用于运动模型的估计算法的详细程序按如下进行。存在下面可以被使用的3组初始条件:
(1)相对于先前帧初始化的运动参数
(2)相对于未来帧初始化的运动参数
(3)来自组(1)和组(2)的运动参数的平均值
对于每一组而言,在一个实施例中,都将接口参数选为:
                g=h=α=β=0;
                i=-.075,-0.5,-0.25.
由此,使用了总共9个初始条件,不过最常见的具备i=-0.5的组1或组2可能足够了。对于下面的序列1-7保持将宽度参数定在w=1/3。
1.参数的初始化:
对于1/16大小的图像(从原始图像的简单抽选中获得的),对相应的运动块中的小块执行块匹配(BM)。对于初始条件组1,BM相对于过去被执行;并且对于组2相对于未来而被执行。然后,利用最小二乘方(LS)将该组运动向量映射到模型参数上。对于初始条件组1和2,这得出初始组参数(a,b,c,d,e,f);将参数(a′,b′,c′,d′,e′,f′)初始化为0。对于第三个初始条件组,使用来自于组1和2的参数的平均值。
2.最陡下降被用在1/16大、的图像以得出模型参数 V2的估计( V2表示对于层2(1/16大小的图像)的模型中所有参数的分量向量(component vector))。
3.从1/16到1/4大小的图像投影以开始对1/4大小的图像的估计。这个投影被确定以便根据空间缩放来保持模型的函数形式。对于层2到层1的运动参数的投影,我们有:
层投影
a1=a2
b1=b2
c1=2c2
d1=d2
e1=e2
f1=2f2
g1=0.5g2
h1=0.5h2
i1=i2
α1=0.25α2
β1=0.25β2
4.将来自于上层的投影估计用作为对于等级1的一个初始条件。为1/4大小的图像重复迭代/最陡下降。这得出估计量 V1
5.对于1/4的参数投影到原始大小的图像,如在3中那样。
6.为全尺寸的图像重复迭代/最陡下降估计。最后的解是 V0
7.为上述该组初始条件重复 1- 6
8.从具有最低预测误差的初始条件组中选择参数的估计。利用最佳 V0作为初始条件重新估计运动参数,但是具有连续地更尖锐的宽度参数w(1/4,1/8,1/16)。这导致移动对象的位置和曲率的改进估计。
[0049] 示例
[0050]在这里举例说明了运动模型的一些示例。在第一组示例中,将运动模型应用于包含2个运动的区域(80×80的块)。对于所述示例,在左侧上显示原始图像,并且右侧图像示出了多运动区域分割成2个区域。暗色区域参考过去的帧,而白色区域参考未来的帧。注意,在每一个示例中分割成过去的/未来的区域是与遮蔽效应被最小化相一致的,正如图5中所论述和所示的那样。
[0051]在图7中示出了示例1。风扇移动到右侧。捕获风扇对象的曲率,并且运动模型实现了分隔成过去的和未来的运动参考,正如图5中所论述和所示的那样。702是原始图像,以及704示出了多运动区域分割成2个区域。暗色区域参考过去的帧,以及白色区域参考未来的帧。
[0052]在图8中示出了示例2。在这里,人向下移动。这是与前一示例中相同的效果。802是原始图像,以及804示出了多运动区域分割成2个区域。暗色区域参考过去的帧,以及白色区域参考未来的帧。这样进行帧参考赋值以便遮蔽效应被最小化,正如在图5中论述的那样。
[0053]在图9中示出了示例3。前景中的少女移动到左侧。因为该少女移动到左侧,所以在她面前的静止区域将优选相对于其中没有遮蔽发生的过去的运动估计。902是原始图像,904示出了多运动区域分割成2个区域。暗色区域参考过去的帧,以及白色区域参考未来的帧。
[0054]对于上面的示例而言,将预测误差数据作为运动预测区域/块和初始决之间的均方差来计算。标准的运动模型是指单个运动仿射模型,往往用在运动估计中。新的运动模型是指本发明的实施例。如下所示,存在利用新运动模型的预测误差中的改进。
          标准运动模型            新运动模型
示例1        26.8                    9.1
示例2        22.0                    8.6
示例3        18.9                    5.5
[0055] 应用于大区域的运动模型
在下面的示例中,将感兴趣对象周围的大区域划分成80×80块。这个区域是从标准类型的运动分割(仿射运动模型和k均值聚类)中获得的,所述运动分割具有标识移动对象的区域的不充分标记的块(具有高预测误差和/或高度失真类别的块)。接下来,将本发明新运动模型的一个实施例应用于涵盖感兴趣移动对象周围的大区域的一组80×80个块。示例4在图10中被示出,其中细黑线1002是使用新运动模型的边界位置的估计量。
[0056]在如图10所示的示例4中,少女走向右侧,背景向左侧″移动″。将运动模型应用于少女周围的大区域。少女(1002)周围的黑线是所提取的移动对象的位置。沿着她的鼻子/脸的丢失的轮廓接近地符合80×80个块的其中一块的边界;由此,那一块中的大部分像素属于一个运动(脸运动),从而系统选择一个没有边界的域/状态。
[0057]在图11中示出的是利用仿射运动模型(标准运动模型)1104的分割和利用如在本发明的一个实施例中公开的新模型1106的改进之间的比较。小图片1102是原始图像。图像1104是通过使用仿射运动模型的标准方法得来的分割映射。不同的阴影是指不同的运动类别。图像1106是通过利用新的运动模型来重新估计运动而获得的新分割映射。图像1106示出了图像中少女的更好的轮廓,并且比图像1104具有更平滑的分割区段。
[0058] 视频编码
在本发明的另一个实施例中,视频编码可以使用新的运动模型。上面论述到的、凭借其解决2个运动的能力的模型,能够被应用于大的区域。在先前论述的示例中,使用了80×80个块。可以把新的运动模型看作″简洁地″代表不同的运动和边界信息。例如,在本发明的一个实施例中,本模型具有17个参数,并且如果用在比如80×80个块中(在一个704×484个图像中),约为900个运动参数;这包括用于解码器以提取运动区段和一些移动边界的位置所必需的所有信息。将这个同一个非常简单的标准16×16块匹配算法(2个转换参数,不带明确的移动边界信息)所需的约2662个参数进行比较。。
[0059] 用于M个运动的模型
正如先前提到的那样,以上的讨论主要是集中在2个运动以便不混淆本发明的实施例。本发明的其它实施例可以解决任意数量的运动(M个)并且可以被应用于扩展上述讨论的示例和实施例。
[0060]可以按如下形式来编写用以解决带有不相交边界的M个运动的2运动模型的扩展(这是等式(1)的扩展):
x ‾ ′ = Σ i = 1 M g i ( t ′ ) g i ( t i ref ) v ‾ i ( x , y )
g i ≠ 1 ( t ′ ) = Π j = 1 , . . . , M ( j ≠ i ) ( t ′ - t j ref )
g1(t′)=1
t ′ = F ( { s j } , { w j } , { t i ref } )
sj=Bj(x,y)
其中,正如在上面的等式(1)中那样,我们能够使用如下面的模型等式:
sj=Bj(x,y)=gjx+hjy+αjx2jy2+ij
vi(x,y)=(aix+biy+ci,dix+eiy+fi)。
[0061]在上述模型中, x是指当前帧上的像素位置(其运动正在被估计的一个), x′是指参考帧上的位置,{ti ref}是用于M个运动的提取的M个参考帧。运动向量{ vi}是仿射运动区段,t′是连续时间变量,以及F({sj}、{wj}、{ti ref})是代表边界的非线性函数(一个接口的示例在图13中示出)。这个函数包括用于M-1个边界的接口等式{sj,j=1,..M-1}}、M-1个宽度参数{wj,j=1,...M-1}和用于M个运动的参考时间{ti ref,i=1,...M}(每个边界的中心;F的中点,对于2个运动的情况参见图6)。接口等式{sj}是对边界的位置和形状建模的多项式。在i=1时(即,对于t1 ref=-1)将加权函数的归一化
Figure A20038010302100241
选为1从而与等式1中的2个运动的情形相对应。
[0062] 2个运动的情形
上述模型减少为较早实现的情形(参见等式(1))。所述2个参考帧为t1 ref=-1(过去的),和t2 ref=0(未来的)。仿射运动向量前的因子为: g 1 ( t ′ ) g 1 ( t i ref ) = 1 , g 2 ( t ′ ) g 2 ( t i ref ) = t ′ + 1 1 . 仅有一个边界/接口变量s和一个宽度变量w。非线性时间等式变为:
t ′ = F ( { s j } , { w j } , { t i ref } ) = F ( s , w , t 1 ref , t 2 ref )
其中,例如,用于2个运动的模型为:
F ( s , w , t 1 ref , t 2 ref ) = ( tanh ( ( s - ( t 1 ref + t 2 ref ) / 2 ) / w - 1 ) 2 .
[0063] 3个运动
在图12中示出了用于3个运动的示例。在这里,图像区域1300中的三个″运动″是中间区域和按箭头指示移动的另外2个区域,所述中间区域是静止前景。2个不相交边界如直线所示。
[0064]为了最小化遮蔽/暴露的区域效应,最理想状态(较低的预测误差)将导致12中示出的区域帧参考(帧ref:)。在这个示例中,假定有相对于过去的(-1)、未来的(0)和早过去(-2)的2个帧的预测。在图13中示出了这个示例中所使用的接口函数1300的示例。
[0065]在图13中示出了用于3个运动(2个不相交边界)的接口函数的示例。所述函数可以写成:
F ( { s j } , { w j } , { t i ref } ) = - 0.5 tanh ( s 1 - ( t 1 ref + t 2 ref ) / 2 w 1 ) + tanh ( s 2 + ( t 2 ref + t 3 ref ) / 2 w 2 ) + 0.5
其中t1 ref=-1、t2 ref=-2、t3 ref=0,并且w1、w2是表现边界的平滑度/粗糙度的特征的宽度参数(在上述示例中,w1=0.25,w2=0.25)。正如用于2个运动情形的文本中论述的那样,宽度参数{wj}可以是固定的外部参数,然而通常也可以动态地确定它们(这将允许系统调节或选择边界的宽度/粗糙度)。正如我们在上述的视频编码中论述的那样,还可以把本发明看作简洁地代表多运动和边界信息。对于3个运动的示例而言,我们将具有约30个参数(对于由6个参数仿射模型建模的3个运动为6×3,对于由二次多项式建模的2个边界为5×2,并且比方说2个宽度参数)。然而,由于我们能够捕获3个运动,因而可以将块大小增至比如160×160(而不是在2个运动的示例中使用的80×80)。这与对于16×16个块常规使用2个参数相比,仍将导致编码增益。
[0066]由此,已经公开的是一种用于非线性的多运动模型和移动边界提取的方法和设备。
[0067]图1举例说明了可以在其中应用所描述的技术的网络环境100。正如示出的,由S个服务器104-1至104-S和C个客户机108-1至108-C的形式的几个计算机系统通过例如可以是一个基于家庭的网络的网络102被相连。注意,替代地,该网络102可以是或包括因特网、局域网(LAN)、广域网(WAN)、卫星链路、光纤网路、有线电视网或这些和/或其它的组合中的一个或多个。服务器例如可以代表单独的磁盘存储系统或存储器和计算资源。同样,客户机可以具有计算、存储和查看能力。可以将这里所描述的方法和设备应用于基本上不论是本地还是远程的,比如LAN、WAN、系统总线等等的任何类型的通信装置或设备。
[0068]图2以框图形式举例说明了计算机系统200,所述计算机系统可以表示图1中所示的任何客户机和服务器,而且可以表示本发明的一个实施例。所述框图是高级的概念表示并且可以用各种方法和通过各种结构来实现。总线系统202互连中央处理单元(CPU)204、只读存储器(ROM)206、随机存取存储器(RAM)208、存储器210、显示器220、音频、222、键盘224、指示器226、各种各样的输入/输出(I/O)设备228和通信230。总线系统202可以是例如一个或多个像系统总线这样的总线,外围设备互连(PCI)、高级图形端口(AGP)、小型计算机系统接口(SCSI)、电气和电子工程师协会(IEEE)标准号1394(FireWire(火线))、通用串行总线(USB)等等。所述CPU 204可以是单个、多个或者甚至是一个分布式计算资源。存储器210可以是压密盘(CD)、数字多用途盘(DVD)、硬盘(HD)、光盘、磁带、闪存、记忆棒、录像机等等。显示器220可以例如是阴极射线管(CRT)、液晶显示器(LCD)、投影系统、电视(TV)等等。注意,取决于计算机系统的实际实现方式,计算机系统可以包括框图中组件的一些、所有、更多或重新安排。例如,瘦客户机可以由例如不带传统键盘的无线手持式设备组成。因此,图2的系统上的许多变形是可能的。
[0069]为了论述和理解本发明起见,应当理解的是,本领域的技术人员使用各种不同的术语来描述技术和方法。此外,在说明书中,为了解释起见,提出许多特定细节以便提供对本发明的彻底理解。然而,对于本领域技术人员而言显而易见的是可以在没有这些特定细节的情况下实践本发明。在一些例子中,以框图形式而非详细地示出了众所周知的结构和设备,以免混淆本发明。这些实施例被足够详细地描述以使本领域的技术人员能实践本发明,并且应当理解的是,可以采用其它的实施例,并且可以在不脱离本发明的范围的情况下做出逻辑的、机械的、电学的及其它的改变。
[0070]说明书的一些部分可以按照对例如计算机存储器内的数据位进行运算的算法和符号表示被提出。这些算法的说明和表示都是数据处理领域的技术人员所用的手段以便最有效地向本领域的其它技术人员传达他们的工作的实质。一个算法在这里并且通常设想成为导致期望结果的动作的自相容序列。所述动作是那些需要物理量的物理操纵的。通常,尽管不一定,但是这些量采取能被存储、传送、组合、比较和其它操作的电或磁信号的形式。有时主要地为了公共用途的原因,证明它方便地指代了如位、数值、元件、符号、特征、项、号码等等这样的这些信号。
[0071]然而,应该记住的是,所有这些和类似的项是将与适当的物理量相关联的并且只是应用于这些量的方便标记。除非明确地指明,否则通过读论述是显而易见地,应当理解,贯穿本说明书,使用诸如″处理″或″计算(computing)″或″运算(calculating)″或″确定″或″显示″等等之类的术语的论述可能是指计算机系统或类似的电子计算设备的动作和过程,所述电子计算设备将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操作和变换成同样表示为计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。
[0072]在这里,本发明可以通过用于执行操作的设备来实现。可以专门地为所需的目的而构造这种设备,或者它可以包括由存储在计算机中的计算机程序来有选择地激活或重新配置的通用计算机。这样的计算机程序可以被存储在计算机可读存储介质中,比如但不限于任何类型的盘,包括软盘、硬盘、光盘、压密盘只读存储器(CD-ROM)和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)电可编程只读存储器(EPROM)、电可擦除编程只读存储器(EEPROM)、闪存、磁或光学卡,等等,或是适合于将电子指令本地存储到计算机或者远程存储到计算机中的任何类型的介质。
[0073]在这里所出现的算法和显示并不是固有地与任何特定计算机或其它设备相关的。依照这里的教导,可以使用具有程序的各种通用系统,或者可以证明便于构造更多的专门设备以执行所需的方法。例如,根据本发明的任何方法都能够以硬接线电路、通过对通用处理器进行编程或通过硬件和软件的任何的组合来实现。本领域技术人员将会立即认识到本发明能够利用除所述的那些以外的计算机系统配置加以实现,包括手持式设备、多处理器系统、基于微处理器的或可编程的用户电子设备、数字信号处理(DSP)装置、机顶盒、网络PC、小型计算机、大型计算机等等。本发明还可以在其中由通过通信网络被链接的远程处理设备来执行任务的分布式计算环境中实践。
[0074]本发明的方法可以利用计算机软件来实现。如果以符合所认可的标准的程序设计语言来进行编写,则能够为各种不同硬件平台上的执行和为到各种不同的操作系统的接口对设计来实现所述方法的指令序列进行编译。另外,没有参照任何特定的程序设计语言来对本发明进行描述。应当理解,各种程序设计语言都可以用来实现如这里所描述的本发明的教导。此外,在本领域中以一种形式或另一种形式(例如程序、过程、应用、驱动,……)说到软件作为采取动作或产生结果是常见的。这样的表达仅仅是由计算机对软件的执行引起计算机的处理器执行动作或产生结果的简写形式。
[0075]应当理解,各种不同的术语和技术由本领域那些技术人员来使用以描述通信、协议、应用、实施方式、机制等等。一种这样的技术就是按照算法或数学表达式的技术的实施方式的说明。也就是说,虽然所述技术可以例如作为计算机上的执行码来实现,那个技术的表达可以更加适当而简明地作为公式、算法或数学表达式加以传达和传递。因此,本领域熟练技术人员将把表示A+B=C的一个块认识为一个其在硬件和/或软件中的实现将采用两个输入(A和B)并且产生总和输出(C)的相加函数。因此,像说明书这样的公式、算法或数学表达式的使用应当被理解为具有至少为硬件和/或软件形式的物理体现(比如,其中可以实践本发明的技术并且作为一个实施例实现的计算机系统)。
[0076]将机器可读介质理解成包括任何用于以机器(例如,计算机)可读的形式存储或传输信息的机制。例如,机器可读介质包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储器介质;光存储介质;闪存设备;电学的、光学的、听觉的或其它形式的传播信号(例如,载波、红外信号、数字信号等);等等。
[0077]单词″一个实施例″或″一实施例″或类似语言的的使用不意味着只有本发明的单个实施例,而是指示在论述的特定实施例中它是几种可能实施例的其中之一。
[0078]由此,已经描述了一种用于非线性的多运动模型和移动边界提取的方法和设备。

Claims (60)

1.一种用于运动估计的方法,包括:
接收一个输入图像;
接收一组参考图像;
将所述输入图像划分成区域;以及
对于每个区域:
提取一个或多个运动;以及
提取一个或多个相关的移动边界。
2.如权利要求1所述的方法,其中该组参考图像是从由一个或多个过去的帧、一个或多个未来的帧以及一个或多个过去的帧和一个或多个未来的帧组成的组中选出来的。
3.如权利要求2所述的方法,其中提取所述一个或多个和提取所述一个或多个相关的移动边界涉及具有空间和时间变量之间的非线性耦合的多运动模型以及直接被耦合于一个或多个运动的边界模型。
4.如权利要求3所述的方法,其中所述提取一个或多个相关的移动边界是根据区域竞争模型隐式地确定的,该区域竞争模型通过减少用于边界选择的预测误差来驱动。
5.如权利要求3所述的方法,其中对于2个运动的相关的移动边界的估计是以相对于过去的帧和未来的帧的遮蔽的二元性为基础的。
6.如权利要求3所述的方法,其中所述时间变量考虑相对于过去的帧和未来的帧的组合运动估计以便捕获2个运动。
7.如权利要求3所述的方法,其中所述时间变量考虑相对于一组过去的帧和未来的帧的组合运动估计以便捕获2个以上的带有不相交边界的运动。
8.如权利要求3所述的方法,其中所述时间变量的表示为t′的非线性函数,耦合于表示为(x,y)的像素位置,并且用于控制和精细化所述一个或多个相关的移动边界的估计,并且具有如下形式:
t′=F(s)
其中s是其中所述区域之一内的像素位置(即,s=B(x,y))的函数。
9.如权利要求8所述的方法,其中对参考帧的像素赋值且由此运动类别/状态是通过将权利要求8所述的方法耦合于一个或多个运动区段来确定的,其中所述耦合导致一个非线性耦合的模型,该模型根据驱动力进行演变以降低预测误差,并且所述已提取的移动边界和所述运动状态是通过这种预测误差最小化而得来的,并且其中这个非线性耦合的模型中来自权利要求8的F(s)饱和到远离所述特定的相关移动边界的参考时间值,并且更急剧地靠近所述特定的相关移动边界。
10.如权利要求9所述的方法,其中对于2个运动的情况,将过去的帧和未来的帧用作为参考图像,所述特定的所述相关的移动边界是当基本上s=-0.5时确定的。
11.如权利要求9所述的方法,其中所述运动模型具有用于2个运动的形式:
        t′=F(s)
        s=B(x,y)
x ′ = v 1 x ( x , y ) + ( v 2 x ( x , y ) ) ( t ′ + 1 )
y ′ = v 1 y ( x , y ) + ( v 2 y ( x , y ) ) ( t ′ + 1 )
其中vi x,y是用于i运动的运动向量映射,并且其中F、B分别是时间参考和边界模型。
12.如权利要求11所述的方法,其中所述边界模型是所述像素位置的平滑函数并且具有形式:
            s=B(x,y)=gx+hy+αx2+βy2+i
其中{g,h,α,β,i}是边界模型的参数。
13.如权利要求11所述的方法,其中对于每个运动的所述运动模型可以是任何的标准模型。
14.如权利要求13所述的方法,其中所述任何的标准模型是具有如下形式的仿射模型:
              vi(x,y)=(aix+biy+ci,dix+eiy+fi)
 其中{ai,bi,ci,di,ei,fi}是仿射模型的参数。
15.如权利要求9所述的方法,其中所述运动模型具有用于提取2个以上的带有不相交边界的运动的形式:
x ‾ ′ = Σ i = 1 M g i ( t ′ ) g i ( t i ref ) v ‾ i ( x , y )
g i ≠ 1 ( t ′ ) = Π j = 1 , · · · , M ( j ≠ i ) ( t ′ - t j ref )
gi(t′)=1
t′=F({sj})
sj=Bj(x,y)其中M是所述区域中的运动的数目,并且{ti ref}标记所使用的该组参考图像的时间值;例如t1 ref=-1(过去的),t1 ref=0(未来的),t1 ref=-2(早过去的2帧)等等,并且等式sj=Bj(x,y)是用于j=1,2,...M-1个边界的边界模型。
16.如权利要求15所述的方法,其中所述边界模型具有如下形式的像素坐标的平滑函数:
             sj=Bj(x,y)=gjx+hjy+αjx2jy2+ij其中{gj,hj,αj,βj,ij}是j边界模型的参数。
17.如权利要求15所述的方法,其中对于每个运动的所述运动模型可以是任何的标准模型。
18.如权利要求17所述的方法,其中所述任何的标准模型是具有如下形式的仿射模型:
             vi(x,y)=(aix+biy+ci,dix+eiy+fi)其中{ai,bi,ci,di,ei,fi}是仿射模型的参数。
19.如权利要求15所述的方法,其中用于2个以上的运动的所述时间变量具有如下形式:
t ′ = F ( { s j } , { w j } , { t i ref } )
其中{wj}是用于所述一个或多个相关的移动边界的一组宽度参数。
20.如权利要求11所述的方法,其中用于2个运动的提取的非线性时间参考等式具有如下形式:
t ′ = F ( s ) = ( tanh ( ( s + 0.5 ) / w ) - 1 ) 2
其中w是用于移动边界的宽度参数。
21.如权利要求19所述的方法,其中所述控制所述一个或多个相关的边界的宽度的参数{wj},本身在所述运动模型中动态地变化,以便系统可以根据最小预测误差来选择最佳边界宽度{wj}。
22.如权利要求19所述的方法,其中在用于所述运动模型的参数的第一估计期间所述参数{wj}最初是固定的且小的,然后在用于所述运动模型的所述参数的重新估计阶段中连续地减小。
23.如权利要求11所述的方法,其中根据最陡下降算法来确定表征所述模型的量{ vi,B,F}的所述运动和边界/接口模型参数以使预测误差最小化,并且使用多分辨率层和从一层到下一层的所述参数的投影。
24.如权利要求15所述的方法,其中根据最陡下降算法来确定表征所述模型的量{ vi,B,F}的所述运动和边界/接口模型参数以使预测误差最小化,并且使用多分辨率层和从一层到下一层的所述参数的投影。
25.如权利要求4所述的方法,其中所述运动模型具有用于2个运动的形式:
                t′=F(s)
                s=B(x,y)
x ′ = v 1 x ( x , y ) + ( v 2 x ( x , y ) ) ( t ′ + 1 )
y ′ = v 1 y ( x , y ) + ( v 2 y ( x , y ) ) ( t ′ + 1 )
其中vi x,y是用于一个i运动的运动向量映射,并且其中F、B分别是时间参考和边界模型。
26.如权利要求25所述的方法,其中所述边界模型是所述像素位置的平滑函数并且具有如下形式:
                 s=B(x,y)=gx+hy+αx2+βy2+i其中{g,h,α,β,i}是边界模型的参数。
27.如权利要求25所述的方法,其中对于每个运动的所述运动模型可以是任何标准模型。
28.如权利要求27所述的方法,其中所述任何标准模型是具有如下形式的仿射模型:
v ‾ i ( x , y ) = ( a i x + b i y + c i , d i x + e i y + f i )
其中{ai,bi,ci,di,ei,fi}是仿射模型的参数。
29.如权利要求4所述的方法,其中所述运动模型具有用于提取2个以上的带有不相交边界的运动的形式:
x ‾ ′ = Σ i = 1 M g i ( t ′ ) g i ( t i ref ) v ‾ i ( x , y )
g i ≠ 1 ( t ′ ) = Π j = 1 , · · · , M ( j ≠ i ) ( t ′ - t j ref )
                gi(t′)=1
                t′=F{{sj})
                sj=Bj(x,y)其中M是所述区域中的运动的数目,而{ti ref}标记所使用的该组参考图像的时间值;例如t1 ref=-1(过去的),t1 ref=0(未来的),t1 ref=-2(早过去的2帧)等,并且等式sj=Bj(x,y)是用于j=1,2,...M-1个边界的边界模型,以及F({sj})是非线性时间参考等式。
30.如权利要求29所述的方法,其中所述边界模型具有如下形式的像素坐标的平滑函数:
              sj=Bj(x,y)=gjx+hjy+αjx2jy2+ij其中{gj,hj,αj,βj,ij}是j边界模型的参数。
31.如权利要求29所述的方法,其中用于每个运动的所述运动模型可以是任何标准模型。
32.如权利要求31所述的方法,其中所述任何标准模型是具有如下形式的仿射模型:
                vi(x,y)=(aix+biy+ci,dix+eiy+fi)其中{ai,bi,ci,di,ei,fi}是仿射模型的参数。
33.如权利要求29所述的方法,其中用于2个以上运动的所述时间变量具有如下形式:
t ′ = F ( { s j } , { w j } , { t i ref } )
其中{wj}是用于所述一个或多个相关的移动边界的一组宽度参数。
34.如权利要求25所述的方法,其中用于2个运动的提取的非线性时间参考等式具有形式:
t ′ = F ( s ) = ( tanh ( ( s + 0.5 ) / w ) - 1 ) 2
其中w是用于移动边界的宽度参数。
35.如权利要求33所述的方法,其中所述控制所述一个或多个相关的移动边界的宽度的参数{wj},本身在所述运动模型中动态地变化,以便系统可以根据最小预测误差来选择一个最佳边界宽度w。
36.如权利要求33所述的方法,其中在用于所述运动模型的参数的第一估计期间所述参数{wj}最初是固定的且小的,然后在用于所述运动模型的所述参数的重新估计阶段中连续地减小。
37.如权利要求25所述的方法,其中根据最陡下降算法来确定表征所述模型的量{ vi,B,F}的所述运动和边界/接口模型参数以使预测误差最小化,并且使用多分辨率层和从一层到下一层的所述参数的投影。
38.如权利要求29所述的方法,其中根据最陡下降算法来确定表征所述模型的量{ vi,B,F}的所述运动和边界/接口模型参数以使预测误差最小化,并且使用多分辨率层和从一层到下一层的所述参数的投影。
39.如权利要求2所述的方法,其中所述提取的一个或多个运动的数目不大于参考图像帧的数目。
40.如权利要求1所述的方法,其中所述提取的一个或多个相关的移动边界的数目不大于该组参考图像帧的数目。
41.一种包括耦合于存储器的处理器的处理系统,当执行一组指令时其执行权利要求1所述的方法。
42.一种在其上存储有指令的机器可读介质,当执行所述指令时执行权利要求1所述的方法。
43.一种用于运动估计的设备,包括:
用于接收输入图像的装置;
用于接收一组参考图像的装置;
用于将所述输入图像划分成区域的装置;和
对于每个区域:
用于提取一个或多个运动的装置;和
用于提取一个或多个相关的移动边界的装置。
44.如权利要求43所述的设备,其中该组参考图像是从由一个或多个过去的帧、一个或多个未来的帧以及一个或多个过去的帧和一个或多个未来的帧组成的组中选出来的。
45.如权利要求44所述的设备,其中所述用于提取一个或多个运动的装置和所述用于提取一个或多个相关的移动边界的装置涉及具有空间和时间变量之间的非线性耦合的一个多运动模型,以及直接耦合于所述一个或多个运动的边界模型。
46.如权利要求45所述的方法,其中所述运动模型具有用于2个运动的形式:
                t′=F(s)
                s=B(x,y)
x ′ = v 1 x ( x , y ) + ( v 2 x ( x , y ) ) ( t ′ + 1 )
y ′ = v 1 y ( x , y ) + ( v 2 y ( x , y ) ) ( t ′ + 1 )
其中vi x,y是用于i运动的运动向量映射,并且其中F、B分别是时间参考和边界模型。
47.如权利要求45所述的方法,其中所述运动模型具有用于提取2个以上的带有不相交边界的运动的形式:
x ‾ ′ = Σ i = 1 M g i ( t ′ ) g i ( t i ref ) v ‾ i ( x , y )
g i ≠ 1 ( t ′ ) = Π j = 1 , · · · , M ( j ≠ i ) ( t ′ - t j ref )
                gi(t′)=1
                t′=F({sj})
                sj=Bj(x,y)其中M是所述区域中的运动的数目,并且{ti ref}标记所使用的该组参考图像的时间值;例如t1 ref=-1(过去的),t1 ref=0(未来的),t1 ref=-2(早过去的2帧)等,并且等式sj=Bj(x,y)是用于j=1,2,...M-1个边界的边界模型,以及F({sj})是非线性时间参考等式。
48.一种在其上存储有代表权利要求43所述的设备的信息的机器可读介质。
49.一种用于标准运动分割的改进的设备,包括:
用于接收输入图像的装置;
用于接收一组参考图像的装置;
用于将所述输入图像划分成区域的装置;和
对于每个区域:
用于提取一个或多个运动的装置;和
用于提取一个或多个相关的移动边界的装置。
50.如权利要求49所述的设备,其中该组参考图像是从由一个或多个过去的帧、一个或多个未来的帧以及一个或多个过去的帧和一个或多个未来的帧组成的组中选出来的。
51.如权利要求50所述的设备,其中所述用于提取一个或多个运动的装置和所述用于提取一个或多个相关的移动边界的装置涉及具有空间和时间变量之间的非线性耦合的多运动模型,以及直接耦合于所述一个或多个运动的边界模型。
52.如权利要求51所述的方法,其中所述运动模型具有用于2个运动的形式:
               t′=F(s)
               s=B(x,y)
x ′ = v 1 x ( x , y ) + ( v 2 x ( x , y ) ) ( t ′ + 1 )
y ′ = v 1 y ( x , y ) + ( v 2 y ( x , y ) ) ( t ′ + 1 )
其中vi x,y是用于i运动的运动向量映射,并且其中F、B分别是时间参考和边界模型。
53.如权利要求51所述的方法,其中所述运动模型具有用于提取2个以上的带有不相交边界的运动的形式:
x ‾ ′ = Σ i = 1 M g i ( t ′ ) g i ( t i ref ) v ‾ i ( x , y )
g i ≠ 1 ( t ′ ) = Π j = 1 , · · · , M ( j ≠ i ) ( t ′ - t j ref )
                gi(t′)=1
                t′=F({sj})
                sj=Bj(x,y)其中M是所述区域中的运动的数目,而{ti ref}标记所使用的该组参考图像的时间值;例如t1 ref=-1(过去的),t1 ref=0(未来的),t1 ref=-2(早过去的2帧)等,并且等式sj=Bj(x,y)是用于j=1,2,...M-1个边界的边界模型,以及F({sj})是非线性时间参考等式。
54.一种在其上存储有代表权利要求49所述的设备的信息的机器可读介质。
55.一种用于对非刚性边界跟踪器的图像进行预处理的设备,包括:
用于接收输入图像的装置;
用于接收一组参考图像的装置;
用于将所述输入图像划分成区域的装置;和
对于每个区域:
用于提取一个或多个运动的装置;和
用于提取一个或多个相关的移动边界的装置。
56.如权利要求55所述的设备,其中该组参考图像是从由一个或多个过去的帧、一个或多个未来的帧以及一个或多个过去的帧和一个或多个未来的帧组成的组中选出来的。
57.如权利要求56所述的设备,其中所述用于提取一个或多个运动的装置和所述用于提取一个或多个相关的移动边界的装置涉及具有空间和时间变量之间的非线性耦合的运动模型,以及直接耦合于所述一个或多个运动的边界模型。
58.如权利要求57所述的方法,其中所述运动模型具有用于2个运动的形式:
            t′=F(s)
            s=B(x,y)
x ′ = v 1 x ( x , y ) + ( v 2 x ( x , y ) ) ( t ′ + 1 )
y ′ = v 1 y ( x , y ) + ( v 2 y ( x , y ) ) ( t ′ + 1 )
其中vi x,y是用于i运动的运动向量映射,并且其中F、B分别是时间参考和边界模型。
59.如权利要求57所述的方法,其中所述运动模型具有用于提取2个以上的带有不相交边界的运动的形式:
x ‾ ′ = Σ i = 1 M g i ( t ′ ) g i ( t i ref ) v ‾ i ( x , y )
g i ≠ 1 ( t ′ ) = Π j = 1 , · · · , M ( j ≠ i ) ( t ′ - t j ref )
            gi(t′)=1
            t′=F({sj})
            sj=Bj(x,y)其中M是所述区域中的运动的数目,而{ti ref}标记所使用的该组参考图像的时间值;例如t1 ref=-1(过去的),t1 ref=0(未来的),t1 ref=-2(早过去的2帧)等,并且等式sj=Bj(x,y)是用于j=1,2,...M-1个边界的边界模型,以及F({sj})是非线性时间参考等式。
60.一种在其上存储有代表权利要求55所述的设备的信息的机器可读介质。
CNA2003801030216A 2002-11-11 2003-11-06 用于非线性的多运动模型和移动边界提取的方法和设备 Pending CN1711776A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/291,989 US20040091047A1 (en) 2002-11-11 2002-11-11 Method and apparatus for nonlinear multiple motion model and moving boundary extraction
US10/291,989 2002-11-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2008100883165A Division CN101257632B (zh) 2002-11-11 2003-11-06 用于非线性的多运动模型和移动边界提取的方法和设备

Publications (1)

Publication Number Publication Date
CN1711776A true CN1711776A (zh) 2005-12-21

Family

ID=32229341

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2008100883165A Expired - Fee Related CN101257632B (zh) 2002-11-11 2003-11-06 用于非线性的多运动模型和移动边界提取的方法和设备
CNA2003801030216A Pending CN1711776A (zh) 2002-11-11 2003-11-06 用于非线性的多运动模型和移动边界提取的方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2008100883165A Expired - Fee Related CN101257632B (zh) 2002-11-11 2003-11-06 用于非线性的多运动模型和移动边界提取的方法和设备

Country Status (7)

Country Link
US (2) US20040091047A1 (zh)
EP (1) EP1561347A4 (zh)
JP (1) JP4651385B2 (zh)
KR (1) KR101021409B1 (zh)
CN (2) CN101257632B (zh)
AU (1) AU2003290644A1 (zh)
WO (1) WO2004044842A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101658043B (zh) * 2007-04-17 2013-06-05 高通股份有限公司 用于帧内译码的定向变换
CN104169971A (zh) * 2012-03-15 2014-11-26 英特尔公司 使用非线性缩放和自适应源块大小的分层运动估计
CN104253650A (zh) * 2013-06-27 2014-12-31 富士通株式会社 信道内非线性损伤的估计装置及方法
CN110139100A (zh) * 2019-05-16 2019-08-16 东莞职业技术学院 多图像运动估计的扩展块匹配及运动矢量估计算法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7095786B1 (en) 2003-01-11 2006-08-22 Neo Magic Corp. Object tracking using adaptive block-size matching along object boundary and frame-skipping when object motion is low
US7957466B2 (en) * 2005-09-16 2011-06-07 Sony Corporation Adaptive area of influence filter for moving object boundaries
US8340185B2 (en) * 2006-06-27 2012-12-25 Marvell World Trade Ltd. Systems and methods for a motion compensated picture rate converter
US7783118B2 (en) * 2006-07-13 2010-08-24 Seiko Epson Corporation Method and apparatus for determining motion in images
KR101526914B1 (ko) 2006-08-02 2015-06-08 톰슨 라이센싱 비디오 디코딩을 위한 적응형 기하학적 파티셔닝 방법 및 장치
US8923400B1 (en) * 2007-02-16 2014-12-30 Geo Semiconductor Inc Method and/or apparatus for multiple pass digital image stabilization
US20090174812A1 (en) * 2007-07-06 2009-07-09 Texas Instruments Incorporated Motion-compressed temporal interpolation
US20090052532A1 (en) * 2007-08-24 2009-02-26 Simon Robinson Automatically identifying edges of moving objects
US8861603B2 (en) * 2007-08-28 2014-10-14 Samsung Electronics Co., Ltd. System and method for motion vector collection based on K-means clustering for motion compensated interpolation of digital video
US8605786B2 (en) * 2007-09-04 2013-12-10 The Regents Of The University Of California Hierarchical motion vector processing method, software and devices
US8208552B2 (en) * 2008-01-25 2012-06-26 Mediatek Inc. Method, video encoder, and integrated circuit for detecting non-rigid body motion
US8059909B2 (en) * 2008-04-29 2011-11-15 Sony Corporation Adaptive generation of irregular spatial sub-sampling for images
US8059908B2 (en) * 2008-04-29 2011-11-15 Sony Corporation Adaptive area of influence filter for irregular spatial sub-sampled images
US8055087B2 (en) * 2008-04-29 2011-11-08 Sony Corporation Sample level variation for spatial sub-sampled images
KR101502362B1 (ko) 2008-10-10 2015-03-13 삼성전자주식회사 영상처리 장치 및 방법
FR2940492A1 (fr) * 2008-12-19 2010-06-25 Thomson Licensing Procede d'estimation de mouvement multi-resolutions
WO2012012582A1 (en) * 2010-07-21 2012-01-26 Dolby Laboratories Licensing Corporation Reference processing using advanced motion models for video coding
JP2013048717A (ja) 2011-08-31 2013-03-14 Sony Corp 画像処理装置及び方法、記録媒体、並びにプログラム
WO2013107833A1 (en) * 2012-01-19 2013-07-25 Thomson Licensing Method and device for generating a motion field for a video sequence
US9508026B2 (en) * 2014-07-01 2016-11-29 Irida Labs S.A. System and a method for camera motion analysis and understanding from a video sequence
US10306229B2 (en) 2015-01-26 2019-05-28 Qualcomm Incorporated Enhanced multiple transforms for prediction residual
CN107809642B (zh) 2015-02-16 2020-06-16 华为技术有限公司 用于视频图像编码和解码的方法、编码设备和解码设备
US10623774B2 (en) 2016-03-22 2020-04-14 Qualcomm Incorporated Constrained block-level optimization and signaling for video coding tools
CN106384361B (zh) * 2016-09-14 2019-06-14 西安理工大学 多视环境中基于水平集函数演化的非刚性目标场景流估计方法
US11323748B2 (en) 2018-12-19 2022-05-03 Qualcomm Incorporated Tree-based transform unit (TU) partition for video coding

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE109604T1 (de) * 1987-12-22 1994-08-15 Philips Nv Videosignalkodierung und -dekodierung mit einem adaptiven filter.
JP3531186B2 (ja) * 1992-09-18 2004-05-24 ソニー株式会社 ビデオ信号符号化方法及び装置
JP3679426B2 (ja) 1993-03-15 2005-08-03 マサチューセッツ・インスティチュート・オブ・テクノロジー 画像データを符号化して夫々がコヒーレントな動きの領域を表わす複数の層とそれら層に付随する動きパラメータとにするシステム
JPH08223577A (ja) * 1994-12-12 1996-08-30 Sony Corp 動画像符号化方法及び装置、並びに動画像復号方法及び装置
JP3432937B2 (ja) * 1995-03-15 2003-08-04 株式会社東芝 移動物体検知装置及び移動物体検知方法
JP3929492B2 (ja) 1995-10-25 2007-06-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ セグメント化画像符号化方法及びシステム並びにその復号化方法及びシステム
KR970025184A (ko) * 1995-10-26 1997-05-30 김광호 예측매크로블럭 변환을 이용한 동화상 복호기
US5778097A (en) * 1996-03-07 1998-07-07 Intel Corporation Table-driven bi-directional motion estimation using scratch area and offset valves
DE69623342T2 (de) 1996-04-19 2003-04-17 Nokia Corp Videokodierer und -dekodierer mit bewegungsbasierter bildsegmentierung und bildzusammenfügung
JP3876392B2 (ja) * 1996-04-26 2007-01-31 富士通株式会社 動きベクトル探索方法
US5991447A (en) * 1997-03-07 1999-11-23 General Instrument Corporation Prediction and coding of bi-directionally predicted video object planes for interlaced digital video
US6400831B2 (en) * 1998-04-02 2002-06-04 Microsoft Corporation Semantic video object segmentation and tracking
US6249548B1 (en) * 1998-07-10 2001-06-19 U.S. Phillips Corporation Motion vector processing
US6658059B1 (en) * 1999-01-15 2003-12-02 Digital Video Express, L.P. Motion field modeling and estimation using motion transform
US6665423B1 (en) * 2000-01-27 2003-12-16 Eastman Kodak Company Method and system for object-oriented motion-based video description
KR100415266B1 (ko) * 2000-05-11 2004-01-16 가부시끼가이샤 도시바 물체영역정보 기술방법과 물체영역정보 생성장치 및 기록매체
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US7092550B2 (en) * 2001-12-12 2006-08-15 Sony Corporation Implementation of hough transform and its application in video motion analysis
AU2003201069C1 (en) 2002-01-14 2008-11-06 Nokia Technologies Oy Coding dynamic filters
US6646578B1 (en) 2002-11-22 2003-11-11 Ub Video Inc. Context adaptive variable length decoding system and method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101658043B (zh) * 2007-04-17 2013-06-05 高通股份有限公司 用于帧内译码的定向变换
TWI474721B (zh) * 2007-04-17 2015-02-21 Qualcomm Inc 用於編碼一巨集區塊及預測一巨集區塊之方法、用於產生一經編碼巨集區塊及預測一巨集區塊之裝置、及用於預測一巨集區塊之電腦程式產品
CN104169971A (zh) * 2012-03-15 2014-11-26 英特尔公司 使用非线性缩放和自适应源块大小的分层运动估计
US9532048B2 (en) 2012-03-15 2016-12-27 Intel Corporation Hierarchical motion estimation employing nonlinear scaling and adaptive source block size
CN104253650A (zh) * 2013-06-27 2014-12-31 富士通株式会社 信道内非线性损伤的估计装置及方法
CN104253650B (zh) * 2013-06-27 2016-12-28 富士通株式会社 信道内非线性损伤的估计装置及方法
CN110139100A (zh) * 2019-05-16 2019-08-16 东莞职业技术学院 多图像运动估计的扩展块匹配及运动矢量估计算法

Also Published As

Publication number Publication date
US20050213660A1 (en) 2005-09-29
EP1561347A4 (en) 2009-03-18
EP1561347A2 (en) 2005-08-10
US7751479B2 (en) 2010-07-06
JP2006505870A (ja) 2006-02-16
CN101257632A (zh) 2008-09-03
WO2004044842A3 (en) 2005-02-03
KR101021409B1 (ko) 2011-03-14
CN101257632B (zh) 2011-12-14
KR20050072139A (ko) 2005-07-08
WO2004044842A2 (en) 2004-05-27
US20040091047A1 (en) 2004-05-13
JP4651385B2 (ja) 2011-03-16
AU2003290644A1 (en) 2004-06-03
AU2003290644A8 (en) 2004-06-03

Similar Documents

Publication Publication Date Title
CN1711776A (zh) 用于非线性的多运动模型和移动边界提取的方法和设备
US8503801B2 (en) System and method for classifying the blur state of digital image pixels
CN1193620C (zh) 视频编码器的运动估计方法及系统
CN101588459B (zh) 一种视频抠像处理方法
CN101048799A (zh) 通过实时视频动作分析理解视频内容
CN1280709C (zh) 退色补偿的参数化
US20090185747A1 (en) Systems and methods for texture synthesis for video coding with side information
US20100135575A1 (en) Apparatus and method for reducing artifacts in images
CN1456015A (zh) 识别并行地出现在单个电视信号场中的影片和视频对象
JP2009060153A (ja) 面内予測モード決定方法及び装置及びプログラム
CN101068353A (zh) 图形处理单元与计算巨图块的绝对差值加总值的方法
CN1235412C (zh) 对视频数据进行运动补偿编码的方法
CN1447955A (zh) 根据面部图像的形态信息生成合成面部图像的装置和方法
CN1648936A (zh) 先验知识、水平集表示和可视分组
CN1581982A (zh) 基于模式分析的运动矢量补偿装置和方法
CN1925617A (zh) 提高的运动估计、视频编码方法及使用所述方法的设备
CN110427899B (zh) 基于人脸分割的视频预测方法及装置、介质、电子设备
CN1960495A (zh) 图像编码装置、方法及程序
TW200913668A (en) Video noise reduction
CN101038664A (zh) 图像处理设备和图像处理方法
JP2009212605A (ja) 情報処理方法、情報処理装置及びプログラム
WO2023045627A1 (zh) 图像超分方法、装置、设备及存储介质
CN1284378C (zh) 基于数学模型预测的运动估计快速半像素级搜索方法
US20080260029A1 (en) Statistical methods for prediction weights estimation in video coding
CN1242619C (zh) 编码装置和方法、解码装置和方法、以及数据处理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication