CN100399283C - 使用动态规则集扩展离散帧技术行为的方法和设备 - Google Patents

使用动态规则集扩展离散帧技术行为的方法和设备 Download PDF

Info

Publication number
CN100399283C
CN100399283C CNB2005100591727A CN200510059172A CN100399283C CN 100399283 C CN100399283 C CN 100399283C CN B2005100591727 A CNB2005100591727 A CN B2005100591727A CN 200510059172 A CN200510059172 A CN 200510059172A CN 100399283 C CN100399283 C CN 100399283C
Authority
CN
China
Prior art keywords
rule
mistake
user
error
dft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100591727A
Other languages
English (en)
Other versions
CN1707438A (zh
Inventor
迈克尔·加斯塔德
托马斯·费兰
布伦特·亚德利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1707438A publication Critical patent/CN1707438A/zh
Application granted granted Critical
Publication of CN100399283C publication Critical patent/CN100399283C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis

Abstract

本发明公开了一种利用离散帧技术DFT的规则集,控制错误数据的统计处理的方法,所述方法包括步骤:根据所接收的用户定义的错误阈值,设置对应的用户可定义的DFT错误阈值规则;检测错误事件,并且保存和处理与所述错误事件相关的信息;将所述保存和处理的信息与所述用户定义的错误阈值相比较;在所述错误阈值被满足时,得到与所述错误阈值相对应的用户可定义的DFT错误阈值规则,从而得到动态可修改的DFT规则集。

Description

使用动态规则集扩展离散帧技术行为的方法和设备
技术领域
本发明涉及处理错误数据,更具体地说,涉及利用动态可修改的DFT规则集,提供对大量来源的错误数据的统计处理的控制的方法、设备和程序存储装置。
背景技术
随着消费者变得更依赖于计算机系统来执行可靠的任务,对计算机系统错误的容错度降低。当发生软故障时,计算机系统通常经历停机。随着硬件老化,计算机错误的发生次数越来越大,软故障的可能性增大。如果没有安全机构,那么计算机系统必然产生导致用户不满的故障。
为了避免计算机系统故障,提出了预测或诊断即将发生的系统故障的方法。例如,基于规范的系统故障诊断是一种在规定的操作条件下,根据系统设计规范,确定系统的预期行为是什么的方法。提出了基于预期的系统行为的测试,该测试被用于诊断系统故障。但是,基于规范的诊断方法在查找意料之外的故障方面,以及在制定用于诊断意料之外故障的测试方面的能力有限。
诊断系统故障的机制的另一示例是基于征兆(symptom)的诊断。通过利用事件或错误日志识别发生错误的环境来重建系统故障,和评估环绕导致系统故障的错误的环境,依据征兆地识别系统故障情况。和基于规范的诊断方法一样,基于征兆的诊断方法导致系统故障指示符,而不是测试。
基于征兆的诊断技术的一个特定示例是根据在灾难性故障之前,计算机系统和其它电子设备的出错率逐渐增大的观察,提出的离散帧技术(dispersion frame technique:DFT)。DFT技术通过检查错误发生在时间和空间上的紧密度,使用规则来确定错误发生之间的关系。扩展DFT规则增大了DTF引擎的功能,允许对大量计算机设备的错误数据的统计处理进行更严格控制。该规则还允许将在规定时间帧内发生的差错率的显著增加看作单一错误事件。只有当所述增加超过规则定义的指定水印时,所述单一错误事件才被识别。但是,使用DFT的方法利用静态的规则,只提供统计分析的单一维度。
于是需要一种提供并实现动态可修改的DFT规则集的方法、设备和程序存储装置。
发明内容
为了克服上述局限性,以及克服当阅读和理解本说明书时将变得显而易见的其它局限性,本发明公开一种利用动态可修改的DFT规则集,提供对大量来源的错误数据的统计处理的控制的方法、设备和程序存储装置。
根据本发明,提供了一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的方法,所述方法包括步骤:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集;
检测错误事件,并且保存与所述错误事件相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在与所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
根据本发明,还提供了一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的计算设备,包括:
保存与错误事件相关的错误信息的存储器;和与所述存储器耦接的处理器,所述处理器被配置成:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集;
检测错误事件,并且在所述存储器中保存与所述错误事件相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在与所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
根据本发明,还提供了一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的方法,所述方法包括步骤:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集
从某一来源检测多个错误,并且计算所述多个错误之间的时间段;
保存与所述多个错误及所述多个错误之间的时间段相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在与所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
根据本发明,还提供了一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的计算设备,包括:
保存与错误事件相关的错误信息的存储器;以及
与所述存储器耦接的处理器,所述处理器被配置成:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集;
从某一来源检测多个错误,并且计算所述多个错误之间的时间段;
保存与所述多个错误及所述多个错误之间的时间段相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在与所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
本发明通过扩展离散帧技术,向离散帧规则提供用户定义的参数,从而产生动态可修改的规则集来允许DFT引擎在变化的数据范围内工作,解决了上述问题。
提供具有用户定义参数的错误数据处理的方法包括将用户定义的错误阈值应用于多个用户可定义的错误阈值规则,处理错误事件,保存与处理的错误事件相关的信息,并根据保存的信息,确定何时所述多个用户可定义的错误阈值规则之一已被满足。
在本发明的另一实施例中,提供一种供错误数据处理系统之用的计算设备。该计算设备包括保存错误信息的存储器,和与存储器耦接,用于将用户定义的错误阈值数据应用于多个用户可定义的错误阈值规则,并根据保存的错误信息,确定何时所述多个用户可定义的错误阈值规则之一已被满足的处理器。
在本发明的另一实施例中,提供一种提供具有用户定义的参数的错误数据处理的方法。该方法包括将用户定义的错误阈值应用于多个用户可定义的错误阈值规则,从某一来源检测多个错误,计算所述多个错误之间的时间段,保存与所述多个错误及所述多个错误之间的时间相关的信息,并根据保存的信息,确定何时所述多个用户可定义的错误阈值规则之一已被满足。
在本发明的另一实施例中,提供一种供错误数据处理系统之用的计算设备。所述计算设备包括保存错误信息的存储器,所述错误信息与错误来源和错误到达间隔时间相关,和与存储器耦接的处理器,所述处理器用于将用户定义的错误阈值数据应用于多个用户可定义的错误阈值规则,并根据保存的错误来源和错误到达间隔时间,确定何时所述多个用户可定义的错误阈值规则之一已被满足。
在本发明的另一实施例中,提供一种程序存储装置。所述程序存储装置包括可由处理装置执行,从而执行提供具有用户定义的参数的错误数据处理的操作的程序指令,所述操作包括将用户定义的错误阈值应用于多个用户可定义的错误阈值规则,处理错误事件,保存与处理的错误事件相关的信息,并根据保存的信息,确定何时所述多个用户可定义的错误阈值规则之一已被满足。
在本发明的另一实施例中,提供一种程序存储装置。所述程序存储装置包括可由处理装置执行,从而执行提供具有用户定义的参数的错误数据处理的操作的程序指令,所述操作包括将用户定义的错误阈值应用于多个用户可定义的错误阈值规则,从某一来源检测多个错误,计算所述多个错误之间的时间,保存与所述多个错误及所述多个错误之间的时间相关的信息,并根据保存的信息,确定何时所述多个用户可定义的错误阈值规则之一已被满足。
在本发明的另一实施例中,提供一种供错误数据处理系统之用的计算设备。所述计算设备包括保存错误信息的装置,和与所述保存装置耦接,用于将用户定义的错误阈值数据应用于多个用户可定义的错误阈值规则,并根据保存的错误信息,确定何时所述多个用户可定义的错误阈值规则之一已被满足的装置。
在构成本发明一部分的附加权利要求中详细指出了表征本发明的新事物的这些及各种其它优点和特征。但是,为了更好地理解本发明,其优点以及由其应用获得的目的,应参考构成本发明另一部分的附图,以及附随的描述内容,其中举例说明了根据本发明的设备的具体示例。
附图说明
现在参见附图,其中相同的附图标记表示对应的部件:
图1表示其中可实现本发明的数据处理系统的网络;
图2是可被实现成如图1中所示的服务器或计算机系统的计算机处理系统的方框图;
图3示意图解说明时间线上的错误事件,用于图解说明本发明的一个实施例的实现;
图4是根据本发明的一个实施例的错误数据处理方法的流程图;
图5是根据本发明的一个实施例,向扩展离散帧技术(DFT)规则集提供用户定义的参数的方法的流程图;
图6图解说明根据本发明的实施例,按照扩展DFT规则集处理错误的方法的流程图。
具体实施方式
在实施例的下述说明中,参考了附图,附图构成说明书的一部分,其中举例图解说明了可实践本发明的具体实施例。应当理解,在不脱离本发明的范围的情况下,可以使用其它实施例,因为可以进行一些结构变化。
本发明的一个实施例提供利用动态可修改的DFT规则集,提供对大量来源的错误数据的统计处理的控制的方法、设备和程序存储装置。本发明中扩展了离散帧技术,以便向离散帧规则提供用户定义的参数,产生动态可修改的规则集。
图1表示其中可实现本发明的数据处理系统100的网络。网络数据处理系统100包括网络102,网络102是用于提供在网络数据处理系统100内连接在一起的各种设备和计算机之间的通信链路的媒介。网络102可包括连接,例如有线、无线通信链路,或者光缆。
在所示示例中,服务器104连同存储单元106一起与网络102连接。另外,客户机108、110和112与网络102连接。这些客户机108、110和112可以是例如个人计算机、网络计算机或工作站。在图1中,服务器104向客户机108-112提供数据,例如引导文件,操作系统映像和应用程序。客户机108、110和112是服务器104的客户机。网络数据处理系统100可包括未示出的另外的服务器、客户机和其它设备。
图2是可被实现成如图1中所示的服务器或计算机系统的计算机处理系统200的方框图。计算机处理系统200可以是对称的多处理器(SMP)系统,包括与系统总线206连接的多个处理器202和204。另一方面,可以采用单处理器系统。存储器控制器/高速缓存208也与系统总线206连接,存储器控制器/高速缓存208提供到本地存储器209的接口。I/O总线桥210与系统总线206连接,提供到I/O总线212的接口。存储器控制器/高速缓存208和I/O总线桥210可如图所示被集成。
与I/O总线212连接的外设部件互连(PCI)总线桥214提供到PCI局部总线216的接口。许多调制解调器218可与PCI局部总线216连接。典型的PCI总线实现将支持四个PCI扩展插槽或者内插连接器。通过经内插板与PCI局部总线216连接的通信装置218和网络适配器220,可提供到图1中的客户机108-112的通信链路。
附加的PCI总线桥222和224向附加的PCI局部总线226和228提供接口,从所述附加的PCI局部总线226和228可支持附加的调制解调器或网络适配器。按照这种方式,计算机处理系统200允许连接到多个网络计算机。存储变换图形适配器230和硬盘232也可如图所示,直接或间接地与I/O总线212连接。
本领域的普通技术人员会认识到图2中描述的硬件可发生变化。例如,除了所示硬件之外或者代替所示硬件,也可使用其它外设部件,例如光盘驱动器等。另外,总线的类型可以不同。所描述的示例并不意味着对本发明实施例的结构限制。
如前所述,通过利用事件或错误日志识别发生错误的环境来重建系统故障,和评估环绕导致系统故障的错误的环境,依据征兆地识别系统故障情况。和基于规范的诊断方法一样,基于征兆的诊断方法导致系统故障指示符,而不是测试。基于征兆的诊断技术的一个特定示例是根据在灾难性故障之前,计算机系统和其它电子设备的出错率逐渐增大的观察,提出的离散帧技术(DFT)。DFT技术通过检查错误发生在时间和空间上的紧密度,使用规则来确定错误发生之间的关系。下表1中举例说明了DFT规则集。
Figure C20051005917200151
表1
利用DFT的方法使用如表1中所示的静态规则。但是,静态规则只提供统计分析的单一维度。例如,如表1中所示,典型的离散帧技术(DFT)提供五种统计规则。错误离散指数(error dispersion index:EDI)是在一半的离散帧中的出错次数。离散帧由到达间隔(interarrival)时间或者相同类型的连续错误事件之间的时间定义。第一规则覆盖当源于相同离散帧的相继应用的两个连续错误离散指数(EDI)表现出至少为3的EDI时(3.3规则)。第二规则覆盖当源于两个连续离散帧的两个连续EDI表现出至少为2的EDI时(2.2规则)。第三规则覆盖当离散帧小于1小时时(2合1规则)。第四规则覆盖当在24小时时间帧内发生四个错误事件时(4合1规则)。第五规则覆盖当存在四个单调递减离散帧,并且至少一帧的大小为其先前帧的一半时(4递减规则)。因此,通过检查错误发生的类型和它们在时间及空间上的紧密度,这些规则可被用于确定错误发生之间的关系。
DFT利用以在某一离散帧内的观察结果的到达间隔时间为基础的模型。根据在将错误日志分解(factor)到单个的错误源时获得的经验,预测故障分析(PFA)引擎从持久存储介质抽取、组织和检查错误日志条目。规则的组织根据错误的到达间隔模式,应用其五种故障预测规则之一。这五种规则捕捉离散帧内,与传统的统计分析方法检测的行为对应的行为。PFA引擎通过检查错误发生在时间(持续时间)和空间(影响区)方面的紧密度,确定错误发生之间的关系。
更具体地说,3.3规则集中于检查源于相同离散帧的连续EDI。当离散帧的连续应用产生至少为3的EDI时,发送与3.3规则对应的报警。3.3规则要求两个连续EDI,以及至少为3的EDI。在DFT规则集中,这些要求保持不变。
2.2规则集中于检查连续的离散帧和离散帧内的EDI。当两个离散帧具有至少为2的EDI时,发送与2.2规则有关的报警。类似于3.3规则,2.2规则具有静态要求。这里所述要求是连续离散帧中的两个连续EDI,并且至少为2的EDI。
在2合1(2 in 1)规则和4合1规则中,焦点集中在错误事件之间的时间跨度上。当一个离散帧或者错误之间的到达间隔时间的跨度小于1小时时,2合1规则被满足。当在一天内发生四个错误事件时,4合1规则被满足。2合1规则和4合1规则均包括不变的时间要求和检测的错误要求。
4递减规则集中于离散帧之间的时间跨度和错误的发生率。在4递减规则中,在四个离散帧大小同或者小于在先离散帧,并且其中一帧的大小为在先离散帧的一半之后发送报警。4递减规则包括四个离散帧大小同或者小于在先离散帧,并且一个离散帧的大小为在先离散帧的一半的静态要求。
图3是示意图解说明时间线上的导致3.3规则报警,2.2规则报警和4递减规则报警的事件的图形300。图中表示了错误事件i-4、i-3、i-2、i-1和i。离散帧被定义为相同类型的连续错误事件之间的到达间隔时间。从而,到达间隔时间是两个错误事件之间的时间段。离散帧(i-3)310是事件i-4和i-3之间的到达间隔时间。帧(i-2)320是事件i-3和i-2之间的离散帧。
从每帧的中心到其右端的错误数目被测量并被指定为错误离散指数(EDI)。帧(i-3)310的EDI为3,帧(i-2)320的EDI为2。一个示例就是帧(i-3)310的是错误i-3和i-2之间的时间。
就3.3规则来说,在帧(i-3)310中,在相同帧的应用内,两个连续指数305和315的EDI为3。错误事件之间的时间和空间要求满足了3.3规则,发送3.3规则报警。
就2.2规则来说,在帧(i-3)310和(i-2)320之间,连续指数具有至少为2的EDI。帧(i-3)的紧邻帧(i-2)的时间跨度315具有为3的指数,帧(i-2)的紧邻帧(i-3)的时间跨度325具有为2的指数。2.2规则的时间和空间要求被满足,发出对应于2.2规则的报警322。
观察帧(i-3)~(i),可看出随着时间的过去,四个帧(i-3)310、(i-2)320、(i-1)330和(i)340的大小减小或者保持不变,并且在这四个帧之中,至少一帧(i)340的大小为在先帧(i-1)330的一半。从而,4递减规则344被满足。但是,上面提及的DFT规则是静态的,只提供统计分析的单一维度。
图4是根据本发明的实施例,提供用于错误数据处理的具有用户定义参数的规则集的流程图400。用户定义的错误阈值被接收(410),并根据用户定义的错误阈值设置错误阈值规则(420)。检测错误,并保存与错误相关的信息(430)。比较保存的信息和阈值规则(440),确定错误阈值是否被满足(450)。当错误阈值未被满足时,驱动规则集的引擎继续处理和保存检测到的错误(430),并比较保存的信息(440),直到错误阈值被满足为止。一旦达到了错误阈值,那么就发送报警(460)。
上述DFT规则在本发明的实施例中被修改,并被分配给具有独特模式的设备。用户定义的规则被接收,作为给下面说明的扩展DFT处理引擎的输入。根据本发明的实施例,表2中举例说明了扩展DFT规则集。
Figure C20051005917200171
Figure C20051005917200181
表2
类似于表1,错误离散指数(EDI)是在一半的离散帧中的出错次数。离散帧由相同类型的连续错误事件之间的到达间隔时间定义。
图5是图解说明根据本发明的实施例,向扩展离散帧规则集提供用户定义的参数的流程图500。扩展离散帧规则由用户定义并被接收(505)。在规则集内设置每个变量(510)。变量包括:2合1规则和4合1规则的时间帧,4合1规则的所需出错次数,3.3和2.2规则的所需EDI数目,3.3和2.2规则的所需连续指数的数目,4递减规则的帧数,4递减规则的要求大小为在先帧一半的帧的数目。识别离散帧(515),并与具有用户定义的参数的扩展离散帧规则集比较。
就3.3规则来说,在3.3规则要求之间进行比较(520)。当源于相同离散帧的连续应用的用户定义数目的EDI至少具有用户定义的EDI数目时,3.3规则的阈值被满足(530),发送与满足3.3规则相关的报警(535)。
对于2.2规则来说,比较多个错误和具有用户定义参数的2.2规则要求(520)。当源于两个连续帧的用户定义数目的连续EDI表现出至少一个用户定义的EDI数目时,2.2规则要求被满足(540),发送相关的2.2规则报警(545)。
对于2合1规则来说,比较多个错误之间的时间帧和用户定义的2合1规则时间帧(520)。当在定义的时间帧内收到错误时,2合1规则被满足(550),发送2合1错误消息(555)。
对于4合1规则来说,用户定义数目的错误之间的时间必须落入用户定义的时间帧内。当比较保存的错误信息与4合1规则用户定义要求(520),并且要求被满足(560)时,发送4合1错误消息(565)。
就4递减规则来说,用户定义数目的离散帧单调减小,并且用户定义数目的离散帧的大小是在先离散帧的一半。比较错误数据和用户定义的4递减规则(520),当4递减规则要求被满足时(570),发送与4递减规则相关的错误消息(575)。
在上述规则不被满足的情况下,该进程返回,从存储器识别离散帧(505),直到规则要求被满足为止。
图6图解说明根据本发明的一个实施例,按照扩展DFT规则集处理错误的方法的流程图600。从某一来源检测多个错误(605)。确定错误之间的时间段(610),并保存与错误相关的信息(615)。比较每个扩展DFT规则与保存的错误数据(620、630、640、650和660)。确定扩展DFT规则是否被满足(625、635、645、655和665)。对于被满足的每个扩展DFT规则,发送与被满足的特定规则相关的报警(628、638、648、658和668)。在规则集要求不被满足的情况下,进程返回检测多个错误的步骤(605)。
重新参见图2,根据本发明一个实施例的恰当计算系统环境200。例如,环境200可以是已描述的客户机、数据服务器和/或主服务器。计算系统环境200只是恰当的计算环境的一个示例,并不意图建议对本发明的使用或功能范围的任何限制。计算环境200也不应被理解成具有关于在例证的操作环境200中图解说明的任意一个组件或组件的组合的依赖性或要求。特别地,环境200是能够实现服务器、客户机或已说明的其它节点的计算机化设备的示例。
计算机存储介质包括按照任意方法或技术实现的,用于存储信息,比如计算机可读指令、数据结构、程序模块或其它数据的易失性、非易失性、可拆卸的和不可拆卸的介质。存储器209、208,例如与PCI总线226、228连接的存储器和/或硬盘驱动器232都是计算机存储介质的示例。计算机存储介质包括(但不限于)RAM,ROM,EEPROM,快速存储器或其它存储器技术,CDROM,数字通用视盘(DVD)或者其它光学存储器,盒式磁带,磁带,磁盘存储器或者其它磁性存储装置,或者可用于保存所需信息,并且能够被设备200访问的任意其它介质。任意这样的计算机存储介质可以是设备200的一部分。
设备200还可包含允许设备与其它设备通信的通信连接218。通信连接218是通信媒介的一个示例。通信媒介一般用已调数据信号,例如载波或其它传送机构具体体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任意信息传送媒介。术语“已调数据信号”意味以这样的方式设置或改变其至少一个特性,以便在信号中对信息编码的信号。例如,通信媒介包括(但不限于)有线媒介,比如有线网络或直接有线连接,和无线媒介,比如声音、RF、红外和其它无线媒介。这里使用的术语“计算机可读介质”既包括存储介质,又包括通信媒介。
上述方法可用计算机在设备200上实现。计算机实现的方法最好至少部分被实现成在计算机上运行的至少一个程序。所述程序可由计算机的处理器从诸如存储器之类的计算机可读介质执行。程序最好可保存在机器可读介质,例如软盘或CD-ROM上,以便分发给另一计算机,并在所述另一计算机上安装和执行。所述一个或多个程序可以是计算机系统、计算机或计算机化的设备的一部分。
在本发明的其它实施例中,扩展DFT规则允许将在规定时间帧内发生的差错率的显著增加看作单一错误事件。但是,只有当所述增加超过规则定义的指定水印时,所述单一错误事件才被识别。
本发明的实施例提供动态修改扩展DFT规则的约定。这迫使DFT在用户规定的不断变化的数据范围内工作。这些变化范围也可被应用于正被监视,并且有能力报告错误的特定硬件部件。扩展DFT的用户将具有设置更严格的统计约束条件,调整DFT引擎以便在不断变化的处理环境内工作的灵活性。
出于举例说明的目的,给出了本发明的例证实施例的上述说明。上述说明并不是要穷尽本发明,或者将本发明局限于公开的具体形式。鉴于上述教导,许多修改和变化是可能的。本发明的范围不由该详细说明限定,而是由附加的权利要求限定。

Claims (30)

1.一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的方法,所述方法包括步骤:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集;
检测错误事件,并且保存与所述错误事件相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
2.按照权利要求1所述的方法,其中所述检测错误事件包括:
从某一来源检测多个错误;和
计算所述多个错误之间的时间段。
3.按照权利要求2所述的方法,其中所述保存与错误事件相关的信息还包括:
保存与所述多个错误以及所述多个错误之间的时间段相关的信息。
4.按照权利要求2所述的方法,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
将检测到的错误的数目以及所述多个错误之间的时间段与用户可定义的错误阈值规则进行比较。
5.按照权利要求2所述的方法,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定检测到的多个错误满足用户定义的错误离散指数,其中错误离散指数是在相同类型的错误之间的时间段的一半中的错误的数目。
6.按照权利要求5所述的方法,还包括在相同类型的错误之间的相同时间段中,连续用户定义的次数达到用户定义的错误离散指数。
7.按照权利要求6所述的方法,还包括在两个连续离散帧中,连续用户定义的次数达到用户定义的错误离散指数。
8.按照权利要求2所述的方法,其中检测错误事件,并且保存与所述错误事件相关的信息还包括:
检测在用户定义的时间帧内发生的错误,并且当以计算的所述多个错误之间的时间段为基础的出错率满足用户可定义的错误阈值规则时,将所述多个错误识别成一个错误。
9.根据权利要求1所述的方法,还包括步骤:
在所述错误阈值未被满足时,驱动所述用户可定义的DFT错误阈值规则集的引擎继续保存所述检测的错误事件,
将所述检测的错误事件与所述DFT错误阈值规则集中的阈值规则相比较,直到所述错误阈值被满足。
10.按照权利要求1所述的方法,其中所述报警是以所述多个用户可定义的错误阈值规则之一为基础的特定类型的报警。
11.按照权利要求1所述的方法,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定检测的错误之间的时间段小于用户定义的时间帧。
12.按照权利要求1所述的方法,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定用户定义数目的检出错误在用户定义的时间帧内发生。
13.按照权利要求1所述的方法,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定以单调递减比率发生错误之间的用户定义数目的各时间段。
14.按照权利要求13所述的方法,其中以单调递减比率发生的错误还包括在错误之间的在先时间段的一半内发生的用户定义数目的错误。
15.一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的计算设备,包括:
保存与错误事件相关的错误信息的存储器;和
与所述存储器耦接的处理器,所述处理器被配置成:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集;
检测错误事件,并且在所述存储器中保存与所述错误事件相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在与所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
16.按照权利要求15所述的计算设备,其中检测错误事件,并且在所述存储器中保存与所述错误事件相关的信息还包括:
从某一来源检测多个错误;和
计算所述多个错误之间的时间段。
17.按照权利要求16所述的计算设备,其中所述保存错误事件相关的信息还包括:
保存与所述多个错误以及所述多个错误之间的时间段相关的信息。
18.按照权利要求16所述的计算设备,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
将检测到的错误的数目以及所述多个错误之间的时间段与用户可定义的错误阈值规则进行比较。
19.按照权利要求16所述的计算设备,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定检测到的多个错误满足用户定义的错误离散指数,其中错误离散指数是在相同类型的错误之间的时间段的一半中的错误的数目。
20.按照权利要求19所述的计算设备,还包括在相同类型的错误之间的相同时间段中,连续用户定义的次数达到用户定义的错误离散指数。
21.按照权利要求20所述的计算设备,还包括在两个连续离散帧中,连续用户定义的次数达到用户定义的错误离散指数。
22.按照权利要求16所述的计算设备,其中所述处理器检测错误事件,并且在所述存储器中保存与所述错误事件相关的信息还包括:
检测所述多个错误包含处理在用户定义的时间帧内发生的错误,并且当以计算的所述多个错误之间的时间段为基础的出错率满足用户可定义的错误阈值规则时,将所述多个错误识别成一个错误。
23.按照权利要求15所述的计算设备,所述处理器还被配置成:
在所述错误阈值未被满足时,驱动所述用户可定义的DFT错误阈值规则集的引擎继续保存和处理所述检测的错误事件,
将所述检测的错误事件与所述DFT错误阈值规则集中的阈值规则相比较,直到所述错误阈值被满足。
24.按照权利要求15所述的计算设备,其中所述报警是以所述多个用户可定义的错误阈值规则之一为基础的特定类型的报警。
25.按照权利要求15所述的计算设备,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定检测的错误之间的时间段小于用户定义的时间帧。
26.按照权利要求15所述的计算设备,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定用户定义数目的检出错误在用户定义的时间帧内发生。
27.按照权利要求15所述的计算设备,其中将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较还包括:
确定以单调递减比率发生错误之间的用户定义数目的各时间段。
28.按照权利要求27所述的计算设备,其中以单调递减比率发生的错误还包括在错误之间的在先时间段的一半内发生的用户定义数目的错误。
29.一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的方法,所述方法包括步骤:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集
从某一来源检测多个错误,并且计算所述多个错误之间的时间段;
保存与所述多个错误及所述多个错误之间的时间段相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
30.一种利用动态可修改的离散帧技术DFT规则集提供对大量来源的错误数据的统计处理的控制的计算设备,包括:
保存与错误事件相关的错误信息的存储器;以及
与所述存储器耦接的处理器,所述处理器被配置成:
将接收的用户定义的错误阈值应用于离散帧规则,设置用户可定义的DFT错误阈值规则集;
从某一来源检测多个错误,并且计算所述多个错误之间的时间段;
保存与所述多个错误及所述多个错误之间的时间段相关的信息;
将所述保存的信息与所述DFT错误阈值规则集中的阈值规则相比较;
在所述保存的信息满足其中一个阈值规则所对应的错误阈值时,发送与所述其中一个阈值规则相关的报警。
CNB2005100591727A 2004-06-10 2005-03-24 使用动态规则集扩展离散帧技术行为的方法和设备 Expired - Fee Related CN100399283C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/865,206 US7480828B2 (en) 2004-06-10 2004-06-10 Method, apparatus and program storage device for extending dispersion frame technique behavior using dynamic rule sets
US10/865,206 2004-06-10

Publications (2)

Publication Number Publication Date
CN1707438A CN1707438A (zh) 2005-12-14
CN100399283C true CN100399283C (zh) 2008-07-02

Family

ID=35461905

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100591727A Expired - Fee Related CN100399283C (zh) 2004-06-10 2005-03-24 使用动态规则集扩展离散帧技术行为的方法和设备

Country Status (3)

Country Link
US (2) US7480828B2 (zh)
CN (1) CN100399283C (zh)
TW (1) TWI327694B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480828B2 (en) * 2004-06-10 2009-01-20 International Business Machines Corporation Method, apparatus and program storage device for extending dispersion frame technique behavior using dynamic rule sets
US7752488B2 (en) * 2006-01-06 2010-07-06 International Business Machines Corporation Method to adjust error thresholds in a data storage and retrieval system
US7647533B2 (en) * 2006-04-25 2010-01-12 Alcatel Lucent Automatic protection switching and error signal processing coordination apparatus and methods
WO2012074515A1 (en) * 2010-11-30 2012-06-07 Hewlett-Packard Development Company, L.P. Change message broadcast error detection
US8479086B2 (en) * 2011-10-03 2013-07-02 Lsi Corporation Systems and methods for efficient parameter modification
US9223673B1 (en) 2013-04-08 2015-12-29 Amazon Technologies, Inc. Custom host errors definition service
GB2536391A (en) * 2014-01-09 2016-09-14 Fujitsu Ltd Analysis method, analysis program, and analysis device
CN109933448B (zh) * 2014-12-25 2021-04-20 华为技术有限公司 一种预测非易失性存储介质发生故障的方法及装置
KR102413096B1 (ko) * 2018-01-08 2022-06-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US11789842B2 (en) * 2021-10-11 2023-10-17 Dell Products L.P. System and method for advanced detection of potential system impairment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336065B1 (en) * 1999-10-28 2002-01-01 General Electric Company Method and system for analyzing fault and snapshot operational parameter data for diagnostics of machine malfunctions
US20020078382A1 (en) * 2000-11-29 2002-06-20 Ali Sheikh Scalable system for monitoring network system and components and methodology therefore
US6650949B1 (en) * 1999-12-30 2003-11-18 General Electric Company Method and system for sorting incident log data from a plurality of machines

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249133A (ja) * 1994-12-15 1996-09-27 Internatl Business Mach Corp <Ibm> ディスク・ドライブ・アレイの故障対策の方法及びシステム
US5664093A (en) * 1994-12-27 1997-09-02 General Electric Company System and method for managing faults in a distributed system
US5974576A (en) 1996-05-10 1999-10-26 Sun Microsystems, Inc. On-line memory monitoring system and methods
US5768501A (en) * 1996-05-28 1998-06-16 Cabletron Systems Method and apparatus for inter-domain alarm correlation
US5944782A (en) * 1996-10-16 1999-08-31 Veritas Software Corporation Event management system for distributed computing environment
US5828830A (en) * 1996-10-30 1998-10-27 Sun Microsystems, Inc. Method and system for priortizing and filtering traps from network devices
JPH10187321A (ja) 1996-12-25 1998-07-14 Casio Comput Co Ltd エラー報知装置、及びエラー報知制御プログラムを記録した記録媒体
CA2197263A1 (en) * 1997-02-11 1998-08-11 Dan Burke Method of detecting signal degradation fault conditions within sonet and sdh signals
US5935261A (en) * 1997-06-05 1999-08-10 International Business Machines Corporation Method and apparatus for detecting handling damage in a disk drive
US6553403B1 (en) * 1998-06-03 2003-04-22 International Business Machines Corporation System, method and computer program product for monitoring in a distributed computing environment
US6760391B1 (en) * 1999-09-14 2004-07-06 Nortel Networks Limited Method and apparatus for line rate control in a digital communications system
US6615367B1 (en) * 1999-10-28 2003-09-02 General Electric Company Method and apparatus for diagnosing difficult to diagnose faults in a complex system
US6598179B1 (en) * 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
GB0008952D0 (en) * 2000-04-12 2000-05-31 Mitel Corp Dynamic rule sets for generated logs
US6983413B2 (en) 2000-12-12 2006-01-03 Kabushiki Kaisha Toshiba Data processing method using error-correcting code and an apparatus using the same method
US20020124214A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Method and system for eliminating duplicate reported errors in a logically partitioned multiprocessing system
US6966015B2 (en) * 2001-03-22 2005-11-15 Micromuse, Ltd. Method and system for reducing false alarms in network fault management systems
US7007172B2 (en) 2001-06-01 2006-02-28 Microchip Technology Incorporated Modified Harvard architecture processor having data memory space mapped to program memory space with erroneous execution protection
US6898733B2 (en) * 2001-10-31 2005-05-24 Hewlett-Packard Development Company, L.P. Process activity and error monitoring system and method
US7234086B1 (en) * 2003-01-16 2007-06-19 Pmc Sierra, Inc. Overlapping jumping window for SONET/SDH bit error rate monitoring
US7480828B2 (en) * 2004-06-10 2009-01-20 International Business Machines Corporation Method, apparatus and program storage device for extending dispersion frame technique behavior using dynamic rule sets

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336065B1 (en) * 1999-10-28 2002-01-01 General Electric Company Method and system for analyzing fault and snapshot operational parameter data for diagnostics of machine malfunctions
US6650949B1 (en) * 1999-12-30 2003-11-18 General Electric Company Method and system for sorting incident log data from a plurality of machines
US20020078382A1 (en) * 2000-11-29 2002-06-20 Ali Sheikh Scalable system for monitoring network system and components and methodology therefore

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Error Log Analysis : Statistical Modeling and HeuristicTrend Analysis. Ting-Ting Y. Lin,Daniel P. Siewiorek.IEEE TRANSACTIONS ON RELIABILITY,Vol.39 No.4. 1990
Error Log Analysis : Statistical Modeling and HeuristicTrend Analysis. Ting-Ting Y. Lin,Daniel P. Siewiorek.IEEE TRANSACTIONS ON RELIABILITY,Vol.39 No.4. 1990 *
基于粗糙集的不一致信息系统规则获取方法. 菅利荣,达庆利,陈伟达.中国管理科学,第11卷第4期. 2003
基于粗糙集的不一致信息系统规则获取方法. 菅利荣,达庆利,陈伟达.中国管理科学,第11卷第4期. 2003 *

Also Published As

Publication number Publication date
TWI327694B (en) 2010-07-21
US7480828B2 (en) 2009-01-20
US20090063906A1 (en) 2009-03-05
US7725773B2 (en) 2010-05-25
CN1707438A (zh) 2005-12-14
TW200622580A (en) 2006-07-01
US20050278570A1 (en) 2005-12-15

Similar Documents

Publication Publication Date Title
CN100399283C (zh) 使用动态规则集扩展离散帧技术行为的方法和设备
Person et al. Nurse staffing and mortality for Medicare patients with acute myocardial infarction
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
US8484514B2 (en) Fault cause estimating system, fault cause estimating method, and fault cause estimating program
US10762544B2 (en) Issue resolution utilizing feature mapping
US20070143338A1 (en) Method and system for automatically building intelligent reasoning models based on Bayesian networks using relational databases
EP2541358B1 (en) Method, monitoring system and computer program product for monitoring the health of a monitored system utilizing an associative memory
CN102402479B (zh) 用于静态分析的中间表示结构
JP4600237B2 (ja) 故障診断システム、画像形成装置及び故障診断方法
Zeng et al. An analytical method for reliability analysis of hardware‐software co‐design system
EP3470988A1 (en) Method for replicating production behaviours in a development environment
Bharathi et al. A machine learning approach for quantifying the design error propagation in safety critical software system
US7502956B2 (en) Information processing apparatus and error detecting method
US20190196897A1 (en) Influence range specifying method, influence range specifying apparatus, and storage medium
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
CN111339072A (zh) 基于用户行为的变化值分析方法、装置、电子设备及介质
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
CN105516793A (zh) 延迟监测方法及装置
US9141460B2 (en) Identify failed components during data collection
JP6048119B2 (ja) 異常原因推定プログラム、異常原因推定装置及び異常原因推定方法
CN114239538A (zh) 断言处理方法、装置、计算机设备及存储介质
CN106685694B (zh) 一种信息系统告警相关性分析方法及系统
CN110096692B (zh) 一种语义信息处理方法和装置
Deb et al. Towards systems level prognostics in the cloud
CN114430360B (zh) 一种互联网安全监控方法、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080702

Termination date: 20190324

CF01 Termination of patent right due to non-payment of annual fee