CN101211283B - 信息处理装置和故障处理方法 - Google Patents

信息处理装置和故障处理方法 Download PDF

Info

Publication number
CN101211283B
CN101211283B CN2007101870261A CN200710187026A CN101211283B CN 101211283 B CN101211283 B CN 101211283B CN 2007101870261 A CN2007101870261 A CN 2007101870261A CN 200710187026 A CN200710187026 A CN 200710187026A CN 101211283 B CN101211283 B CN 101211283B
Authority
CN
China
Prior art keywords
hardware resource
failure
physical extents
compartment model
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007101870261A
Other languages
English (en)
Other versions
CN101211283A (zh
Inventor
村上大士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101211283A publication Critical patent/CN101211283A/zh
Application granted granted Critical
Publication of CN101211283B publication Critical patent/CN101211283B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines

Abstract

一种信息处理装置包括:分区模式信息保持部(30)、硬件资源管理信息保持部(51)、故障通知部(103)、运行模式检测部(13)、共享硬件资源判断部(14)、共同故障报告创建部(15),其中共同故障报告创建部(15)用于在检测到信息处理装置在分区模式下运行并且判断出已经检测到故障事件的硬件资源是共享资源的情况下,根据共享所述共享硬件资源的物理分区的故障通知部所输出的故障事件的检测结果来创建共同故障报告。从而能避免对共享硬件中发生的故障的过度报告,可掌握故障事件的准确数量并降低制造成本。

Description

信息处理装置和故障处理方法
技术领域
本发明涉及一种用于处理在硬件资源中发生的故障的技术,其中所述硬件资源是由例如安装在服务器系统等中的分区功能创建的多个物理分区所划分和共享的。
背景技术
用于骨干系统的服务器系统要求高的资源(硬件资源)利用性和资源使用的灵活性。为了达到这些目的,传统的服务器系统利用例如一种物理分区功能(其将硬件资源分成多个物理分区并共享这些物理分区)和一种分区功能(其任意地组合通过由所述物理分区功能划分而创建的物理分区),以创建多个独立分区。因此,这些功能使服务器系统能够在不受硬件限制的情况下使用资源。
图6是用于解释在传统服务器系统中执行的物理分区功能和分区功能的示图,并且示出根据ASIC(专用集成电路)和固件的属性为硬件资源分配和信息分布执行和交互功能的实例。
在图6所示的实例中,服务器200包括硬件管理单元201,并且服务器200能够通过物理分区功能将硬件资源(例如存储器,PCI(外设部件互连)卡和芯片集)划分成多个(在图6所示的实例中为m,其中m是自然数)XPAR(扩充分区)202-1,202-2,..,202-m。
...,202-m。
XPAR 202-1,202-2,...,202-m中的每一个都是通过对例如SB(系统主板)/IOU(输入输出单元)的硬件资源(模块)划分而形成,并且将划分的硬件资源重新组合成分区结构。在下文中,由标号202-1,202-2,...或者202-m表示一个特定的XPAR,以从剩余的XPAR中区别出该特定的XPAR,但是可由标号202表示任一XPAR。
在图6中所示的实例将例如ASIC 203的硬件资源进行划分,以将划分的硬件资源结合到XPAR 202中。
此外,在图6中,在多个(在图6所示的实例中为n+1,其中n是整数) 分区块P0到Pn中使用多个XPAR 202,并且例如分区块P0共同地利用XPAR202-1和202-2;并且分区块Pn在上述的分区功能的帮助下利用XPAR 202-m。
在下文中,由标号P0,P1,P2,...或者Pn表示一个特定的分区块,以从剩余的分区块中区别出该特定的分区块,但是可由标号P表示任一分区块。
分区块是OS(操作系统)205用以操作的单元,因此每一个分区块P应该包括至少一个处理器。
硬件管理单元201管理电源的开/关和服务器200的错误信息,并且还包括例如服务处理器。
此外,利用如在图6中表示的物理分区功能和分区功能的服务器200必须准确分析和通知与服务器200的其中一个硬件资源发生的故障相关的故障信息,类似于服务器200关闭物理分区功能的情况。
当激活物理分区功能时,服务器200通过例如ASIC 203、权衡可靠性、安装、成本以及与其它功能的适应性来管理和划分硬件资源,以及向固件204提供包括该错误信息的资源管理信息。为每一个分区块P而执行的固件(F/W)204在需要的情况下分析错误信息并且通过发送错误信息给例如OS205的上层来管理故障,从而硬件故障较少会影响到分区块。这使得服务器200能够灵活地扩充功能。
当通过使用物理分区功能将硬件资源分成多个物理分区时,作为物理分区的结果而被创建的物理分区被分类成独立使用的硬件资源(在下文中被称作独占资源)和被其它硬件资源共享的硬件资源(在下文中被称作共享资源)。
[专利参考文献1]日本专利申请特开No.2002-229806
[专利参考文献2]日本专利申请特开No.2004-62535
然而,当在激活与ASIC 30和固件204互连的物理分区功能时检测关于ASIC电平的故障期间,作为ASIC 203的派生物的划分结果而创建的s个物理分区(XPAR202)(其中S是2或更大的整数,在图6中所示的实例中s是2,即包括XPAR 202-1和202-2)被假定作为独立的分区块被共同操作。如果在由XPAR 202-1和XPAR 202-2共享的硬件资源(共享硬件资源)上发生故障,或者在独占资源等上产生的故障传播至XPAR 202-1和XPAR202-2,则XPAR 202-1和XPAR202-2分别发出各自的故障报告,因此在ASIC 203记录了冗余的故障报告。
换句话说,根据例如激活物理分区功能的这种传统的故障处理方法,在ASIC 30中记录了与作为划分结果而被创建的物理分区数量一样多的s条冗余故障报告,并且固件204利用记录的故障报告的信息来分析故障,并且还额外地向OS 205和/或硬件管理单元201发送故障。结果,这就使OS 205和/或硬件管理单元201不能管理准确数量的故障事件,也不能被合适地维护。此外,固件204管理的精确的故障事件也存在问题。
例如,专利参考文献1公开了这样一种技术,即通过使用在运行有两个或更多OS的开放式系统的计算机的OS上运行的管理代理和管理控制台,而在硬件和软件上发生故障管理。
在专利文献1中公开的方式涉及一种虚拟技术,其中通过例如构件的软件来执行用于硬件资源分配和信息分布的所有功能。也就是,参考文献公开了关于在软件水平上的服务器硬件资源的虚拟划分方法,因此该方法不会应用到物理地划分硬件资源的物理分区功能。还有另外一个问题,专利参考文献1中的方法增加了在固件上的负载并且需要额外OS以完成虚拟。
另外,由于专利参考文献1中的方法通过使用在OS上运行的管理代理或管理控制台执行关于故障事件的管理,所以在OS上的负载会增加以及对于管理控制的需求增加了服务器的制造成本。
另外,因为管理代理是由用户在OS上运行,所以服务器卖家不能保证故障管理。
专利参考文献2涉及多处理器系统的故障处理方法,其中所述多处理器系统使用通过结合多个节点而形成的大规模平台。在该方法中,如果在一个节点发生故障,那么该故障节点向服务处理器通知故障事件,并且服务处理器向服务处理器管理器通知该故障事件。
为此,该专利必须为每一个节点提供一个服务处理器,并且需要服务处理器管理器共同地控制这些服务处理器,从而导致了制造成本的增加。
发明内容
有鉴于此,本发明提供一种能够在分区模式下运行的信息处理装置,在所述信息处理装置中将硬件资源分成多个物理分区,并且所述多个物理分区 中的至少两个物理分区作为独立分区块运行,其目的在于在共享硬件资源中发生的故障不会被过度地报告,可掌握故障事件的准确数量,以及能够以低制造成本实现服务器。
为获得上述目的,作为第一普通特征,提供了一种能够在分区模式下运行的信息处理装置,在所述信息处理装置中将硬件资源分成多个物理分区,并且所述多个物理分区中的至少两个物理分区作为独立分区块运行,所述信息处理装置包括:分区模式信息保持部,用于保持关于所述信息处理装置是否在分区模式下运行的分区模式信息;硬件资源管理信息保持部,用于在所述信息处理装置在分区模式下时保持关于所述硬件资源的共享状态的硬件资源管理信息;故障通知部,为所述多个物理分区中的每一个物理分区分别配置一个所述故障通知部,所述故障通知部用于检测在硬件资源中的故障事件并输出所述故障事件的检测结果;运行模式检测部,用于根据在所述分区模式信息保持部(30)中保持的分区模式信息来检测所述信息处理装置是否在分区模式下运行;共享硬件资源判断部,用于根据在所述硬件资源管理信息保持部(51)中保持的硬件资源管理信息来判断由所述故障通知部(103)已经检测到故障事件的硬件资源是否被所述多个物理分区中一个物理分区和所述多个物理分区中不同于所述一个物理分区的另一个物理分区共享;以及共同故障报告创建部,用于在所述运行模式检测部检测到所述信息处理装置在分区模式下运行并且由所述共享硬件资源判断部判断的结果是肯定的情况下,通过将所述一个物理分区中的所述故障通知部所输出的故障事件的检测结果与在所述另一个物理分区中的故障通知部所通知的故障事件的检测结果合并成一条信息,来创建共同故障报告。
作为第二普通特征,一种故障处理方法,用于能够在分区模式下运行的信息处理装置中,在所述信息处理装置中将硬件资源分成多个物理分区,并且所述多个物理分区中的至少两个物理分区作为独立分区块运行,所述故障处理方法包括下列步骤:(a)在所述多个物理分区的每一个物理分区中检测在所述硬件资源中的故障事件并且输出所述故障事件的检测结果;(b)根据关于所述信息处理装置是否在分区模式下运行的分区模式信息检测所述信息处理装置是否在分区模式下运行;(c)根据当所述信息处理装置在分区模式下时的关于所述硬件资源的共享状态的硬件资源管理信息判断在 检测处理和输出处理的所述步骤(a)中已经输出故障事件的硬件资源是否由所述多个物理分区中的两个或更多个共享;以及如果在检测处理的所述步骤(b)中检测到所述信息处理装置在分区模式下运行并且在判断处理的所述步骤(c)中的判断结果是肯定的,则通过将从所述两个或更多个物理分区输出的故障事件的检测结果合并成一条信息,创建共同故障报告。
作为第三普通特征,一种故障处理程序,其指示能够在分区模式下运行的计算机执行下列步骤,在所述计算机中将硬件资源分成多个物理分区,并且所述多个物理分区中的至少两个物理分区作为独立分区块运行,所述步骤包括:(a)在所述多个物理分区的每一个物理分区中检测在所述硬件资源中的故障事件并且输出所述故障事件的检测结果;(b)根据关于所述计算机是否在分区模式下运行的分区模式信息检测所述计算机是否在分区模式下运行;(c)根据当所述计算机在分区模式下时的关于所述硬件资源的共享状态的硬件资源管理信息判断在检测处理和输出处理的所述步骤(a)中已经输出故障事件的硬件资源是否由所述多个物理分区中的两个或更多个共享;以及(d)如果在检测处理的所述步骤(b)中检测到所述计算机在分区模式下运行并且在判断处理的所述步骤(c)中的判断结果是肯定的,则根据从所述两个或更多个物理分区输出的故障事件的检测结果创建共同故障报告。
作为第四个普通特征,提供了一种计算机可读记录介质,在所述介质中记录有上面已经提到过的故障处理程序。
本发明保证了下面的优点。
(1)如果检测到在分区模式下运行并且判断出已经输出故障事件的硬件资源是共享硬件资源,则根据从共享所述共享硬件的多个物理分区中所输出的故障事件的检测结果创建共同故障报告。从而可以消除冗余的故障通知并且能输出与在硬件资源中发生的故障实际数量相同的故障报告。本发明能管理故障事件的准确频率,从而改善可靠性。
(2)本发明的故障处理能够在不需要专用装置或部件的情况下实现,所述信息处理装置能在不增加成本的情况下制造,因此很经济。
当结合所附附图阅读时,根据下列的具体描述,本发明的其它目的和特征将会很明显。
附图说明
图1是示意性示出根据本发明的第一实施例的执行故障处理方法的服务器功能框图;
图2是示意性示出根据第一实施例的服务器的硬件结构逻辑框图;
图3是示出图2的服务器的资源信息实例图表;
图4是示出在发生故障事件的情况下执行的一系列过程步骤的流程图;
图5是示意性示出根据第一实施例的服务器的分区块结构的实例示图;以及
图6是示出用于服务器系统的传统物理分区功能和传统分区功能的示图。
具体实施方式
(a)第一实施例
以下将参照附图描述本发明的第一实施例。
图1是示意性地示出根据本发明第一实施例的执行故障处理方法的服务器(信息处理装置)的功能框图;图2是示出图1的服务器的硬件结构的逻辑框图。
服务器100例如可以是在骨干系统中使用的信息处理装置(计算机),并且服务器100的每一个功能由执行固件(F/W)10和其它程序的CPU 53(见图2)或者OS(操作系统)20执行。
服务器100具有能够将硬件资源(例如存储器,PCI(外设部件互连)卡和芯片集)划分成多个(在图1的实例中为m,其中m是自然数)XPAR(扩充的分区:物理分区)102-1,102-2,...102-m的物理分区功能,以及能够通过任意重新组合由该物理分区功能所分区的多个物理分区从而形成多个独立分区块的分区功能。
XPAR 102-1,102-2,...102-m是具有分区结构的物理分区,即将结合在服务器100中的例如SB(系统主板)/IOU(输入输出单元)的硬件资源划分成的分区结果。例如,通过物理地划分例如ASIC(专用集成电路)30的硬件资源而形成XPAR 102-1,102-2,...102-m,如图1中表示。在下文 中,由标号102-1,102-2,...或者102-m表示一个特定的XPAR,以从剩余的XPAR中区别出该特定的XPAR,但是可由标号102表示任一XPAR。
服务器100通过使用上面描述的分区功能任意地组合多个XPAR 102,从而形成多个(在图1所示的实例中为n+1,其中n是整数)的分区块(在图1所示的实例中从P0到Pn)。例如,分区块P0共同地利用XPAR 102-1和102-2;并且分区块Pn利用XPAR 102-m。
服务器100能任意地设置上述分区功能的激活/关闭。在下文中,分区功能是激活的并且两个或更多的XPAR 102(例如在图1中的实例为102-1和102-2)作为独立的分区块共同地运行的这种状态通常被称作在分区模式下运行。
分区功能的激活/关闭被看作是分区模式信息,如下所述,通过ASIC 30管理该分区模式信息并且将分区模式信息保持在ASIC 30内。
在下文中,由标号P0,P1,P2,...或者Pn表示一个特定的分区块,以从剩余的分区块中区别出该特定的分区块,但是可由标号P表示任一分区块。
分区块是OS 20用以操作的单元,因此每一个分区块P应该包括至少一个CPU 53。
如图1所示,服务器100包括硬件管理单元101,其执行系统管理(例如在服务器100中的每一个硬件块的电源控制)和在硬件中的温度和电压的环境监控,在这种情况下所述硬件管理单元配备有服务处理器(未示出)和其它的装置。此外,硬件管理单元101管理在服务器100中的故障事件,并且SB(系统主板,稍后详述)50(见图2)中的至少一个将另一个SB 50作为故障SB 50的替代者来控制重启服务器100。
ASIC 30是使服务器100实现用于服务器的功能的集成电路,并且共同地表示在服务器100中结合的各ASIC(专用集成电路,见图2)。
如图2所示,服务器100包括通过交叉开关60互连的多个SB 50和多个IOU 70。
SB 50是在上面配置有CPU(中央处理器)53a和53b以及DIMM(双列直插内存模块)51a和51b的单元,并且如图2所示,除了多个(在图2中的实例中为2)的CPU 53a和53b以及多个(在图2中的实例中为2)的DIMM 51a和51b之外,SB 50还包括NB(北桥芯片)54和MLDS(存储 器和逻辑数据开关)52。
图2示出其中一个SB 50以及其中一个IOU 70的详细硬件结构,并且为了方便省略了剩余的SB 50和剩余的IOU 70的结构。
CPU 53a和53b的每一个通过执行和算术操作程序来实现服务器的功能,并且DIMM 51a和51b是存储器,在其中临时存储并扩展多种程序(命令)和数据以通过CPU 53a和53b执行程序。
在下文中,由标号53a或者53b表示一个特定的CPU,以从剩余的CPU中区别出该特定的CPU,但是可由标号53表示任一CPU。
在下文中,由标号51a或者51b表示一个特定的DIMM,以从剩余的DIMM中区别出该特定的DIMM,但是可由标号51表示任一DIMM。
NB 54和MLDS 52是连接CPU 53a和53b、DIMM 51a和51b以及IO控制器以实现由服务器100的控制的芯片集。NB 54是控制CPU 53a和53b的ASIC,其用作北桥芯片,并且其通过用作接口的FSB(前端总线)55与CPU 53a和53b中的每一个相连接。
MLDS 52是控制DIMM 51a和51b的ASIC。在图2中所示的实例包括四个MLDS 52,它们实现在DIMM 51a和51b、NB 54和交叉开关60之间的数据交换。
IOU 70是将例如LAN或者硬盘驱动器的外围装置(未标示)连接到服务器100上的单元,并且如图2所示,其包括SBRG(南桥芯片)71、PCIEPL(PCI Express物理层)72和78、IOC(输入输出控制器)73a和73b、PHX 74a和74b、SCSI/GbLAN 76a和76b、PCI卡77和PCI盒79。
SBRG 71、PCIEPL 72和78中的每一个都是控制高速IO(输入输出)控制接口(PCI-Express)的ASIC。SBRG 71用作南桥芯片并且控制从CPU 53a和53b到外围装置的访问以及从外围装置到CPU 53a和53b的数据传递(DMA:直接存储器访问)。PCIEPL 72和78用作PCI-E物理层。
IOC 73a和73b中的每一个都是IO控制芯片并且具有管理LAN、定时器等的功能。PHX 74a和74b将PCI-Express转换到PCI总线桥上并且用作PCI Express集线器。
SCSI/GbLAN 76a和76b是以例如SCSI(小型计算机系统接口)卡或者LAN(吉比特LAN)卡的形式的IO接口,并且被连接到例如硬盘驱动器的 装置上,以确定为SCSI标准,或者连接到LAN电缆等。为了方便,图2的实例示出通过相同的IO接口单元的SCSI接口和LAN接口。但是,这些接口不应限制为只采取一个单独的接口单元,并且可提出多种修改。可选择地,SCSI接口和LAN接口可以分别安装在每一个IOU中。
PCI卡77是基于PCI标准的IO接口并且与符合PCI标准的多个装置相连接。PCI盒79是用以增加可与IOU相连接的PCI装置数量的扩充盒。
交叉开关60与SB 50和IOU 70互连,并且包括地址交叉和数据交叉(都未示出)。
在图2中所示的实例中,通过上述的物理分区功能将SB 50划分成XSB501a和XSB 501b,以将DIMM 51a和CPU 53a包括在XSB 501a中,以及将DIMM 51b和CPU 53b包括在XSB 501b中。然而,由XSB 501a和XSB501b共享MLDS 52和NB 54。
换句话说,在SB50中,DIMM 51a和CPU 53a是由XSB 501a独占的独占资源(独占硬件资源);DIMM 51b和CPU 53b是由XSB 501b独占的独占资源。MLDS 52和NB 54是由XSB 501a和XSB502b共享的共享资源(共享硬件资源)。
XSB是LSB的名称,所述LSB是两个由XPAR(扩充功能)创建的LSB中的一个。在下文中,由标号501a或者501b表示一个特定的XSB,以从剩余的XSB中区别出该特定的XSB,但是可由标号501表示任一XSB。
同时,通过上述的物理分区功能将IOU 70分成LIOU 701a和LIOU701b。在IOU 70上执行物理分区,以将IOC 73a、PHX 74a以及SCSI/GbLAN76a包括在LIOU 701a中,而将IOC 73b、PHX 74b以及SCSI/GbLAN 76b包括在LIOU 701b中。另外,在LIOU 701a和LIOU 701b之间共享SBRG 71、PCIEPL 72和78、PCI卡77和PCI盒79。
简要地说,在IOU 70中,IOC 73a、PHX 74a以及SCSI/GbLAN 76a是由LIOU 701a独占的独占资源;并且相似地,IOC 73b、PHX 74b以及SCSI/GbLAN 76b是由LIOU 701b独占的独占资源。
LIOU表示IOU的分区粒度。在下文中,由标号701a或者701b表示一个特定的LIOU,以从剩余的LIOU中区别出该特定的LIOU,但是可由标号701表示任一LIOU。
在本实施例中,没有被进行分区的IOU为了方便表示为IOU,这样是为了从通过划分IOU而创建的LIOU中区别出来。
例如,在图2中的MLDS 52、NB 54、SBRG 71和PCIEPL 72在图1中被统称为ASIC 30。
ASIC 30具有故障通知功能,这种功能检测在硬件资源中的故障事件(在图1的E点)并且输出故障事件的检测结果。如果故障发生正在ASIC 30的硬件资源派生物中,则ASIC 30在其中记录故障信息(例如,故障事件点以及细节(错误代码)等)并且输入陷阱(trap)到存在错误的XSB或LIOU所属的结合到分区块P的CPU 53中,作为故障事件的通知。
此外,ASIC 30在主LSB的NB 54的寄存器(未图示)中存储错误强度和故障点数据,并且向固件10中输入中断。
主LSB是分区块的起始地址所分配的LSB,而且是故障事件所在的硬件资源的LSB派生物。
LSB表示SB 50的分区粒度。在XPAR分区模式过程中(在激活物理分区功能的操作中)LSB等于XSB(LSB=XSB);并且在非分区模式过程中(在关闭物理分区功能的操作中)LSB等于PSB(LSB=PSB)。PSB是在没有分割XPAR的情况下被用作单独的LSB的SB 50的名称。
ASIC 30为每一个XPAR 102输出故障事件通知并且因此用作故障通知部103,为每一个XPAR 102都提供一个故障通知部,用于检测在硬件资源中的故障事件以及输出故障事件的检测结果。
在硬件资源中由ASIC 30检测到的故障可能是发生(源自)在存在问题的硬件资源中的故障,也可能是源自另一个硬件资源并且被传播至存在问题的硬件资源的故障。ASIC 30检测任一个故障,并且向固件10通知故障事件的检测结果。
固件10是实现(服务器100的)多种功能的程序,并且被存储在在SB50上安装的以及由安装在每一个XSB 501中的CPU 53执行的ROM(只读存储器)芯片等中。
特别地,除了实现上面详述的物理分区功能和分区功能的程序外,固件10还是使得服务器100用作以下部件的程序,包括:硬件资源管理信息管理部12、运行模式检测部13、共享硬件资源判断部14以及共同故障报告创建 部15。在服务器100中的每一个CPU 53执行固件10,因此也用作下列部件,包括:硬件资源管理信息管理部12、运行模式检测部13、共享硬件资源判断部14以及共同故障报告创建部15,如图1所示。
在图1中,为了方便,省略在分区块Pn中的硬件资源管理信息管理部12、运行模式检测部13、共享硬件资源判断部14以及共同故障报告创建部15的功能以及在XPAR 102中的故障同志部103的功能。
固件10可以以上述以被存储在安装到ASIC 30上的ROM芯片内的形式配置,可选择地也可以以记录在计算机可读记录介质(例如软盘、CD(例如CD-ROM、CD-R、CD-RW)、DVD(例如DVD-ROM、DVD-RAM、DVD-R、DVD+R、DVD-RW、DVD+RW)、磁盘、光盘或者磁光盘)的形式配置。此外,服务器100可以从记录介质中读取固件10并且发送已读固件10到内部存储器或者外部存储器以用于存储。此外可选择地,固件10可以记录在存储器装置(记录介质)中,例如磁盘、光盘或者磁光盘,并且固件10可通过通信路径从存储器装置提供到服务器100。
为了实现硬件资源管理信息管理部12、运行模式检测部13、共享硬件资源判断部14以及共同故障报告创建部15的功能,在服务器100中的微处理器(在所示的实例中为CPU 53)执行存储在内部存储器(在所示的实例中为ROM芯片)中的固件10。此时,可以由读取存储在记录介质中的固件10的服务器来完成该执行处理。
这里,计算机(服务器100)是硬件和OS的组合的概念,并表示在OS控制的下运行的硬件。否则,如果应用程序独立于OS操作硬件,则该硬件对应于计算机。硬件至少包括例如CPU的微处理器,并用以读取记录在记录介质中的计算机程序。在第一实施例中,服务器100用作计算机。
除了上面所述的软盘、CD(例如CD-ROM、CD-R、CD-RW)、DVD(例如DVD-ROM、DVD-RAM、DVD-R、DVD+R、DVD-RW、DVD+RW)、磁盘、光盘或者磁光盘之外,在第一实施例中使用的记录介质还可以是其它多种计算机可读记录介质,例如IC卡、ROM卡、磁带、穿孔卡、计算机内部存储单元(RAM或者ROM)、外部存储单元或者在上面印由代码(例如条形代码)的物质。
运行模式检测部13根据保持在ASIC 30的寄存器(分区模式信息保持 部)等中的分区模式信息来检测服务器100是否分区模式下运行。在从XPAR102获得故障事件通知(输出)时,运行模式检测部13确认在ASIC 30中保持的分区模式信息,以检测服务器100是否在分区模式中运行。
这里,分区模式信息表示服务器100是否在分区模式下运行,并且分区模式信息可由ASIC(分区模式信息管理部)30管理和设置。例如,当服务器100分别在分区模式下运行以及不在分区模式下运行时,分别在ASIC 30的预定储存区域(例如寄存器)(分区模式信息保持部)中设置和存储比特“1”和比特“0”。例如,为每一个硬件资源设置分区模式信息。
运行模式检测部13通过确认在ASIC 30中设置的比特来获得分区模式信息,从而确定服务器100是否在分区模式下。分区模式信息可包括用以表示相关的硬件资源所属分区块的属性数据。
当服务器100在分区模式下运行时,硬件资源管理信息管理部12管理关于硬件资源的共享状态的资源信息(硬件资源管理信息),并且例如在管理之前预先确定的存储区域(例如DIMM 51)(硬件资源管理信息保持部)中存储资源信息。
图3示出根据第一实施例的服务器100的资源信息的实例。如图3所示,资源信息表示每一个硬件资源是共享资源(共享)还是独占资源(独占)。例如,为独占资源设置比特“0”以及为共享资源设置比特“1”使共享硬件资源判断部14通过确认该比特值来确定硬件资源是共享资源还是独占资源。
例如,当固件10和ASIC 30将要实现这些功能时,根据物理分区功能和/或分区功能的信息设置来创建和设置资源信息。
在服务器100中,由固件10管理和利用的预定存储区域(例如DIMM 51)用作保持资源信息(硬件资源管理信息)的硬件资源管理信息保持部。在下文中,在由固件10管理和利用的预定存储区域(例如DIMM 51)中的保持信息简单地描述为“固件10保持信息”。
共享硬件资源判断部14根据资源信息来判断已经由ASIC 30检测到故障事件的硬件资源是否为共享资源。具体地,共享硬件资源判断部14参照关于已经发生的故障的故障信息(例如,故障发生点)检索资源信息,并且判断关于该故障事件的硬件资源是否为共享资源。
例如,故障信息被存储在ASIC 30的存储器区域或者固件10中。
如果运行模式检测部13检测到服务器100在分区模式下并且共享硬件资源判断部14判断由ASIC 30所检测到的硬件资源(故障源)是共享资源,则共同故障报告创建部15利用从共享故障源的硬件资源的两个或者更多XPAR 102输出的故障检测通知来创建共同故障报告。
共同故障报告创建部15在通过ASIC 30管理的单元中合并从ASIC 30中获取的共享资源的故障信息。
在硬件资源中的故障事件中,在与故障硬件源相关的ASIC 30的寄存器中(在预定的物理位置)设置一个比特(即故障通知比特),并且固件10通过该比特获得故障信息。
如果所述硬件资源是作为物理分区的结果所创建的共享资源,则在对应于该共享资源的每一个ASIC 30的寄存器中的预定位置设置一个比特(即故障通知比特)。共同故障报告创建部15读取在不同物理位置设置的所有故障通知比特,并且同时通过计算所有故障通知比特的逻辑总和将所有故障通知比特合并成一条信息。
换句话说,共同故障报告创建部15根据通过将获得的所有故障通知比特合并而得到的一条信息创建故障报告,从而创建共同故障报告。
当固件10读取在ASIC 30的寄存器中设置的故障通知比特后,所述故障通知比特被清除,此时根据将两个或者更多故障通知比特合并成一条信息的信息来执行所有故障通知比特的清除。
如果服务器100不在分区模式下,则共同故障报告创建部15不合并故障信息。
根据来自XPAR 102的故障事件通知,固件10判断所述故障是在已经输出故障事件的硬件资源中产生还是在被传播的相同硬件资源中产生,并且如果判断所述故障为被传播到的硬件资源,那么固件10判断没有故障事件并且不再处理故障事件。也就是说,固件10处理在已经输出故障事件的硬件资源中产生的故障。
通过利用保持在ASIC 30中的错误比特执行一种遮蔽(masking)处理来完成由固件(故障判断部)10作的判断处理(即,判断故障是在硬件资源中产生还是被传播到其它硬件资源中。如果固件10仅通过这种遮蔽处理不能判断故障是在已经输出故障事件的硬件资源中产生还是被传播到其它硬件 资源中,那么如果需要的话,固件10就进一步地分析附加信息。
如果从XPAR 102输出故障通知并且在同一XPAR 102中产生由故障通知部所通知的故障,那么固件10创建共同故障报告并且将创建的共同故障报告发送给OS 20和/或硬件管理单元101。
当收到共同故障报告时,OS 20和/或硬件管理单元101利用接收到的报告完成预定过程。
在探测到在SB 50中的故障的情况下,硬件管理单元101通过将另一个SB用作故障SB 50的替代者来重启服务器100,从而实现控制。此外,当检测到故障时,OS 20也发送错误通知给用户,重启自己的分区块,并且完成其它的操作。使用专用管理软件使得OS 20能够接收从固件10发送的信息。
现在将根据图4的流程图来说明根据第一实施例的在服务器100中发生故障事件时所执行的一系列过程步骤(步骤S10-S60)。
当在服务器100的硬件资源中发生故障时,向对应于作为故障源的XSB501或者LIOU 701的CPU 53输入陷阱。包括错误强度和位置信息的故障信息被记录在主LSB的NB 54的寄存器中(步骤S10),并且固件10接收中断。
在固件10中的运行模式检测部13获得在ASIC 30中保持的分区模式信息(步骤S20)并且根据已经获得的分区模式信息确定服务器100是否在分区模式下运行(步骤S30)。
如果服务器100在分区模式下(在步骤S30中选择是的路线),共享硬件资源判断部14根据资源信息判断已经由ASIC 30检测到故障事件的硬件资源是否为共享资源,并且通过由ASIC 30管理的单元合并关于共享资源的故障信息,以创建一条错误信息(共同故障报告)(步骤S40)。
例如,因为FSB 55和DIMM 51明显是独占资源,所以除了将与FSB 55和DIMM 51相关的故障信息看作关于共享资源的故障信息之外,还能够合并其它故障信息。
接着,固件10分析作为合并结果所创建的错误信息,并且如果需要,还附加地收集和分析关于MLDS 52、SBRG 71、PCIEPL 72和PHX 74的信息(步骤S50)。相反,如果服务器100不在分区模式下(在步骤S30中选择否的路线),那么进程跳转到S50。
固件10将分析的结果(故障分析结果)发送给OS 20和/或硬件管理单元101(步骤S60)以完成该过程。
图5示出根据第一实施例的在服务器100中的分区块P的结构实例,并且具体示出通过利用物理分区功能和分区功能形成的四个分区块P0-P3。
在图5中所示的实例包括四个SB 50(50-1、50-2、50-3、50-4);通过物理分区功能将SB 50-2和50-3分别分区成XSB 501a和XSB 501b,并且不对SB 50-1和50-4进行分区(也就是,SB=SLB)。为了方便,图5省略了交叉开关60的图示。
此外,在图5中所示的实例包括四个IOU 70(70-1、70-2、70-3、70-4);通过物理分区功能将IOU 70-1和70-3分别分区成LIOU 701a和LIOU 701b,并且不对70-2和70-4分区。
通过分区功能,分区块P0包括PSB 50-1和LIOU 701a,其中LIOU 701a是IOU 70-1的一个分区;分区块P1包括XSB 501a,其中XSB 501a为SB 50-2的一个分区,以及包括LIOU 701b,其中LIOU 701b是IOU 70-1的另一个分区;分区块P2包括XSB 501b,其中XSB 501b为SB 50-2的另一个分区,以及包括IOU 70-2;分区块P3包括XSB 501a和XSB501b,它们是SB 50-3的分区,以及包括LIOU 701a和LIOU 701b,它们是IOU 70-3、PSB 50-4利IOU 70-4的分区。
关于通过对IOU 50-1进行物理分区而创建的LIOU 701a和LIOU 701b,分别将LIOU 701a和LIOU 701b用于分区块P0和分区块P1中。换句话说,通过对IOU 50-1进行物理分区而创建的LIOU 701a和LIOU 701b被用在各个不同的分区块中,也就是,分别用在分区块P0和分区块P1中。以相同的方式,对SB 50-2进行物理分区而得的XSB 501a和XSB501b被用在各个不同的分区块中,也就是,分别用在分区块P1和分区块P2中。
在如图5中所示创建多个分区P0-P3的服务器100中,如果在被物理分区并用于不同分区块中的模块(硬件资源,例如对于分区块P1的XSB 501a和LIOU 701b)(见在图5中的A点)中发生故障,则在两个分区块P0和P1上执行用于处理故障的过程,并且将共同故障报告发送到OS 20和/或硬件管理单元101。
当在用于相同分区块中被物理分区的XSB 501a和XSB 501b中(例如 SB 50-3)的模块(共享资源)(见在图5中的B点)中发生故障时,在ASIC的级别通知对于XSB 501a和XSB501b中的每一个的错误,但是在固件10中的共同故障报告创建部15创建一条共同故障报告,并从而防止了冗余的错误报告输出。结果,即使在共享资源中发生的故障被看作是一个故障并且被处理,则将一条故障报告发送到OS 20和/或硬件管理单元101。
在分区块P3中,关于SB 50-3、SB 50-4、IOU 70-3和IOU 70-4的故障信息相互之间独立。当在SB 50-3、SB 50-4、IOU 70-3和IOU 70-4中的任何一个发生故障时,该故障分别在(传播至)SB 50-3、SB 50-4、IOU 70-3和IOU 70-4内部产生影响。如果在SB 50-3、SB 50-4、IOU 70-3和IOU 70-4中的一个发生故障,则SB 50-3、SB 50-4、IOU 70-3和IOU 70-4中每一个都发送故障报告给作为主LSB的XSB 501a。
之后,固件10经由作为主LSB的XSB 501a的NB 54从CPU 53接收中断,并且开始信息的收集和分析。
相反,当在独占资源中发生故障时,故障事件的通知仅被发送给PSB50-1、PSB50-4、XSB 501a、XSB 501b、IOU 70-2、IOU 70-4、LIOU 701a和LIOU 701b中对应于所述独占资源的一个,因此获得故障事件的准确数量.
如上所述,在本发明的服务器100中,当在分区模式的操作过程中在共亨资源中检测到故障时,固件10合并故障通知比特(故障通知)并且根据作为合并结果而得到的一条信息创建一个共同故障报告。能够防止冗余的故障通知被发送到OS 20和/或硬件管理单元101,因此输出与硬件资源中发生的实际故障事件数量相同的故障。有益地,能够管理故障事件的准确频率,从而改善了服务器100的可靠性。
更有益地,固件10可以在不需要专用装置或部件的情况下处理故障,并且服务器100的制造成本降低,因此很经济。另外,因为本发明的故障处理不是在OS 20上运行的软件进行,所以故障处理能够在不需要通知服务器100的用户的情况下完成。对于提供本发明功能的买家,能够轻松地实现和管理信息处理装置以及本发明的用于处理故障的方法和程序。
物理分区功能包括分区功能,从而能够灵活地扩展服务器100的功能。
此外,本发明不应限于前述的实施例,并且在不脱离本发明的主旨的情况下可以进行多种改动和修饰。
例如,本服务器100的硬件结构不应限于在图2中所示的实例,并且可选择地,在没有脱离本发明的主旨的情况下,服务器的硬件结构能够被进行多种改动。

Claims (2)

1.一种能够在分区模式下运行的信息处理装置,在所述信息处理装置中将硬件资源分成多个物理分区,并且所述多个物理分区中的至少两个物理分区作为独立分区块运行,所述信息处理装置包括:
分区模式信息保持部(30),用于保持关于所述信息处理装置是否在分区模式下运行的分区模式信息;
硬件资源管理信息保持部(51),用于在所述信息处理装置在分区模式下时保持关于所述硬件资源的共享状态的硬件资源管理信息;
故障通知部(103),为所述多个物理分区中的每一个物理分区分别配置一个所述故障通知部,所述故障通知部用于检测在硬件资源中的故障事件并输出所述故障事件的检测结果;
运行模式检测部(13),用于根据在所述分区模式信息保持部(30)中保持的分区模式信息来检测所述信息处理装置是否在分区模式下运行;
共享硬件资源判断部(14),用于根据在所述硬件资源管理信息保持部(51)中保持的硬件资源管理信息来判断由所述故障通知部(103)已经检测到故障事件的硬件资源是否被所述多个物理分区中一个物理分区和所述多个物理分区中不同于所述一个物理分区的另一个物理分区共享;以及
共同故障报告创建部(15),用于在所述运行模式检测部(13)检测到所述信息处理装置在分区模式下运行并且由所述共享硬件资源判断部(14)判断的结果是肯定的情况下,通过将所述一个物理分区中的所述故障通知部(103)所输出的故障事件的检测结果与在所述另一个物理分区中的故障通知部(103)所通知的故障事件的检测结果合并成一条信息,来创建共同故障报告。
2.一种故障处理方法,用于能够在分区模式下运行的信息处理装置中,在所述信息处理装置中将硬件资源分成多个物理分区,并且所述多个物理分区中的至少两个物理分区作为独立分区块运行,所述故障处理方法包括下列步骤:
(a)在所述多个物理分区的每一个物理分区中检测在所述硬件资源中的故障事件并且输出所述故障事件的检测结果; 
(b)根据关于所述信息处理装置是否在分区模式下运行的分区模式信息检测所述信息处理装置是否在分区模式下运行;
(c)根据当所述信息处理装置在分区模式下时的关于所述硬件资源的共享状态的硬件资源管理信息判断在检测处理和输出处理的所述步骤(a)中已经输出故障事件的硬件资源是否由所述多个物理分区中的两个或更多个共享;以及
(d)如果在检测处理的所述步骤(b)中检测到所述信息处理装置在分区模式下运行并且在判断处理的所述步骤(c)中的判断结果是肯定的,则通过将从所述两个或更多个物理分区输出的故障事件的检测结果合并成一条信息,创建共同故障报告。 
CN2007101870261A 2006-12-27 2007-11-19 信息处理装置和故障处理方法 Expired - Fee Related CN101211283B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006352001 2006-12-27
JP2006352001A JP4882736B2 (ja) 2006-12-27 2006-12-27 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体
JP2006-352001 2006-12-27

Publications (2)

Publication Number Publication Date
CN101211283A CN101211283A (zh) 2008-07-02
CN101211283B true CN101211283B (zh) 2011-07-20

Family

ID=39509624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101870261A Expired - Fee Related CN101211283B (zh) 2006-12-27 2007-11-19 信息处理装置和故障处理方法

Country Status (5)

Country Link
US (1) US8145956B2 (zh)
EP (1) EP1956486B1 (zh)
JP (1) JP4882736B2 (zh)
KR (1) KR100990700B1 (zh)
CN (1) CN101211283B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008120383A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 情報処理装置、障害処理方法
US8998710B2 (en) * 2008-09-24 2015-04-07 Keith Atkinson Marketing system and methods for use with electronic gaming machines
US8839032B2 (en) * 2009-12-08 2014-09-16 Hewlett-Packard Development Company, L.P. Managing errors in a data processing system
US8151147B2 (en) * 2009-12-17 2012-04-03 Hewlett-Packard Development Company, L.P. Synchronize error handling for a plurality of partitions
JPWO2012056561A1 (ja) * 2010-10-29 2014-03-20 富士通株式会社 装置監視システム,方法およびプログラム
JP5371123B2 (ja) * 2011-03-16 2013-12-18 エヌイーシーコンピュータテクノ株式会社 障害検出方法、制御装置、マルチプロセッサシステム
CN102819464B (zh) * 2012-01-13 2015-08-19 金蝶软件(中国)有限公司 单据临时存储的方法和装置
CN104572417B (zh) * 2015-01-20 2018-02-23 天津市英贝特航天科技有限公司 基于cmos存储器的操作系统故障跟踪分析方法
CN114911655A (zh) * 2017-12-19 2022-08-16 超聚变数字技术有限公司 一种自检方法和服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229806A (ja) * 2001-02-02 2002-08-16 Hitachi Ltd 計算機システム
US6823482B2 (en) * 2001-03-08 2004-11-23 International Business Machines Corporation System and method for reporting platform errors in partitioned systems
US6842870B2 (en) * 2001-09-20 2005-01-11 International Business Machines Corporation Method and apparatus for filtering error logs in a logically partitioned data processing system
JP3640187B2 (ja) 2002-07-29 2005-04-20 日本電気株式会社 マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
US7139940B2 (en) * 2003-04-10 2006-11-21 International Business Machines Corporation Method and apparatus for reporting global errors on heterogeneous partitioned systems
JP4357433B2 (ja) * 2005-02-15 2009-11-04 株式会社日立製作所 ストレージシステム

Also Published As

Publication number Publication date
EP1956486A2 (en) 2008-08-13
JP2008165347A (ja) 2008-07-17
EP1956486A3 (en) 2009-12-02
CN101211283A (zh) 2008-07-02
EP1956486B1 (en) 2018-09-26
US8145956B2 (en) 2012-03-27
JP4882736B2 (ja) 2012-02-22
US20100100776A1 (en) 2010-04-22
KR20080061258A (ko) 2008-07-02
KR100990700B1 (ko) 2010-10-29

Similar Documents

Publication Publication Date Title
CN101211283B (zh) 信息处理装置和故障处理方法
KR100530710B1 (ko) 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN100356335C (zh) 保存跟踪数据的方法和装置
US8108724B2 (en) Field replaceable unit failure determination
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
US10698605B2 (en) Multipath storage device based on multi-dimensional health diagnosis
US8832501B2 (en) System and method of processing failure
CN104572517A (zh) 提供被请求数据的方法、控制器以及计算机系统
EP2128764A1 (en) Degeneratuion method and information processor
CN103197914B (zh) 多处理器延迟执行的方法和系统
CN103164316B (zh) 硬件监视器
CN100429626C (zh) 信息处理设备和错误检测方法
US11165665B2 (en) Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services
JP5440073B2 (ja) 情報処理装置,情報処理装置の制御方法および制御プログラム
US9092333B2 (en) Fault isolation with abstracted objects
US7954012B2 (en) Hierarchical debug information collection
US20130024730A1 (en) Disk control apparatus, method of detecting failure of disk apparatus, and recording medium for disk diagnosis program
CN112988442B (zh) 一种服务器运行阶段传送故障信息的方法和设备
JP5556507B2 (ja) 仮想マシン管理プログラム、仮想マシン管理方法、および仮想マシン管理装置
US20220035695A1 (en) Computer unit, computer system and event management method
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
US20080133962A1 (en) Method and system to handle hardware failures in critical system communication pathways via concurrent maintenance
Clarke et al. IBM System z10 design for RAS
JPWO2015015621A1 (ja) 情報処理装置、診断方法、診断プログラム、及び情報処理システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110720

Termination date: 20181119

CF01 Termination of patent right due to non-payment of annual fee