CN1164999C - 管理数据处理系统内发生故障的适配器的方法和系统 - Google Patents

管理数据处理系统内发生故障的适配器的方法和系统 Download PDF

Info

Publication number
CN1164999C
CN1164999C CNB011219505A CN01121950A CN1164999C CN 1164999 C CN1164999 C CN 1164999C CN B011219505 A CNB011219505 A CN B011219505A CN 01121950 A CN01121950 A CN 01121950A CN 1164999 C CN1164999 C CN 1164999C
Authority
CN
China
Prior art keywords
adapter
input
breaks down
output
adapters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB011219505A
Other languages
English (en)
Other versions
CN1330319A (zh
Inventor
˹�ٷҡ���ķ
斯蒂芬·戴尔·里纳姆
米歇尔·安东尼·佩雷兹
路易斯·加布里尔·罗德里格斯
马克·瓦尔兹·温宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1330319A publication Critical patent/CN1330319A/zh
Application granted granted Critical
Publication of CN1164999C publication Critical patent/CN1164999C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units

Abstract

提供了用于管理一数据处理系统内发生故障的输入/输出适配器的方法、系统和装置。在一个实施例中,一个操作系统处理器接收一个关于多个输入/输出适配器之一已经发生故障的指示。该操作系统处理器查阅错误日志以确定哪个输入/输出适配器已发生故障。一旦确定了这个坏的输入/输出适配器,该操作系统处理器便使这个坏的输入/输出适配器无效并重新定位与这个坏的输入/输出适配器相关联的任何过程,而不关掉该数据处理系统。然后,用户得到关于这个坏的输入/输出适配器的通告,从而使这坏的输入/输出适配器能被替换。可以替换这适配器而不必关掉该数据处理系统。一旦已替换掉坏的输入/输出适配器,则使新的输入/输出适配器生效。

Description

管理数据处理系统内发生故障的适配器的方法和系统
技术领域
一般地说,本发明涉及计算机结构领域,更具体地说,涉及运行过程中管理机器校验中断的方法和系统。
背景技术
在一数据处理系统(平台)内的逻辑分区选项(LPAR)允许在单一数据处理系统平台上同时运行单一操作系统(OS)的多个副本或者多个异类操作系统。在其中运行一操作系统镜象(image)的一个分区被赋予不重叠的平台资源的一个子集。这些可分配的平台资源包括一个或多个具有各自中断管理区的结构不同的处理器、系统存储器区、以及输入/输出(I/O)适配器总线槽。一个分区的这些资源由它自己的向OS镜象开放的固件装置树(firmware device tree)来代表。
在该平台内运行的每个不同的OS或者一个OS的镜象被彼此设防,从而使一个逻辑分区上的软件错误不能影响任何其他分区的正确操作。这是通过分配由每个OS镜象直接管理的与其他集合不相交的平台资源集和通过提供确保各镜象不能控制未分配给它的任何资源的机制来实现的。再有,在一个OS的所分配资源控制范围内的软件错误被防止其影响任何其他镜象的资源。这样,每个OS镜象(或每个不同的OS)直接控制该平台内一个单独的可分配资源集合。
当前,在LPAR系统和非分区系统二者当中,当由于该系统中的坏的I/O适配器而发生一个机器校验时,便以一个错误日志条目的形式向操作系统提供关于引起机器校验的状态(condition)的数据。然后,该操作系统进行一次完全的关掉系统。于是,用户必须替换这个坏的I/O适配器,然后再重新引导该系统。对于有简单的配置从而在其中能较快地进行重新引导的用户,或者对于不特别需要在所有时间里该系统都能使用的用户,这一要求可能不是什么可怕的问题。然而,对于其他具有复杂配置的用户,例如多个串行存储结构(SSA)或连成网络的系统,仅仅为替换一个坏的I/O适配器会耗费相当大量的时间去重新引导该系统。对于那些用户,这种时间耗费可能是很费钱的。例如,如果该系统是对于取得产品(例如书或光盘(CD))的因特网销售订单至关重要的万维网(Web)服务器,那么为替换一个坏的I/O适配器而关掉系统的每分钟时间都会造成数千美元的销售损失。
所以,应该是希望有一种方法和系统,它能在无需关掉或重新引导系统的情况下替换坏的I/O适配器。
发明内容
本发明提供一种方法、系统和装置,用于管理一数据处理系统内的发生故障的输入/输出适配器。在一个实施例中,一个操作系统处理器(handler)接收一个关于多个输入/输出适配器之一已经发生故障的指示。该操作系统处理器查阅错误日志以确定哪个输入/输出适配器已发生故意障。一旦确定了这个坏的输入/输出适配器,该操作系统处理器便使这个坏的输入/输出适配器无效并重新定位与这个坏的输入/输出适配器相关联的任何过程,而不关掉该数据处理系统。然后,用户得到关于这个坏的输入/输出适配器的通告,从而使这坏的输入/输出适配器能被替换。可以替换这输入/输出适配器器而不必关掉该数据处理系统。一旦已替换掉坏的输入/输出适配器,则使新的输入/输出适配器生效。
根据本发明的管理逻辑分区的数据处理系统内发生故障的输入/输出适配器的方法,包含:将多个适配器与一个桥耦接,所述桥与输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;接收在所述多个适配器中的一个适配器已发生故障的指示;进行把所述适配器识别为发生故障的适配器的操作;以及响应于成功识别所述适配器,使所述适配器无效而不关掉该数据处理系统且不使所述多个适配器中的剩余适配器无效,其中所述多个适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信。
根据本发明的管理逻辑分区的数据处理系统内发生故障的适配器的系统,包含:与一个桥耦接的多个适配器,所述桥与输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;第一装置,用于接收所述多个适配器中的一个适配器已发生故障的指示;第二装置,用于进行把该适配器识别为发生故障的适配器的操作;第三装置,用于响应于成功识别发生故障的适配器,使该发生故障的适配器变为无效而不关掉该数据处理系统且不使所述多个适配器中的剩余适配器无效,其中所述适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信。
根据本发明的替换逻辑分区的数据处理系统内发生故障的输入/输出适配器的方法,包含:将多个输入/输出适配器与一个桥耦接,所述桥与输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;接收所述多个输入/输出适配器中的一个已发生故障的输入/输出适配器的指示;查阅错误日志以确定多个输入/输出适配器中发生错误的一个输入/输出适配器的标识;响应于未能确定所述多个输入/输出适配器中发生故障的一个输入/输出适配器的标识的情况,关掉该数据处理系统;以及响应于对所述多个输入/输出适配器中发生故障的一个输入/输出适配器的标识的确定:保持不关掉该数据处理系统;使发生故障的输入/输出适配器无效,而不使所述多个适配器中的剩余适配器无效,其中所述多个适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信;取消分配发往该发生故障的输入/输出适配器的任何过程;以及向用户指出多个输入/输出适配器中哪一个是发生故障的输入/输出适配器;其中发生故障的输入/输出适配器可被替换而无需关掉系统。
根据本发明的一个逻辑分区的数据处理系统,包含:一个总线系统;与一个桥耦接的多个适配器,所述桥与包含在所述总线系统中的输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;一个存储器;以及一个处理器单元;其中处理器单元执行指令以将所述多个适配器中的一个识别为发生故障的适配器;以及响应于成功识别发生故障的适配器,使该发生故障的适配器无效而不关掉该数据处理系统且不使所述多个适配器中的剩余适配器无效,其中所述多个适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信。
附图说明
通过结合附图阅读下文中对实施示例的详细描述,将能最好地理解发明本身和最佳使用方式及其进一步的目的和优点,这里:
图1描绘根据本发明的数据处理系统的方框图;
图2描绘根据本发明的系统的方框图,该系统用于处置机器校验中断而无需关掉该系统;
图3描绘一个示例表,表中描绘了根据本发明一个错误日志内包含的可能内容和信息;
图4描绘一个流程图,图中说明根据本发明替换一个坏的I/O适配器而无需关掉该系统的过程示例;
图5描绘一个流程图,图中说明根据本发明通过热插拔(hotplug)去掉一坏的I/O适配器的方法示例;
图6描绘一个根据本发明的菜单示例,它允许用户启动一个热插拔过程以拿掉和替换一个坏的I/O适配器。
具体实施方式
现在参考附图,特别是参考图1,图中描绘了在其中可实现本发明的一个数据处理系统。数据处理系统100可以是一个对称多处理器(SMP)系统,包括多个处理器101、102、103和104连接于系统总线106。例如,数据处理系统100可以是一台IBMRS/6000,这是国际商用机器公司(在纽约州的Armonk)的产品,可作为网络内的一个服务器来实现。另一种作法是可利用一个单一处理器系统。与系统总线106相连的还有存储器控制器/高速缓存108,它提供与多个本机存储器160-163的接口。I/O总线桥110与系统总线106连接并提供到I/O总线112的接口。如图所示,存储器控制器/高速缓存和I/O总线桥110可以集成在一起。
数据处理系统100是一个逻辑上分区的数据处理系统。这样,数据处理系统100可以有多个异类操作系统(或者单一操作系统的多个实例(instance)同时运行。这多个操作系统的每一个都可以有任何数量的软件程序在其中执行。数据处理系统100逻辑上被分区,从而不同的I/O适配器120-121、128-129、136-137以及146-147可被赋予不同的逻辑分区。
这样,例如,假定数据处理系统100被分成3个逻辑分区P1、P2和P3。I/O适配器120-121、128-129及136-137的每一个,处理器101-104的每一个,以及本机存储器160-164的每一个,被赋予这3个分区之一。例如,处理器101、存储器160及I/O适配器120、128和129可以被赋予逻辑分区P1;处理器102-103、存储器161、以及I/O适配器121和137可以被赋予分区P2;而处理器104、存储器162-163、以及I/O适配器136和146-147可以被赋予逻辑分区P3。
在数据处理系统100内执行的每个操作系统被赋予不同的逻辑分区。这样,在数据处理系统100内执行的每个操作系统只可以访问在它的逻辑分区内的那些I/O单元。这样,例如,高级交互执行(AIX)操作系统的一个实例可在分区P1内执行,AIX操作系统的第二实施(镜象)可在分区P2内执行,而视窗2000(Windows2000TM)操作系统可在逻辑分区P3内执行。视窗2000是微软公司(在华盛顿州的Redmond)的产品。
与I/O总线112相连的外围部件互连(PCI)主机桥114提供与主PCI本机总线115的接口。若干输入/输出适配器120-121可通过各自的次级PCI总线118-119和外部地址选通闸门(EADS)与主PCI总线115相连。典型的PCI总线实现将支持4至8个I/O适配器(即用于加入连接器的扩展槽)。每个I/O适配器120-121提供数据处理系统100和输入/输出装置(例如作为数据处理系统100的客户机的其他网络计算机)之间的接口。
EADS116、124、132和142是多功能PCI-PCI桥,它们支持次级总线118-119、126-127、134-135上I/O适配器的热插拔。热插拔允许在运行期间添加、去掉和替换I/O适配器120-121、128-129、136-137,以及148-149。每个适配器120-121、128-129、136-137以及148-149有其自己的次级PCI总线118-119、126-127、134-135以及144-145,这使热插拔成为可能。每个EADS116、124、132以及142可被配置成作为主总线115、123、131及141到多达8个次级热插拔PCI总线118-119、126-127、134-135及144-145的桥。在所描绘的实施例中,主PCI总线115、123、131及141是64位宽、可耐3.3伏(V)并在16-66MHz之间运行。次级PCI总线118-119、126-127、134-135以及144-145是32位宽,这里每对次级总线118-119、126-127、134-135及144-145可以组合成64位宽的总线。
附加PCI主机桥122和130提供用于附加的主PCI总线123和131的接口。每个附加主PCI总线123和131与各自的一个EADS124和132相连。每个EADS124和132与多个次级PCI总线126-127及134-135相连,如图1中所示。次级PCI总线126-127及134-135提供多个PCII/O适配器128-129及136-137到EADS124及132之间的连接。这样,可以通过每个PCII/O适配器128-129及136-137来支持附加的I/O装置,如调制解调器或网络适配器。以这种方式,数据处理系统100允许到多个网络计算机的连接。
存储器映射图形适配器(memorymappedgraphicsadapter)148和硬盘150也可经由EADS142及PCI主机桥140连接到I/O总线112。EADS142通过主PCI总线141连接到PCI主机桥140。图形适配器148通过次级PCI总线144连接到EADS142,而硬盘适配器149(硬盘150通过它连接到数据处理系统100)通过次级PCI总线145连接到EADS142。硬盘150可在各分区之间进行逻辑分区,无需附加其他硬盘。然而,如果希望的话,可以利用附加的硬盘。
本领域普通技术人员将会理解,图1中所示硬件可以改变。例如,还可以使用其他外围装置,如光盘装置等,以增添或取代图中所示硬件。再有,本发明不限于在多处理器逻辑分区系统上实现,还可在其他类型数据处理系统上实现,例如,一个运行操作系统单一镜象的单处理器系统,如典型的个人计算机。所描述的例子不意味着针对本发明加以结构上的限制。
现在参考图2,图中描绘了根据本发明的一个系统的方框图,该系统用于处置机器校验中断而无需关掉该系统。机器校检中断是当数据处理系统检测出某个适配器已发生故障时由操作系统(例如AIX)使用的中断。总是使AIX报告一个机器校验的灾难性错误是一个系统错误(SERR)。可以由许多原因造成SERR,例如奇偶检验错。奇偶检验错可以包括一个特定周期期间的数据奇偶检验错以及地址奇偶检验错。SERR还可由奇偶检验以外的其他严重错误引起,如主控异常终止错(masteraborterror)。在先有技术系统中,机器校验中断造成系统关机。然而,本发明提供一种机制,用于处置机器校验错和替换坏的I/O适配器而无需采取关掉数据处理系统的行动。
在数据处理系统(如图1中的数据处理系统100)中执行的操作系统(OS)202包括一个OS中断处理器204,用于处置该数据处理系统内发生的机器校验中断。OS202可以是例如AIX。运行时抽象服务(run-timeabstracfionservice,RTAS)208提供了从PCI主机桥210-212接收机器校验中断的机制。在本实例中,RTAS208是在固件中实现的。固件是存储在存储器芯片中的软件,该芯片保持其内容而无需电源,例如只读存储器(ROM)、可编程ROM(PROM)、可擦的可编程ROM(EPROM)、电可擦的可编程ROM(EEPROM)、以及非易失随机存取存储器(非易失RAM)。
机器校验中断指出与PCI主机桥210-212连接的I/O适配器214-220之一是坏的(即已停止正常工作)。OS处理器204调用RTAS208以确定是否发生了一次机器校验,而RTAS208以一错误日志条目的形式向OS处理器提供机器校验中断数据。错误日志条目的一个实例是:
BFE4C0250607120300PHsysplanarOMACHINE_CHECK_CHRP
这一错误日志条目向OS202指出已收到一个机器校验中断,它指出由ID“BFE4C025”标识的一个适配器222-228已经失效了。然后OS处理器204根据从RTAS208接收的信息将数据送到错误日志206。图3中描绘的错误日志300是根据本发明的一个示例表,显示错误日志206中包含的可能内容和信息。
错误日志206的内容指出I/O适配器214-220中哪一个是坏的,如果RTAS208能确定这个信息的话。否则,错误日志206中的条目只能反映出在该数据处理系统中已发生了机器校验中断,但不能指出I/O适配器214-220中哪一个造成了这个机器校验中断。
一旦OS处理器204已向错误日志206中写入数据,则OS202分析错误日志206以确定失效I/O适配器222-228的标识。例如,AIX操作系统可以使用“DIAG”命令分析错误日志206并产生如下结果:
A03-030:I/Obustime-out,access,orothererror
n/aFRU:n/aU0.1-P1-I3
(A03-030:I/O总线超时,访问,或其他错误
n/aFRU:n/aU0.1-P1-I3)
形为“Uo.X的数据结构用“X”表示坏适配器的抽屉(drawer)号。这样,在上例中的(U0.1”(X=1)表明坏适配器的抽屉号是“1”。形如“IY”的数据结构指出坏适配器的插槽号,这里的“Y”是插槽号。这样,在上例中,坏适配器是在抽屉1的插槽3中。
如果OS中断处理器204不能确定I/O适配器214-220中发生故障的那个,则该数据处理系统被关掉。然而,如果OS中断处理器204能确定I/O适配器213-220中发生故障的那一个,则操作系统202将调用RTAS208热插拔以使发生故障的I/O适配器214-220不起作用,并重新定位与I/O适配器214-220中发生故障的那个相关联的任何过程。RTAS直接向对应于I/O适配器222-228中坏的那个的EADS214和218之一的EADS寄存器写入信息,以关掉含有I/O适配器222-228中坏的那个的插槽的电源。
一旦使I/O适配器214-220中坏的那个变为无效,便能向用户发送一个紧急系统平面消息(urgentsysplanarmessage),向用户通告这坏的适配器,例如通过一个寻呼(page)、视频显示终端上的一个消息,和/或在含有这坏的适配器的插槽上闪烁灯光。紧急系统平面消息是由系统向一输出装置输出的消息,通常按预先确定的时间间隔,从而可提醒用户该适配器已不能再工作了。
然后用户能利用OS202、RTAS208以及EADS214和218协同工作所提供的热插拔特性,替换坏的适配器并重新使该适配器生效。然后,一旦替换完成,便可重新配置该适配器。
本领域普通技术人员将会理解,图2中描绘的硬件和软件可以改变。例如,可以使用比图2中所示更多或更少的适配器。所描绘的例子不意味着针对本发明加以结构上的限制。
现在参考图4,图中描绘的流程图显示根据本发明隔绝一个坏的I/O适配器而不关掉该系统的过程示例(即热插拔操作)。一旦该系统在运行并发生了机器校验,指出一个坏的输入/输出适配器,则一个AIX处理器接管对该系统的控制(步骤402)。AIX处理器可作为图2中的OS处理器204来实现。AIX处理器检索由RTAS输入机器校验的错误日志(步骤404)并分析该错误日志以确定发生故障的适配器(步骤406)。然后AIX处理器确定这发生故障的卡是否已被隔绝(步骤408)
如果这发生故障的卡尚未被RTAS隔绝,则AIX处理器使系统关掉(步骤410)。如果这发生故障的卡已被隔绝和确定,则通过例如调用RTAS热插拔使发生故障的卡无效(步骤412)。AIX还重新定位与发生故障的I/O适配器关联的任何过程(步骤414)。一旦已成功地使发生故障的I/O适配器无效,便向适当的扩展槽发信号,例如以闪烁灯光指出哪个I/O适配器已坏(步骤416)。然后,AIX发出一消息,通知用户替换这坏的适配器(步骤418)。例如这消息可发送到一个视频显示终端,或寻呼被指定维护该系统的适当人员。
现在参考图5,图中描会的流程图显示根据本发明通过热插拔去掉坏的I/O适配器的方法示例。一旦识别出一个坏的适配器,RTAS(例如图2中的RTAS208)便对这坏的I/O适配器所在的扩展槽设置可视指示,以提醒用户该扩展槽已被认定含有一坏的I/O适配器(步骤502)。例如这可视指示可以是该扩展槽上的闪烁灯光。OS(如图2中的OS202)解除配置与这坏I/O适配器相关联的装置(步骤504)。例如,这一过程可使用AIX命令“rmdev”来实现。
一旦与这坏I/O适配器关联的装置被解除配置,与这坏I/O适配器关联的装置所对应的全部节点便从RTAS提供的开放固件装置树的OS副本中去掉(步骤506)。然后,RTAS对含有这坏的I/O适配器的扩展槽进行隔绝和断电(步骤508)。然后,RTAS对受影响的扩展槽的可视指示设置为一种状态,以通知用户可以去掉与那个扩展槽连接的I/O适配器(步骤510)。一旦已经去掉了这坏的I/O适配器,RTAS便关掉受影响扩展槽的可视指示(步骤512),表明该用户已去掉了正确的I/O适配器。然后用户可插入一个替换用的I/O适配器并重新配置该系统,以利用这新的I/O适配器。这样,便可以在运行期间(即不关掉该系统)去掉和替换一个坏的I/O适配器。
一旦将这坏的I/O适配器通知给用户,便可通过一菜单(例如AIX系统管理接口工具(SMIT)菜单)来启动去掉和更换坏的I/O适配器的过程。图6中描述一SMTT菜单的实例。菜单600向用户提供由数据处理系统(如图1中的数据处理系统100)实现的热插拔服务清单。在菜单600中,用户可以选择条目3,以把这坏的I/O适配器置于可由用户从该数据处理系统中去掉和替换的状态。
重要的是应该指出,尽管已在全功能数据处理系统的环境中描述了本发明,但本领域的普通技术人员将会理解,本发明的过程也能以指令的计算机可读介质形式和各种其他形式进行发布,而且不论实际用于进行这种发布的信号承载介质的具体类型如何,本发明可同样地应用。计算机可读介质的实例包括可记录型介质,如软盘、硬盘驱动器、RAM和CD-ROM,以及传输型介质,如数字和模拟通信链路。
已给出本发明的描述,这里为了演示和描述,而不是要把本发明完全地限定于所披露的形式。对于本领域的普通技术人员,许多修改和变化是显然的。所选择和描述的实施例是为了最好地解释本发明的原理和实际应用,并使本领域的其他普通技术人员能理解本发明以实现具有各种修改的各种实施例,从而适用于预期的特定应用。

Claims (27)

1.管理逻辑分区的数据处理系统内发生故障的输入/输出适配器的方法,该方法包含:
将多个适配器与一个桥耦接,所述桥与输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;
接收在所述多个适配器中的一个适配器已发生故障的指示;
进行把所述适配器识别为发生故障的适配器的操作;以及
响应于成功识别所述适配器,使所述适配器无效而不关掉该数据处理系统且不使所述多个适配器中的剩余适配器无效,其中所述多个适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信。
2.如权利要求1中所述的方法,进一步包含:
向用户发送一消息,指明多个适配器之一已发生故障并包括该发生故障的适配器的标识。
3.如权利要求2中所述的方法,其中发送消息的步骤包含启动在含有所述发生故障的适配器的扩展槽上的闪烁灯光,以向用户指明该多个适配器的哪一个是发生故障的适配器。
4.如权利要求2中所述的方法,其中发送消息的步骤包含寻呼一个用户。
5.如权利要求2中所述的方法,其中发送消息的步骤包含在一视频显示终端上显示一个消息,指出该多个适配器之一已发生故障并包括该发生故障的适配器的标识。
6.如权利要求1中所述的方法,进一步包含:
响应于指出该发生故障的适配器已被一新的适配器取代的指示,使该新的适配器生效。
7.如权利要求1中所述的方法,进一步包含:
取消分配发往该发生故障的适配器的任何过程。
8.如权利要求1中所述的方法,进一步包含:
响应于识别发生故障的适配器失败的情况,关掉该数据处理系统。
9.如权利要求1中所述的方法,其中进行识别的步骤包含查阅错误日志表。
10.管理逻辑分区的数据处理系统内发生故障的适配器的系统,该系统包含:
与一个桥耦接的多个适配器,所述桥与输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;
第一装置,用于接收所述多个适配器中的一个适配器已发生故障的指示;
第二装置,用于进行把该适配器识别为发生故障的适配器的操作;
第三装置,用于响应于成功识别发生故障的适配器,使该发生故障的适配器变为无效而不关掉该数据处理系统且不使所述多个适配器中的剩余适配器无效,其中所述适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信。
11.如权利要求10中所述的系统,进一步包含:
第四装置,用于向用户发送一消息,指明多个适配器之一已发生故障以及该发生故障的适配器的标识。
12.如权利要求11中所述的系统,其中用于发送消息的第四装置包含启动在含有所述发生故障的适配器的扩展槽上的闪烁灯光,以向用户指明多个适配器中的哪一个是发生故障的适配器的装置。
13.如权利要求11中所述的系统,其中用于发送消息的第四装置包含寻呼一个用户的装置。
14.如权利要求11中所述的系统,其中用于发送消息的第四装置包含在一视频显示终端上显示一个消息,指出该多个适配器之一已发生故障以及该发生故障的适配器的标识的装置。
15.如权利要求10中所述的系统,进一步包含:
第四装置,用于响应于该发生故障的适配器已被一新的适配器取代的指示,使该新的适配器生效。
16.如权利要求10中所述的系统,进一步包含:
第四装置,用于取消分配发往发生故障的适配器的任何过程。
17.如权利要求10中所述的系统,进一步包含:
第四装置,用于响应于识别发生故障的适配器失败的情况,关掉该数据处理系统。
18.如权利要求10中所述的系统,其中用于进行识别的第二装置包含查阅错误日志表。
19.替换逻辑分区的数据处理系统内发生故障的输入/输出适配器的方法,该方法包含:
将多个输入/输出适配器与一个桥耦接,所述桥与输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;
接收所述多个输入/输出适配器中的一个已发生故障的输入/输出适配器的指示;
查阅错误日志以确定多个输入/输出适配器中发生错误的一个输入/输出适配器的标识;
响应于未能确定所述多个输入/输出适配器中发生故障的一个输入/输出适配器的标识的情况,关掉该数据处理系统;以及
响应于对所述多个输入/输出适配器中发生故障的一个输入/输出适配器的标识的确定:
保持不关掉该数据处理系统;
使发生故障的输入/输出适配器无效,而不使所述多个适配器中的剩余适配器无效,其中所述多个适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信;
取消分配发往该发生故障的输入/输出适配器的任何过程;以及
向用户指出多个输入/输出适配器中哪一个是发生故障的输入/输出适配器;
其中发生故障的输入/输出适配器可被替换而无需关掉系统。
20.如权利要求19中所述的方法,进一步包含:
响应对发生故障的输入/输出适配器已被一新的输入/输出适配器取代这一情况的确定,使新的输入输出适配器生效。
21.一个逻辑分区的数据处理系统,包含:
一个总线系统;
与一个桥耦接的多个适配器,所述桥与包含在所述总线系统中的输入/输出总线耦接,所述多个适配器利用所述桥与所述输入/输出总线通信;
一个存储器;以及
一个处理器单元;其中
处理器单元执行指令以将所述多个适配器中的一个识别为发生故障的适配器;以及
响应于成功识别发生故障的适配器,使该发生故障的适配器无效而不关掉该数据处理系统且不使所述多个适配器中的剩余适配器无效,其中所述多个适配器中的剩余适配器保持生效和可操作,并在所述发生故障的适配器被无效后继续利用所述桥与所述输入/输出总线通信。
22.如权利要求21中所述的数据处理系统,进一步包含:
响应于对发生故障的适配器已被一新的适配器取代这一情况的确定,使该新的适配器生效。
23.如权利要求21中所述的数据处理系统,其中指令是在存储器中。
24.如权利要求21中所述的数据处理系统,其中指令是在芯片中。
25.如权利要求21中所述的数据处理系统,其中指令是在电可擦和可编程只读存储器中。
26.如权利要求21中所述的数据处理系统,其中指令是在只读存储器中。
27.如权利要求21中所述的数据处理系统,其中指令是在非易失随机存取存储器中。
CNB011219505A 2000-06-22 2001-06-21 管理数据处理系统内发生故障的适配器的方法和系统 Expired - Lifetime CN1164999C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/599,182 2000-06-22
US09/599,182 US6658599B1 (en) 2000-06-22 2000-06-22 Method for recovering from a machine check interrupt during runtime

Publications (2)

Publication Number Publication Date
CN1330319A CN1330319A (zh) 2002-01-09
CN1164999C true CN1164999C (zh) 2004-09-01

Family

ID=24398577

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011219505A Expired - Lifetime CN1164999C (zh) 2000-06-22 2001-06-21 管理数据处理系统内发生故障的适配器的方法和系统

Country Status (6)

Country Link
US (1) US6658599B1 (zh)
JP (1) JP3697178B2 (zh)
CN (1) CN1164999C (zh)
IL (1) IL141964A0 (zh)
MY (1) MY128290A (zh)
SG (1) SG100721A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100375043C (zh) * 2004-11-17 2008-03-12 国际商业机器公司 用于部署计算基础设施的方法和数据存储设备

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5978379A (en) 1997-01-23 1999-11-02 Gadzoox Networks, Inc. Fiber channel learning bridge, learning half bridge, and protocol
US7430171B2 (en) 1998-11-19 2008-09-30 Broadcom Corporation Fibre channel arbitrated loop bufferless switch circuitry to increase bandwidth without significant increase in cost
US20020073359A1 (en) * 2000-09-08 2002-06-13 Wade Jennifer A. System and method for high priority machine check analysis
US6820161B1 (en) * 2000-09-28 2004-11-16 International Business Machines Corporation Mechanism for allowing PCI-PCI bridges to cache data without any coherency side effects
US7010726B2 (en) * 2001-03-01 2006-03-07 International Business Machines Corporation Method and apparatus for saving data used in error analysis
US7239636B2 (en) 2001-07-23 2007-07-03 Broadcom Corporation Multiple virtual channels for use in network devices
US6901537B2 (en) * 2002-02-27 2005-05-31 International Business Machines Corporation Method and apparatus for preventing the propagation of input/output errors in a logical partitioned data processing system
US7295555B2 (en) 2002-03-08 2007-11-13 Broadcom Corporation System and method for identifying upper layer protocol message boundaries
US7934021B2 (en) 2002-08-29 2011-04-26 Broadcom Corporation System and method for network interfacing
US7411959B2 (en) 2002-08-30 2008-08-12 Broadcom Corporation System and method for handling out-of-order frames
US7346701B2 (en) 2002-08-30 2008-03-18 Broadcom Corporation System and method for TCP offload
US7313623B2 (en) 2002-08-30 2007-12-25 Broadcom Corporation System and method for TCP/IP offload independent of bandwidth delay product
US8180928B2 (en) 2002-08-30 2012-05-15 Broadcom Corporation Method and system for supporting read operations with CRC for iSCSI and iSCSI chimney
US7493513B2 (en) * 2003-04-29 2009-02-17 International Business Machines Corporation Automatically freezing functionality of a computing entity responsive to an error
JP4374310B2 (ja) * 2004-12-01 2009-12-02 株式会社島精機製作所 編地の編成方法
US7660912B2 (en) * 2006-10-18 2010-02-09 International Business Machines Corporation I/O adapter LPAR isolation in a hypertransport environment
US20080148109A1 (en) * 2006-12-18 2008-06-19 Bashor Paul D Implicating multiple possible problematic components within a computer system using indicator light diagnostics
EP2161877B1 (en) * 2008-09-04 2012-01-25 Alcatel Lucent Device and method for automatically determining a network element for replacing a failing network element
JP5522178B2 (ja) 2009-12-07 2014-06-18 富士通株式会社 情報システム
US8683108B2 (en) 2010-06-23 2014-03-25 International Business Machines Corporation Connected input/output hub management
US8549182B2 (en) 2010-06-23 2013-10-01 International Business Machines Corporation Store/store block instructions for communicating with adapters
US8918573B2 (en) 2010-06-23 2014-12-23 International Business Machines Corporation Input/output (I/O) expansion response processing in a peripheral component interconnect express (PCIe) environment
US8566480B2 (en) 2010-06-23 2013-10-22 International Business Machines Corporation Load instruction for communicating with adapters
US8656228B2 (en) 2010-06-23 2014-02-18 International Business Machines Corporation Memory error isolation and recovery in a multiprocessor computer system
US8650335B2 (en) 2010-06-23 2014-02-11 International Business Machines Corporation Measurement facility for adapter functions
US8417911B2 (en) 2010-06-23 2013-04-09 International Business Machines Corporation Associating input/output device requests with memory associated with a logical partition
US8510599B2 (en) * 2010-06-23 2013-08-13 International Business Machines Corporation Managing processing associated with hardware events
US8615586B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Discovery of logical images at storage area network endpoints
US8671287B2 (en) 2010-06-23 2014-03-11 International Business Machines Corporation Redundant power supply configuration for a data center
US8645767B2 (en) * 2010-06-23 2014-02-04 International Business Machines Corporation Scalable I/O adapter function level error detection, isolation, and reporting
US8416834B2 (en) 2010-06-23 2013-04-09 International Business Machines Corporation Spread spectrum wireless communication code for data center environments
US8505032B2 (en) 2010-06-23 2013-08-06 International Business Machines Corporation Operating system notification of actions to be taken responsive to adapter events
US8615622B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Non-standard I/O adapters in a standardized I/O architecture
US8645606B2 (en) 2010-06-23 2014-02-04 International Business Machines Corporation Upbound input/output expansion request and response processing in a PCIe architecture
US8745292B2 (en) 2010-06-23 2014-06-03 International Business Machines Corporation System and method for routing I/O expansion requests and responses in a PCIE architecture
US8615645B2 (en) 2010-06-23 2013-12-24 International Business Machines Corporation Controlling the selectively setting of operational parameters for an adapter
DE102012109669A1 (de) * 2012-10-11 2014-05-15 Rieter Ingolstadt Gmbh Textilmaschine, insbesondere Spinnmaschine oder Spulmaschine, mit einem Steuer- und Kommunikationssystem
CN103793284B (zh) * 2012-10-29 2017-06-20 伊姆西公司 基于共同序列模式的、用于智能客户服务的分析系统和方法
CN110096467B (zh) * 2019-04-18 2021-01-22 浪潮商用机器有限公司 一种获取pcie设备状态信息的方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586250A (en) * 1993-11-12 1996-12-17 Conner Peripherals, Inc. SCSI-coupled module for monitoring and controlling SCSI-coupled raid bank and bank environment
KR100244836B1 (ko) * 1995-11-02 2000-02-15 포만 제프리 엘 컴퓨터시스템 및 다수의 기능카드 중 한개의 기능카드를 격리하는 방법
US5864653A (en) * 1996-12-31 1999-01-26 Compaq Computer Corporation PCI hot spare capability for failed components
US5889965A (en) * 1997-10-01 1999-03-30 Micron Electronics, Inc. Method for the hot swap of a network adapter on a system including a dynamically loaded adapter driver

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100375043C (zh) * 2004-11-17 2008-03-12 国际商业机器公司 用于部署计算基础设施的方法和数据存储设备

Also Published As

Publication number Publication date
SG100721A1 (en) 2003-12-26
US6658599B1 (en) 2003-12-02
IL141964A0 (en) 2002-03-10
CN1330319A (zh) 2002-01-09
JP3697178B2 (ja) 2005-09-21
MY128290A (en) 2007-01-31
JP2002082844A (ja) 2002-03-22

Similar Documents

Publication Publication Date Title
CN1164999C (zh) 管理数据处理系统内发生故障的适配器的方法和系统
US6651182B1 (en) Method for optimal system availability via resource recovery
KR100288020B1 (ko) 멀티플 서브시스템에서 핫 스페어 드라이브를 공유하기 위한 장치 및 방법
JP4117262B2 (ja) 故障プロセッサを置き換える方法、媒体およびシステム
US7681089B2 (en) Redundant storage controller system with enhanced failure analysis capability
US6487623B1 (en) Replacement, upgrade and/or addition of hot-pluggable components in a computer system
US7107495B2 (en) Method, system, and product for improving isolation of input/output errors in logically partitioned data processing systems
US6490690B1 (en) Method and apparatus for unix system catastrophic recovery aid
JP2004342109A (ja) 入出力ファブリックにおけるハードウェア・エラーからの自動回復
CN1702625A (zh) 保存跟踪数据的方法和装置
US7895477B2 (en) Resilience to memory errors with firmware assistance
CN100576190C (zh) 使用替代页池管理dma写入页错误的计算机实现方法和装置
US7631226B2 (en) Computer system, bus controller, and bus fault handling method used in the same computer system and bus controller
US20100268857A1 (en) Management of Redundant Physical Data Paths in a Computing System
CN1303545C (zh) 多节点系统及其硬件事件的聚集方法
JP4366336B2 (ja) 論理パーティション・データ処理システムにおいてトレース・データを管理するための方法、トレース・データを管理するための論理パーティション・データ処理システム、コンピュータにトレース・データを管理させるためのコンピュータ・プログラム、論理パーティション・データ処理システム
US7953914B2 (en) Clearing interrupts raised while performing operating system critical tasks
US6976191B2 (en) Method and apparatus for analyzing hardware errors in a logical partitioned data processing system
US8589598B2 (en) Management of redundant physical data paths in a computing system
JP2003132005A (ja) 稼働中のコンピュータシステムのコアi/0ハードウェアを取り外し及び交換するためのシステム
CN101178679B (zh) 多核系统中内存核查的方法和系统
US8195981B2 (en) Memory metadata used to handle memory errors without process termination
US7210070B2 (en) Maintenance interface unit for servicing multiprocessor systems
CN116302632A (zh) 一种放置组故障域冲突检测方法、装置以及介质
CN116466875A (zh) 用于系统中的离线修复及后续重新集成的方法和系统

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040901