CN101126994A - 数据处理装置及其模式管理装置以及模式管理方法 - Google Patents

数据处理装置及其模式管理装置以及模式管理方法 Download PDF

Info

Publication number
CN101126994A
CN101126994A CNA2007101041704A CN200710104170A CN101126994A CN 101126994 A CN101126994 A CN 101126994A CN A2007101041704 A CNA2007101041704 A CN A2007101041704A CN 200710104170 A CN200710104170 A CN 200710104170A CN 101126994 A CN101126994 A CN 101126994A
Authority
CN
China
Prior art keywords
cross bar
unit
pattern
bar switch
switches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101041704A
Other languages
English (en)
Other versions
CN101126994B (zh
Inventor
糸泽慎太郎
木下贵行
市宫淳次
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101126994A publication Critical patent/CN101126994A/zh
Application granted granted Critical
Publication of CN101126994B publication Critical patent/CN101126994B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1515Non-blocking multistage, e.g. Clos
    • H04L49/1523Parallel switch fabric planes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections

Abstract

本发明提供一种数据处理装置及其模式管理装置以及模式管理方法。在设置多个交叉开关(即交叉开关单元)用于连接合并单元(即处理单元)并且在二元化所述交叉开关的第一模式(即二元化模式)中运行所述多个交叉开关的情况下,本发明被构造为使由于多个交叉开关的其中之一发生错误而受到影响的其它交叉开关的模式设置从第一模式改变为第二模式(即一元化模式),以使所述其它交叉开关中的每个交叉开关独立运行,从而当部分系统发生错误时通过使用正常运行的部分能够继续运行系统。

Description

数据处理装置及其模式管理装置以及模式管理方法
技术领域
本发明涉及一种数据处理装置,该数据处理装置构造一种单元,能够连接设置有一个或多个中央处理单元(CPU)的系统板和用于连接外围装置的输入/输出(I/O)单元。
背景技术
近年来已看到一些计算机(即数据处理装置)被配置为能够合并多个物理分离的单元。这种单元通常包括系统板(SB)和输入输出(IO)单元,其中系统板设置有CPU和存储器,IO单元设置有诸如硬盘装置和外围部件互连(PCI)插槽的IO设备。提供这种单元的原因在于根据情况灵活地分配CPU资源和存储器资源。即,获得有效利用这些资源的优势。这种配置的计算机分别设置有一个或多个系统板和多个IO单元。交叉开关用于互连这些单元。这种配置的计算机允许分别划分为一个或多个系统端口和IO单元,作为一个独立的系统。这种可分的“独立系统”被称之为“分区”。
图1示出通过交叉开关连接多个单元的计算机的结构示意图。如图1所示,一个或多个系统板1和多个IO单元2均分别连接到两个全局地址交叉开关(下文缩写为“地址交叉开关”或“GAC”)3以及四个全局数据交叉开关(下文缩写为“数据交叉开关”或“GDX”)4。管理板(MMB)5是专用管理单元,并通过SM总线连接到每个单元1至4。
所述两个地址交叉开关3同时实现相同的请求控制,因而在硬件方面二元化地址交叉开关,这样实现了高可靠性。为方便起见,这个规范将二元化的操作模式称为“二元化模式”。设置四个数据交叉开关4的原因在于同时传送大量的数据。
顺便提及,在两个地址交叉开关3上分别标记“#0”和“#1”。因而,当仅寻址两个交叉开关3的其中之一时,“#0”和“#1”将被附在元件号码上。这种标记方法与此处其它元件地址的标记方法相同。
所述两个交叉开关3彼此同步运行。至于数据交叉开关4,两个数据交叉开关4#0和4#2、两个数据交叉开关4#1和4#3彼此分别同步运行。
诸如安装在地址交叉开关3上的存储器、缓冲器以及队列等用于存储数据和控制信息的机制被构造为增加纠错编码(ECC)或奇偶校验码。从而识别不可纠正错误的发生。所述机制还被构造为通过监控其它部分的操作来识别诸如冻结等错误的发生。在二元化模式运行期间发生错误的情况下,传统计算机被构造为响应如下描述的操作。
图2示出在地址交叉开关3#1中发生错误的情况下传统计算机的各部分所执行的过程流的流程图。接着参照图2具体描述包括交叉开关3#1的各部分的操作,其中在交叉开关3#1中已发生错误。根据图2所示的结构,所述各部分被划分为四个部分,即系统板1和IO单元2(在附图中标记为“SB/IOU”)、地址交叉开关3#0(在附图中标记为“GAC#0”)、地址交叉开关3#1(在附图中标记为“GAC#1”)以及管理板5(在附图中标记为“MMB”)。
在步骤SA1(下文标记相同),识别(即检测)到错误发生,地址交叉开关3#1分别向管理板5、每个系统板1和每个IO单元通知错误发生。在步骤SA2,地址交叉开关3#1向每个系统板1和每个IO单元2发送信号(即GAC分离信号)以请求从系统中逻辑分离地址交叉开关3#1,接着停止操作。
在步骤SC1中,在已接收到GAC分离信号之后,每个系统板1和每个IO单元2分别执行分离已发生错误的地址交叉开关3#1的操作(即处理)。在步骤SC2中,此后除了不使用所分离的地址交叉开关3#1之外继续进行相同的操作。
由于未向系统控制器通知在地址交叉开关3#1中发生错误,因此管理板5将该通知反映给系统控制器,包括使其它地址交叉开关3#0继续进行错误发生之前的相同的操作。
这样,当在二元化地址交叉开关3的其中之一发生错误时,发生错误的地址交叉开关不再被使用,从而使其从系统分离。这是考虑到保持数据的可靠性。因此,这种结构是使运行在二元化模式的地址交叉开关3在错误发生时停止运行(参照图2)。
地址交叉开关3的二元化实现了更高级的可靠性。如果错误发生在所述两个地址交叉开关3的其中之一时,通过使用另一个交叉开关3可以使系统运行。然而,另一个交叉开关3也存在错误发生的可能性。如果发生这种错误,则另一个交叉开关3由于错误发生也停止运行,从而导致系统中断。
地址交叉开关3中发生某些错误可以不必停止交叉开关3本身。多数情况下部分错误的发生只在特定的单元之间产生影响。因而,在模式设置为独立运行单元的情况下(下文称为“一元化模式”),该构造是这样的,即运行不受错误发生影响的部分,而只停止由于错误发生导致的需要停止的部分。为了实现系统更高的可用性,可想而知关注这方面并且提高抗错误性能也非常重要。
参考文献包括日本未审公开专利申请No.H09-179838和已注册的日本专利No.H07-82479。
发明内容
本发明的目的是提供一种用于提高二元化地址交叉开关的计算机(即数据处理装置)的抗错误性能的技术。
根据本发明第一方案的数据处理装置是一种使系统板和输入/输出单元能够实现为一个单元的数据处理装置,其中该系统板设置有一个或多个中央处理单元(CPU),输入/输出(IO)单元用于连接到外围设备。该数据处理装置包括:多个交叉开关,用于多个单元之间的连接并且能够在多个模式下运行;以及模式改变单元,在二元化交叉开关的第一模式中运行多个交叉开关的情况下,使由于多个交叉开关中的一个交叉开关发生错误而受到影响的另一交叉开关的模式设置从第一模式改变为独立运行一个交叉开关的第二模式。
该模式改变单元优选被构造为从多个交叉开关中已发生错误的交叉开关接收错误通知信号,该错误通知信号用于通知错误发生,并且向其它交叉开关发送设置信号,该设置信号用于从第一模式改变为第二模式,从而改变其它交叉开关的模式。
该模式改变单元也优选被构造为使多个交叉开关中已发生错误的交叉开关向其它交叉开关发送通知错误发生的信号,从而实现其它交叉开关的模式改变。
根据本发明第二方案的数据处理装置,包括:多个处理单元,每个处理单元设置有处理部件;二元化的多个交叉开关单元,其分别连接到多个处理单元,并介入多个处理单元之间的数据传输,并且在所述二元化多个交叉开关单元中运行模式在二元化模式与一元化模式之间变化;以及模式改变单元,用于向其它交叉开关单元发送指令,从而使运行模式从二元化模式改变为一元化模式。
提出根据本发明的模式管理装置以使其设置在数据处理装置中,该数据处理装置使系统板和输入/输出(IO)单元能够实现为一个单元,其中系统板设置有一个或多个中央处理单元(CPU),IO单元用于连接到外围设备。该模式管理装置包括:发送/接收单元,用于多个单元之间的连接并且能够分别向运行在多个模式的多个交叉开关发送以及从运行在多个模式的多个交叉开关接收信号;以及模式控制单元,用于使发送/接收单元发送设置信号,以使受到错误影响的另一交叉开关的模式设置从第一模式改变为独立地运行交叉开关的第二模式,因而如果发送/接收单元从多个交叉开关的其中之一接收到通知错误发生的错误通知信号,则改变其它交叉开关的模式,其中所述多个交叉开关已运行在二元化交叉开关的第一模式中。
根据本发明的模式管理方法是一种通过数据处理装置而用于交叉开关的模式管理的方法,其中交叉开关用于连接多个单元,该数据处理装置使系统板和输入/输出(IO)单元能够实现为一个单元,其中该系统板设置有一个或多个中央处理单元(CPU),IO单元用于连接到外围设备。该模式管理方法包括:设置多个交叉开关,以在多个单元之间进行连接并且在二元化交叉开关的第一模式运行所述多个单元;使由于多个交叉开关中的一个交叉开关发生错误而受到影响的另一交叉开关的模式设置从第一模式改变为独立运行每个交叉开关的第二模式。
设计本发明以在设置多个交叉开关(即交叉开关单元)来连接合并单元(即处理单元)并且在二元化交叉开关的第一模式(即二元化模式)中运行多个交叉开关的情况下,使由于多个交叉开关中的一个交叉开关发生错误而受到影响的其它交叉开关的模式设置从第一模式改变为独立运行每个交叉开关的第二模式(即一元化模式)。
在第一模式中,从数据可靠性的观点出发使已发生错误的交叉开关停止运行。在第二模式,仅使要停止运行的部分停止运行。因而,由于在另一交叉开关中发生错误,而使未发生错误的交叉开关的模式从第一模式变为第二模式,因此即使系统的一部分发生错误,也能够通过使用正常运行的部分来运行系统。这种结构能够提高抗错误性能并且实现系统更高的可用性。
附图说明
图1示出计算机的结构示意图,其中通过使用交叉开关将多个单元连接到该计算机;
图2示出当在地址交叉开关3#1中发生错误时由传统计算机执行的过程流的流程图;
图3示出根据本实施例的数据处理装置(即计算机)的结构示意图;
图4示出系统板10和IO单元20的结构实例的示意图;
图5示出错误发生时发送信号和接收信号的示意图;
图6示出地址交叉开关30的结构示意图;
图7示出当在地址交叉开关30#1中发生错误时由每个部件执行的过程流的流程图;
图8示出对受模式设置和错误发生影响的错误的响应示意图;
图9示出在未发生错误的地址交叉开关30(部分1)中实现模式改变的另一方法的示意图;以及
图10示出在未发生错误的地址交叉开关30(部分2)中实现模式改变的又一方法的示意图。
具体实施方式
参照附图以下详细描述本发明的优选实施例。
图3示出根据本实施例的数据处理装置(即计算机)的结构示意图。如图3所示,一个或多个系统板10和IO单元20均分别连接到两个全局地址交叉开关(下文缩写为“地址交叉开关”或“GAC”)30以及四个全局数据交叉开关(下文缩写为“数据交叉开关”或“GDX”)40。管理板(MMB)50是专用管理单元,其通过SM总线连接到每个单元10至40。
所述两个地址交叉开关30被二元化并且所述两个地址交叉开关30同时进行相同的请求控制,从而实现高可靠性。设置四个数据交叉开关40的原因在于通常同时传送大量的数据。所述两个地址交叉开关30彼此同步运行。至于所述数据交叉开关40,其中两个数据交叉开关40#0和40#2、两个数据交叉开关40#1和40#3彼此分别同步运行。
图4示出系统板10和IO单元20的结构实例的示意图。
系统板10包括四个CPU101、两个固件中心(FWH)、北桥103、四个存储器开关(在附图中标记为“Mem开关”)104以及连接到各个存储器开关104的多片存储器105。另一方面IO单元包括:南桥201;PCI设备,连接到两个SER 202和PCI端口,其中所述两个SER 202和PCI端口连接到南桥;ICH6 203,连接到每个SER202和南桥201;以及六个控制器211,通过216连接到每个ICH6 203。ICH6 203是I/O控制器中心。在图4中示出的实例是通过216的控制器211,并且其类型和数目是任意的。控制器211的类型和数目可以由IO单元20的单元任意确定。
IO单元20的南桥201分别连接到两个地址交叉开关30和四个数据交叉开关40。南桥201通过SER 202和ICH6 203控制通过216的各个控制器211。如果例如存在从PCI发送的写数据,则从南桥201向地址交叉开关30发送请求。通过数据交叉开关40从系统板10接收发送的数据,所述数据通过SER 202和ICH6被发送到控制器和PCI,从而使数据被储存、输出或发送。
安装在系统板10上的四个CPU 101均设有处理部件,其向北桥103发出读/写命令,用于从/向存储器105、另一系统板1b0或IO单元20读取/写入命令。北桥103一旦存储了从各个CPU 101输入的命令,便根据优先级顺序选择其中一个、将所选择的命令作为请求(即地址请求)发出并将该请求分别输出到地址交叉开关30和四个存储器开关104。
通过数据交叉开关40发送的数据在存储器开关104接收到,所述数据被输出到北桥103并且通过北桥103移交到需要数据的CPU 101。要被发送到其它系统板10或者IO单元20的数据被发送并且通过存储器开关104被传送到数据交叉开关40。
诸如存储器、缓冲器以及队列等装置中增加纠错编码(ECC)或奇偶检验误差,其中所述存储器、缓冲器以及队列被合并到地址交叉开关30中用于存储数据和控制信息。该结构是这样的,即通过增加纠错编码(ECC)或奇偶校验码来识别不可纠正错误的发生。该结构还通过监控其它部分的操作来识别诸如冻结等错误的发生。当在二元化模式的操作期间发生错误时本实施例被构造为对如下情况作出响应。因此接下来参照图5至图8描述这个方案。
图5示出发生错误时发送信号和接收信号的示意图。图5示出在地址交叉开关30#1中发生错误的情况。因此以下描述是假设在地址交叉开关30#1中发生错误的情况。
已发生错误的地址交叉开关30#1向管理板50发送错误通知信号S1,以通知该事件,并且向每个系统板10和每个IO单元20发送GAC#1分离信号S2,以请求将地址交叉开关30#1自身从系统中分离出来。
发送给管理板50的作为错误通知信号S1的信息被存储在寄存器52中。通过寄存器52中存储的信息已证实地址交叉开关30#1中发生错误。管理板50的控制单元51生成设置信号S4并将其发送到未发生错误的地址交叉开关30#0,从而将地址交叉开关30#0的模式从用于二元化的二元化模式变化为使其独立运行的一元化模式。在已接收到信号S4之后,地址交叉开关30#0相应地在一元化模式下运行。
图8示出对受模式设置和错误发生影响的错误的响应示意图。
如图8所示,除非影响整个系统的错误发生,否则不会使运行在一元化模式中的地址交叉开关30停止运行。如果发生的错误未影响到整个系统,则仅使与受到错误影响的分区相关的部分停止运行(即关闭),而使其它部分继续运行。如果影响整个系统的错误发生,则地址交叉开关30向管理板50报告该事件,从而停止整个运行。这种结构避免了不必要的运行中断,使能够处理的分区继续进行处理。通过管理板50控制包括不能处理的分区的单元10或单元20的中断(即关闭)。
另外,在地址交叉开关30运行在二元化模式时,不考虑受到错误影响的范围而使整个运行停止。因此,与未发生错误的地址交叉开关30运行在二元化模式中的情况相比,抗错误性能提高,从而能够实现系统更高的可用性。
图6示出地址交叉开关30的结构示意图。
如图6所示,地址交叉开关30内部设置有LSI31,在该LSI31中合并有配置设置寄存器32、多个控制单元33、错误寄存器34以及错误处理单元35。该配置设置寄存器32是进行各种设置变化的寄存器,通过重写存储的内容实现所述设置变化。各个控制单元33用于实现各个对应单元之间的通信并且设置有诸如多个错误检测功能元件、调解电路以及通信电路等,其中调解电路用于选择从各个单元10和单元20发出的请求的其中之一,通信电路用于实现多个单元之间的通信。由错误检测功能元件检测到的错误的相关信息被存储在错误寄存器34中。基于错误寄存器34中存储的信息错误处理单元35进行响应错误发生的处理。处理的执行实现了错误通知信号S1的发送,以及向各个单元10和单元20发送请求分离的分离指令信号S2,其中该错误通知信号S1用于通知错误管理板50发生错误。
分离指令信号S2被发送到设置在各个单元10和单元20中的LSI 11和LSI 21。例如在如图4所示的结构中LSI 11和LSI 21分别对应于北桥103和南桥201。接收该分离指令信号S2的所述LSI 11和LSI 21导致分离已接收到该分离指令信号S2的地址交叉开关30。
图7示出当在地址交叉开关30#1中发生错误时每个部分执行的过程流的流程图。参照图7接下来对包括已发生错误的交叉开关30#1的每个部分的操作进行具体描述。与图2中的情况类似,各部分被划分为四个部分,即系统板10和IO单元20(在附图中标记为“SB/IOU”)、地址交叉开关30#0(在附图中标记为“GAC#0”)、地址交叉开关30#1(在附图中标记为“GAC#1”)30以及管理板50(在附图中标记为“MMB”)。
在步骤SA11,当任何一个控制单元33识别(即检测)出错误发生时,地址交叉开关30#1向管理板50发送错误通知信号S1,并且错误处理单元35向地址交叉开关30#1中的每个系统板10和每个IO单元20发送错误分离指令信号S2(在附图中标记为“GAC分离信号”)。接着在步骤SA12停止操作。
在步骤SC11,响应于接收GAC#1分离指令信号S2,设置在各个单元10和单元20中的LSI 11和LSI 21进行操作(即处理)以从系统中分离地址交叉开关30#1。之后在步骤SC 12除了不使用分离的地址交叉开关30#1之外继续进行相同的操作。
在步骤SD11,当控制单元52通过寄存器52接收到错误通知信号S1时,管理板50确定未发生错误的地址交叉开关30#0的模式设置从二元化模式改变为一元化模式,并生成用于改变的设置信号S4且将其发送到地址交叉开关30#0。
在步骤SB11,发送到地址交叉开关30#0的设置信号S4被存储到配置设置寄存器32中,从而每个控制单元参照其中的内容并且将模式设置从二元化模式改变为一元化模式。由此,其后在步骤SB12,每个控制单元在一元化模式下继续运行。
注意这样构造本实施例,即由于管理板50能够与各个单元10至40进行通信,因此如果错误发生在其中一个二元化的地址交叉开关30中,则管理板50实现另一交叉开关30的模式改变。即,在具体的变化被抑制时管理板50能够响应。然而,这种模式变化也可以通过不使用管理板50的方法实现。可以以如下方式构造实例:使能够在两个地址交叉开关30之间进行信号的发送和接收,从而已发生错误的地址交叉开关30(这里即地址交叉开关30#1)向其它地址交叉开关30(这里即地址交叉开关30#0)发送错误发生通知信号S11,因而已接收到信号S11的地址交叉开关30如图9所示。可选的构造可以以如下方式实现:例如已接收到分离指令信号S2的系统板10向未发送指令信号S2的正常地址交叉开关30发送信号21,用于通知在另一地址交叉开关30中发生错误,从而实现如图10所示的模式变化。例如系统板10或IO单元20可以被预先设定优先级顺序,从而从正常运行的单元中选择最高的优先级顺序,其中信号S21被发送到所述系统板10或IO单元20。可以设置用于地址交叉开关30的模式变化的专用单元,从而通过专用单元实现模式变化。
同时,虽然本实施例被构造为二元化地址交叉开关30;然而,可以想象采用三元化或者多元化。例如在采用多元化的情况下,不能在多于二元(例如三元、四元)化的模式下运行的条件下,只需要执行未发生错误的地址交叉开关的模式改变。通过地址交叉开关30互连的单元不限于系统板20或者IO单元20。类别和组合可以任意改变。

Claims (6)

1.一种数据处理装置,使系统板和输入/输出单元能够实现为一个单元,其中该系统板设置有一个或多个中央处理单元,该输入/输出单元连接到外围设备,该数据处理装置包括:
多个交叉开关,用于连接在所述单元之间并且可运行在多个模式下;以及
模式改变单元,其在二元化所述多个交叉开关的第一模式中运行所述多个交叉开关的情况下,使由于所述多个交叉开关中的一个交叉开关发生错误而受到影响的其它交叉开关的模式设置从第一模式改变为独立运行一个交叉开关的第二模式。
2.如权利要求1所述的数据处理装置,其中
所述模式改变单元从所述多个交叉开关中已发生错误的交叉开关接收用以通知错误发生的错误通知信号,并且向其它交叉开关发送用于使所述第一模式改变为所述第二模式的设置信号,从而改变其它交叉开关的模式。
3.如权利要求1所述的数据处理装置,其中
通过所述多个交叉开关中已发生错误的交叉开关向其它交叉开关发送通知错误发生的信号,并使其它交叉开关进行模式改变,来实现所述模式改变单元。
4.一种模式管理装置,设置在数据处理装置中,该数据处理装置使系统板和输入/输出单元能够实现为一个单元,其中该系统板设置有一个或多个中央处理单元,该输入/输出单元用于连接到外围设备,该模式管理装置包括:
发送/接收单元,用于连接在所述单元之间,并且能够分别向/从可运行在多个模式下的多个交叉开关发送/接收信号;以及
模式控制单元,用于使该发送/接收单元发送设置信号,以使由于所述多个交叉开关中的一个交叉开关发生错误而受到影响的其它交叉开关的模式设置从用以二元化交叉开关的第一模式改变为用以独立地运行交叉开关的第二模式,从而在该发送/接收单元从所述多个交叉开关的其中之一接收到通知错误发生的错误通知信号时,改变其它交叉开关的模式。
5.一种通过数据处理装置来对交叉开关进行模式管理的方法,所述交叉开关用于连接多个单元,所述数据处理装置使系统板和输入/输出单元能够实现为一个单元,其中该系统板设置有一个或多个中央处理单元,该输入/输出单元连接到外围设备,该方法包括如下步骤:
设置多个交叉开关,用于连接在所述多个单元之间,并且在二元化所述多个交叉开关的第一模式下运行所述多个单元;以及
使由于所述多个交叉开关的其中之一发生错误而受到影响的其它交叉开关的模式设置从所述第一模式改变为用以使每个交叉开关独立地运行的第二模式。
6.一种数据处理装置,该装置包括:
多个处理单元,每个处理单元设置有处理部件;
二元化的多个交叉开关单元,其分别连接到所述多个处理单元,所述多个交叉开关单元介入所述多个处理单元之间的数据传输,并且所述多个交叉开关单元的运行模式在二元化模式与一元化模式之间变化;以及
模式改变单元,用于向由于所述多个交叉开关单元中的一个交叉开关单元发生错误而受到影响的其它交叉开关单元发送指令,使运行模式从所述二元化模式改变为所述一元化模式。
CN2007101041704A 2006-08-18 2007-05-21 数据处理装置及其模式管理装置以及模式管理方法 Expired - Fee Related CN101126994B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006223663 2006-08-18
JP2006223663A JP4755050B2 (ja) 2006-08-18 2006-08-18 データ処理装置、モード管理装置、及びモード管理方法
JP2006-223663 2006-08-18

Publications (2)

Publication Number Publication Date
CN101126994A true CN101126994A (zh) 2008-02-20
CN101126994B CN101126994B (zh) 2010-08-18

Family

ID=38669390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101041704A Expired - Fee Related CN101126994B (zh) 2006-08-18 2007-05-21 数据处理装置及其模式管理装置以及模式管理方法

Country Status (6)

Country Link
US (1) US7823027B2 (zh)
EP (1) EP1890439B1 (zh)
JP (1) JP4755050B2 (zh)
KR (1) KR100936203B1 (zh)
CN (1) CN101126994B (zh)
DE (1) DE602007002956D1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5348248B2 (ja) * 2009-09-25 2013-11-20 富士通株式会社 メモリシステム及びメモリシステムの制御方法
WO2012032653A1 (ja) 2010-09-10 2012-03-15 富士通株式会社 処理システム,通信装置および処理装置
KR101250881B1 (ko) * 2011-04-07 2013-04-04 주식회사 넥스알 클라우드 컴퓨팅의 블럭 스토리지 서비스의 데이터 이중화 방법
EP2866147B1 (en) 2012-06-25 2016-08-31 Fujitsu Limited Information processing device and method for detecting failure of information processing device
KR102210408B1 (ko) * 2014-03-26 2021-01-29 에스케이텔레콤 주식회사 가상화 서버의 이중화를 위한 제어 방법 및 이를 위한 가상화 제어 장치
US9501222B2 (en) 2014-05-09 2016-11-22 Micron Technology, Inc. Protection zones in virtualized physical addresses for reconfigurable memory systems using a memory abstraction

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US4644353A (en) * 1985-06-17 1987-02-17 Intersil, Inc. Programmable interface
JPH06509919A (ja) * 1991-08-05 1994-11-02 ハネウエル・インコーポレーテッド 基準化可能自己ルート割当ノンブロッキングメッセージ交換及びルート割当システムの戻りネットワークを伴うクロスバー
JP2529081B2 (ja) 1993-09-01 1996-08-28 財団法人工業技術研究院 耐酸化性ポリフェニレンスルフィド系組成物の製造法
US5754865A (en) 1995-12-18 1998-05-19 International Business Machines Corporation Logical address bus architecture for multiple processor systems
US6195351B1 (en) 1998-01-28 2001-02-27 3Com Corporation Logical switch set
EP0961442B1 (en) * 1998-05-29 2004-09-29 International Business Machines Corporation Switching architecture comprising two switch fabrics
JP3729694B2 (ja) * 1999-10-29 2005-12-21 富士通株式会社 Adslモデム
JP2001256203A (ja) * 2000-03-09 2001-09-21 Nec Corp 冗長構成クロスバスイッチシステム
CA2347556A1 (en) * 2001-05-10 2002-11-10 Bombardier Inc. Unknown
US6898728B2 (en) * 2001-09-25 2005-05-24 Sun Microsystems, Inc. System domain targeted, configurable interconnection
US6871294B2 (en) * 2001-09-25 2005-03-22 Sun Microsystems, Inc. Dynamically reconfigurable interconnection
JP2005196683A (ja) * 2004-01-09 2005-07-21 Hitachi Ltd 情報処理システム、情報処理装置、及び情報処理システムの制御方法
JP2005267502A (ja) * 2004-03-22 2005-09-29 Hitachi Ltd データ転送用スイッチ
US7290169B2 (en) * 2004-04-06 2007-10-30 Hewlett-Packard Development Company, L.P. Core-level processor lockstepping
JP3988146B2 (ja) * 2004-07-27 2007-10-10 日本電気株式会社 マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム
KR100603599B1 (ko) * 2004-11-25 2006-07-24 한국전자통신연구원 이중화된 스위치 보드의 이중화 제어장치 및 그 방법

Also Published As

Publication number Publication date
DE602007002956D1 (de) 2009-12-10
JP4755050B2 (ja) 2011-08-24
EP1890439A1 (en) 2008-02-20
EP1890439B1 (en) 2009-10-28
US20080046629A1 (en) 2008-02-21
US7823027B2 (en) 2010-10-26
KR20080016438A (ko) 2008-02-21
CN101126994B (zh) 2010-08-18
JP2008046996A (ja) 2008-02-28
KR100936203B1 (ko) 2010-01-11

Similar Documents

Publication Publication Date Title
CN101126994B (zh) 数据处理装置及其模式管理装置以及模式管理方法
CN101198943B (zh) 点到点链路协商方法和装置
CN101663649B (zh) 动态地重新路由并行计算机系统上的节点业务
CN101589370B (zh) 一种并行计算机系统以及在其上进行故障恢复的方法
CN101207408A (zh) 一种用于主备倒换的综合故障检测装置和方法
AU2005246993A1 (en) Computer system and method for dealing with errors
JP2004062535A (ja) マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
WO2008128837A1 (en) Fault recovery on a parallel computer system with a torus network
US6985482B2 (en) Cross-bar switch system with redundancy
US7073088B2 (en) Data bus arrangement and control method for efficiently compensating for faulty signal lines
US20040059862A1 (en) Method and apparatus for providing redundant bus control
JP6429188B2 (ja) 中継装置
CN100392607C (zh) 故障通知方法
JP2006039897A (ja) マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム
KR102033112B1 (ko) Pci 익스프레스 스위치 장치 및 그의 접속 제어 방법
US7656789B2 (en) Method, system and storage medium for redundant input/output access
US6330694B1 (en) Fault tolerant system and method utilizing the peripheral components interconnection bus monitoring card
CN103443774A (zh) 信息处理装置和控制方法
CN104933001A (zh) 一种基于RapidIO技术的双控制器数据通信方法
US7836335B2 (en) Cost-reduced redundant service processor configuration
EP1988469B1 (en) Error control device
EP0800675B1 (en) Bus arrangement related to a magazine
CN110928217A (zh) 一种应用于航空电热控制系统的cpu三余度表决电路
JP2000222294A (ja) 計算機システム及びバス障害回復方法
TWI782305B (zh) 伺服系統

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100818

Termination date: 20180521

CF01 Termination of patent right due to non-payment of annual fee