DE19509363A1 - Parallelprozessorsystem und Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren - Google Patents

Parallelprozessorsystem und Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren

Info

Publication number
DE19509363A1
DE19509363A1 DE19509363A DE19509363A DE19509363A1 DE 19509363 A1 DE19509363 A1 DE 19509363A1 DE 19509363 A DE19509363 A DE 19509363A DE 19509363 A DE19509363 A DE 19509363A DE 19509363 A1 DE19509363 A1 DE 19509363A1
Authority
DE
Germany
Prior art keywords
processor
processors
group
processor group
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19509363A
Other languages
English (en)
Other versions
DE19509363C2 (de
Inventor
Mitsuyoshi Takizawa
Akinori Minamisawa
Yasushi Meguro
Natsuro Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information Systems Ltd
Hitachi System Engineering Ltd
Original Assignee
Hitachi Ltd
Hitachi System Engineering Ltd
Hitachi Information Network Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi System Engineering Ltd, Hitachi Information Network Ltd filed Critical Hitachi Ltd
Publication of DE19509363A1 publication Critical patent/DE19509363A1/de
Application granted granted Critical
Publication of DE19509363C2 publication Critical patent/DE19509363C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Description

Die vorliegende Erfindung betrifft das Gebiet der Paral­ lelprozessorsysteme, die eine Hauptprozessorgruppe mit Hauptprozessoren oder in Betrieb befindlichen Prozessoren sowie eine Ersatzprozessorgruppe mit Ersatzprozessoren oder in Bereitschaft befindlichen Prozessoren enthalten, und insbesondere ein Parallelprozessorsystem und ein Umschaltsteuerverfahren für das Parallelprozessorsystem, mit dem das Umschalten von der Hauptprozessorgruppe zur Ersatzprozessorgruppe gesteuert wird, wenn in einem oder mehreren Prozessoren der Hauptprozessorgruppe Fehler auftreten.
Wenn in einem herkömmlichen Parallelprozessorsystem wäh­ rend der Abarbeitung eines Auftrags in einem Prozessor oder in einigen Prozessoren Fehler auftreten, werden der oder die fehlerhaften Prozessoren von der laufenden Sy­ stemkonfiguration abgekoppelt, so daß die Auftragsverar­ beitung durch die verbleibenden Prozessoren unter schlechteren Bedingungen erfolgt. In dem Systembetrieb unter schlechteren Bedingungen ist jedoch die Anzahl der zur Verfügung stehenden Prozessoren reduziert, so daß die Auftragsverarbeitungsleistung im gesamten Parallelprozes­ sorsystem abgesenkt ist. In einigen Fällen führt dies möglicherweise dazu, daß einige Aufträge nicht ausgeführt werden können.
Um diese nachteilige Ereignis zu vermeiden, ist in der JP 3-132861-A eine Technik offenbart, in der mehrere Prozessoren, die ein Parallelprozessorsystem bilden, in Blöcke gruppiert sind, wovon jeder einzelne Prozessoren enthält, derart, daß ein Prozessor oder einige Prozesso­ ren (deren Anzahl kleiner als diejenige der Prozessoren der relevanten Gruppe ist) als Ersatzprozessoren der Gruppe bestimmt sind. Wenn ein Prozessor in einem Block ausfällt, wird dieser Prozessor durch den Ersatzprozessor ersetzt, der somit im voraus hierzu vorgesehen worden ist.
Darüber hinaus ist eine Technik bekannt, in der das Pa­ rallelprozessorsystem eine Gruppe von Hauptprozessoren, die gewöhnlich Auftragsverarbeitungen aus führen, sowie eine Gruppe von Ersatzprozessoren enthält, deren Anzahl gleich derjenigen der Hauptprozessoren ist. Wenn in einem Prozessor der Hauptprozessorgruppe ein Fehler auftritt, wird eine Umschaltoperation ausgeführt, um die Hauptpro­ zessorgruppe durch die Ersatzprozessorgruppe zu ersetzen, um so die Auftragsverarbeitung ohne Unterbrechung auszu­ führen.
Wenn in diesen beiden Techniken ein Prozessor ausfällt, wird ein Ersatzprozessor bzw. eine Ersatzprozessorgruppe verwendet, um die Auftragsverarbeitung fortzusetzen. Folglich wird die Anzahl der für die Ausführung der Ver­ arbeitung zur Verfügung stehenden Prozessoren nicht abge­ senkt, so daß die Gesamtverarbeitungsleistung des Paral­ lelprozessorsystems unverändert erhalten bleibt.
Wenn in der obigen ersten Technik die Anzahl der ausge­ fallenen Prozessoren die Anzahl der Ersatzprozessoren der relevanten Prozessorgruppe übersteigt, wird im Ergebnis die Anzahl der Prozessoren, die tatsächlich die Verarbei­ tung ausführen, im Vergleich zu der Anzahl der im Normal­ zustand zur Verfügung stehenden Prozessoren abgesenkt. Dies führt zu dem Problem einer Verschlechterung der Verarbeitungsleistung des gesamten Parallelprozessor­ systems.
Andererseits wird in der obigen zweiten Technik selbst dann, wenn in mehreren Prozessoren ein Fehler auftritt, die Anzahl der zur Verfügung stehenden Prozessoren nicht abgesenkt. Wenn jedoch nur ein einziger Prozessor aus­ fällt, wird die gesamte Hauptprozessorgruppe durch die Ersatzprozessorgruppe ersetzt. Obwohl daher beispielswei­ se im Hinblick auf die Auftragsverarbeitungskapazität der Auftrag in jedem Fall durch die verbleibenden Prozessoren zufriedenstellend ausgeführt werden kann, besteht der Nachteil, daß stets eine Umschaltoperation von der Haupt­ prozessorgruppe zur Ersatzprozessorgruppe erfolgt, so daß das Problem entsteht, daß häufig unnötige Umschaltopera­ tionen ausgeführt werden.
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren zum Umschalten zwischen Gruppen von Parallel­ prozessoren zu schaffen, bei dem dann, wenn ein Prozessor oder mehrere Prozessoren im Parallelprozessorsystem aus­ fallen, die Hauptprozessorgruppe effizient, d. h. je nach Umfang der Auftragsverarbeitung durch die Ersatzprozes­ sorgruppe ersetzt wird, wodurch unnötige Umschaltopera­ tionen von der Hauptprozessorgruppe zur Ersatzprozessor­ gruppe vermieden werden.
Es ist eine zweite Aufgabe der vorliegenden Erfindung, ein Parallelprozessorsystem zu schaffen, in dem selbst dann, wenn ein Prozessor oder mehrere Prozessoren während einer Auftragsverarbeitung im Parallelprozessorsystem ausfallen, der Auftrag ohne Unterbrechung mit einer aus­ reichenden Verarbeitungsleistung, die dem Umfang der Auftragsverarbeitung entspricht, ausgeführt werden kann.
Die erste Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zum Umschalten zwischen Gruppen von Parallel­ prozessoren, das die im Anspruch 1 angegebenen Merkmale besitzt. Die zweite Aufgabe wird erfindungsgemäß gelöst durch ein Parallelprozessorsystem, das die im Anspruch 9 angegebenen Merkmale besitzt.
Der weitere unabhängige Anspruch und die abhängigen An­ sprüche sind auf bevorzugte Ausführungsformen der vorlie­ genden Erfindung gerichtet.
In dem erfindungsgemäßen Verfahren zum Umschalten zwi­ schen Gruppen von Parallelprozessoren in einem Parallel­ prozessorsystem, das eine Hauptprozessorgruppe mit mehre­ ren Prozessoren und einem die Prozessoren miteinander verbindenden Netz und eine Ersatzprozessorgruppe mit der gleichen Konfiguration wie die Hauptprozessorgruppe ent­ hält, wird ein Prozessorsteuerabschnitt im Parallel­ prozessorsystem so angeordnet, daß eine Umschaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe ausgeführt werden kann, wird ein Überwachungsprozessor für jede der Prozessorgruppen vorgesehen und wird für den Prozessorsteuerabschnitt ein Fehlprozessorverhältnis festgelegt, das einen Referenzwert des Verhältnisses der ausgefallenen Prozessoren in der Hauptprozessorgruppe angibt, wobei das Verhältnis entsprechend dem Umfang der Auftragsverarbeitung bestimmt wird. Wenn der Prozessor­ steuerabschnitt vom Überwachungsprozessor in der Haupt­ prozessorgruppe eine Meldung hinsichtlich des Ausfalls eines Prozessors empfängt, berechnet er das Verhältnis der in der Hauptprozessorgruppe im relevanten Zeitpunkt ausgefallenen Prozessoren. Wenn das Verhältnis gleich oder größer als das Fehlprozessorverhältnis ist, wird eine Umschaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe ausgeführt.
Das erfindungsgemäße Parallelprozessorsystem enthält eine Hauptprozessorgruppe mit mehreren Prozessoren und einem diese Prozessoren miteinander verbindenden Netz und eine Ersatzprozessorgruppe mit dergleichen Konfiguration wie die Hauptprozessorgruppe. Jede Prozessorgruppe enthält einen Überwachungsprozessor, der die Verarbeitungsinfor­ mation jedes Prozessors der relevanten Prozessorgruppe steuert und Fehler erfaßt und meldet, die in einem Pro­ zessor hiervon aufgetreten sind. Das System enthält fer­ ner einen Prozessorsteuerabschnitt, der eine Umschaltope­ ration zwischen der Haupt- und der Ersatzprozessorgruppe ausführt. Der Prozessorsteuerabschnitt enthält eine Zeit­ plantabelle, in der das bestimmte Fehlprozessorverhältnis entsprechend dem (eventuell zeitabhängigen) Umfang der Auftragsverarbeitung festgelegt ist, sowie einen Um­ schaltsteuerabschnitt, der bei Empfang einer Meldung hinsichtlich des Auftretens eines Fehlers vom Überwa­ chungsprozessor der Hauptprozessorgruppe ein Verhältnis der ausgefallenen Prozessoren in der Hauptprozessorgruppe im relevanten Zeitpunkt berechnet, um das Verhältnis mit dem in der Zeitplantabelle festgelegten Fehlprozessorver­ hältnis zu vergleichen. Der Umschaltsteuerabschnitt führt eine Umschaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe aus, wenn das obige Verhältnis gleich oder größer als das Fehlprozessorverhältnis ist. Darüber hinaus ist eine mit dem Prozessorsteuerabschnitt verbundene Bedienerkonsole vorgesehen, mit der das Fehl­ prozessorverhältnis in der Zeitplantabelle von außen beliebig festgelegt werden kann.
Gemäß der vorliegenden Erfindung wird die Umschaltopera­ tion von der Hauptprozessorgruppe zur Ersatzprozessor­ gruppe auf der Grundlage des Fehlprozessorverhältnisses ausgeführt, das entsprechend dem Auftragsverarbeitungsum­ fang bestimmt ist. Daher wird in dem Fall, in dem in einem Prozessor der Hauptprozessorgruppe ein Fehler auf­ tritt und der Auftrag durch die verbleibenden Prozessoren der Hauptprozessorgruppe zufriedenstellend ausgeführt werden kann, die Auftragsverarbeitung ohne Unterbrechung ausgeführt. Wenn das Verhältnis der ausgefallenen Prozes­ soren das Fehlprozessorverhältnis erreicht, wird die Hauptprozessorgruppe durch die Ersatzprozessorgruppe ersetzt. Daher kann die Schaltoperation zwischen der Haupt- und der Ersatzprozessorgruppe effizient ausgeführt werden, wobei die Verarbeitungsleistung jedes Prozessors effizient genutzt wird und die Auftragsverarbeitung mit ausreichender Verarbeitungsleistung erfolgen kann.
Weitere Aufgaben, Merkmale und Vorteile der Erfindung werden deutlich beim Lesen der folgenden Beschreibung bevorzugter Ausführungsformen, die auf die Zeichnungen Bezug nimmt; es zeigen:
Fig. 1 ein Blockschaltbild einer Ausführungsform des Parallelprozessorsystems gemäß der vorliegenden Erfindung;
Fig. 2 ein Blockschaltbild einer besonderen Struktur eines Prozessors;
Fig. 3 eine Tabelle zur Veranschaulichung der Inhalte einer Adressenzeitplantabelle, die die logischen Adressen und die damit in Beziehung stehenden physikalischen Adressen hält;
Fig. 4 eine Tabelle zur Veranschaulichung der Inhalte einer Zeitplantabelle, die die für vorgegebene Zeitpunkte festgelegten Werte des Fehlprozessor­ verhältnisses enthält;
Fig. 5 einen Graphen zur Veranschaulichung der für vor­ gegebene Zeitpunkte festgelegten Werte des Fehl­ prozessorverhältnisses;
Fig. 6 ein Flußdiagramm zur Erläuterung einer Prozessor­ gruppen-Umschaltoperation im Prozessorsteuerab­ schnitt von Fig. 1;
Fig. 7 ein Flußdiagramm zur Erläuterung der Operation des Prozessorsteuerabschnitts, wenn sich das Fehlprozessorverhältnis ändert;
Fig. 8 ein Blockschaltbild einer weiteren Ausführungs­ form des Parallelprozessorsystems gemäß der vor­ liegenden Erfindung;
Fig. 9 ein Flußdiagramm zur Erläuterung einer Prozessor­ gruppen-Umschaltoperation im Prozessorsteuerab­ schnitt von Fig. 8; und
Fig. 10 ein Flußdiagramm zur Erläuterung der Operation des Prozessorsteuerabschnitts, wenn sich die An­ zahl der fehlerhaften Prozessoren ändert.
In Fig. 1 ist ein Parallelprozessorsystem 1 gemäß der vorliegenden Erfindung gezeigt, das eine Hauptprozessor­ gruppe 10, die normalerweise eine Auftragsverarbeitung ausführt, und eine Ersatzprozessorgruppe 20 enthält, die die Hauptprozessorgruppe 10 mittels einer Umschaltopera­ tion ersetzt, wenn in einem Prozessor der Hauptprozessor­ gruppe ein Fehler auftritt, um die Auftragsverarbeitung ohne Unterbrechung auszuführen. Jede der Prozessorgruppen 10 und 20 enthält jeweils n Prozessoren 100.
Das Parallelprozessorsystem 1 enthält außerdem einen Prozessorsteuerabschnitt 30, der die Konfigurationen der Prozessorgruppen 10 und 20 sowie die Betriebszustände der jeweiligen Prozessoren 100 steuert und das Verhältnis der ausgefallenen Prozessoren in der Hauptprozessorgruppe 10 berechnet. Wenn das Verhältnis ein vorgegebenes Fehlpro­ zessorverhältnis erreicht, weist der Prozessorsteuer­ abschnitt 30 eine Umschaltoperation von der Hauptprozes­ sorgruppe 10 zur Ersatzprozessorgruppe 20 an. D.h., daß der Abschnitt 30 einen Prozessor enthält, der in erster Linie die Schaltoperation zwischen den Prozessorgruppen 10 und 20 ausführt.
Die Hauptprozessorgruppe 10 enthält einen Überwachungs­ prozessor 11, während die Ersatzprozessorgruppe 20 einen Überwachungsprozessor 21 enthält. Der Prozessorsteuerab­ schnitt 30 ist mit den Überwachungsprozessoren 11 und 21 funktional verbunden.
Wie aus Fig. 2 hervorgeht, enthält jeder der Prozessoren 100 und der Überwachungsprozessoren 11 und 21 einen Pro­ zessorabschnitt 101 für die tatsächliche Ausführung der Verarbeitung sowie einen Kommunikationssteuerabschnitt 102, der die Initialisierung und die Beendigung der Kom­ munikation mit einem Netz ausführt und logische Adressen erkennt. In den Prozessorgruppen 10 und 20 sind die Pro­ zessoren 100 und die Überwachungsprozessoren 11 und 21 miteinander jeweils über einen Netzbus 200 verbunden. Sowohl die Überwachungsprozessoren 11 und 21 als auch die Prozessoren 100 besitzen den gleichen Aufbau. Keiner der Überwachungsprozessoren 11 und 21 ist für die Auftrags­ verarbeitung zuständig. Der Überwachungsprozessor 11 oder 21 weist jedem Prozessor 100 seiner eigenen Prozessor­ gruppe eine Verarbeitung zu, steuert den Verarbeitungszu­ stand und dessen Historie, stellt das Auftreten von Feh­ lern in den Prozessoren 100 fest und meldet die Fehler dem Prozessor 100 des Prozessorsteuerabschnitts 30.
Der Prozessorsteuerabschnitt 30 enthält eine Adressen­ steuertabelle 301, in der die physikalischen Adressen 1 bis 2n der Prozessoren sowie die zugehörigen logischen Adressen 1 bis n enthalten sind, eine Zeitplantabelle 302, in der Werte des Fehlprozessorverhältnisses gesetzt sind, die entsprechend dem (zeitabhängigen) Umfang der Auftragsverarbeitung bestimmt werden, einen Zeitgeber 303, der die Zeit mißt, einen Speicherabschnitt 304, der die Inhalte der Verarbeitung von der Hauptprozessorgruppe 10 zur Ersatzprozessorgruppe 20 überträgt, und einen Umschaltsteuerabschnitt 305, der eine Schaltoperation von der Hauptprozessorgruppe 10 zur Ersatzprozessorgruppe 20 bestimmt und anweist. Wie in Fig. 3 gezeigt, hält die Adressensteuertabelle 301 die physikalischen Adressen 1 bis n der entsprechenden Prozessoren 100 in der Hauptpro­ zessorgruppe 10 sowie die physikalischen Adressen n+1 bis 2n in der Ersatzprozessorgruppe 20 sowie die Zuordnungen zwischen den physikalischen und logischen Adressen. Wie aus Fig. 4 hervorgeht, enthält die Zeitplantabelle 302 für relevante Zeitpunkte vorgegebene Werte des Fehlpro­ zessorverhältnisses.
Weiterhin ist eine Bedienerkonsole 40 vorgesehen, die mit dem Prozessorsteuerabschnitt 30 verbunden ist. Von der Konsole 40 aus kann das Fehlprozessorverhältnis von außen in der Zeitplantabelle 302 beliebig gesetzt werden.
Im folgenden wird die Operation des Parallelprozessor­ systems 1 gemäß der vorliegenden Ausführungsform der Erfindung beschrieben.
In dieser Ausführungsform wird, wie in den Fig. 4 und 5 gezeigt, angenommen, daß die Werte des Fehlprozessorver­ hältnisses, die die Schaltoperationen von der Hauptpro­ zessorgruppe 10 zur Ersatzprozessorgruppe 20 festlegen, im voraus über die Konsole 40 in der Zeitplantabelle 302 des Prozessorsteuerabschnitts 30 gesetzt worden sind. D.h., daß das Verhältnis für die Zeiträume von 0 h bis 9 h und von 17 h bis 24 h auf 50% und für den Zeitraum von 9 h bis 17 h auf 25% gesetzt ist.
Wenn als Antwort auf eine externe Verarbeitungsanforde­ rung in dem Parallelprozessorsystem 1 eine Auftragsverar­ beitung ausgeführt wird, wird zunächst die Anforderung vom Überwachungsprozessor 11 der Hauptprozessorgruppe 10 empfangen. Der Prozessor 11 teilt die empfangene Anforde­ rung in einzelne Prozesse ein, die den jeweiligen Prozes­ soren 100 der eigenen Prozessorgruppe 10 zugewiesen wer­ den.
In vorgegebenen Zeitpunkten schreibt der Überwachungspro­ zessor 11 in den Speicher 304 des Steuerabschnitts 30 Informationselemente, etwa die Zuweisung der Prozesse zu den Prozessoren 100, deren Verarbeitungszustände sowie die Verarbeitungshistorie (was im folgenden Verarbei­ tungsinformation genannt wird).
Jeder Prozessor 100 liefert an den Überwachungsprozessor 11 in festen Zeitabständen eine Nachricht, die seinen normalen Betriebszustand angibt. Wenn der Überwachungs­ prozessor 11 die Nachrichten von den Prozessoren 100 untersucht, nimmt er einen Fehler eines Prozessors an, wenn er von diesem während eines vorgegebenen Zeitabstan­ des keine Nachricht empfangen hat, und meldet an den Prozessorsteuerabschnitt 30 das Auftreten eines Fehlers des Prozessors 100.
Nun wird mit Bezug auf Fig. 6 die Operation des Prozes­ sorsteuerabschnitts 30 beschrieben, wenn er vom Überwa­ chungsprozessor 11 eine Meldung hinsichtlich des Auftre­ tens eines Fehlers in einem Prozessor 100 empfängt.
Wenn der Schaltsteuerabschnitt 305 vom Überwachungspro­ zessor eine Ausfallmeldung für den Prozessor 100 empfängt (Schritt 601), berechnet er das Verhältnis der ausgefal­ lenen Prozessoren in der Hauptprozessorgruppe 10 im rele­ vanten Zeitpunkt (Schritt 602). Die Umschaltsteuer­ einrichtung 305 vergleicht das berechnete Verhältnis mit einem Fehlprozessorverhältnis, das in der Zeitplantabelle 302 im voraus gesetzt worden ist und das einem Zeitpunkt entspricht, der vom Zeitgeber 303 angegeben wird (Schritt 603). Wenn das Verhältnis kleiner als das Fehlprozessor­ verhältnis ist, wird die Schaltoperation von der Haupt­ prozessorgruppe 10 zur Ersatzprozessorgruppe 20 nicht ausgeführt. Die Schaltsteuereinrichtung 305 wartet dann auf den Empfang der nächsten Meldung vom Überwachungspro­ zessor.
Wenn der Vergleich zum Ergebnis hat, das das berechnete Verhältnis gleich oder größer als das Fehlprozessorver­ hältnis ist, wird über den Überwachungsprozessor 11 an die Kommunikationssteuereinrichtung 102 jedes Prozessors 100 der Hauptprozessorgruppe 10 die Beendigung der Kommu­ nikation gemeldet (Schritt 604). Anschließend werden unter Bezugnahme auf die Adressensteuertabelle 301 die den jeweiligen logischen Adressen 1 bis n entsprechenden physikalischen Adressen von den physikalischen Adressen der jeweiligen Prozessoren 100 der Hauptprozessorgruppe 10 in diejenigen der jeweiligen Prozessoren der Ersatz­ prozessorgruppe 20 geändert (Schritt 605). Dann werden sowohl der Kommunikationsbeginn als auch die den physika­ lischen Adressen der jeweiligen Prozessoren 100 entspre­ chenden logischen Adressen über den Überwachungsprozessor 21 an die Kommunikationssteuereinrichtung 102 jedes Pro­ zessors 100 der Ersatzprozessorgruppe 20 gemeldet (Schritt 606).
Aufgrund der Meldung vom Prozessorsteuerabschnitt 30 nimmt die Kommunikationssteuereinrichtung 102 jedes Pro­ zessors 100 die Kommunikation mit dem Netz auf und er­ kennt die durch die Anforderung bezeichneten logischen Adressen. Der Überwachungsprozessor 21 greift dann auf den Speicher 304 des Prozessorsteuerabschnitts 30 zu, um die vom Überwachungsprozessor 11 in den Speicher 304 geschriebene Verarbeitungsinformation für jeden Prozessor zu lesen. Der Überwachungsprozessor 21 empfängt die Zu­ weisung der Prozesse zu den jeweiligen Prozessoren 100 der Hauptprozessorgruppe 10, meldet die Verarbeitungs­ historie an jeden Prozessor 100 der Ersatzprozessorgruppe 20 und überträgt dann die Auftragsverarbeitungen der Prozessoren 100 von der Hauptprozessorgruppe 10 zur Er­ satzprozessorgruppe 20, woraufhin die gesamte Schaltope­ ration beendet ist.
Wenn in der obigen Ausführungsform die Meldung über den Ausfall des Prozessors 100 vom Überwachungsprozessor 11 empfangen wird, entscheidet der Prozessorsteuerabschnitt 30, ob die Umschaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe ausgeführt werden soll oder nicht. Da jedoch das Fehlprozessorverhältnis, das in der Zeitplantabelle 302 gesetzt ist, an verschiedenen Zeit­ punkten verschiedene Werte besitzt, kann das Verhältnis der ausgefallenen Prozessoren selbst dann, wenn es klei­ ner als ein für einen bestimmen Zeitpunkt relevantes Fehlprozessorverhältnis ist, ein für einen anderen Zeit­ punkt gesetztes Fehlprozessorverhältnis erreichen. Folg­ lich ist es notwendig, die Schaltoperation im obigen Fall geeignet auszuführen. Nun wird mit Bezug auf Fig. 7 die Operation des Prozessorsteuerabschnitts in einem solchen Fall beschrieben.
Jedesmal wenn der Zeitgeber 303 einen neuen Zeitpunkt angibt, führt die Schaltsteuereinrichtung 305 eine Prü­ fung aus, um zu entscheiden, ob sich in der Zeitplan­ tabelle 302 das Fehlprozessorverhältnis geändert hat (Schritt 701). In dieser Ausführungsform wird, wie aus den Fig. 4 und 5 ersichtlich ist, das Fehlprozessorver­ hältnis in zwei Zeitpunkten, nämlich um 9 h und um 17 h geändert. Wenn sich daher das Fehlprozessorverhältnis ändert (um 9 Uhr oder um 17 Uhr), vergleicht die Schalt­ steuereinrichtung 305 das Fehlprozessorverhältnis vor dem Änderungspunkt mit dem Fehlprozessorverhältnis nach dem Änderungspunkt (Schritt 702). Wenn als Ergebnis des Ver­ gleichs das vorhergehende Verhältnis kleiner ist, wird die Schaltoperation von der Hauptprozessorgruppe 10 zur Ersatzprozessorgruppe 20 nicht vorgenommen. D.h., daß die Schaltsteuereinrichtung 305 auf den Empfang einer Fehler­ meldung vom Überwachungsprozessor 11 oder auf den näch­ sten Zeitpunkt einer Änderung des Fehlprozessorverhält­ nisses wartet.
Wenn der Vergleich ergibt, daß das frühere Verhältnis vor der Änderung größer ist, wird das Verhältnis der ausge­ fallenen Prozessoren 100 im relevanten Zeitpunkt mit dem späteren Fehlprozessorverhältnis nach der Änderung ver­ glichen (Schritt 703) . Wenn der Vergleich ergibt, daß das Verhältnis der ausgefallenen Prozessoren 100 kleiner als das spätere Fehlprozessorverhältnis ist, wird die Schalt­ operation von der Hauptprozessorgruppe 10 zur Ersatz­ prozessorgruppe 20 nicht ausgeführt. Die Schaltsteuer­ einrichtung 305 wartet auf eine Fehlermeldung vom Überwa­ chungsprozessor 11 oder auf den nächsten Punkt der Ände­ rung des Fehlprozessorverhältnisses.
Wenn das frühere Verhältnis vor der Änderung sich als gleich oder größer als das spätere Fehlprozessorverhält­ nis erweist, werden Operationen ausgeführt (Schritte 704 bis 706), die den obenbeschriebenen Operationen (Schritt 604 und folgende Schritte in Fig. 6) ähnlich sind, an­ schließend wird die Umschaltoperation von der Hauptpro­ zessorgruppe 10 zur Ersatzprozessorgruppe 20 ausgeführt.
Nun wird eine weitere Ausführungsform der vorliegenden Erfindung beschrieben. In der obigen Ausführungsform wird die Schaltoperation von der Hauptprozessorgruppe 10 zur Ersatzprozessorgruppe 20 auf der Grundlage des Fehlpro­ zessorverhältnisses ausgeführt. Im Gegensatz dazu wird in der zweiten Ausführungsform die Schaltoperation entspre­ chend der Anzahl der ausgefallenen Prozessoren ausge­ führt.
In dem in Fig. 8 gezeigten Parallelprozessorsystem gemäß der zweiten Ausführungsform der vorliegenden Erfindung enthält der Prozessorsteuerabschnitt 30 zusätzlich zu den konstitutiven Komponenten des in Fig. 1 gezeigten Paral­ lelprozessorsystems 1 gemäß der ersten Ausführungsform der vorliegenden Erfindung einen Zähler 306, der die Anzahl der ausgefallenen Prozessoren zählt, wenn vom Überwachungsprozessor 11 eine Prozessorausfallmeldung empfangen wird. In der Zeitplantabelle 302 ist die Anzahl der ausgefallenen Prozessoren festgelegt, die entspre­ chend dem Umfang der Auftragsverarbeitung für jeden im voraus festgelegten Zeitpunkt gesetzt ist. Die übrige Konfiguration ist gleich derjenigen der Ausführungsform von Fig. 1, so daß deren nochmalige Beschreibung wegge­ lassen wird.
Nun wird mit Bezug auf Fig. 9 die Operation des Prozes­ sorsteuerabschnitts 30 beschrieben, wenn vom Überwa­ chungsprozessor 11 eine Meldung bezüglich eines Fehlers in einem Prozessor 100 empfangen wird.
Wenn vom Überwachungsprozessor 11 eine Prozessorausfall­ meldung empfangen wird (Schritt 901), zählt der Zähler 306 die Anzahl der ausgefallenen Prozessoren 100 (Schritt 902). Dann vergleicht die Umschaltsteuereinrichtung 305 die resultierende Anzahl der ausgefallenen Prozessoren 100 entsprechend dem durch den Zeitgeber 303 angegebenen Zeitpunkt mit der in der Zeitplantabelle 302 im voraus festgelegten Anzahl der Fehlprozessoren (Schritt 903).
Wenn der Vergleich ergibt, daß die Anzahl der ausgefalle­ nen Prozessoren kleiner als die in der Tabelle 302 ange­ gebene Anzahl ist, wird die Schaltoperation von der Hauptprozessorgruppe 10 zur Ersatzprozessorgruppe 20 nicht ausgeführt. Die Umschaltsteuereinrichtung 305 war­ tet in diesem Fall auf den Empfang der nächsten Nachricht vom Überwachungsprozessor 11.
Wenn der Vergleich ergibt, daß die Anzahl der ausgefalle­ nen Prozessoren gleich oder größer als die in Tabelle 302 angegebene Anzahl ist, führt das System eine Operation aus (Schritte 904 bis 906), die der Operation der ersten Ausführungsform (Schritt 604 und folgende Schritte in Fig. 6) ähnlich ist und ersetzt dann die Hauptprozessor­ gruppe 10 durch die Ersatzprozessorgruppe 20.
Nun wird mit Bezug auf Fig. 10 die Operation des Prozes­ sorsteuerabschnitts 30 beschrieben, wenn sich die Anzahl der Fehlprozessoren in der Zeitplantabelle 302 ändert.
Wenn der Zeitgeber 303 einen neuen Zeitpunkt angibt, entscheidet die Schaltsteuereinrichtung 305, ob sich die Anzahl der Fehlprozessoren in der Zeitplantabelle 302 geändert hat oder nicht (Schritt 1001). Wenn sich die Anzahl geändert hat, vergleicht die Steuereinrichtung 305 den Wert der bis zu diesem Zeitpunkt verwendeten Anzahl mit dem Wert der anschließend zu verwendenden Anzahl (Schritt 1002). Wenn im Ergebnis die letztere Anzahl gleich oder größer als die frühere Anzahl ist, wird die Schaltoperation von der Hauptprozessorgruppe 10 zur Er­ satzprozessorgruppe 20 nicht ausgeführt. Wie oben be­ schrieben, wartet die Umschaltsteuereinrichtung 305 auf den Empfang einer späteren Fehlermeldung vom Überwa­ chungsprozessor 11 oder auf eine spätere Änderung der Anzahl der Fehlprozessoren.
Wenn der Vergleich ergibt, daß der spätere Wert kleiner als der frühere Wert ist, vergleicht die Umschaltsteuer­ einrichtung 305 die Anzahl der ausgefallenen Prozessoren 100, die durch den Zähler 306 bis zum relevanten Zeit­ punkt gezählt wird, mit der späteren Anzahl von Fehlpro­ zessoren, die anschließend zu verwenden ist (Schritt 1103) . Falls die vom Zähler 306 angegebene Anzahl kleiner als die spätere Anzahl der Fehlprozessoren ist, führt das System die Umschaltoperation von der Hauptprozessorgruppe 10 zur Ersatzprozessorgruppe 20 nicht aus. D.h., daß die Umschaltsteuereinrichtung 305 auf eine Fehlermeldung vom Überwachungsprozessor 11 oder auf eine spätere Änderung der Anzahl der Fehlprozessoren wartet.
Wenn die vom Zähler 306 angegebene Anzahl im Ergebnis gleich oder größer als die Anzahl der Fehlprozessoren 100 ist, werden Operationen ausgeführt (Schritte 1104 bis 1006), die den Schritten der ersten Ausführungsform (Schritt 604 und nachfolgende Operationen in Fig. 6) ähnlich sind, anschließend führt die Schaltsteuereinrich­ tung 305 die Umschaltoperation von der Hauptprozessor­ gruppe 10 zur Ersatzprozessorgruppe 20 aus.
Die vorliegende Erfindung ist oben anhand bevorzugter Ausführungsformen beschrieben worden. Selbstverständlich ist die vorliegende Erfindung jedoch nicht auf diese Ausführungsformen eingeschränkt und kann innerhalb des Umfangs und des Geistes der vorliegenden Erfindung geän­ dert oder abgewandelt werden.
Obwohl beispielsweise das Parallelprozessorsystem in der Beschreibung der bevorzugten Ausführungsformen eine Hauptprozessorgruppe und eine Ersatzprozessorgruppe ent­ hält, ist es selbstverständlich möglich, mehrere Haupt­ prozessorgruppen und mehrere Ersatzprozessorgruppen zu verwenden. In diesem Fall können verschiedene Konfigura­ tionen betrachtet werden, beispielsweise eine Konfigura­ tion, die zwei oder mehr Hauptprozessorgruppen und eine Ersatzprozessorgruppe enthält, sowie eine Konfiguration, die zwei oder mehr Hauptprozessorgruppen und zwei oder mehr Ersatzprozessorgruppen enthält.
In dem Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren gemäß der vorliegenden Erfindung, das in einem Parallelprozessorsystem zum Einsatz kommt, wird die Umschaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe auf der Grundlage des Fehlprozes­ sorverhältnisses oder der Anzahl der Fehlprozessoren, die entsprechend dem Umfang der Auftragsverarbeitung bestimmt wird, ausgeführt. Wenn daher in dem Fall, in dem in einem Prozessor der Hauptprozessorgruppe ein Fehler auftritt, der Auftrag vollständig durch die verbleibenden Prozesso­ ren ausgeführt werden kann, wird die Umschaltoperation nicht ausgeführt. Dies hat zum Ergebnis, daß die Verar­ beitungsleistung des Prozessors effizient genutzt werden kann; darüber hinaus kann die Schaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe effektiv ausgeführt werden.
Weiterhin können das Fehlprozessorverhältnis oder die Anzahl der Fehlprozessoren in einem relevanten Zeitpunkt beliebig bestimmt werden. Folglich kann die Umschaltope­ ration von der Hauptprozessorgruppe zur Ersatzprozessor­ gruppe entsprechend dem Umfang der täglichen Auftragsver­ arbeitung auf der Grundlage des optimalen Prozessornut­ zungsverhältnisses in den entsprechenden Zeitpunkten ausgeführt werden.
Bei dem Parallelprozessorsystem gemäß der vorliegenden Erfindung wird in dem Fall, in dem während einer Auf­ tragsverarbeitung ein Prozessor ausfällt, der Auftrag ohne Unterbrechung ausgeführt, wenn die verbleibenden Prozessoren den Auftrag vollständig ausführen können. D.h., wenn das Verhältnis der ausgefallenen Prozessoren das Fehlprozessorverhältnis oder das mit der Anzahl der ausgefallenen Prozessoren in Beziehung stehende Verhält­ nis, das entsprechend dem Umfang der Auftragsverarbeitung bestimmt wird, erreicht, wird die Schaltoperation von der Hauptprozessorgruppe zur Ersatzprozessorgruppe ausge­ führt, um die Verarbeitung des Auftrags fortzusetzen. Daher kann der Auftrag mit einer ausreichenden Verarbei­ tungsleistung verarbeitet werden, indem das Verarbei­ tungsvermögen jedes Prozessors vollständig genutzt wird.
Obwohl die vorliegende Erfindung mit Bezug auf besondere, erläuternde Ausführungsformen beschrieben worden ist, ist sie nicht auf diese Ausführungsformen, sondern nur durch die beigefügten Ansprüche eingeschränkt. Der Fachmann kann die Ausführungsformen selbstverständlich verändern oder abwandeln, ohne vom Umfang und vom Geist der vorlie­ genden Erfindung abzuweichen.

Claims (12)

1. Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren, das in einem Parallelprozessorsystem (1) verwendet wird, das eine Hauptprozessorgruppe (10) mit mehreren Prozessoren (100) und einem diese Prozesso­ ren (100) miteinander verbindenden Netz (200) sowie eine Ersatzprozessorgruppe (20) mit mehreren Prozessoren (100) und einem diese Prozessoren (100) miteinander verbinden­ den Netz (200) enthält, wobei die Hauptprozessorgruppe (10) und die Ersatzprozessorgruppe (20) jeweils die glei­ che Anzahl von Prozessoren (100) enthalten, gekennzeichnet durch die folgenden Schritte:
Anordnen eines Prozessorsteuerabschnitts (30) im Parallelprozessorsystem (1),
Anordnen eines Überwachungsprozessors (11) in der Hauptprozessorgruppe (10) und eines Überwachungsprozes­ sors (21) in der Ersatzprozessorgruppe (20),
Bestimmen eines Fehlprozessorverhältnisses ent­ sprechend dem Umfang der Auftragsverarbeitung im Paral­ lelprozessorsystem (1),
Setzen des Fehlprozessorverhältnisses im Prozes­ sorsteuerabschnitt (30),
Berechnen eines Verhältnisses von ausgefallenen Prozessoren (100) in der Hauptprozessorgruppe (10) in einem relevanten Zeitpunkt durch den Prozessorsteuerab­ schnitt (30), wenn dieser von dem in der Hauptprozessor­ gruppe (10) angeordneten Überwachungsprozessor (11) eine Meldung hinsichtlich des Auftretens eines Fehlers in einem Prozessor (100) empfängt (602),
Vergleichen des berechneten Verhältnisses mit dem Fehlprozessorverhältnis (603) und
Ausführen einer Umschaltoperation, in der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn das berechnete Verhältnis gleich oder größer als das Fehlpro­ zessorverhältnis ist (604-606)
2. Umschaltverfahren nach Anspruch 1, gekennzeichnet durch die folgenden Schritte:
Liefern (601) eines Berichts bezüglich der Verar­ beitungsinformation jedes der der Hauptprozessorgruppe (10) zugehörigen Prozessoren (100) in einem im voraus festgelegten Zeitpunkt durch den in der Hauptprozessor­ gruppe (10) angeordneten Überwachungsprozessor (11) an den Prozessorsteuerabschnitt (30),
Halten der Verarbeitungsinformation im Prozessor­ steuerabschnitt (30)
Melden (604) der Beendigung der Kommunikation jedes der zur Hauptprozessorgruppe (10) gehörenden Pro­ zessoren (100) durch den Prozessorsteuerabschnitt (30), wenn die Auftragsverarbeitung von der Hauptprozessorgrup­ pe (10) zur Ersatzprozessorgruppe (20) übertragen wird, Melden (605) der logischen Adressen, die den jeweiligen physikalischen Adressen jedes der zur Ersatz­ prozessorgruppe (20) gehörenden Prozessoren (100) ent­ sprechen, und Beginnen (606) der Kommunikation mit jedem der zur Ersatzprozessorgruppe (20) gehörenden Prozessoren (100),
Lesen der Verarbeitungsinformation vom Prozessor­ steuerabschnitt (30) und Melden der Verarbeitungsinforma­ tion an jeden der zur Ersatzprozessorgruppe (20) gehören­ den Prozessoren (100) durch den in der Ersatzprozessor­ gruppe (20) angeordneten Überwachungsprozessor (21) und
Empfangen der Auftragsverarbeitung von jedem der zur Hauptprozessorgruppe (10) gehörenden Prozessor (100) durch jeden der zur Ersatzprozessorgruppe (20) gehörenden Prozessoren (100) und Abarbeiten der Aufträge durch jeden dieser zur Ersatzprozessorgruppe (20) gehörenden Prozes­ soren (100).
3. Umschaltverfahren nach Anspruch 1, gekennzeichnet durch die folgenden Schritte:
Bestimmen einer Anzahl von ausgefallenen Prozes­ soren (100) anstelle des Fehlprozessorverhältnisses ent­ sprechend dem Umfang der Auftragsverarbeitung,
Setzen der Anzahl der ausgefallenen Prozessoren (100) im Prozessorsteuerabschnitt (30),
Berechnen der Anzahl der ausgefallenen Prozesso­ ren (100) durch den Prozessorsteuerabschnitt (30) jedes­ mal, wenn von dem in der Hauptprozessorgruppe (10) ange­ ordneten Überwachungsprozessor (11) das Auftreten eines Fehlers in einem Prozessor (100) gemeldet wird (902),
Vergleichen der berechneten Anzahl mit der Anzahl der Fehlprozessoren (903) und
Ausführen einer Umschaltoperation, bei der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) zur Ersatzprozessorgruppe (20) übertragen wird, wenn die berechnete Anzahl die Anzahl der Fehlprozessoren erreicht (904-906).
4. Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren, welches in einem Parallelprozessor­ system (1) verwendet wird, das eine Hauptprozessorgruppe (10) mit mehreren Prozessoren (100) und einem diese Pro­ zessoren (100) miteinander verbindenden Netz (200) sowie eine Ersatzprozessorgruppe (20) mit mehreren Prozessoren (100) und einem diese Prozessoren (100) miteinander ver­ bindenden Netz (200) enthält, wobei die Hauptprozessor­ gruppe (10) und die Ersatzprozessorgruppe (20) jeweils die gleiche Anzahl von Prozessoren (100) enthalten, gekennzeichnet durch die folgenden Schritte:
Anordnen eines Prozessorsteuerabschnitts (30) im Parallelprozessorsystem (1),
Anordnen eines Überwachungsprozessors (11) in der Hauptprozessorgruppe (10) und eines Überwachungsprozes­ sors (21) in der Ersatzprozessorgruppe (20),
Anordnen eines Zeitgebers (3) im Prozessorsteuer­ abschnitt (30),
Bestimmen (701) eines Fehlprozessorverhältnisses in einem vorgegebenem Zeitintervall entsprechend dem Umfang der Auftragsverarbeitung im Parallelprozessor­ system (1),
Setzen des Fehlprozessorverhältnisses im Prozes­ sorsteuerabschnitt (30),
Berechnen eines Verhältnisses der ausgefallenen Prozessoren in der Hauptprozessorgruppe (10) in einem relevanten Zeitpunkt durch den Prozessorsteuerabschnitt (30), wenn von dem in der Hauptprozessorgruppe (10) ange­ ordneten Überwachungsprozessor (11) eine Meldung bezüg­ lich des Auftretens eines Fehlers in einem Prozessor empfangen wird,
Vergleichen des berechneten Verhältnisses mit dem Fehlprozessorverhältnis, das dem durch den Zeitgeber (303) angegebenen Zeitpunkt entspricht (703), und
Ausführen (704-706) einer Umschaltoperation, bei der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn das berechnete Verhältnis gleich oder größer als das Fehlprozessorverhältnis ist.
5. Umschaltverfahren nach Anspruch 4, gekennzeichnet durch die folgenden Schritte:
Entscheiden, ob das frühere Fehlprozessorverhält­ nis vor dem relevanten Zeitpunkt von einem nachher zu verwendenden Fehlprozessorverhältnis verschieden ist, durch den Prozessorsteuerabschnitt (30) jedesmal dann, wenn sich die vom Zeitgeber (303) angegebene Zeit ändert (701),
Vergleichen des früheren Fehlprozessorverhältnis­ ses mit dem späteren Fehlprozessorverhältnis, wenn die Verhältnisse voneinander verschieden sind (702),
Berechnen eines Verhältnisses der bis zu diesem Zeitpunkt in der Hauptprozessorgruppe (10) ausgefallenen Prozessoren (100), wenn das spätere Fehlprozessorverhält­ nis kleiner als das frühere Fehlprozessorverhältnis ist, Vergleichen des berechneten Verhältnisses mit dem späteren Fehlprozessorverhältnis (703) und
Ausführen (704-706) einer Umschaltoperation, in der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn das Verhältnis gleich oder größer als das spätere Fehlprozessorverhältnis ist.
6. Umschaltverfahren nach Anspruch 4, gekennzeichnet durch die folgenden Schritte:
Berichten von Verarbeitungsinformation für jeden der zur Hauptprozessorgruppe (10) gehörenden Prozessoren (100) an den Prozessorsteuerabschnitt (30) durch den in der Hauptprozessorgruppe (10) angeordneten Überwachungs­ prozessor (11) in einem im voraus festgelegten Zeitpunkt (601),
Halten der Verarbeitungsinformation durch den Prozessorsteuerabschnitt (30),
Melden der Beendigung der Kommunikation an jeden der zur Hauptprozessorgruppe (10) gehörenden Prozessoren (100) durch den Prozessorsteuerabschnitt (30), wenn die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird (604),
Melden (605) der logischen Adressen, die den jeweiligen physikalischen Adressen jedes der zur Ersatz­ prozessorgruppe (20) gehörenden Prozessoren (100) und Beginnen (606) der Kommunikation mit jedem der zur Er­ satzprozessorgruppe (20) gehörenden Prozessoren (100),
Lesen der Verarbeitungsinformation vom Prozessor­ steuerabschnitt (30) und Melden der Verarbeitungsinforma­ tion an jeden der zur Ersatzprozessorgruppe (20) gehören­ den Prozessoren (100) durch den in der Ersatzprozessor­ gruppe (20) angeordneten Überwachungsprozessor (21), und Empfangen der Auftragsverarbeitung von jedem der zur Hauptprozessorgruppe (10) gehörenden Prozessoren (100) durch jeden der zur Ersatzprozessorgruppe (20) gehörenden Prozessoren (100) und Abarbeiten der Aufträge durch jeden der zur Ersatzprozessorgruppe (20) gehörenden Prozessoren (100).
7. Umschaltverfahren nach Anspruch 4, gekennzeichnet durch die folgenden Schritte:
Bestimmen einer Anzahl von ausgefallenen Prozes­ soren (100) anstelle des Fehlprozessorverhältnisses ent­ sprechend dem Umfang der Auftragsverarbeitung,
Setzen der Anzahl der ausgefallenen Prozessoren (100) im Prozessorsteuerabschnitt (30),
Berechnen der Anzahl der ausgefallenen Prozesso­ ren (100) durch den Prozessorsteuerabschnitt (30) jedes­ mal, wenn von dem in der Hauptprozessorgruppe (10) ange­ ordneten Überwachungsprozessor (11) eine Meldung hin­ sichtlich des Auftretens eines Fehlers in einem Prozessor (100) empfangen wird (902),
Vergleichen der berechneten Anzahl mit der Anzahl der Fehlprozessoren, die dem durch den Zeitgeber (303) angegebenen Zeitpunkt entspricht (903), und
Ausführen (904-906) einer Umschaltoperation, in der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn die berechnete Anzahl die Anzahl der Fehlprozessoren erreicht.
8. Umschaltverfahren nach Anspruch 4, gekennzeichnet durch die folgenden Schritte:
Bestimmen, ob die frühere Anzahl der ausgefalle­ nen Prozessoren (100) von der danach zu verwendenden späteren Anzahl von ausgefallenen Prozessoren (100) ver­ schieden ist, durch den Prozessorsteuerabschnitt (30) jedesmal dann, wenn sich die durch den Zeitgeber (303) angegebene Zeit ändert (1001),
Vergleichen der früheren Anzahl mit der späteren Anzahl, wenn sie voneinander verschieden sind (1002),
Vergleichen der Anzahl der bis zu diesem Zeit­ punkt ausgefallenen Prozessoren (100) in der Hauptprozes­ sorgruppe (10) mit der späteren Anzahl von Fehlprozesso­ ren, wenn die spätere Anzahl kleiner als die frühere Anzahl ist (1003), und
Ausführen (1004-1006) einer Umschaltoperation, in der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn die Anzahl der zu diesem Zeitpunkt ausgefallenen Prozessoren in der Hauptprozessorgruppe (10) gleich oder größer ist als die spätere Anzahl der Fehlprozessoren.
9. Parallelprozessorsystem, das eine Hauptprozessor­ gruppe (10) mit mehreren Prozessoren (100) und einem diese Prozessoren (100) miteinander verbindenden Netz (200) sowie eine Ersatzprozessorgruppe (20) mit mehreren Prozessoren (100) und einem diese Prozessoren (100) mit­ einander verbindenden Netz (200) enthält, wobei die Hauptprozessorgruppe (10) und die Ersatzprozessorgruppe (20) jeweils die gleiche Anzahl von Prozessoren (100) enthalten, gekennzeichnet durch
einen Überwachungsprozessor (11), der in der Hauptprozessorgruppe (10) angeordnet ist, und einen Über­ wachungsprozessor (21), der in der Ersatzprozessorgruppe (20) angeordnet ist, die die Verarbeitungsinformation jedes der Prozessoren (100) in der Hauptprozessorgruppe (10) bzw. in der Ersatzprozessorgruppe (20) steuern,
einen Prozessorsteuerabschnitt (30), der eine Umschaltoperation von der Hauptprozessorgruppe (10) zur Ersatzprozessorgruppe (20) ausführt,
eine Adressensteuertabelle (301), die die physi­ kalischen und logischen Adressen jedes Prozessors (100) der Hauptprozessorgruppe (10) und der Ersatzprozessor­ gruppe (20) sowie zwischen ihnen bestehende Entsprechun­ gen hält,
eine Zeitplantabelle (302), in der ein Fehlpro­ zessorverhältnis gesetzt ist, das entsprechend dem Umfang der Auftragsverarbeitung im Parallelprozessorsystem (1) bestimmt wird,
einen Speicherabschnitt (304), in dem die Verar­ beitungsinformation jedes Prozessors (100) gespeichert wird, die in einem vorgegebenen Zeitpunkt von einer in der Hauptprozessorgruppe (10) angeordneten Überwachungs­ tabelle berichtet wird,
einen Umschaltsteuerabschnitt (305), der ein Verhältnis der ausgefallenen Prozessoren in der Hauptpro­ zessorgruppe (10) in einem relevanten Zeitpunkt berech­ net, wenn von dem in der Hauptprozessorgruppe (10) ange­ ordneten Überwachungsprozessor (11) ein Bericht hinsicht­ lich des Auftretens eines Fehlers in einem Prozessor (100) empfangen wird, der das berechnete Verhältnis mit dem in der Zeitplantabelle (302) gesetzten Fehlprozessor­ verhältnis vergleicht und der eine Umschaltoperation ausführt, in der die Auftragsverarbeitung von der Haupt­ prozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn das berechnete Verhältnis gleich oder größer als das Fehlprozessorverhältnis ist, und
eine Bedienerkonsole (40), die mit dem Prozessor­ steuerabschnitt (30) verbunden ist und mit der das Fehl­ prozessorverhältnis in der Zeitplantabelle (302) von außen beliebig gesetzt werden kann.
10. Parallelprozessorsystem nach Anspruch 9, dadurch gekennzeichnet, daß der Prozessorsteuerabschnitt (30) enthält:
einen Zeitgeber (303), der die Zeit mißt,
eine Zeitplantabelle (302), in der in vorgegebe­ nen Zeitintervallen Fehlprozessorverhältnisse gesetzt sind, die entsprechend dem Umfang der Auftragsverarbei­ tung im Parallelprozessorsystem (1) bestimmt werden, und
einen Umschaltsteuerabschnitt (305), der ein Verhältnis der ausgefallenen Prozessoren in der Hauptpro­ zessorgruppe (10) in einem relevanten Zeitpunkt berech­ net, wenn von dem in der Hauptprozessorgruppe (10) ange­ ordneten Überwachungsprozessor (11) ein Bericht hinsicht­ lich des Auftretens eines Fehlers in einem Prozessor (100) empfangen wird, der das berechnete Verhältnis mit dem in der Zeitplantabelle (302) gesetzten Fehlprozessor­ verhältnis vergleicht, das einem durch den Zeitgeber (303) angegebenen Zeitpunkt entspricht, und der eine Umschaltoperation ausführt, in der die Auftragsverarbei­ tung von der Hauptprozessorgruppe (10) an die Ersatzpro­ zessorgruppe (20) übertragen wird, wenn das berechnete Verhältnis gleich oder größer als das Fehlprozessorver­ hältnis ist.
11. Parallelprozessorsystem nach Anspruch 9, dadurch gekennzeichnet, daß der Prozessorsteuerabschnitt (30) enthält:
einen Zähler (306), der die Anzahl der ausgefal­ lenen Prozessoren (100) zählt, wenn von dem Überwachungs­ prozessor (11) eine Meldung hinsichtlich des Auftretens eines Fehlers in einem Prozessor empfangen wird,
eine Zeitplantabelle (302), in der die Anzahl der ausgefallenen Prozessoren gesetzt ist, die entsprechend dem Umfang der Auftragsverarbeitung im Parallelprozessor­ system (1) bestimmt wird, und
einen Umschaltsteuerabschnitt (305), der die vom Zähler (306) gezählte Anzahl mit der in der Zeitplanta­ belle (302) gesetzten Anzahl von Fehlprozessoren ver­ gleicht, wenn von dem in der Hauptprozessorgruppe (10) angeordneten Überwachungsprozessor (11) eine Meldung hinsichtlich des Auftretens eines Fehlers in einem Pro­ zessor (100) empfangen wird, und der eine Umschaltopera­ tion ausführt, in der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn die gezählte Anzahl gleich oder größer als die Anzahl der Fehlprozessoren ist.
12. Parallelprozessorsystem nach Anspruch 11, dadurch gekennzeichnet, daß der Prozessorsteuerabschnitt (30) enthält:
einen Zeitgeber (303), der die Zeit mißt,
eine Zeitplantabelle (302), in der in vorgegebe­ nen Zeitintervallen die Anzahl von Fehlprozessoren ge­ setzt ist, die entsprechend dem Umfang der Auftragsverar­ beitung im Parallelprozessorsystem (1) bestimmt wird, und
einen Umschaltsteuerabschnitt (305), der die Anzahl der in der Zeitplantabelle (302) gesetzten Fehl­ prozessoren, die dem durch den Zeitgeber (303) angegebe­ nen Zeitpunkt entspricht, mit der vom Zähler (306) ge­ zählten Anzahl von ausgefallenen Prozessoren (100) ver­ gleicht, wenn von dem in der Hauptprozessorgruppe (10) angeordneten Überwachungsprozessor (11) eine Meldung hinsichtlich des Auftretens eines Fehlers in einem Pro­ zessor (100) empfangen wird, und der eine Umschaltopera­ tion ausführt, in der die Auftragsverarbeitung von der Hauptprozessorgruppe (10) an die Ersatzprozessorgruppe (20) übertragen wird, wenn die gezählte Anzahl gleich oder größer als die Anzahl der Fehlprozessoren ist.
DE19509363A 1994-03-15 1995-03-15 Parallelprozessorsystem und Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren Expired - Fee Related DE19509363C2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP06989294A JP3300776B2 (ja) 1994-03-15 1994-03-15 並列プロセッサの切替え制御方式
US08/401,261 US5652833A (en) 1994-03-15 1995-03-09 Method and apparatus for performing change-over control to processor groups by using rate of failed processors in a parallel computer

Publications (2)

Publication Number Publication Date
DE19509363A1 true DE19509363A1 (de) 1995-09-28
DE19509363C2 DE19509363C2 (de) 1998-02-26

Family

ID=26411071

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19509363A Expired - Fee Related DE19509363C2 (de) 1994-03-15 1995-03-15 Parallelprozessorsystem und Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren

Country Status (4)

Country Link
US (1) US5652833A (de)
JP (1) JP3300776B2 (de)
DE (1) DE19509363C2 (de)
GB (1) GB2287559B (de)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790788A (en) * 1996-07-23 1998-08-04 International Business Machines Corporation Managing group events by a name server for a group of processors in a distributed computing environment
US6145098A (en) 1997-05-13 2000-11-07 Micron Electronics, Inc. System for displaying system status
US6418492B1 (en) 1997-05-13 2002-07-09 Micron Electronics Method for computer implemented hot-swap and hot-add
US6243773B1 (en) 1997-05-13 2001-06-05 Micron Electronics, Inc. Configuration management system for hot adding and hot replacing devices
US6363497B1 (en) 1997-05-13 2002-03-26 Micron Technology, Inc. System for clustering software applications
US6324608B1 (en) 1997-05-13 2001-11-27 Micron Electronics Method for hot swapping of network components
US6269412B1 (en) 1997-05-13 2001-07-31 Micron Technology, Inc. Apparatus for recording information system events
US6338150B1 (en) 1997-05-13 2002-01-08 Micron Technology, Inc. Diagnostic and managing distributed processor system
US6292905B1 (en) * 1997-05-13 2001-09-18 Micron Technology, Inc. Method for providing a fault tolerant network using distributed server processes to remap clustered network resources to other servers during server failure
US6282673B1 (en) 1997-05-13 2001-08-28 Micron Technology, Inc. Method of recording information system events
US6202160B1 (en) 1997-05-13 2001-03-13 Micron Electronics, Inc. System for independent powering of a computer system
US6269417B1 (en) 1997-05-13 2001-07-31 Micron Technology, Inc. Method for determining and displaying the physical slot number of an expansion bus device
US6163853A (en) 1997-05-13 2000-12-19 Micron Electronics, Inc. Method for communicating a software-generated pulse waveform between two servers in a network
US6499073B1 (en) 1997-05-13 2002-12-24 Micron Electronics, Inc. System using programmable processor for selectively enabling or disabling power to adapter in response to respective request signals
US6189109B1 (en) 1997-05-13 2001-02-13 Micron Electronics, Inc. Method of remote access and control of environmental conditions
US6247080B1 (en) 1997-05-13 2001-06-12 Micron Electronics, Inc. Method for the hot add of devices
US6253334B1 (en) 1997-05-13 2001-06-26 Micron Electronics, Inc. Three bus server architecture with a legacy PCI bus and mirrored I/O PCI buses
US6249828B1 (en) 1997-05-13 2001-06-19 Micron Electronics, Inc. Method for the hot swap of a mass storage adapter on a system including a statically loaded adapter driver
US6275953B1 (en) * 1997-09-26 2001-08-14 Emc Corporation Recovery from failure of a data processor in a network server
US5996086A (en) * 1997-10-14 1999-11-30 Lsi Logic Corporation Context-based failover architecture for redundant servers
US6223234B1 (en) 1998-07-17 2001-04-24 Micron Electronics, Inc. Apparatus for the hot swap and add of input/output platforms and devices
US6360333B1 (en) 1998-11-19 2002-03-19 Compaq Computer Corporation Method and apparatus for determining a processor failure in a multiprocessor computer
US6370657B1 (en) 1998-11-19 2002-04-09 Compaq Computer Corporation Hot processor swap in a multiprocessor personal computer system
US6169726B1 (en) * 1998-12-17 2001-01-02 Lucent Technologies, Inc. Method and apparatus for error free switching in a redundant duplex communication carrier system
US20080162874A1 (en) * 1999-04-09 2008-07-03 Dave Stuttard Parallel data processing apparatus
US20080016318A1 (en) * 1999-04-09 2008-01-17 Dave Stuttard Parallel data processing apparatus
US20080007562A1 (en) * 1999-04-09 2008-01-10 Dave Stuttard Parallel data processing apparatus
GB2348976A (en) * 1999-04-09 2000-10-18 Pixelfusion Ltd Single instruction multiple data array
US7506136B2 (en) 1999-04-09 2009-03-17 Clearspeed Technology Plc Parallel data processing apparatus
US20080008393A1 (en) * 1999-04-09 2008-01-10 Dave Stuttard Parallel data processing apparatus
US8174530B2 (en) 1999-04-09 2012-05-08 Rambus Inc. Parallel date processing apparatus
US7966475B2 (en) 1999-04-09 2011-06-21 Rambus Inc. Parallel data processing apparatus
US20070242074A1 (en) * 1999-04-09 2007-10-18 Dave Stuttard Parallel data processing apparatus
US20080184017A1 (en) * 1999-04-09 2008-07-31 Dave Stuttard Parallel data processing apparatus
US7526630B2 (en) 1999-04-09 2009-04-28 Clearspeed Technology, Plc Parallel data processing apparatus
JP5285828B2 (ja) * 1999-04-09 2013-09-11 ラムバス・インコーポレーテッド 並列データ処理装置
US8762691B2 (en) 1999-04-09 2014-06-24 Rambus Inc. Memory access consolidation for SIMD processing elements using transaction identifiers
US7627736B2 (en) 1999-04-09 2009-12-01 Clearspeed Technology Plc Thread manager to control an array of processing elements
GB2348978A (en) * 1999-04-09 2000-10-18 Pixelfusion Ltd Parallel redundant data processing apparatus
US20070294510A1 (en) * 1999-04-09 2007-12-20 Dave Stuttard Parallel data processing apparatus
US7802079B2 (en) 1999-04-09 2010-09-21 Clearspeed Technology Limited Parallel data processing apparatus
US8171263B2 (en) 1999-04-09 2012-05-01 Rambus Inc. Data processing apparatus comprising an array controller for separating an instruction stream processing instructions and data transfer instructions
US8169440B2 (en) 1999-04-09 2012-05-01 Rambus Inc. Parallel data processing apparatus
US6671253B1 (en) * 1999-09-21 2003-12-30 International Business Machines Corporation Method and system for providing peer redundancy to asynchronous transfer mode emulated local-area networks
US6735716B1 (en) * 1999-09-27 2004-05-11 Cisco Technology, Inc. Computerized diagnostics and failure recovery
US6990606B2 (en) 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US7418703B2 (en) * 2002-03-20 2008-08-26 Nec Corporation Parallel processing system by OS for single processor
US7287254B2 (en) * 2002-07-30 2007-10-23 Unisys Corporation Affinitizing threads in a multiprocessor system
JP2007172334A (ja) * 2005-12-22 2007-07-05 Internatl Business Mach Corp <Ibm> 並列型演算システムの冗長性を確保するための方法、システム、およびプログラム
US7783933B2 (en) * 2006-09-14 2010-08-24 International Business Machines Corporation Identifying failure in a tree network of a parallel computer
US8022956B2 (en) * 2007-12-13 2011-09-20 Ati Technologies Ulc Settings control in devices comprising at least two graphics processors
DE102012011584A1 (de) * 2012-06-13 2013-12-19 Robert Bosch Gmbh Ressourcen-Managementsystem fürAutomatisierungsanlagen
CN106936827B (zh) * 2017-03-10 2019-03-08 Oppo广东移动通信有限公司 一种广播接收者队列调整方法、装置及终端
US10802929B2 (en) * 2018-01-03 2020-10-13 Tesla, Inc. Parallel processing system runtime state reload

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132861A (ja) * 1989-10-19 1991-06-06 Agency Of Ind Science & Technol マルチプロセッサ・システムの再構成制御方式

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251299A (en) * 1985-12-28 1993-10-05 Fujitsu Limited System for switching between processors in a multiprocessor system
CA1293819C (en) * 1986-08-29 1991-12-31 Thinking Machines Corporation Very large scale computer
JP2570466B2 (ja) * 1990-05-18 1997-01-08 日本電気株式会社 情報処理装置
US5214652A (en) * 1991-03-26 1993-05-25 International Business Machines Corporation Alternate processor continuation of task of failed processor
US5313625A (en) * 1991-07-30 1994-05-17 Honeywell Inc. Fault recoverable computer system
JPH0612288A (ja) * 1992-06-29 1994-01-21 Hitachi Ltd 情報処理システム及びその監視方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03132861A (ja) * 1989-10-19 1991-06-06 Agency Of Ind Science & Technol マルチプロセッサ・システムの再構成制御方式

Also Published As

Publication number Publication date
GB2287559B (en) 1998-06-24
GB2287559A (en) 1995-09-20
GB9504694D0 (en) 1995-04-26
JPH07253957A (ja) 1995-10-03
US5652833A (en) 1997-07-29
JP3300776B2 (ja) 2002-07-08
DE19509363C2 (de) 1998-02-26

Similar Documents

Publication Publication Date Title
DE19509363C2 (de) Parallelprozessorsystem und Verfahren zum Umschalten zwischen Gruppen von Parallelprozessoren
DE1449529C3 (de) Unterbrechungseinrichtung für ein Datenverarbeitungssystem
DE3206891C2 (de)
DE3501592C2 (de)
DE1524239B2 (de) Schaltungsanordnung zur aufrechterhaltung eines fehler freien betriebes bei einer rechenanlage mit mindestens zwei parallel arbeitenden rechengeraeten
EP0238841A1 (de) Fehlergesicherte, hochverfügbare Multiprozessor-Zentralsteuereinheit eines Vermittlungssystemes und Verfahren zum Speicherkonfigurationsbetrieb dieser Zentralsteuereinheit
DE2407241A1 (de) Verfahren und anordnung zur erhoehung der verfuegbarkeit eines digitalrechners
DE1574598C3 (de) Steuereinrichtung für Fernmelde-, insbesondere Fernsprechvermittlungsanlagen
DE19535546B4 (de) Verfahren zum Betreiben eines durch ein Realzeit-Betriebssystem gesteuerten Realzeit-Computersystems
WO2001037058A1 (de) Automatisierungsgerät und aufdat-verfahren
DE4242323C2 (de) Verfahren zur Systemführung bei der Entstörung von Einrichtungen in Kommunikationssystemen
DE2364082A1 (de) Speicherprogrammierte datenverarbeitungsanlage fuer die steuerung externer anlagen
WO2002065289A1 (de) Automatische inbetriebnahme eines clustersystems nach einem heilbaren fehler
CH658137A5 (de) Steuereinrichtung mit einem speicher und einer schnittstelle, insbesondere fuer werkzeugmaschinen.
EP0048991A1 (de) Verfahren und Anordnung zur Behandlung von Unterbrechungsbedingungen während des Arbeitsablaufes in Datenverarbeitungsanlagen mit Mikroprogrammsteuerung
EP0059789B1 (de) Einrichtung zur Funktionsprüfung eines Mehrrechnersystems
DE2034423C3 (de) Verfahren zur Fehlersuche in einem programmgesteuerten Vermittlungssystem
EP0584512B1 (de) Verfahren zum zeitlichen Überwachen einer Programmabarbeitung
EP0496927B1 (de) Verfahren für den fehlerbedingten Neustart eines Multiprozessorrechners eines Fernmeldevermittlungssystems
DE2727983C2 (de) Schaltungsanordnung mit mindestens doppelt vorgesehenen zentralen Steuerungen, insbesondere für Fernsprechvermittlungsanlagen
EP0952523B1 (de) Funktionseinheit für eine speicherprogrammierbare Steuerung mit Redundanzfunktion
DE3413330A1 (de) Verfahren zur ueberwachung und lokalisierung eines fehlers der fabrikationszyklen einer automatischen fertigungsstrasse und vorrichtung zu seiner durchfuehrung
WO1998038577A1 (de) Redundant aufgebautes elektronisches gerät mit zertifizierten und nicht zertifizierten kanälen
DE2261211C3 (de) Schaltungsanordnung zur Diagnoseerleichterung in Datenverarbeitungsanlagen
DE102008033640B4 (de) Betriebszeitagent zur proaktiven Erkennung einer Fehlfunktion und Verfahren zur vorzeitigen Erkennung einer Fehlfunktion

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee