DE60128029T2

DE60128029T2 - Gerät und Verfahren zur Detektion oder Erkennung von Mustern mittels einer Vielzahl von Merkmaldetektionselementen

Info

Publication number: DE60128029T2
Application number: DE60128029T
Authority: DE
Inventors: Masakazu Ohta-ku Matsugu
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-06-16
Filing date: 2001-06-15
Publication date: 2007-12-27
Anticipated expiration: 2021-06-16
Also published as: US7054850B2; EP1164537A3; EP1164537A2; EP1164537B1; DE60128029D1; US20020038294A1

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die Erfindung betrifft eine Vorrichtung und ein Verfahren, die hauptsächlich zum Erkennen eines Musters oder Erkennen eines bestimmten Gegenstands durch Verwenden einer parallelen arithmetischen Einrichtung, wie beispielsweise eines neuronalen Netzwerks, ausgestaltet sind.
Beschreibung des Verwandten Standes der Technik
Bisher wurden auf dem Gebiet der Bilderkennung oder der Spracherkennung die zum Implementieren einer solchen Erkennung verfügbaren Verfahren grob in zwei Arten klassifiziert. Bei einer Art wird eine solche Erkennung durch Durchführen einer seriellen arithmetischen Operation durch Verwenden, als ein Computer-Softwareprogramm, eines Erkennungsverarbeitungsalgorithmus, der auf ein bestimmtes, zu erkennendes Objekt zugeschnitten ist, implementiert. Bei der anderen Art wird eine solche Erkennung unter Verwendung eines dedizierten parallelen Bildprozessors, wie beispielsweise einer Einzelanweisungs-Mehrfachdatenstrom(SIMD)-Maschine oder einer Mehrfachanweisungs-Mehrfachdatenstrom(MIMD)-Maschine, implementiert. Das Nachstehende wird typische Beispiele von Bilderkennungsalgorithmen beschreiben. Zunächst beinhalten Beispiele, in denen eine Merkmalsgröße bezüglich der Ähnlichkeit zu einem zu erkennenden Modell berechnet wird, ein Verfahren, bei welchem die das zu erkennende Modell betreffenden Daten in der Form eines Vorlagenmodells repräsentiert werden und die Ähnlichkeit auf der Grundlage einer Übereinstimmung oder dergleichen zwischen einem Eingangsbild (oder des Merkmalvektors desselben) und der Vorlage berechnet wird, oder ein Korrelationskoeffizient hoher Ordnung berechnet wird, ein Verfahren, bei welchem ein Eingangsmuster auf einen Eigenbildfunktionsraum abgebildet wird, der durch Durchführen der Hauptkomponentenanalyse eines Modellbilds eines Objekts erhalten wurde, um den Abstand zu dem Modell in einem Merkmalraum zu berechnen (Sirovich, et al., 1987, Low-dimensional procedure for the characterization of human faces, J. Opt. Soc. Am. [A], Bd. 3, Seiten 519–524), ein Verfahren, bei welchem die Beziehung zwischen einer Vielzahl von Merkmalextraktionsergebnissen (Merkmalvektoren) und den räumlichen Anordnungen derselben in einem Graphen gezeigt wird, um die Ähnlichkeit basierend auf einer elastischen Graphenübereinstimmung zu berechnen (Lades et al., 1993, Distortion Invariant Object Recognition in the Dynamic Link Architecture, IEEE Trans. On Computers, Bd. 42, Seiten 300–311), und ein Verfahren, bei welchem ein Eingangsbild einer vorbestimmten Umwandlung unterzogen wird, um einen Ausdruck mit Position, Rotation, und Maßstabs-Unveränderlichkeit zu erhalten, dann gegen ein Modell geprüft wird (Seibert, et al., 1992, Learning and recognizing 3D objects from multiple views in a neural System, in Neural Networks for Perception, Bd. 1, Human and Machine Perception (H. Wechsler Ed.), Academic Press, Seiten 427–444).
Verfahren zum Erkennen eines Musters basierend auf einem neuronalen Netzwerkmodell, das aus einem Schlüssel basierend auf einem Informationsverarbeitungsmechanismus eines lebenden Organismus erhalten wurde, beinhalten ein Verfahren basierend auf einer hierarchischen Vorlagen-Übereinstimmung (japanische geprüfte Patentveröffentlichung Nr. 60-712, Fukushima & Miyake, 1982, Neocognitron: A new algorithm for pattern recognition tolerant of deformation and shifts in position, Pattern Recognition, Bd. 15, Seiten 455–469), ein Verfahren, bei welchem ein Objekt-zentrierter Ausdruck mit Maßstabs- und Positions-Invarianz durch ein dynamisch routendes neuronales Netzwerk erhalten wird (Anderson, et al., 1995, Routing Networks in Visual Cortex, in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, Seiten 823–826), und ein Verfahren basierend auf einem Mehrschicht-Perzeptron und einem Radialbasisfunktionsnetzwerk.
Als ein Versuch zum wahrheitsgetreuen Modellieren des Informationsverarbeitungsmechanismus basierend auf dem neuronalen Netzwerk eines lebenden Organismus wurden neuronale Netzwerk-Modellschaltungen zum Durchführen einer Übertragungsrepräsentation unter Verwendung eines Zuges von Impulsen entsprechend zu Aktionspotentialen vorgeschlagen (Murray, et al., 1991, Pulse-Stream VLSI Neural Networks Mixing Analog and Digital Techniques, IEEE Trans. on Neural Networks, Bd. 2, Seiten 193–204; Japanische Patent-Offenlegungsschrift Nr. 7-262157, Japanische Patent-Offenlegungsschrift Nr. 7-334478, japanische Patent-Offenlegungsschrift Nr. 8-153148, Patentblatt Nr. 2879670, usw.).
Bei dem Implementieren des vorstehend erwähnten Standes der Technik unter Verwendung von Schaltkreisen oder dergleichen, insbesondere betreffend die Anwendung auf Bilderkennung, waren keine Verfahren zum Repräsentieren von Informationen bezüglich eines zweidimensionalen Musters durch Nutzen einer dynamischen Kennlinie auf einer Zeitbasis, und Verwenden der repräsentierten Informationen zur Erkennung oder dergleichen auf einer beliebigen Ebene einer Verarbeitungseinrichtung, eines Moduls, oder eines Systems, verfügbar, welches eine Funktion jeder Verarbeitungseinheit (beispielsweise die Extraktion eines Merkmals) bildet.
Genauer ausgedrückt wurde in vielen Fällen angenommen, dass die Verarbeitung auf der Grundlage eines Übergangsmusters fortschreitet, das aus einer endlichen Anzahl von Zuständen (vorwiegend zusammengesetzt aus Feuern und Nicht-Feuern) zu einer bestimmten Zeit eines Verarbeitungselements- oder -Moduls, in welchem räumliche Musterinformationen räumlich angeordnet worden sind. Darüber hinaus war die Anwendung auf die Verarbeitung in einem Gebiet der digitalen Repräsentation von Informationen beschränkt.
Aus dem vorstehend beschriebenen Grund war die Informationsverarbeitungsfähigkeit begrenzt, und neigt die Implementation in der Form von Schaltkreisen dazu, eine übermäßige Größe und hohe Kosten mit sich zu bringen. Insbesondere war der Anteil einer großen Anzahl von Verdrahtungen für die Verbindung zwischen Neuronen in dem gesamten Bereich beträchtlich hoch, so dass dies ein Problem dargestellt hat.
Daher wurde als eine Lösung des Verdrahtungsproblems in neuronalen Netzwerken ein Verfahren vorgeschlagen, bei welchen die Adressen von Impulsausgabeneuronen in einer ereignisgesteuerten Art und Weise, die als eine Adressereignisrepräsentation (nachstehend als "AER"; Address Event Representation) bekannt ist, codiert (Lazarro, et al., 1993, Silicon Auditory Processors as Computer Peripherals, in Tourestzky, D. (ed), Advances in Neural Information Processing Systems 5. San Mateo, CA: Morgan Kaufmann Publishers). In Übereinstimmung mit diesem Verfahren werden die Identitäten bzw. ID's der Impulszüge ausgebenden Neuronen in einer binären Betriebsart als Adressen codiert, um es den Neuronen, die die Adressen empfangen, zu erlauben, die Adressen der Herkunftsneuronen auch dann automatisch zu decodieren, wenn die Ausgangssignale von unterschiedlichen Neuronen zeitlich auf demselben Bus angeordnet sind.
Die AER zeigte jedoch ein Problem dahingehend, dass eine Einrichtung zum sequentiellen Codieren und Decodieren der Adressen von Neuronen erforderlich ist, welches eine Schaltungskonfiguration kompliziert macht.
Es ist ein anderes Verfahren verfügbar zum Erkennen oder Erfassen eines bestimmten Objekts mittels einem aus Neuronen, die Impulszüge erzeugen, gebildeten neuronalen Netzwerks. Dieses Verfahren verwendet ein Modell einer höheren Ordnung (einer zweiten Ordnung oder höher) von Eckhorn, et al., das auf einer Verknüpfung von Eingängen und Beliefern von Eingängen beruht (Eckhorn, et al., 1990, Feature linking via synchronization among distributed assemblies: Simulation of results von cat cortex, Neural Computation, Bd. 2, Seiten 293–307), das heißt, ein Impuls-gekoppeltes neuronales Netzwerk (nachstehend als ein "PCNN"; Pulse Coupled Neural Network bezeichnet) (USP 5,664,065 und Broussard, et al., 1999, Physiologically Motivated Image Fusion for Object Detection using a Pulse Coupled Neural Net work, IEEE Trans. On Neural Networks, Bd. 10, Seiten 554–563, usw.).
Die vorstehend erwähnte Literatur offenbart jedoch keine bestimmten Konfigurationen basierend auf einem neuronalen Netzwerk in einem Verfahren zum Implementieren einer Erkennungsfunktion durch Nutzen von analogen Informationen, wie beispielsweise das Intervall zwischen Spitzen, eines Spitzenzuges in einer Zeitbasisdomäne für das Codieren oder dergleichen von Bildinformationen in einem neuronalen Netzwerkmodell zum Ausführen einer vorbestimmten Verarbeitung durch Eingeben, Ausgeben, oder Übertragen von Spitzenzügen.
"Information Processing in Biology-Inspired Pulse Coded Neural Networks" (Eckmiller et al., Proceedings of the International Joint Conference on Neural Networks, New York, 1993) diskutiert ein von der Biologie inspiriertes, impulsverarbeitendes neuronales Netzwerk (BPN), in welchem jedes Neuron drei Impulse aus einem einzelnen empfangenen Eingangsimpuls erzeugt. Die drei Impulse werden durch drei Synapsen mit jeweiligen einstellbaren Verzögerungen und einstellbaren Gewichten erzeugt. Die erzeugten Impulse werden dann summiert und Tiefpass-gefiltert, und ein Ausgangsimpuls wird durch das Neuron erzeugt, falls dieser gefilterte Wert einen Schwellenwert erreicht.
"Pulse Techniques in Neural VLSI: A Review" (Murray, Proceedings of the International Symposium on Circuits and Systems, San Diego, 1992) diskutiert eine Anzahl von Impulsstromverfahren zum Implementieren einer Ausgangsfunktion von Neuronen in einem neuronalen Netz. Die diskutierten Verfahren beinhalten eine Phasenamplitudenmodulation, eine Phasenbreitenmodulation, und eine Phasenfrequenzmodulation, eine Verzögerungsmodulation, eine Impulsaddition, eine Impulsbreitenmultiplikation, und eine Phasenamplitudenmultiplikation.
Bezüglich eines Bilderkennungsalgorithmus wurde nach einem System verlangt, dessen Leistung insbesondere unabhängig von der Position, der Größe, usw. eines zu erkennenden Objekts auf einem Bildschirm ist. Viele Systeme wurden in der Vergangenheit vorgeschlagen, um einem solchen Bedarf zu entsprechen. Zum Beispiel kann eine gegenüber Änderungen des Maßstabs oder der Rotation invariante Erkennung durch Ausführen einer "konformen Abbildungsverarbeitung" als Vorverarbeitung erreicht werden.
Genauer gesagt, wird die Log-Polar-Koordinatentransformation über einen Logarithmus der Entfernung von dem Mittenpunkt eines zu erkennenden Objekts in einem Bild und dem Rotationswinkel desselben ausgeführt. Dies verursacht eine Änderung der Größe oder der Rotation desselben Objekts, die in eine parallele Verschiebung in einem Koordinatensystem nach der Umwandlung umzuwandeln ist. Danach wird dann, wenn eine Merkmalsgröße (beispielsweise ein Korrelationskoeffizient) berechnet wird, das zu erkennende Objekt hinsichtlich derselben Merkmalsgröße erfasst werden. Die Invarianz der Erfassungsleistung gegenüber positionellen Änderungen kann durch sequentielles Verschieben des Mittenpunkts der Umwandlung, um die Erfassung an jeder Position durchzuführen, erhalten werden.
Ferner wurde die Möglichkeit des Durchführens einer vergleichbaren größeninvarianten Erfassung durch Erhalten einer Mehrgrößenrepräsentation für jede lokale Region in einem gegebenen Bild und ferner Ausführen der konformen Abbildungsumwandlung, die vorstehend erwähnt wurde, hervorgehoben (Wechseler, H., 1992, "Multi-scale and Distributed Visual Representations and Mappings for Invariant-Low-Level Perception" in Neural Networks for Perception, Bd. 1, Wechsler, H., Ed., Seiten 462–476, Academic Press, Boston).
Folglich ist ein Verfahren, bei welchem die konventionelle vorbestimmte Abbildungsumwandlung (konforme Abbildungsumwandlung, usw.) durchgeführt wird, um eine Mustererkennung zu implementieren, wobei die Erkennungsleistung invariant ist auf zu erkennenden Objekten, die unterschiedliche Maßstäbe haben, ein Problem dahingehend dargestellt, dass es schwierig ist, maßstabsinvariante Merkmale zu erhalten, solange nicht der Mittenpunkt der Umwandlung auf geeignete Art und Weise festgelegt wird.
Das Nachstehende wird die Beispiele unter Verwendung einer anderen Art beschreiben, bei der die die Ähnlichkeit zu dem Modell eines zu erkennenden Objekts betreffende Merkmalsgröße berechnet wird, und die Erkennung ohne ein Sich-Verlassen auf die Größe erreicht werden kann. Eines solcher Beispiele ist ein Verfahren, bei welchem die Modelldaten eines zu erkennenden Objekts in veränderlichen Maßstäben als Vorlagen Modelle vorab dargestellt werden, und eine Vorlagenübereinstimmung mit einem Eingangsbild oder seinen Merkmalvektoren von grob nach fein ausgeführt wird (Rosenfeld und Vanderburg, 1977, Coarse to fine template matching, IEEE Trans. Systems, Man, und Cybernetics, Bd. 2, Seiten 104–107). In einem anderen Verfahren wird ein Eingangsmuster auf einen Eigenbildfunktionsraum abgebildet, der durch Durchführen der Hauptkomponentenanalyse von Modellbildern von Objekten in veränderlichen Größen erhalten wurde, und wird der Abstand von Modellen in einem Merkmalraum berechnet (japanische Patent-Offenlegungsschrift Nr. 8-153198, Murase, Nayar, 1995, Image spotting of 3D object by multiple resolution and eigenspace representation, Information Processing Academy Proceedings, Bd. 36, Seiten 2234–2243; Murase und Nayar, 1997, Detection of 3D objects in cluttered scenes using hierarchical eigenspace, Pattern Recognition Letters, Seiten 375–384). In einem nochmals anderen Verfahren werden die Position und die Größe einer entsprechenden Region berechnet und normalisiert, auf der Grundlage der Entfernungsbilddaten über ein zu erkennendes Objekt, und wird dann eine Übereinstimmung durchgeführt (japanische Patent-Offenlegungsschrift Nr. 5-108804). In einem nochmals weiteren Verfahren werden die Mehrfachauflösungsdaten bezüglich eines zu erkennenden Objekts in der Reihenfolge von einem Niveau niedriger Auflösung zu einem Niveau hoher Auflösung verschoben, um dadurch eine Erkennung einschließlich einer Übereinstimmung durchzuführen (japanische Patent-Offenlegungsschrift Nr. 8-315141).
Das auf der Vorlagenübereinstimmung basierende Verfahren zeigte ein Problem hinsichtlich der Praktikabilität dahingehend, dass dann, wenn eine Übereinstimmung mit den Vorlagenmodellen in unterschiedlichen Maßstäben, die zuvor dargestellt wurden, durchgeführt wird, eine hohe Erkennungsleistung nicht erreicht wer den kann, solange nicht ein Objekt in einem Eingangsbild im Wesentlichen mit einem der Maßstäbe übereinstimmt, welches bedeutet, dass zahlreiche unterschiedliche Vorlagenmodelle erforderlich sind.
In dem in der japanische Patent-Offenlegungsschrift Nr. 8-153198 offenbarten Verfahren, bei dem der parametrische Eigenraum, der durch Durchführen der Hauptkomponentenanalyse von Modellbildern eines Objekts über eine endliche Anzahl von unterschiedlichen Größen erhalten wurde, werden die Änderungen in der Größe durch Mannigfaltigkeiten eines parametrischen Eigenraums repräsentiert, so dass Objekte in unterschiedlichen Größen aufeinander folgend erkannt werden können. Dieses Verfahren zeige jedoch ein Problem dahingehend, dass die Dimension einer Kovarianzmatrix groß ist (beispielsweise 16.384 Dimensionen in dem durch Murase und Nayar 1995 dargestellten Fall), welches unvermeidlich enorm hohe Kosten zum Berechnen von Eigenvektoren erfordert. Um eine adäquate Genauigkeit zum erfolgreichen Umgang mit den Änderungen in der Größe zu erhalten, müssen Referenzbilder mit unterschiedlichen Größen von etwa fünf Stufen von 1,1-fach, 1,2-fach, 1,3-fach, 1,4-fach, und 1,5-fach (= α) einer Referenzgröße vorbereitet werden, um Eigenvektoren zu berechnen, muss dann ein Eingangsbild in Größen von α^–1-fach, α^–2-fach, α^–3-fach, usw. umgewandelt werden. Dies erforderte einen extrem großen Speicherraum und eine enorm lange Zeit zur Berechnung, um die Verarbeitung abzuschließen.
In Übereinstimmung mit den in der japanischen Patent-Offenlegungsschrift Nr. 8-315141 offenbarten Verfahren wird die Übereinstimmung ausgehend von einer niedrigen Auflösung hin zu einer hohen Auflösung aufeinander folgend für Mehrfachauflösungs-Repräsentationsdaten bezüglich eines Objekts, die im Voraus erstellt wurden, durchgeführt. Daher ist es, um eine maßstabsinvariante Erkennung durchzuführen, notwendig, ein ausreichend hohes Multiplex-Niveau von im Voraus zu erstellenden Auflösungen bereitzustellen, welches zu einer geringen Verarbeitungseffizienz führt. Aus diesem Grund kann das Verfahren zum Gewinnen von groben Informationen unter Verwendung von weniger Speichern geeignet sind, ist jedoch zur Erkennung oder Erfassung, die eine hohe Genauigkeit erfordert, ungeeignet.
Als ein Verfahren, das eine zeitserielle Eingabe von Bildern verwendet, gibt es eines, bei welchem eine Vielzahl von Hypothesen bezüglich eines zu erkennenden Objekts, die miteinander konkurrieren, aus einem Bild erzeugt werden, die Hypothesen zeitlich akkumuliert werden, dann einem Kategorie-Klassifikator, wie beispielsweise einem ART2 von Carpenter et al. (Seibert, et al., 1992, Learning and recognizing 3D objects from multiple views in a neural system, in Neural Networks for Perception, Bd. 1, Human and Machine Perception (H. Wechsler Ed.), Academic Press, Seiten 427–444) zugeführt werden.
Als ein auf einem neuronalen Netzwerkmodell, das aus einem Schlüssel basierend auf einem Informationsverarbeitungsmechanismus eines lebenden Organismus erhalten wurde, basierenden Mustererkennungsverfahren gibt es eines, bei welchem ein dynamisch routendes Netzwerk dazu verwendet wird, um eine Maßstabs- und Positions-invariante Repräsentation, die sich um ein Objekt zentriert, zu erhalten (Anderson, et al., 1995, Routing Networks in Visual Cortex, in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, Seiten 823–826, Olhausen et al., 1995, A Multiscale Dynamic Routing Circuit for Forming Size- and Position-Invariant Object Representations, J. Computational Neuroscience, Bd. 2, Seiten 45–62). In Übereinstimmung mit diesem Verfahren wird eine hierarchische Repräsentation (eine Mehrfachauflösungsrepräsentation) basierend auf einer Vielzahl von unterschiedlichen Auflösungen im Voraus für Bilddaten durchgeführt, und wird ein Informations-Routing über den Mittler eines Steuerneurons durchgeführt, das eine Funktion zum dynamischen Festlegen eines Verbindungsgewichts hat, wodurch die Informationen bei unterschiedlichen Auflösungen auf einer Repräsentation abgebildet werden, die sich um ein Objekt zentriert.
Das auf dem dynamisch routenden Netzwerk (Anderson et al., 1995; Olshausen et al., 1995) basierende Verfahren erfordert einen Mechanismus zum dynamischen Festlegen der Verbindung zwi schen Nervenzellenelementen zwischen vorbestimmten Maßstabsebenen mittels einem lokalen konkurrierenden Prozess zwischen Steuerneuronen, und zeigt folglich ein Problem dahingehend, dass die Schaltungskonfiguration unvermeidlich kompliziert wird.
Das Verfahren, bei welchem konkurrierende Hypothesen erzeugt und einem Kategorie-Klassifikator (Seibert et al., 1992) zugeführt werden, basiert auf zeitseriellen Bildern, welches es inhärent schwierig macht, eine maßstabsunabhängige Erkennung aus einem einzelnen Standbild zu erzielen.
Bei einem Bilderkennungsalgorithmus wird es als wichtig erachtet, die Berechnungskosten oder das zur Erkennungsverarbeitung erforderliche Gewicht durch Erzielen einer Erkennung vorwiegend durch selektives Verschieben einer betrachteten Region aus der Analogie mit einer biologischen Systemverarbeitung zu reduzieren.
Zum Beispiel sind gemäß dem in der japanischen geprüften Patentveröffentlichung Nr. 6-34236 offenbarten hierarchischen Informationsverarbeitungsverfahren eine Vielzahl von absteigenden Signal-Pfaden, die von einer oberen Schicht zu einer unteren Schicht gerichtet sind, um mit einer Vielzahl von aufsteigenden Signal-Pfaden, die von einer unteren Schicht zu einer oberen Schicht gerichtet sind, übereinzustimmen, zwischen einer Vielzahl von Hierarchien bereitgestellt, die Merkmalextraktionselementschichten und Merkmalintegrationsschichten aufweisen, die Ausgangssignale basierend auf den Ausgangssignalen von Merkmalextraktionselementen, die demselben Merkmal zugeordnet sind, aufweisen. Die Übertragung von aufsteigenden Signalen wird in Antwort auf die absteigenden Signale ausgehend von einer obersten Schicht gesteuert, um eine Segmentation durch selektives Extrahieren einer sich selbst neu sammelnden assoziativen Fähigkeit und eines spezifischen Musters durchzuführen, wodurch eine Verarbeitungsregion oder eine Fixierungsregion für die Erkennung festgelegt wird.
Zunächst basiert das in der japanischen geprüften Patentveröffentlichung Nr. 6-34236 offenbarte Verfahren auf einer Annahme dahingehend, dass es einen absteigenden Signal-Pfad gibt, der in einer hierarchischen neuralen Schaltungskonfiguration mit einem aufsteigenden Signal-Pfad gepaart ist. Daher ist eine neuronale Schaltung etwa so groß wie die dem aufsteigenden Signal-Pfad entsprechende neuronale Schaltung als eine Schaltung erforderlich, die den absteigenden Signal-Pfad bildet, welches in nachteiliger Weise in einer extrem großen Schaltungsgröße resultiert.
Darüber hinaus ist dieses Verfahren mit keinem Mechanismus zum Steuern der sequentiellen Änderung von Fixierungspositionen versehen, welches ein Problem dahingehend stellt, dass der Betrieb instabil ist, wenn eine betrachtete Region aufgrund der Einflüsse von Rauschen oder anderen Faktoren festgelegt oder geändert wird. Genauer ausgedrückt, existieren über alle Hierarchien zwischen den Elementen einer Zwischenschicht des aufsteigenden Pfads und den Elementen einer Zwischenschicht des absteigenden Pfads hinweg Zwischenwirkungen, und wird eine Fixierungsposition schließlich über alle Zwischenwirkungen bestimmt. Dies hat ein Problem dahingehend dargestellt, dass dann, wenn eine Vielzahl von Objekten vorhanden sind, die in dieselbe Kategorie fallen, die Positionen von Fixierungspunkten nicht so gesteuert werden, dass sie sich zwischen den Objekten in einer stabilen Weise sequentiell verschieben, welches dazu führt, dass eine Fixierungsposition nur zwischen bestimmten Objekten oder in der Nähe derselben hin- und herschwankt.
Es gab ein weiteres Problem dahingehend, dass dann, wenn es eine Vielzahl von Objekten gibt, die in dieselbe Kategorie wie die eines zu erfassenden oder erkennenden Objekts in Eingangsdaten fallen, eine feine Einstellung von Netzwerkparametern durchgeführt werden muss, wann immer eine Verarbeitung für eine Vielzahl von Objekten (im Wesentlichen eine Nichtbetrachtungs-Verarbeitung) gleichzeitig auftritt, oder wann immer eine Aktualisierung der Betrachtungsposition durchgeführt wird.
In Übereinstimmung mit der Druckschrift USP 4876731 werden der vorgenannte aufsteigende Signal-Pfad und der vorgenannte absteigende Signal-Pfad auf der Grundlage kontextueller Informationen (Regeldatenbank, Wahrscheinlichkeitsgewichtung) ausgehend von einer Ausgabeschicht, das heißt, einer obersten Schicht, gesteuert.
In Übereinstimmung mit dem Patent Nr. 2856702 bezieht sich eine modifizierende Erkennung auf eine Betrachtung. Eine Mustererkennungsvorrichtung ist bereitgestellt mit einem Betrachtungsgradbestimmer zum Auswählen eines Betrachtungsgrads für jede Teilregion, um eine präzise Erkennung zu erzielen, falls ein Muster nicht identifiziert werden kann, und einer Betrachtungsgrad-Steuereinrichtung zum Durchführen einer Erkennung, in welcher der ausgewählte Betrachtungsgrad widergespiegelt worden ist.
Ein System zum Steuern der Festlegung einer Aufmerksamkeitsregion durch selektives Routing, welches durch Koch und Ullman 1985 vorgeschlagen wurde (Human Neurobiology, Bd. 4, Seiten 219–227), ist mit einem Mechanismus zum Extrahieren einer Karte von Vorsprungsniveaus versehen, welcher eine Merkmalsextraktion und einen selektiven Abbildungsmechanismus, einen Betrachtungspositions-Auswahlmechanismus, der ein nach dem "der Gewinner nimmt alles"-neuronales Netzwerk (nachstehend als "WTA"; winner-take-all"-neuronales Netzwerk) verwendet (vgl. die japanische Patent-Offenlegungsschrift Nr. 5-242069, die Druckschrift US5049758 , die Druckschrift US5059814 , die Druckschrift US5146106 , usw.), und einen Mechanismus zum Hemmen von neuronalen Elementen an einer ausgewählten Position kombiniert.
In dem vorstehend beschriebenen, auf dem selektiven Routen basierenden System ist es bei der Steuerung von betrachteten Positionen nicht einfach, die betrachteten Positionen effizient zu steuern, weil das System nur mit einem Mechanismus zum Hemmen einer ausgewählten Region ausgerüstet ist. Daher gab es einige Fälle, in denen die Steuerung der Positionen von betrachteten Punkten auf ein bestimmtes Objekt oder einen bestimmten Abschnitt fokussiert wird.
In Übereinstimmung mit dem auf dem vorgenannten dynamisch routenden Netzwerk basierenden Verfahren wird ein Routen von Informationen über den Mittler eines Steuerneurons durchgeführt, das eine Funktion zum dynamischen Festlegen des Verbindungsgewichts aufweist, um dadurch betrachtete Regionen zum Steuern und eine Merkmalsrepräsentation eines zu erkennenden Objekts, das sich auf einen Beobachter konzentriert, in eine auf das Objekt zentrierte Repräsentation umzuwandeln.
Das das dynamisch routende Netzwerk verwendende System konfiguriert jedoch die Zwischenschichtverbindung über den Mittler vieler Steuerneuronen, für welche ein synaptisches Verbindungsgewicht dynamisch geändert werden kann, neu, so dass die Schaltungskonfiguration unvermeidlich kompliziert wird. Darüber hinaus involvieren die Steuerneuronen eine Verarbeitung von unten nach oben basierend auf dem Niveau eines Herausragens von Merkmalen einer unteren Schicht, so dass es schwierig war, eine effiziente Steuerung von betrachteten Positionen zu erreichen, falls eine Vielzahl von Objekten derselben Kategorie vorhanden sind.
Bei dem auf einer selektiven Abstimmung basierenden Verfahren (Culhane & Tsotsos, 1992, An Attentional Prototype for Early Vision. Proceedings of Second European Conference on Computer Vision, (G. Sadini Ed.), Springer-Verlag, Seiten 551–560), wird eine Suche durch einen Mechanismus ausgeführt, der nur Gewinner aus einer WTA-Schaltung einer obersten Schicht zu einer WTA-Schaltung einer unteren Schicht aktiviert, um über die Position eines Gesamtgewinners der obersten Schicht in einer untersten Schicht, welches die direkt die Eingangsdaten empfangende Schicht ist, zu entscheiden. Die Auswahl einer Position und die Auswahl eines Merkmals, die bei der Betrachtungssteuerung durchgeführt werden, werden durch Hemmen einer Verbindung irrelevant von der Position eines Objekts und durch Hemmen eines Elements, das ein Merkmal irrelevant für das Objekt erfasst, implementiert.
Das System, das auf einer hierarchischen und dynamischen selektiven Abstimmung basiert, führt eine ausdünnungsartige Auswahl durch, bei welcher eine Verbindung, die sich nicht auf ein ausgewähltes Objekt bezieht, lediglich ausgedünnt wird: Dies stellte ein Problem dahingehend dar, dass, falls eine Vielzahl von Objekten vorhanden sind, es dann nicht einfach ist, effizient die Positionen von Fixierungspunkten zu steuern.
Ferner hat der vorstehend beschriebene Stand der Technik gemeinsam die folgenden Nachteile.
Erstens ist keines der vorstehend beschriebenen Systeme mit Mechanismen versehen, die in der Lage sind, mit unterschiedlichen Größen von zu erkennenden Objekten umzugehen. Falls daher Objekte in unterschiedlichen Größen gleichzeitig an einer Vielzahl von Positionen existieren, war es dann erforderlich, Netzwerkparameter auf jede von einer Vielzahl von Szenen abzustimmen, in denen die Größen der zu erkennenden Objekte unterschiedlich sind.
Zweitens war es dann, wenn eine Vielzahl von Objekten, die zu derselben Kategorie gehören, an einer Vielzahl von Positionen in Eingangsdaten vorhanden sind, unmöglich, gleichmäßig und effizient betrachtete Positionen über die Objekte hinweg zu verschieben oder zu aktualisieren.
Nebenbei bemerkt, war allgemein bekannt, dass das Verwenden von analogen Schaltungselementen es möglich macht, eine vereinfachte Schaltungskonfiguration zu erreichen, welches im Vergleich zu einem digitalen System weniger Elemente, höhere Geschwindigkeit, und geringeren Leistungsverbrauch bedeutet. Andererseits jedoch warfen die analoge Schaltungselemente verwendenden Schaltungskonfigurationen Probleme hinsichtlich der Immunität gegenüber Rauschen und der Zuverlässigkeit von Eingangs-/Ausgangs-Merkmalen, die Schwankungen in der Charakteristik einzelner Elemente zuzuschreiben sind, auf.
KURZBESCHREIBUNG DER ERFINDUNG
In Übereinstimmung mit einem Aspekt der vorliegenden Erfindung wird eine Mustererfassungsvorrichtung bereitgestellt, umfassend eine Eingangseinrichtung zum Zuführen eines Eingangssignals und eine Mustererfassungseinrichtung, die eine Vielzahl von Signalverarbeitungselementen zum Erfassen eines vorbestimmten Musters innerhalb des Eingangssignals durch Erfassen einer Vielzahl von vorbestimmten Merkmalen des Musters umfasst. Jedes der Vielzahl von Signalverarbeitungselementen ist dazu betreibbar, in Antwort auf das Eingangssignal von der Eingangseinrichtung oder von einem anderen Signalverarbeitungselement ein Impulssignal an ein anderes Signalverarbeitungselement oder als ein Antwortsignal auszugeben. Vorbestimmte eine der Vielzahl von Signalverarbeitungselementen sind dazu betreibbar, ihre jeweiligen Impulssignale mit einer jeweiligen vorbestimmten Verzögerung relativ zu einer Zeitpunktreferenz auf eine einzelne gemeinsame Busleitung auszugeben. Zumindest eines der Signalverarbeitungselemente ist dazu betreibbar, die Impulse von der einzelnen gemeinsamen Busleitung zu empfangen, und dazu betreibbar, die Impulse von den jeweiligen Signalverarbeitungselementen durch Ermitteln der Ankunftszeit jedes Impulses relativ zu der Zeitreferenz zu identifizieren.
In Übereinstimmung mit einem anderen Aspekt stellt die Erfindung ein Mustererfassungsverfahren bereit, umfassend die Schritte des Empfangens eines Eingangssignals von einem Eingangsabschnitt, und Unterziehens des empfangenen Eingangssignals einer Erfassung einer vorbestimmten Vielzahl von Merkmalen, um dadurch ein in dem Eingangssignal enthaltenes, vorbestimmtes Muster durch Verwenden einer Vielzahl von Signalverarbeitungselementen zu erfassen, wobei der Schritt des Unterziehens des empfangenen Eingangssignals einer Erfassung den Schritt des Ausgebens, von einem Signalverarbeitungselement, eines Impulssignals an ein anderes Signalverarbeitungselement oder als ein Ausgangssignal in Antwort auf das Eingangssignal von dem Eingangsabschnitt oder von einem anderen Signalverarbeitungselement beinhaltet. Das Verfahren ist gekennzeichnet durch ein Ausgeben von Impulssignalen aus vorbestimmten einen der Vielzahl von Signalverarbeitungselementen mit einer jeweiligen vorbestimmten Verzögerung bezüglich zu einer Zeitpunktreferenz auf eine einzelne gemeinsame Busleitung, und Empfangen der Impulse von der einzelnen gemeinsamen Busleitung bei zumin dest einem der Signalverarbeitungselemente, und Identifizieren der Impulse von den jeweiligen Signalverarbeitungselementen durch Ermitteln der Ankunftszeit jedes Impulses bezüglich der Zeitpunktreferenz.
Andere Merkmale und Vorteile außer den vorstehend diskutierten sollen für den Fachmann aus der Beschreibung eines bevorzugten Ausführungsbeispiels der Erfindung, welche folgt, ersichtlich werden. In der Beschreibung wird Bezug auf beigefügte Zeichnungen genommen, welche einen Teil derselben bilden, und welche ein Beispiel der Erfindung darstellen. Ein solches Beispiel ist jedoch nicht erschöpfend für die verschiedenen Ausführungsbeispiele der Erfindung.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das eine Netzwerkkonfiguration in Übereinstimmung mit einem Ausführungsbeispiel der Erfindung zeigt;
2 zeigt die Konfigurationen einer Synapseneinheit und einer Neuronenelementeinheit;
3 zeigt, wie eine Vielzahl von Impulsen ausgehend von einer Merkmalintegrationsschicht oder einer Eingangsschicht zu den Neuronen einer Merkmalerfassungsschicht in dem ersten Ausführungsbeispiel fortgeleitet werden;
4 zeigt die Konfigurationen von Synapsenschaltungen;
5 zeigt die Konfiguration einer kleinen Synapsenkoppelungsschaltung, und die Konfiguration einer Impulsphasen-Verzögerungsschaltung, die in dem ersten Ausführungsbeispiel verwendet werden;
6 zeigt eine Netzwerkkonfiguration in einem Fall, in dem Eingangssignale von einem Schrittmacherneuron den Neuronen einer Merkmalerfassungsschicht zugeführt werden;
7 zeigt die Konfiguration eines Zeitfensters, ein Beispiel der verteilten Gewichtungsfunktionen, und ein Beispiel von Merkmalselementen, welche angewandt werden, um eine Vielzahl von Impulsen für unterschiedliche Merkmalelemente, die Merkmalerfassungsneuronen zugeführt wurden, zu verarbeiten;
8 ist ein Ablaufdiagramm, das eine Verarbeitungsprozedur jeder Schicht zeigt;
9 ist ein Ablaufdiagramm, das eine Verarbeitungsprozedur jedes Merkmalerfassungsneurons zeigt;
10 ist ein Ablaufdiagramm, das eine Verarbeitungsprozedur jedes Merkmalintegrationsneurons zeigt;
11 zeigt die Konfiguration eines Beispiels, in dem eine Mustererfassungs- oder Mustererkennungs-Vorrichtung gemäß dem Ausführungsbeispiel auf eine bildgebende Vorrichtung angewandt wurde;
12 zeigt die Konfiguration einer in einem zweiten Ausführungsbeispiel verwendeten kleinen Synapsenschaltung;
13 zeigt eine Abtaststruktur in einem Empfangsfeld eines Merkmalerfassungsneurons, die in einem dritten Ausführungsbeispiel verwendet wird;
14 stellt ein Beispiel eines Phasenmodulationsausmaßes dar, das von einer Position in einem Empfangsfeld eines Merkmalelements abhängt;
15 zeigt eine Schaltungskonfiguration einer Merkmalintegrationsschicht;
16 zeigt eine andere Schaltungskonfiguration einer Merkmalintegrationsschicht;
17 zeigt eine Konfiguration einer Normalisierungsschaltung;
18 zeigt eine Konfiguration einer Kanalaktivierungsgrad-Steuerschaltung;
19 zeigt eine Konfiguration einer Tor-Schaltung;
20 zeigt ein Beispiel eines Signals, das einer Merkmalintegrationsschicht zugeführt wird, falls Muster unterschiedlicher Größen an demselben Ort erfasst werden, wenn Kanäle verarbeitet werden oder Maßstabsebenen in dem Zeitbereich anzuordnen sind;
21 zeigt eine Netzwerkkonfiguration, die in einem fünften Ausführungsbeispiel verwendet wird;
22 zeigt eine Netzwerkkonfiguration, die in einem sechsten Ausführungsbeispiel verwendet wird;
23 zeigt den Übergang eines Signalzugs des fünften Ausführungsbeispiels;
24 zeigt den Übergang eines Signalzugs des sechsten Ausführungsbeispiels;
25 stellt vereinfacht eine hierarchische Repräsentation dar, die unterschiedliche Maßstabsebenen oder Auflösungen involviert;
26 stellt ein Beispiel der Bestandscodierung von Maßstabsebenen dar;
27 ist ein Blockdiagramm, das eine Netzwerkkonfiguration in einem siebten Ausführungsbeispiel zeigt;
28 ist ein Blockdiagramm, das eine andere Netzwerkkonfiguration in dem siebten Ausführungsbeispiel zeigt;
29 ist ein vereinfachtes Diagramm, das eine Verbindung darstellt, die um ein Betrachtungssteuerungsneuron in einer Betrachtungssteuerungsschicht zentriert ist;
30 zeigt eine Konfiguration einer Betrachtungspositions-Steuerschaltung;
31 ist ein Diagramm, das eine Netzwerkkonfiguration zeigt, die um eine betrachtete Region-Festlegungssteuerschicht zentriert ist;
32 ist ein anderes Diagramm, das die Netzwerkkonfiguration zeigt, die um die betrachtete Region-Festlegungssteuerschicht zentriert ist;
33 zeigt eine Verteilungssteuerschaltung für ein Eingangssignal einer unteren Schicht und ein Rückkoppelungseingangssignal einer oberen Schicht, die einem Aufmerksamkeitsteuerneuron zugeführt werden;
34 zeigt eine Netzwerkkonfiguration, die in dem zweiten Ausführungsbeispiel verwendet wird;
35 ist ein Ablaufdiagramm der Verarbeitung, die durch eine Rückkoppelungsausmaß-Modulationsschaltung implementiert wird;
36 zeigt eine Konfiguration, die um die Aufmerksamkeitsteuerschicht in dem dritten Ausführungsbeispiel zentriert ist;
37 ist ein Ablaufdiagramm, das den Ablauf einer Verarbeitung bezüglich einer betrachteten Position-Festlegungssteuerung zeigt;
38 ist ein Ablaufdiagramm, das den Ablauf einer Steuerung dann zeigt, wenn ein selektiver Aufmerksamkeitmechanismus in einer bildgebenden Vorrichtung integriert ist; und
39 zeigt eine Bildeingabevorrichtung, die mit einem Mechanismus zum Erkennen eines Objekts ausgerüstet ist.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Nunmehr auf die beigefügten Zeichnungen Bezug nehmend wird nachstehend ein bevorzugtes Ausführungsbeispiel gemäß der vorliegenden Erfindung im Einzelnen beschrieben.
<Erstes Ausführungsbeispiel>
Nachstehend wird ein erstes Ausführungsbeispiel in Übereinstimmung mit der vorliegenden Erfindung detailliert unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
In Übereinstimmung mit dem Ausführungsbeispiel werden, um eine Mustererkennung unter Verwendung eines neuronalen Netzwerks zu erzielen, räumliche Musterinformationen unter Verwendung von dynamischen neuronalen Merkmalen (beispielsweise des räumlichzeitlichen Feuer-Merkmals eines Spitzenzugs, des Eingangsmerkmals, das durch räumlich-zeitliche Integration durch ein Neuron erhalten wurde, und von Spitzenintervallen eines Spitzenzugs) in dem Zeitbereich repräsentiert. Folglich wird die Informationsverarbeitungsfähigkeit zum Erkennen von räumlichen Mustern dramatisch verbessert, welches es ermöglicht, eine Mustererkennungsvorrichtung bereitzustellen, die in der Lage ist, eine hochgradig genaue Erfassung unter Verwendung einer kleineren Schaltungsgröße zu erreichen.
Übersicht über die allgemeine Konfiguration
1 zeigt einen allgemeinen Aufbau einer Mustererfassungs- oder Mustererkennungs-Vorrichtung gemäß dem Ausführungsbeispiel. In dieser Vorrichtung werden Musterinformationen mittels einem Was-Pfad und einem Wo-Pfad verarbeitet. Der Was-Pfad handhabt hauptsächlich Informationen mit Bezug zu der Erkennung oder der Erfassung eines Objekts oder eines geometrischen Merkmals, wohingegen der Wo-Pfad hauptsächlich Informationen mit Bezug zu der Position oder der Anordnung eines Objekts oder eines Merkmals handhabt.
Der Was-Pfad hat eine "gewundene Netzwerkstruktur" (vgl. LeCun, Y. und Bengio, Y., 1995, "Convolutional Networks for Images Speech, and Time Series" in Handbook of Brain Theory and Neural Networks (M. Arbib, Ed.), MIT Press, Seiten 255–259). Der Was-Pfad unterscheidet sich jedoch von einem Stand der Technik darin, dass eine Zwischenschichtverbindung in demselben Pfad eine wechselseitige Verbindung herstellen kann, welches nachstehend diskutiert werden wird. Eine endgültige Ausgabe des Was-Pfads entspricht einem Erkennungsergebnis, das heißt, der Kategorie eines erkannten Objekts. Die endgültige Ausgabe des Wo-Pfads repräsentiert eine Position, die einem Erkennungsergebnis zugeordnet ist.
Eine Dateneingangsschicht 101 wird durch einen fotoelektrischen Wandler, wie beispielsweise einem CMOS-Sensor oder ein CCD-Element, in einer Vorrichtung zum Erfassen und Erkennen von Bildern, oder durch einen Spracheingangssensor in einer Vorrichtung zum Erfassen und Erkennen von Sprache gebildet. Alternativ kann die Dateneingangsschicht 101 Daten höherer Ordnung empfangen, die aus einem Analyseergebnis eines vorbestimmten Datenanalysators (beispielsweise der Hauptkomponentenanalyse und der Vektorquantisierung) erhalten wurden. Die Dateneingangsschicht 101 liefert dieselben Daten an die vorgenannten zwei Pfade.
Es folgen nun die Beschreibungen eines Falls, in dem ein Bild zugeführt wird. Der Was-Pfad beinhaltet Merkmalerfassungsschichten 102 ((1, 0), (1, 1), ..., (1, N)) und Merkmalintegrationsschichten 103 ((2, 0), (2, 1), ..., (2, N)).
Die erste Merkmalerfassungsschicht (1, 0) führt eine Gabor-Wavelet-Transformation oder dergleichen aus, um eine Vielzahl von lokalen Merkmalen niedriger Ordnung oder Arten derselben eines von der Dateneingangsschicht 101 empfangenen Bildmusters an individuellen Positionen auf dem gesamten Bildschirm oder an vorbestimmten Abtastpunkten über den gesamten Bildschirm hinweg zu erfassen. In diesem Fall können die lokalen Merkmale niedriger Ordnung geometrische Merkmale und Farbkomponentenmerkmale beinhalten. Zu diesem Zweck hat jede Schicht Empfangsfelder 105 und eine Vielzahl von Erfassungsmodulen 104 zum Erfassen unterschiedlicher Merkmale. Die jeweiligen Erfassungsmodule 104 haben Empfangsfeldstrukturen für unterschiedliche Arten von Merkmalsgrößen, und werden aus Neuronen zusammengesetzt, die dementsprechend Impulszüge erzeugen. Zum Beispiel hat zum Extrahieren eines Liniensegments in einer vorbestimmten Richtung als einem geometrischen Merkmal das Erfassungsmodul 104 eine Empfangsfeldstruktur, die für die Neigung des Liniensegments, welche eine geometrische Struktur desselben ist, angepasst ist.
Die Merkmalintegrationsschicht 103 (2, 0) weist eine Vielzahl von Merkmalintegrationsmodulen 106 auf. Jedes der Merkmalintegrationsmodule 106 hat eine vorbestimmte Empfangsfeldstruktur, und ist aus Impulszüge erzeugenden Neuronenelementen zusammengesetzt. Durch Durchführen einer Unterabtastberechnung, wie beispielsweise einer lokalen Mittelwertbildung oder einer Erfassung einer maximalen Ausgabe in dem Empfangsfeld, integriert jedes der Merkmalintegrationsmodule 106 eine Vielzahl von Neuronenelementausgaben in demselben Empfangsfeld, die von der Merkmalerfassungsschicht 102 (1, 0) empfangen werden. Die Empfangsfelder teilen dieselbe Struktur unter den Neuronen in derselben Schicht.
Nachfolgende Schichten, das heißt, die Merkmalerfassungsschichten 102 ((1, 1), (1, 2), ..., (1, N)) und die Merkmalintegrationsschichten 103 ((2, 1), (2, 2), ..., (2, N)) haben vorbestimmte Empfangsfeldstrukturen, die durch Lernen gewonnen werden. Wie in dem Fall der vorgenannten Schichten erfassen die früheren Schichten ((1, 1), ...) eine Vielzahl von unterschiedlichen Merkmalen in den Merkmalerfassungsmodulen 104, wohingegen die späteren Schichten ((2, 1), ...) Erfassungsergebnisse bezüglich einer Vielzahl von Merkmalen, die von der Merkmalerfassungsschicht 102 in einer vorangehenden Stufe empfangen wurden, integrieren und eine vergleichbare Funktion und Struktur wie diejenigen der Merkmalintegrationsschicht 103 (2, 0) haben.
Der Wo-Pfad mit Merkmalpositions-Erfassungsschichten 107 ((3, 0), ..., (3, k)) empfängt die Ausgaben von vorbestimmten (nicht notwendiger Weise allen) Merkmalintegrationsschichten 103 auf dem Was-Pfad, und sind in die Ausgaben der Positionen von Merkmalen niedriger Ordnung, mittlerer Ordnung und hoher Ordnung involviert. In den nachfolgenden Beschreibungen wird keine weitere detaillierte Erklärung für jede Schicht des Wo-Pfads gegeben werden.
Wie in 2A gezeigt ist, beinhaltet eine Struktur zum Verbinden von Neuronenelementen 201 zwischen Schichten einen Signalübertragungsabschnitt 203 (Verdrahtung oder eine Verzögerungsleitung) entsprechend zu einer axialen Faser oder eines Dendriten einer Nervenzelle, und eine Synapsenschaltung S202. 2A zeigt eine Konfiguration einer Verbindung mit Bezug zu einer Ausgabe von einer Neuronengruppe (n_i) einer Merkmalintegrations- oder Erfassungszelle, die ein Empfangsfeld für eine bestimmte Merkmalerfassungs- oder Integrationszelle N bildet (die Ausgabe ist in diesem Fall die Eingabe wie von der Zelle N ausgehend beobachtet). Der durch eine fette Linie angegebene Signalübertragungsabschnitt 203 bildet eine gemeinsame Busleitung, und Impulssignale von einer Vielzahl von Neuronen werden in einer Zeitserie auf der Signalübertragungsleitung angeordnet und übertragen bzw. gesendet. Dieselbe Konfiguration wird zum Empfangen eines Eingangssignals von einer Bestimmungszelle N verwendet. In dieser Fall können Eingangssignale und Ausgangssignale auf einer Zeitbasis in der exakt gleichen Konfiguration aufgeteilt und verarbeitet werden, oder sie können durch Ausbilden der zu der in 2 gezeigten ähnlichen Konfiguration unter Verwendung von zwei Systemen, eines für den Eingang (das Dendritenende) und das andere für die Ausgabe (das Axialfaserende), verarbeitet werden.
Die Synapsenschaltung S202 ist in zwei Arten vorhanden. Eine Art ist für eine Zwischenschichtverbindung angepasst, welches die Verbindung zwischen einem Neuron auf der Merkmalerfassungsschicht 102 und einem Neuron auf der Merkmalintegrationsschicht 103 ist, und jede Schicht kann eine Verbindung zu ihrer nachfolgenden Schicht oder ihrer vorangehenden Schicht haben. Die andere Art ist für eine Verbindung zwischen Neuronen in derselben Schicht angepasst. Die letztgenannte Art wie je nach Bedarf für eine Verbindung zwischen einem Schrittmacherneuron, welches nachstehend diskutiert werden wird, und einem Merkmalerfassungs- oder Integrationsneuron verwendet.
In der Synapsenschaltung S202 verstärkt eine "Anregungsverbindung" ein Impulssignal, während eine Hemmungsverbindung ein Impulssignal abschwächt. Wenn Informationen mittels Impulssignalen übertragen werden, können die Impulssignale durch beliebiges aus Amplitudenmodulation, Impulsbreitenmodulation, Phasenmodulation, oder Frequenzmodulation verstärkt oder abgeschwächt bzw. gedämpft werden.
In diesem Ausführungsbeispiel arbeitet die Synapsenschaltung S202 hauptsächlich als eine Impulsphasenmodulationseinrichtung, und wird die Verstärkung eines Signals als ein grundlegender Vorlauf einer Impulsankunftszeit als eine in dem Merkmal intrinsische Größe gehandhabt, während die Abschwächung als eine grundlegende Verzögerung umgewandelt wird. Genauer ausgedrückt, wie nachstehend diskutiert werden wird, stellt eine synaptische Verbindung eine Ankunftszeit oder eine Phase, die für ein Merkmal intrinsisch sind, bei einem Bestimmungsneuron bereit. Qualitativ stellt die Anregungsverbindung einen Phasenvorlauf eines Ankunftsimpulses in Bezug zu einer bestimmten Referenzphase bereit. Die Hemmungsverbindung stellt darüber hinaus eine Verzögerung bereit.
Bezug nehmend auf 2A gibt jedes Neuronenelement n_j ein Impulssignal oder einen Spitzenzug aus, und ist ein "Integrations- und -Feuer-Typ", welcher nachstehend diskutiert werden wird. Wie in 2C gezeigt ist, können die Synapsenschaltung und die Neuronenelemente in einen Schaltungsblock kombiniert sein.
Die Merkmalposition-Erfassungsschichten 107 in dem Wo-Pfad, gezeigt in 1, empfangen die Ausgaben der Merkmalerfassungsschichten 103 oder dergleichen des Was-Pfades. An Gitterpunkten, die grob abgetastet wurden, während eine positionelle Beziehung auf der Dateneingangsschicht 101 beibehalten wurde, wurden nur diejenigen Neuronen, die den zur Erkennung verwendbaren Komponenten zugeordnet sind (das heißt, die Komponenten, die vorab ausgehend von einem Muster einer Erkennungskategorie registriert worden sind), in einem Merkmalextraktionsergebnis auf dem Was-Pfad, mittels einer Filterung oder dergleichen ansprechen.
Zum Beispiel sind in der obersten Schicht in dem Wo-Pfad die der Kategorie eines zu erkennenden Objekts zugeordneten Neuronen auf einem Gitter angeordnet, um die Position anzugeben, an der das Objekt vorhanden ist. Die Neuronen in einer Zwischenschicht in dem Wo-Pfad können dazu angepasst sein, eine Empfindlichkeitseinstellung oder dergleichen zu erlauben, so dass sie nur dann ansprechen, wenn ein Merkmal erfasst wird, das bei dem Empfang einer von oben nach unten erfolgenden Eingabe ausgehend von einer oberen Schicht in dem Wo-Pfad um die Position, an der das zu erkennende Objekt existiert, zentrierend angeordnet werden können, oder bei Empfang einer Eingabe, die über eine Route zugeführt wird, die aus einer oberen Schicht des Wo-Pfads → einer oberen Schicht des Wo-Pfads → einer Zwischenschicht des Wo-Pfads gebildet wird.
Wenn der Wo-Pfad dazu verwendet wird, eine Erfassung von hierarchischen Merkmalen durchzuführen, in welchen die positionelle Beziehung zwischen erfassten Merkmalen (die positionellen Informationen) beibehalten wird, sollte die Empfangsfeldstruktur so hergestellt werden, dass sie lokal (beispielsweise elliptisch) ist und allmählich in Richtung zu einer oberen Schicht hin größer wird, oder auf einer konstanten Größe verbleibt, welche größer ist als ein Pixel auf einer Sensoroberfläche, ausgehend von einer Zwischenschicht hin zu einer oberen Schicht. Dies ermöglicht es, Merkmalselemente (graphische Elemente) in jeweiligen Schichten zu erfassen, während die positionelle Beziehung zwischen Merkmalselementen, wie beispielsweise geometrische strukturelle Elemente und figurale oder graphische Muster, auf einer Sensoroberfläche in einem bestimmten Ausmaß beibehalten wird.
Als ein anderer Modus des Wo-Pfads kann ein neuronales Netzwerk angewandt werden, indem das Empfangsfeld in Richtung hin zu einer oberen Schicht hierarchisch wächst, und in der obersten Schicht nur das Neuron, das einen maximalen Wert ausgibt, unter den der Kategorie eines erfassten Objekts zugeordneten Neuronen feuert. In einem solchen System werden die Informationen bezüglich der dispositionellen Beziehung oder einer räumlichen Anordnung, repräsentiert durch die Phase in einer Dateneingangsschicht, ebenfalls zu einem gewissen Ausmaß in der obersten Schicht und in Zwischenschichten gespeichert.
Als ein anderer Ausgabemodus des Wo-Pfads kann eine beobachtete Region einer vorbestimmten Größe auf einer Dateneingangsschicht ausgehend von der Merkmalsvorsprungabbildung, die aus den Ausgabeergebnissen einer Merkmalerfassungsschicht (1, 0) erhalten wurde, festgelegt werden, und können die Position und die Größe der festgelegten Region und das Vorhandensein der Kategorie des zu erkennenden Objekts darin ausgegeben werden. Als ein nochmals weiterer Modus kann ein neuronales Netzwerk angewandt werden, indem das Empfangsfeld in Richtung hin zu einer oberen Schicht hierarchisch größer wird, und in der obersten Schicht nur das Neuron, das einen maximalen Wert ausgibt, unter den der Kategorie eines erfassten Objekts zugeordneten Neuronen feuert. In einem solchen System werden die Informationen bezüglich der dispositionellen Beziehung oder einer räumlichen Anordnung in einer Dateneingangsschicht ebenfalls in der obersten Schicht und Zwischenschichten in einem gewissen Ausmaß gespeichert.
Neuronenelement
Nachstehend werden die jede Schicht bildenden Neuronen beschrieben. Jedes Neuronenelement ist ein erweitertes Modell basierend auf einem "integrierenden-und-feuernden-Neuron", und ist vergleichbar zu dem integrierenden-und-feuernden-Neuron dahingehend, dass es ein Impulssignal abfeuert und ausgibt, falls ein Ergebnis, das erhalten wird, wenn Eingangssignale (Impulszüge äquivalent zu Aktionspotentialen) linear in einer räumlich-zeitlichen Art und Weise addiert werden, einen Schwellenwert überschreitet.
2B zeigt ein Beispiel einer grundlegenden Konfiguration, die das Operationsprinzip einer Impulserzeugungsschaltung (CMOS-Schaltung) darstellt, die als ein Neuronenelement wirkt. Dies wurde erhalten durch Erweitern einer bekannten Schaltung (vgl. IEEE Trans. On Neural Networks, Bd. 10, S. 540). Das Beispiel ist so konfiguriert, dass anregende und hemmende Eingangssignale empfangen werden.
Das Operationsprinzip der Impulserzeugungsschaltung wird nachstehend beschrieben. Die Zeitkonstante einer Schaltung auf einem Kondensator C₁ und einem Widerstand R₁, die mit einem Anregungseingangsende verbunden ist, ist kleiner als die Zeitkonstante einer Schaltung aus einem Kondensator C₂ und einem Widerstand R₂, und Transistoren T₁, T₂ und T₃ sind in einem konstanten Zustand AUS-geschaltet. Die Widerstände sind in Wirklichkeit mittels Transistoren aufgebaut, die in einer Diodenbetriebsart gekoppelt sind.
Wenn das Potential des Kondensators C₁ ansteigt und das Potential des Kondensators C₂ um den Schwellenwert des Transistors T₁ überschreitet, wird der Transistor T₁ aktiviert, welches bewirkt, dass die Transistoren T₂ und T₃ aktiv werden. Die Transistoren T₂ und T₃ bilden eine Stromspiegelschaltung, und die Ausgabe der in 2B gezeigten Schaltung wird an dem Ende des Kondensators C₁ mittels einer (nicht gezeigten) Ausgabeschaltung ausgegeben. Wenn eine Ladungsspeichermenge des Kondensators C₂ ein maximales Niveau erreicht, wird der Transistor T₁ AUS-geschaltet, welches bewirkt, dass auch die Transistoren T₂ und T₃ AUS-geschaltet werden, und dass eine positive Rückkoppelung Null wird.
Während einer "Refraktärperiode" entlädt sich der Kondensator C₂, und sprechen die Neuronen so lange nicht an, bis das Potential des Kondensators T₁ größer ist als das Potential des Kondensators C₂, und der Unterschied dazwischen den Schwellenwert des Transistors T₁ überschreitet. Die Wiederholung eines abwechselnden Ladens und Entladens der Kondensatoren C₁ und C₂ verursacht, dass periodische Impulse ausgegeben werden, deren Frequenzen allgemein auf der Grundlage des Pegels eines anregenden Eingangssignals festgelegt werden. Das Vorhandensein der refraktorischen Zeitspanne macht es jedoch möglich, die maxima le Frequenz zu begrenzen, oder eine konstante Frequenz auszugeben.
Die Potentiale, das heißt, die Ladungsspeichermengen der Kondensatoren werden zeitlich mittels einer Referenzspannungs-Steuerschaltung (einer Zeitfenster-Gewichtungsfunktions-Erzeugungsschaltung) 204 gesteuert. Die Steuerkennlinie wird in der gewichteten Addition von Eingangsimpulsen in einem Zeitfenster widergespiegelt (vgl. 7). Die Referenzspannungs-Steuerschaltung 204 erzeugt ein Referenzspannungssignal, welches der in 7B gezeigten Gewichtungsfunktion entspricht, zu einem Eingangssignalzeitpunkt von einem Schrittmacherneuron (welches nachstehend diskutiert werden wird), oder auf der Grundlage einer Eingabe über eine wechselseitige Verbindung mit einem Neuron einer nachfolgenden Schicht.
In diesem Ausführungsbeispiel gibt es Fälle, in denen die hemmenden Eingaben verzichtbar sind; jedoch macht es das Festlegen der Eingaben von einem Schrittmacherneuron (welches nachstehend diskutiert werden wird) zu einem Neuron einer Merkmalserfassungsschicht zu hemmenden Eingaben möglich, zu verhindern, dass Ausgangssignale divergieren oder gesättigt werden.
Im allgemeinen hängt die Beziehung zwischen der Gesamtsumme von Eingangssignalen und einem Ausgangspegel (Impulsphase, Impulsfrequenz, Impulsbreite, usw.) von der Empfindlichkeit jedes Neurons ab. Die Empfindlichkeit kann durch Zuführen einer Eingabe von oben nach unten ausgehend von einer oberen Schicht geändert werden. In den folgenden Beschreibungen wird zur Vereinfachung der Erklärung angenommen, dass Schaltungsparameter so festgelegt worden sind, dass die Frequenzen von Impulsausgaben basierend auf Gesamtsummenwerten von Eingangssignalen steil ansteigen (im Wesentlichen binär in einem Frequenzbereich dementsprechend). Es wird darüber hinaus angenommen, dass Ausgangspegel, einschließlich von Zeitpunkten, die einer Phasemodulation unterzogen werden, sich in Übereinstimmung mit der Impulsphasenmodulation ändern.
Für einen Impulsphasenmodulator kann die in 5 gezeigte Schaltung, welche nachstehend beschrieben werden wird, hinzugefügt sein. Dies bewirkt, dass die Gewichtungsfunktion in einem Zeitfenster durch die vorangehende Referenzspannung gesteuert wird, um die Phase einer Impulsausgabe von dem Neuron zu ändern, und die aktualisierte Phase auf den Ausgangspegel des Neurons bezogen werden kann.
Die Zeit τ_w1 ist äquivalent zu einem Maximalwert der in 7B gezeigten Gewichtungsfunktion, die charakterisiert, dass die zeitliche Integration oder eine Empfangsempfindlichkeit für einen Impuls, der der Impulsphasenmmodulation unterzogen wird, durch synaptische Verbindung, allgemein so festgelegt wird, dass sie zeitlich früher als eine erwartete Impulsankunftszeit τ_s1 ist, die intrinsisch für ein durch synaptische Verbindung verliehenes Merkmal ist. Als ein Ergebnis integriert für Impulse, die um einen vorbestimmten Bereich früher als die erwartete Ankunftszeit eintreffen, das diese Impulse empfangende Neuron zeitlich sie als ein Impulssignal mit einem hohen Ausgangspegel. In dem in 7B gezeigten Beispiel werden Impulse, die zu früh eintreffen, abgeschwächt. Die Formen der Gewichtungsfunktionen sind nicht auf geometrische Formen beschränkt, wie zum Beispiel Gauss-förmig; anstelle dessen kann die Gewichtungsfunktion eine asymmetrische Form annehmen. Es wird angemerkt, dass das Zentrum jeder in Figur sieben Bild gezeigten Gewichtungsfunktion keine erwartete Impulsankunftszeit ist.
Der Beginn eines Zeitfensters stellt die Referenz für die Phase einer Neuronenausgabe (vor Synapse) bereit, wie es nachstehend diskutiert werden wird, und eine Verzögerung in der Phase ausgehend von der Referenz wird durch eine Ladungsspeichermenge bestimmt, wenn ein Referenzimpuls basierend auf einer Schrittmacher-Ausgabe usw. empfangen wird. Eine detaillierte Erklärung einer Schaltungskonfiguration zum verleihen einer solchen Ausgabecharakteristik wird weggelassen, weil sie keinen Bezug zu dem Hauptthema der vorliegenden Erfindung hat. Eine postsynaptische Impulsphase wird durch Addieren der prä synaptischen Phase zu einer spezifischen, durch die Synapse gelieferte Phasenmodulationsgröße erhalten.
Als eine Alternative kann eine bekannte Schaltungskonfiguration verwendet werden, die dazu ausgelegt ist, eine Oszillationsausgabe mit einer vorbestimmten Verzögerung im Zeitverhalten zu liefern, wenn ein Gesamtsummenwert von Eingangssignalen, die unter Verwendung einer Fensterfunktion oder dergleichen erhalten wurden, einen Schwellenwert überschreitet.
Das Neuronenelement ist ein Neuron, das zu der Merkmalerfassungsschicht 102 oder der Merkmalintegrationsschicht 103 gehört, und hat eine Schaltungskonfiguration, in welcher das Neuron einen Impuls mit einer Phasenverzögerung basierend auf dem Eingangspegel (gegeben durch eine einfache Summe oder einen gewichteten Gesamtsummenwert der vorgenannten Eingangsignale), der von dem Empfangsfeld der Schicht in der vorangehenden Stufe empfangen wurde, ausgibt, nachdem es einen Impuls empfängt, der von einem Schrittmacherneuron ausgegeben wird, wenn ein Feuermuster auf der Grundlage der Ausgabezeiten des Schrittmacherneurons gesteuert wird, welches nachstehend diskutiert werden wird. In diesem Fall existiert, bevor ein Impulssignal von dem Schrittmacherneuron empfangen wird, ein vorübergehender Übergangszustand, in dem Neuronen Impulse in zufälligen Phasen zueinander in Übereinstimmung mit Eingangspegeln ausgeben.
Wie nachstehend beschrieben werden wird, kann dann, wenn kein Schrittmacherneuron verwendet wird, eine Schaltungskonfiguration verwendet werden, in welcher ein synchrones Feuersignal, das durch die wechselseitige Verbindung von Neuronen zwischen der Merkmalerfassungsschicht 102 und der Merkmalintegrationsschicht 103 und Netzwerkdynamiken erhalten wurde, als die Referenz verwendet wird, und die Feuerzeiten für Ausgangsimpulse von Merkmalerfassungsschicht-Neuronen in Übereinstimmung mit den vorgenannten Eingangspegeln gesteuert werden.
Das Neuron der Merkmalerfassungsschicht 102 hat eine Empfangsfeldstruktur basierend auf seiner Merkmalkategorie, wie vor stehend beschrieben wurde. Wenn der gesamte gewichtete Summenwert (welcher nachstehend diskutiert werden wird), der durch die Zeitfensterfunktion erhalten wurde, eines Eingangsimpulssignals in einem gegenwärtigen Wert oder Potenzial ausgehend von einem Neuron einer Schicht (der Eingangsschicht 101 oder der Merkmalintegrationsschicht 103) in der vorangehenden Stufe den Schwellenwert überschreitet, wird ein Impuls mit einem Pegel ausgegeben, der eine nicht abnehmende und nichtlineare Funktion annimmt, die auf einen vorbestimmten Pegel asymptotisch gesättigt ist, wie beispielsweise eine Sigmoid-Funktion, das heißt, "einen Quetschfunktionswert", gegeben durch den Gesamtsummenwert. In diesem Fall hängen die Ausgangspegel von den Änderungen in der Phase ab; sie können jedoch alternativ von den Änderungen in der Frequenz, der Amplitude, oder der Impulsbreitenreferenz abhängen.
In der Merkmalerfassungsschicht (1, 0) gibt dann, wenn es angenommen wird, dass es ein Neuron N1 zum Erfassen einer Struktur (Merkmal niedriger Ordnung) eines Musters, das eine vorbestimmte räumliche Frequenz in einer lokalen Region einer bestimmten Größe und eine vorbestimmte Richtungskomponente hat, gibt, falls eine entsprechende Struktur in dem Empfangsfeld des Neurons N1 auf der Dateneingabeschicht 101 existiert, das Neuron N1 einen Impuls in der Phase basierend auf dem Herausragen oder des Kontrasts derselben aus. Eine solche Funktion kann durch ein Gabor-Filter implementiert werden. Das Folgende wird eine Merkmalerfassungs-Filterfunktion beschreiben, die durch jedes Neuron der Merkmalerfassungsschicht (1, 0) implementiert wird.
Verarbeitung an Merkmalintegrationsschichten (Extraktion von Merkmalen niedriger Ordnung)
In der Merkmalerfassungsschicht (1, 0) wird eine Gabor-Wavelet-Transformation, die durch einen Filtersatz einer mehrskaligen und multidimensionalen Komponente repräsentiert wird, ausgeführt. Jedes Neuron oder jede Gruppe, die aus einer Vielzahl von Neuronen in der Schicht besteht, hat eine vorbestimmte Gabor-Filterfunktion.
Das Gabor-Wavelet wird durch Modellieren einer sinusförmigen Welle mit einer vorbestimmten Richtungskomponente und räumlichen Frequenz mit Hilfe der Gauß-Funktion erhalten, und wird durch einen Index m einer Skalierungsebene und einen Index n der Richtungskomponente wie durch den unten gezeigten Ausdruck (1) gegeben spezifiziert. Der Filtersatz als das Wavelet hat zueinander ähnliche funktionell Formen, hat aber voneinander verschiedene Hauptrichtungen und Größen. Es war bekannt, dass die Wavelets in dem räumlichen Frequenzbereich und dem Raslraumbereich lokalisiert sind, die gleichzeitige Unbestimmtheit bezüglich Raum und räumlicher Frequenz minimiert wird, und das Wavelet die am stärksten lokalisierte Funktion in sowohl dem reellen Raum und dem Frequenzraum ist (J, G. Daugman (1985), Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters, Journal of Optical Society of America A, Band 2, Seiten 1160–1169).
worin (x, y) eine Position in einem Bild bezeichnet, "a" einen Skalierungsfaktor bezeichnet, θ_n die Richtungskomponente eines Filters bezeichnet, W eine grundlegende räumliche Frequenz bezeichnet, und σ_x und σ_y Parameter bezeichnen, die die Breite in einer Richtung "x" bzw. einer Richtung "y" einer Filterfunktion geben. In diesem Ausführungsbeispiel nimmt θ_n die Werte von sechs Richtungen an, d. h. 0 Grad, 30 Grad, 60 Grad, 90 Grad, 120 Grad, und 150 Grad. Das Bezugszeichen "a" ist auf 2 festgelegt, und "m" nimmt einen ganzzahligen Wert von 1 bis 4 an.
Die Parameter σ_x und σ_y und "a", die die Charakteristik bzw. Kennlinie eines Filters bestimmen, sind bevorzugt so festgelegt, dass sie einander in einem Fourier-Bereich eben korrekt überlappen, um keine unausgewogene Empfindlichkeit in einer beliebigen räumlichen Frequenz oder Richtung zu verursachen. Zu diesem Zweck sind die Parameter so ausgestaltet, dass zum Beispiel die mesialen Größenebenen von maximalen Amplitudenwerten nach der Fourier-Umwandlung einander wechselseitig in dem Fourier-Bereich berühren, wie nachstehend gezeigt ist:
worin U_H und U_L den Maximalwert bzw. den Minimalwert in einem durch die Wavelet-Transformation abgedeckten räumlichen Frequenzband bezeichnen, und M einen Skalierungsebenenindex innerhalb des abgedeckten Bereichs bezeichnet.
Eine zweidimensionale konvolutionelle Berechnung bzw. Faltung der jeweiligen Filter g_mn(x, y) und ein Eingangsvariablen-Dichte bild wird ausgeführt, um die Gabor-Wavelet-Transformation durchzuführen, wie unten gezeigt ist: Wmn(x, y) = ∫I(x1, y1)g*mn(x – y1, y – y1)dx1dy1 = Amn(x, y)exp{iPmn(x, y)} (4)worin I ein Eingangsbild bezeichnet, und W_mn einen Gabor-Wavelet-Transformationskoeffizienten bezeichnet. Der Satz von W_mn (m = 1, ..., 4 ; n = 1, ..., 6) wird als ein an jedem Punkt angewandter Merkmalsvektor herangezogen. Der Stern "*" gibt an, dass ein eine komplexe Konjugierte herangezogen wird. Somit hat jedes Neuron der Merkmalerfassungsschicht (1, 0) eine Empfangsfeldstruktur basierend auf g_mn, und gibt Impulse bei einem Pegel aus, welcher eine nichtlineare Quetschfunktion eines Wavelet-Transformationskoeffizientenwerts annimmt, der durch Eingeben der Summe von Produkten eines Verteilungsgewichtungsfak tors und von Bilddaten erhalten wurde. In diesem Ausführungsbeispiel wird eine phasen∸basierte Darstellung verwendet, jedoch können alternativ eine Frequenz, eine Amplitude, oder eine Impulsbreite verwendet werden. Somit wurde die Gabor-Wavelet-Transformation gemäß Ausdruck (4) durchgeführt, um die Ausgabe der gesamten Schicht (1, 0) zu erhalten.
Verarbeitung durch Merkmalintegrationsschichten (Extraktion von Merkmalen mittlerer und hoher Ordnung)
Anders als die Neuronen der vorangehenden Erfassungsschicht werden die Neuronen der nachfolgenden Merkmalerfassungsschichten ((1, 1), (1, 2), ..., (1, n)) der "Hebb-Lernregel" oder dergleichen unterzogen, um die Empfangsfeldstrukturen zum Erfassen von Merkmalen in dem zu erkennenden Muster zu erzeugen. In einer späteren Schicht nähert sich die Größe einer lokalen Region zum Erfassen eines Merkmals allmählich der Größe des gesamten, zu erkennenden Objekts an. Spätere Schichten erfassen geometrisch Merkmale mittlerer oder hoher Ordnung. Zum Beispiel beziehen sich bei dem Erfassen und dem Erkennen eines Gesichts die Merkmale mittlerer oder hoher Ordnung auf das Merkmal auf der Ebene von grafischen Elementen, wie beispielsweise Augen, Nase, und Mund, die das Gesicht bilden. Die Neuronen der Merkmalerfassungsschicht können einen Mechanismus zum Empfangen einer hemmenden (Kurzschlusshemmungstyp) Eingabe haben, die durch die Ausgabe einer Schicht in der vorangehenden Stufe bestimmt wird, um stabile Ausgaben zu gewährleisten.
Verarbeitung an Merkmalintegrationsschichten
Die Neuronen der Merkmalintegrationsschichten 103 ((2, 0), (2, 1), ...) werden nun beschrieben.
Wie in 1 gezeigt ist, ist die Verbindung von der Merkmalerfassungsschicht 102 (beispielsweise (1, 0)) zu der Merkmalintegrationsschicht 103 (beispielsweise (2, 0)) so konfiguriert, dass Eingaben über die stimulierende Verbindung von Neuronen in dem Empfangsfeld des Merkmalintegrationsneurons derselben Merkmalklasse oder desselben Merkmaltyps in der vo rangehenden Merkmalerfassungsschicht empfangen werden. Jedes Neuron der Merkmalintegrationsschicht führt eine Unterabtastung durch lokale Mittelwertbildung aus, wie beispielsweise durch Berechnen eines Mittelwerts von Eingaben von Neuronen, die zu dem Empfangsfeld des Merkmalerfassungsneurons gehören, für jede Merkmalkategorie.
Im einzelnen werden bei dem Vorgang der Merkmalintegration eine Vielzahl von Impulsen desselben Merkmaltyps eingegeben bzw. zugeführt, und werden die Impulse in einer lokalen Region oder einem lokalen Empfangsfeld integriert, und dann einer Mittelwertbildung oder dergleichen unterzogen. Dies erlaubt eine zuverlässige Erfassung auch dann, wenn die Position des Merkmals schwankt oder sich das Merkmal deformiert. Daher kann die Struktur des Empfangsfelds von Neuronen in der Merkmalintegrationsschicht unabhängig von der Merkmalkategorie so konfiguriert werden, dass sie gleichförmig ist. Zum Beispiel kann jedes Empfangsfeld von Neuronen in der Merkmalintegrationsschicht aus rechteckigen Regionen einer vorbestimmten Größe erzeugt sein, und kann die Empfindlichkeit oder die Gewichtung gleichförmig in diesen verteilt sein.
Betriebsablaufprinzip der Mustererfassung
Es werden nun Beschreibungen der Impulskodierung und des Erfassungsverfahrens von zweidimensionalen grafischen Mustern gegeben werden. 3 zeigt schematisch, wie sich Impulssignale von der Merkmalintegrationsschicht 103 zu der Merkmalerfassungsschicht 102 (beispielsweise von der Schicht (2, 0) zu der Schicht (1, 1), gezeigt in 1) ausbreiten.
Neuronen n_i (n₁ bis n₄) in der Merkmalintegrationsschicht 103 sind verantwortlich für unterschiedliche Merkmalgrößen oder Merkmalelemente. Ein Neuron n'_j der Merkmalerfassungsschicht 102 hat Bezug zu der Erfassung eines Merkmals höherer Ordnung (grafisches Element), das durch Kombinieren der Merkmale in demselben Empfangsfeld erhalten wurde.
Eine Zwischenneuronenverbindung bringt eine merkmalspezifische Verzögerung mit sich, die einer Impulsausbreitungszeit und einer Zeitverzögerung oder dergleichen in der synaptischen Verbindung (S_ij) von dem Neuron n_j zu dem Neuron n'_j zuzuschreiben ist. Infolgedessen kommen die Impulse in einem Impulszug, der an dem Neuron n'_j über eine gemeinsame Busleitung 301 anlangt, in einer vorbestimmten Reihenfolge mit vorbestimmten Intervallen aufgrund des Verzögerungsausmaßes in der synaptischen Verbindung an, bestimmt durch Lernen, solange wie Impulse aus dem Neuron der Merkmalintegrationsschicht 103 ausgegeben werden. In dem in 3A gezeigten Beispiel kommen die Impulse in der Reihenfolge von P₄, P₃, P₂, und P₁ an.
3B stellt hauptsächlich die Zeitpunkte dar, zu welchen Impulse von Merkmalintegrationszellen n₁, n₂ und n₃, von denen jede einen anderen Type von Merkmal repräsentiert, auf einer mit (2, k) nummerierten Schicht, zu einer Merkmalerfassungszelle (n'_j), welche ein Merkmal höherer Ordnung erfasst, auf einer mit (1, k + 1) nummerierten Schicht ausgebreitet bzw. weitergeleitet werden, wenn die Synchronisationssteuerung des Zeitfensters unter Verwendung der Zeitsteuersignale von einem Schrittmacherneuron durchgeführt wird.
6 zeigt eine Netzwerkkonfiguration, wenn Eingaben von einem Schrittmacherneuron zu Merkmalerfassungsschicht-Neu-ronen empfangen werden. Bezug nehmend auf 6 wird jedes Schrittmacherneuron 603 (n_p) von Merkmalerfassungsneuronen 602 (n_j, n_k und so weiter) begleitet, die ein Empfangsfeld mit derselben Forum wie das des Merkmalerfassungsneurons bilden und unterschiedliche Arten von Merkmalen erfassen, und empfängt eine stimulierende Verbindung von Neuronen 601 auf der Merkmalintegrationsschicht oder einer Eingabeschicht. Ferner gibt das Schrittmacherneuron 603 (n_p) Impulse an die Merkmalerfassungsneuronen 602 und die Merkmalintegrationsneuronen zu vorbestimmten Zeitpunkten oder mit vorbestimmten Frequenzen bzw. Häufigkeiten aus, die von Gesamtsummenwerten der Eingaben bzw. Eingangssignale oder Mittelwerten von Aktivitätsniveaus von Neuronen in den Empfangsfeldern abhängen, welche die Aktivitätscharakteristik zu dem Empfangsfeld repräsentieren.
Die Merkmalerfassungsneuronen 602 sind so konfiguriert, dass Zeitfenster unter Verwendung der Eingaben von dem Schrittmacherneuron 603 als Triggersignale wechselseitig phasenverriegelt werden. Wie vorstehend erwähnt wurde, sind jedoch die Merkmalerfassungsneuronen 602, bevor sie eine Eingabe von dem Schrittmacherneuron empfangen, nicht phasenverriegelt, so dass die Neuronen Impulse in zufälligen Phasen ausgeben. Außerdem führen die Merkmalerfassungsneuronen 602 keine Zeitfensterintegration durch, welche nachstehend beschrieben werden wird, bevor sie Eingaben von dem Schrittmacherneuron 603 empfangen. Die Integration wird durch einen von dem Schrittmacherneuron 603 empfangenen Impuls getriggert.
In diesem Fall wird das Zeitfenster für jede Merkmalerfassungszelle (n'_j) definiert, welches gemeinsam von den Neuronen in einer Merkmalintegrationsschicht, die dasselbe Empfangsfeld für die Zelle bildet, und dem Schrittmacherneuron 603 geteilt wird. Das Zeitfenster definiert den Zeitbereich der Zeitfensterintegration.
Das Schrittmacherneuron 603 in einer mit (1, k) ("k" ist eine Ganzzahl von 0 oder mehr) nummerierten Schicht gibt Impulse an die Merkmalintegrationszellen einer mit (2, k – 1) nummerierten Schicht und an eine Merkmalerfassungszelle der mit (1, k) nummerierten Schicht, zu welcher das Schrittmacherneuron gehört, aus, wodurch Zeitsteuersignale zum Erzeugen von Zeitfenstern geliefert werden, wenn die Merkmalerfassungszellen zeitlich Eingaben hinzufügen. Die Startzeit des Zeitfensters stellt die Referenzzeit zum Messen der Ankunftszeit eines von jeder Merkmalintegrationszelle ausgegebenen Impulses bereit. Im Einzelnen liefert das Schrittmacherneuron 603 die Referenzimpulse für die Ausgabezeit der Impulse aus den Merkmalintegrationszellen und für die Zeitfensterintegration in den Merkmalerfassungszellen.
Falls die Merkmalintegrationszellen (n₁, n₂ und n₃) einer mit (2, k) nummerierten Schicht Impulseingaben von dem Schrittmacherneuron der mit (1, k + 1) nummerierten Merkmalerfassungsschicht empfangen haben, und die Aktivitätspotenziale dersel ben durch die Eingaben von einer Merkmalerfassungsschicht oder einer Sensoreingabeschicht (mit (1, k) nummerierte Schicht) in der vorangehenden Stufe auf ausreichend hohe Pegel erhöht wurden (beispielsweise falls die mittlere Eingangsimpulsanzahl in einem bestimmten Zeitbereich oder einem Zeitfenster einen Schwellenwert überschritten hat), dann stellen die Merkmalintegrationszellen Ausgaben bei Abfallen der Pulse von dem Schrittmacherneuron bereit.
In diesem Ausführungsbeispiel sind die Merkmalintegrationszellen nicht dazu konfiguriert, die Zeitsteuerung durch ein Schrittmacherneuron auf der vorangehenden, mit (1, k) nummerierten Merkmalerfassungsschicht zu empfangen. Dies ist deshalb so, weil die Merkmalintegrationszellen Impulse auf der Grundlage einer durch einen Eingangspegel bestimmten Phase, wie beispielsweise einem zeitlichen Gesamtsummenwert eines Eingangsimpulses, in einem vorbestimmten Zeitbereich anstelle als auf der Grundlage eines Eingangsimpuls-Ankunftszeitmusters ausgeben; daher ist der Zeitfenster-Erzeugungszeitpunkt nicht sehr wichtig. Nebenbei bemerkt kann die vorstehende Phase durch eine Frequenz, eine Impulsbreite, oder eine Amplitude ersetzt werden, obwohl das vorliegende Ausführungsbeispiel die Phase verwendet. Offensichtlich besteht der Hauptpunkt hier nicht darin, die Konfiguration auszuschließen, in welcher die Merkmalintegrationszellen die Zeitpunktsteuerung von den Schrittmacherneuronen einer Merkmalerfassungsschicht in der vorangehenden Schicht empfangen. Der Punkt ist der, die Möglichkeit einer solchen Konfiguration vorzuschlagen.
Jeder Impuls gelangt durch eine Synapse hindurch, in der er mit einem vorbestimmten Ausmaß einer Phasenverzögerung versehen wird, und gelangt ferner durch eine Signalübertragungsleitung hindurch, wie beispielsweise eine gemeinsame Busleitung, bevor er schließlich eine Merkmalerfassungszelle erreicht. Die auf Zeitbasen angeordneten Impulse zu dieser Zeit werden durch die Impulse P₁, P₂ und P₃ dargestellt, die durch gepunktete Linien auf den Zeitbasen der Merkmalerfassungszelle bezeichnet werden.
Falls die Zeitfensterintegration der Impulse P₁, P₂ und P₃ in der Merkmalerfassungszelle in einem Wert resultiert, der den Schwellenwert überschreitet, dann wird ein Impuls P₄ unter Verwendung der Zeit dann, wenn das Zeitfenster endet, als der Referenz ausgegeben. Normalerweise wird die Zeitfensterintegration einmal durchgeführt; alternativ jedoch können die gespeicherten Ladungen, die aus einer mehrere Male implementierten Zeitfensterintegration erhalten wurden, oder die mehrere Male implementierten Zeitfensterintegrationen, gemittelt werden.
Das Zeitfenster in einer Lernbetriebsart, gezeigt in 3B, wird verwendet, wenn eine Lernregel implementiert wird, welches nachstehend beschrieben wird.
Synapsenschaltung
4 zeigt die Konfiguration einer Synapsenschaltung S_i. 4A stellt kleine Schaltungen 401 dar, die in einem Matrixmuster angeordnet sind, um jedem Neuron n'_j, mit welchem das Neuron n_i in einer Synapsenschaltung 202 (S_i) verbunden ist, synaptische Verbindungsstärke oder Phasenverzögerung zu verleihen. Diese Anordnung erlaubt, dass die Verdrahtung von der Synapsenschaltung zu einem Zielneuron auf derselben Leitung erzielt wird, das heißt, einem lokalen gemeinsamen Bus 301. In anderen Worten kann die Verdrahtung zwischen Neuronen virtuell erzielt werden, so dass das Verdrahtungsproblem im Stand der Technik verbessert oder gelöst wird.
Außerdem kann dann, wenn ein Zielneuron eine Vielzahl von Impulseingaben von demselben Empfangsfeld empfängt, dieses die Neuronen, die die jeweiligen Impulseingaben auf der Zeitbasis geliefert haben, durch die Ankunftszeit jedes Impulses in Übereinstimmung mit der Zeitfensterreferenz identifizieren. Die vorstehend erwähnte Ankunftszeit entspricht einem durch eine Merkmalerfassungszelle erfassten Merkmal, und bezieht sich auf eine Phasenverzögerung, die für ein das Merkmal bildendes Merkmal niedriger Ordnung einmalig ist.
Wie in 4B gezeigt ist, besteht jede kleine Synapsenzelle 401 aus einer Lernschaltung 402 und einer Phasenverzögerungs schaltung 403. Die Lernschaltung 402 ändert die Charakteristik der Phasenverzögerungsschaltung 403, um das vorstehende Verzögerungsausmaß einzustellen, und speichert die Merkmalwerte oder die Steuerwerte derselben auf einem potenzial freien Element bzw. einem Element mit schwebendem Gate oder einem mit einem potenzialfreien Element gekoppelten Kondensator.
5 zeigt die detaillierte Konfiguration der kleinen synaptischen Verbindungsschaltung. Die Phasenverzögerungsschaltung 403 ist eine Impulsphasen-Modulationsschaltung, welche durch z.B. monostabile Multivibratoren 506 und 507, Widerstände 501 und 504, Kondensatoren 503 und 505, und einen Transistor 502 gebildet sein kann, wie in 5A gezeigt ist. 5B zeigt die Zeitpunkte einer Rechteckwelle P1 ([1] von 5B), die dem monostabilen Multivibrator 506 zugeführt wird, eine Rechteckwelle P2 ([2] von 5B), die von den monostabilen Multivibrator 506 ausgegeben wird, und eine Rechteckwelle P3 ([3] von 5B), die von dem monostabilen Multivibrator 507 ausgegeben wird.
Die detaillierten Beschreibungen des Betriebsmechanismus der Phasenverzögerungsschaltung 403 werden weggelassen. Die Impulsbreite von P1 hängt von der Zeit ab, die erforderlich ist, bis die Spannung des Kondensators 503 mittels eines Ladestroms einen voreingestellten Schwellenwert erreicht, während die Impulsbreite von P2 von der durch den Widerstand 504 und den Kondensator 505 gegebenen Impulsbreite abhängt. Falls sich die Impulsbreite von P2 wie durch die Rechteckwelle, die durch die gepunktete Linie in 5B angegeben ist, erstreckt, und sich der Abfallpunkt derselben nach rückwärts verschiebt, dann verschiebt sich der Anstiegspunkt von P3 dementsprechend; die Impulsbreite von P3 bleibt jedoch unverändert. Infolgedessen sind nur die Phasen der Eingangsimpulse moduliert, wenn die Impulse ausgegeben werden.
Die Impulsphase oder das Verzögerungsausmaß können durch Ändern einer Steuerspannung Ec mittels einer Auffrischschaltung 509, die eine Referenzspannung liefert, und die Lernschaltung 402, die die Menge von in dem Kondensator gespeicherten Ladun gen, die ein Verbindungsgewicht bereitstellt, gesteuert werden. Um das Verbindungsgewicht für eine verlängerte Zeitspanne aufrecht zu halten, kann das Verbindungsgewicht als die Ladung eines potenzialfreien Elements (nicht gezeigt), dass extern zu der in 5A gezeigten Schaltung hinzugefügt ist, nach einem Lernvorgang gespeichert werden, oder durch Schreiben oder dergleichen in einen digitalen Speicher gespeichert werden. Darüber hinaus können eine Konfiguration, die zum Verringern einer Schaltungsgröße ausgestaltet ist (siehe z.B. die japanische Patent-Offenlegungsschrift Nummer 5-37317 und die japanische Patent-Offenlegungsschrift Nummer 10-327054) oder andere gut bekannte Schaltungskonfigurationen verwendet werden.
Falls das Netzwerk ein gemeinsames Verbindungsgewicht involviert, in welchem eine synaptische Verbindung durch gemeinsame Gewichtungsfaktoren repräsentiert wird, dann kann das Verzögerungsausmaß P_ij des nachstehend gegebenen Ausdrucks (5) an jeder Synapse zwischen Empfangsfeldern gleich gemacht werden. Insbesondere kann die Verbindung von der Merkmalerfassungsschicht 102 zu der Merkmalintegrationsschicht 103 unabhängig von einem zu erfassenden Objekt oder einem Gegenstand wie vorstehend erwähnt konfiguriert werden, weil die Merkmalintegrationsschicht 103 in die Unterabtastung oder anderes involviert ist, welches allgemein unabhängig von der Objektklasse ist, die durch das lokale Mittelwertbilden der Ausgabe der Merkmalerfassungsschicht 102 durchgeführt wird, welche die der Merkmalintegrationsschicht 103 vorangehende Schicht ist.
In diesem Fall kann jede in 4A gezeigte kleine Schaltung eine einzelne Schaltung S_k,i sein, die mittels der lokalen gemeinsamen Busleitung 401 verbunden ist, wie in 4B gezeigt ist, so dass eine besonders wirtschaftliche Schaltungskonfiguration erreicht wird. Falls die Verbindung von der Merkmalintegrationsschicht 103 oder der Sensoreingangschicht 101 zu der Merkmalerfassungsschicht 102 wie vorstehend beschriebenen realisiert ist, dann erfassen die Merkmalerfassungsneuronen ein Ereignis, in welchem eine Vielzahl von Impulsen, die unterschiedliche Merkmalelemente repräsentieren, gleichzeitig ankommen oder im wesentlichen zur gleichen Zeit ankommen.
Falls Verbindungen symmetrisch sind, dann können die Verbindungen zum Liefern desselben Gewichts oder Phasenverzögerungsausmaßes repräsentativ durch dieselbe kleine Schaltung zur synaptischen Verbindung gegeben sein. Mit dieser Anordnung kann eine beträchtliche Anzahl von synaptischen Verbindungen durch eine kleinere Anzahl von Schaltungen gegeben werden. Besonders zum Erfassen von geometrischen Merkmalen gibt es viele Fälle, in denen Verbindungsgewichte in einem Empfangsfeld symmetrisch verteilt sind; daher kann die Anzahl der synaptischen Verbindungsschaltungen verringert werden, um die Schaltungsgröße signifikant zu verringern.
Ein Beispiel der Lernschaltung an einer Synapse zum Implementieren der gleichzeitigen Ankunft von Impulsen oder eines vorbestimmten Phasenmodulationsausmaßes kann die Schaltungselemente wie in 5C gezeigt beinhalten. Im Einzelnen kann die Lernschaltung 402 aus einer Impulsausbreitungszeit-Messschaltung 510, einer Zeitfenster-Erzeugungsschaltung 511, und eine Impulsphasen-Modulationsausmaß-Einstellschaltung 512 zum Einstellen des Impulsphasen-Modulationsausmaßes an einer Synapse derart, dass die Ausbreitungszeit auf einen vorbestimmten Wert eingestellt wird, bestehen. Die Ausbreitungszeit in diesem Fall bezieht sich auf die Differenz zwischen der Zeit, zu der ein Impuls an einer vorangehenden Synapse eines Neurons einer bestimmten Schicht ausgegeben wurde, und der Zeit, zu der der Impuls an einem Bestimmungsneuron der nachfolgenden Schicht ankommt.
Die Ausbreitungszeit-Messschaltung 510 ist primär derart konfiguriert, dass sie Taktimpulse von einem Schrittmacherneuron empfängt, wie nachstehend diskutiert werden wird, und die Ausbreitungszeit auf der Grundlage der Ausgaben einer Zählerschaltung für die Taktimpulse in einer vorbestimmten Zeitbreite oder einem vorbestimmten Zeitfenster, gezeigt in 3B, bestimmt. Das Zeitfenster wird unter Heranziehen der Feuerzeit eines Bestimmungsneurons als Referenz so festgelegt, dass die nachstehend beschriebene erweiterte Hebb-Lernregel gilt.
Lernregel
Für die Lernschaltung 402 kann die Breite des Zeitfensters mit zunehmender Frequenz bzw. Häufigkeit, mit welcher Objekte derselben Kategorie präsentiert werden, verringert werden. Dies ermöglicht es der Lernschaltung 402, einen Betriebsablauf näher an einem Übereinstimmungs-Erfassungsmodus (eine Vielzahl von Impulsen kommen gleichzeitig an) durchzuführen, da ein Muster zu einer vertrauteren Kategorie gehört, welches bedeutet, dass es eine größere Anzahl von Präsentationen oder Lernchancen gibt. Diese Anordnung macht es möglich, die Zeit zu verringern, die zum Erfassen von Merkmalen oder zum Durchführen einer sofortigen Erfassung erforderlich ist, wohingegen sie nicht geeignet ist, um detaillierte vergleichende Analysen der räumlichen Anordnungen von Merkmalelementen, Identifizieren von ähnlichen Mustern oder dergleichen durchzuführen.
In dem Prozess des Lernens eines Verzögerungsausmaßes durch zum Beispiel die Erstreckung auf einen komplexzahligen Bereich ist ein komplexes Verbindungsgewicht C_ij zwischen einem Neuron n_i einer Merkmalerfassungsschicht und einem Neuron n_j einer Merkmalintegrationsschicht gegeben durch: Cij = Sijexp(iPij) (5)worin das erste i in einer Funktion exp eine imaginäre Einheit bezeichnet, S_ij die Verbindungsstärke bezeichnet, und P_ij eine Phase bezeichnet, die einer Zeitverzögerung eines Impulssignals entspricht, das von einem Neuron j an ein Neuron i bei bzw. mit einer vorbestimmten Frequenz ausgegeben wird. S_ij spiegelt die Empfangsfeldstruktur des Neurons i wieder und hat allgemein eine Struktur, die sich in Übereinstimmung mit einem zu erkennenden oder zu erfassenden Objekt oder Merkmal unterscheidet. Dies ist separat ausgebildet durch Lernen (überwachtes Lernen oder Selbstorganisation), oder ausgebildet als eine voreingestellte Struktur.
Ferner ist die Lernregel für die Selbstorganisation, die sich auf das Verzögerungsausmaß bezieht, gegeben durch: Ċij = βSijexp{–i2πτij} – Cij (6)worin Ċ eine Zeitdifferentiation von C_ij bezeichnet, τ_ij die vorangehende Zeitverzögerung (ein voreingestelltes Ausmaß) bezeichnet, und β (~ 1) eine Konstante bezeichnet.
Das Lösen des vorstehenden Ausdrucks veranlasst, C_ij zu βexp{–i2πτ_ij} zu konvergieren, so dass P_ij zu –τ_ij konvergiert. Ein Beispiel, in dem die Lernregel angewandt ist, wird unter Bezugnahme auf das Zeitfenster in dem Lernmodus, gezeigt in 3B, erklärt. Ein Verbindungsgewicht wird in Übereinstimmung mit dem Ausdruck (6) nur dann aktualisiert, wenn die Neuronen (n1, n2 und n3), präsynaptische Neuronen, und ein postsynaptisches Neuron, das heißt, eine Merkmalerfassungszelle, beide innerhalb des Zeitbereichs des Lernzeitfensters feuern. In 3B feuert die Merkmalerfassungszelle nach dem Verstreichen des Zeitfensters; alternativ kann sie jedoch vor dem Verstreichen des in der Zeichnung gezeigten Zeitfensters feuern.
Ein anderes Verfahren kann für die Lernregel verwendet werden. Weiter alternativ kann das Prinzip des konkurrierenden Lernens eingeführt werden, um zu bewirken, dass Impulse in einem vorbestimmten Intervall oder länger voneinander beabstandet ankommen, das heißt, um den Unterschied in der Zeitverzögerung auf einen vorbestimmten Wert oder mehr festzulegen.
Verarbeitung an der Merkmalerfassungsschicht
Das Folgende wird die Verarbeitung in einem Lernmodus und einem Erkennungsmodus beschreiben, die primäre in den Merkmalerfassungsschichten implementiert sind.
Jede Merkmalerfassungsschicht 102 empfängt Impulssignale bezüglich einer Vielzahl von unterschiedlichen Merkmalen von demselben Empfangsfeld, wie vorangehend beschrieben wurde, und berechnet eine räumlich-zeitlich gewichtete Gesamtsumme oder eine Gewichtsumme, und führt eine Schwellenverarbeitung aus. Die Merkmalen zugeordneten Impulse kommen in vorbestimmten Zeitintervallen in einem Verzögerungsausmaß oder einer Phase an, die durch Lernen festgelegt wurde.
Die Lernsteuerprozedur des Impulsankunftszeitmusters ist kein Hauptpunkt der vorliegenden Anwendung, so dass nur eine geringst mögliche Beschreibung gegeben wird. Zum Beispiel ist ein konkurrierendes Lernprogramm eingeführt, in dem dann, wenn ein Merkmalelement, das ein bestimmtes grafisches Muster bildet, ein herausragendes Merkmal ist, das am meisten zu der Erfassung des grafischen Musters beiträgt, dieses Merkmalelementes zuerst ankommt, und die Merkmalelemente, deren Herausragegrade nahezu gleich sind, mit vorbestimmten Zeitintervallen zwischen einander ankommen. Alternativ kann die Lernsteuerung so ausgestaltet sein, dass vorbestimmte Merkmalelemente in unterschiedlichen Zeitintervallen ankommen. Die vordefinierten Merkmalelemente in diesem Fall beziehen sich auf die Merkmalelemente, die ein zu erkennendes Objekt bilden, und werden als besonders wichtig betrachtet (beispielsweise eine große mittlere Krümmung und ein hoher Grad von Linearität).
Der Grad des Herausragens ist äquivalent zu zum Beispiel der Stärke der Antwort (dem Impulsverzögerungsausmaß in diesem Ausführungsbeispiel) einer Zelle zum Erfassen von Merkmalelementen, wenn das grafische Muster erfasst wird. In diesem Fall werden die Neuronen, die den Merkmalelementen niedrigerer Ordnung in demselben Empfangsfeld auf der Merkmalintegrationsschicht entsprechen, welche die Schicht in der vorangehenden Stufe ist, synchron feuern oder Impulse in vorbestimmten Phasen ausgeben. Es ist offensichtlich, dass dann, wenn das Neuron in der Merkmalintegrationsschicht 103 eine Verbindung zu einem Merkmalerfassungsneuron zum Erfassen des sich an einer unterschiedlichen Position befindenden Merkmals hoher Ordnung hat (in diesem Fall hat das Neuron ein unterschiedliches Emp fangsfeld, hat jedoch eine Verbindung, die dasselbe Merkmal hoher Ordnung ergibt), das Neuron ebenfalls synchron feuert.
Der Ausgangspegel hängt jedoch von einer Gesamtsumme oder einem Mittelwert oder dergleichen der Beiträge von einer Vielzahl von für jedes Empfangsfeld bereitgestellten Schrittmacherneuronen ab. Der Ausgangspegel in diesem Beispiel verwendet Phasen als Referenz; alternativ können jedoch Frequenzen, Amplituden, oder Impulsbreiten als Referenz verwendet werden. In jedem Neuron in der Merkmalerfassungsschicht 102 wird die räumlich-zeitlich gewichtete Gesamtsumme von Eingangsimpulsen für einen Impulszug berechnet, der das Neuron nur in einem Zeitfenster mit einer vorbestimmten Breite erreicht. Die Mittel zum Durchführen der gewichteten Addition in dem Zeitfenster sind nicht auf die in 2 gezeigte Neuronenelementschaltung beschränkt; es kann ein anderes Verfahren verwendet werden.
Das Zeitfenster entspricht in einem gewissen Ausmaß einer Zeitspanne außer der refraktorischen Periode eines wirklichen Neurons. Im Einzelnen gibt es eine Ähnlichkeit zu dem wirklichen Neuron dahingehend, dass während der refaktorischen Periode, das heißt, dem Zeitbereich außer dem Zeitfenster, keine Ausgabe von einem Neuron bereitgestellt wird, welche Eingabe auch immer es empfangen kann, wohingegen das Feuern auf der Grundlage eines Eingangspegels in dem Zeitfenster außerhalb der refraktorischen Periode stattfindet.
Die in 3B gezeigte Refraktärperiode ist eine Zeitspanne von dem Punkt an, der unmittelbar auf das Feuern einer Merkmalerfassungszelle folgt, bis zu der Anfangszeit des nächsten Zeitfensters. Offensichtlich können die Dauer der Refraktärperiode und die Breite des Zeitfensters auf beliebige Werte festgelegt werden. Die Refraktärperiode muss nicht kürzer sein als das Zeitfenster, wie in dem in 3B gezeigten Fall. Die Anfangszeit des Zeitfensters kann zwischen den Neuronen der Merkmalerfassungsschichten und der Merkmalintegrationsschichten gleich gemacht sein, ohne die Notwendigkeit von Schrittmacherneuronen, indem der Mechanismus eingeführt wird, in dem ein synchrones Feuern primär durch eine schwache wechselseitige Verbindung zwischen Neuronen und vorbestimmte Verbindungsbedingungen stattfindet (E. M. Izhikevich, 1999, "Weakly Pulse-Coupled Oscillation, FM Interactions, Synchronization, and oscillatory Associative Memory", IEEE Trans. On Neural Networks, Band 10, Seiten 508–526) ist. Es ist bekannt, dass das synchrone Feuern allgemein durch eine wechselseitige Verbindung zwischen Neuronen und ein Mitnahmephänomen getriggert wird.
Daher kann auch in dem Ausführungsbeispiel ein solcher Effekt erhalten werden, ohne dass Schrittmacherneuronen verwendet werden, indem eine Konfiguration verwendet wird, die die Bedingungen für die schwache wechselseitige Verbindung zwischen Neuronen und für vorbestimmte synaptische Verbindungen erfüllt.
In dem Ausführungsbeispiel kann, wie vorstehend erklärt wurde, dieselbe Anfangszeit durch z.B. Anwenden von Zeitsteuerinformationen oder eines Taktimpulses aus einem Schrittmacherneuron (welches Impulse mit einer festen Frequenz ausgibt) auf jedes Neuron einer der Merkmalerfassungsschicht erzielt werden, wie schematisch in 6 gezeigt ist, wobei das Schrittmacherneuron Eingaben von derselben Gruppe von Neuronen in dem Empfangsfeld empfängt.
Mit einer derartigen Anordnung wäre es auch dann, wenn eine Synchronisationssteuerung von Zeitfenstern notwendig ist, nicht notwendig, die Synchronisationssteuerung über das gesamte Netzwerk durchzuführen. Außerdem werden auch dann, wenn Taktimpulse fluktuieren oder variieren, wie vorstehend erwähnt wurde, die Einflüsse in Bezug auf die Ausgabe von demselben lokalen Empfangsfeld gleichförmig ausgeübt. Genauer ausgedrückt wird die positionelle Fluktuation einer Fensterfunktion in dem Zeitbereich zwischen den Neuronen, die dasselbe Empfangsfeld bilden, unverändert bleiben. Folglich wird die Zuverlässigkeit der Merkmalerfassung nicht verschlechtert werden. Die lokale Schaltungssteuerung ermöglicht es, einen weiter verlässlichen, synchronen Betrieb zu erreichen, welches in einer höheren Toleranz gegenüber den Schwankungen in den Parametern von Schaltungselementen resultiert.
Zum besseren Verständnis werden nun Beschreibungen eines Merkmalerfassungsneurons zum Erfassen eines Dreiecks als einem Merkmal gegeben. Es wird angenommen, dass die Merkmalintegrationsschicht 103 in der vorangehenden Stufe auf grafische Merkmale oder Merkmalelemente, wie beispielsweise L-förmige Muster (f₁₁, f₁₂, ...,) mit diversen Orientierungen, Muster, die aus Kombinationen von Liniensegmenten mit Kontinuität oder mit Verknüpfung zu denen L-förmigen Mustern haben, gebildet sind (f₂₁, f₂₂, ...,), und Muster, die aus Kombinationen von Abschnitten von zwei Seiten von Dreiecken (f₃₁, f₃₂, ...,) gebildet sind, wie in 7C gezeigt ist, anspricht.
Bezugszeichen f₄₁, f₄₂ und f₄₃ in 7C bezeichnen die Merkmale, die Dreiecke mit unterschiedlichen Orientierungen bilden, und bezeichnen die Merkmale entsprechend zu f₁₁, f₁₂ und f₁₃ mit unterschiedlichen Orientierungen. Wenn ein bestimmtes Verzögerungsausmaß durch Lernen für die Zwischenschichtverbindungen herstellenden Neuronen festgelegt ist, wird dieses in dem Neuron zum Erfassen eines Dreiecks als ein Merkmal derart festgelegt, dass das Neuron Impulse, die Hauptmerkmalen und unterschiedlichen Merkmalen zugeordnet sind, die ein Dreieck bilden, in jedem Unterzeitfenster oder Zeitschlitz (w₁, w₂, ...,), das bzw. der durch Aufteilen des Zeitfensters erhalten wird, empfängt.
Zum Beispiel kommen die den Kombinationen der Sätze von Merkmalen, die ein Dreieck als Ganzes bilden, bei w₁, w₂, ..., wn, erhalten durch zuerst n-faches Aufteilen des Zeitfensters, an, wie in 7A gezeigt ist. Die Verzögerungsausmaße sind durch Lernen so festgelegt, dass die L-förmigen Muster (f₁₁, f₁₂ und f₁₃) bei jeweils w₁, w₂ und w₃ ankommen, und die den Merkmalelementen (f₂₁, f₂₂ und f₂₃) zugeordneten Impulse bei jeweils w₁, w₂ und w₃ ankommen.
Die in den Merkmalelementen (f₃₁, f₃₂ und f₃₃) zugeordneten Impulse kommen in einer ähnlichen Reihenfolge an. In dem in 7A gezeigten Fall kommt ein einem Merkmalelement zugeordneter Impuls in einem Unterzeitfenster oder Zeitschlitz an. Das Zeitfenster ist in die Unterzeitfenster aufgeteilt, um individuell und zuverlässig die Erfassung der Impulse, die unterschiedlichen Merkmalelementen zugeordnet sind, oder die Erfassung von unterschiedlichen Merkmalelementen, die auf einer Zeitbasis in jedem Unterzeitfenster entwickelt und repräsentiert sind, durchzuführen. Dies wird zu der Möglichkeit des Änderns eines Verarbeitungsmodus und einer verbesserten Anpassbarkeit der Art und Weise, in welcher diese Merkmale integriert werden (beispielsweise Umschalten zwischen einem Modus, in dem alle Merkmalelemente zu erfassen sind, und einem Modus, in dem ein vorbestimmter Prozentsatz von Merkmalen zu erfassen ist), führen. Falls zum Beispiel ein zu erkennendes oder zu erfassendes Objekt ein Gesicht ist, und die Suche in dasselbe oder die Erfassung von Augen, welche Teile des Gesichtes sind, wichtig sind, und eine hohe Priorität für die Erfassung von Augenmustern bei einer visuellen Suche zu diesem Zweck festgelegt werden sollte, kann die Antwortselektivität für die Merkmalelementmuster, die ein Auge bilden, oder die Empfindlichkeit zum Erfassen eines bestimmten Merkmals durch Einführen einer Rückkoppelungsverbindung von einer Merkmalerfassungsschicht höherer Ordnung selektiv erhöht werden. Dies ermöglicht es, die Erfassung dadurch durchzuführen, dass den Merkmalelementen niedriger Ordnung, die ein Merkmalelement höherer Ordnung oder Muster bilden, ein höheres Wichtigkeitsniveau verliehen wird.
Wenn im Voraus eine Einstellung derart getroffen wird, dass die wichtigeren Merkmalen zugeordneten Impulse früher in denen Unterzeitfenstern ankommen, wird es leichter, Merkmale mit höheren Wichtigkeitsniveaus zu erfassen, indem die Gewichtungsfunktionswerte in den Unterzeitfenstern auf größere Werte als diejenigen in den verbleibenden Unterzeitfenstern festgelegt werden. Die Wichtigkeitsniveaus der Erfassungsprioritäten von Merkmalen können durch Lernen gewonnen oder im Voraus definiert werden.
Folglich ist dann, wenn alles, was notwendig ist, das Auftreten eines Ereignisses ist, in dem ein vorbestimmter Prozentsatz von Merkmalelementen erfasst wird, das Unterteilen des Zeitfensters in die Unterzeitfenster nahezu bedeutungslos. Nur ein Zeitfenster kann zu diesem Zweck ausreichend sein. Alternativ können die Impulse, die einer Vielzahl von (drei in diesem Fall) unterschiedlichen Merkmalelementen zugeordnet sind, und die ankommen, aufaddiert werden (siehe 7D). In anderen Worten können die Impulse, die einer Vielzahl von Merkmalelementen (7D) oder einer beliebigen Anzahl von Merkmalelementen zugeordnet sind, einem einzelnen Unterzeitfenster oder Zeitschlitz zugeführt werden. In diesem Fall kommen, Bezug nehmend auf 7D, die Impulse, die Merkmalelementen f₂₁ und f₂₃, die die Erfassung eines spitzen Winkelabschnitts f₁₁ eines Dreiecks unterstützen, zugeordnet sind, an einem ersten Unterzeitfenster an. Auf vergleichbare Art und Weise kommen die Impulse, die Merkmalelementen f₂₂ und f₃₁, die die Erfassung eines spitzen Winkelabschnitts f₁₂ unterstützen, zugeordnet sind, an einem zweiten Unterzeitfenster an.
Die Anzahl von Unterteilungen in die Unterzeitfenster oder Zeitschlitze, die Breite der jeweiligen Unterzeitfenster oder Zeitschlitze, die Klassen von Merkmalen und die Zuweisung von Zeitintervallen zu den Merkmalen zugeordneten Impulsen sind natürlich nicht auf das Vorstehende beschränkt, so dass sie geändert werden können. Zum Beispiel können zusätzlich zu den vorstehend beschriebenen Merkmalelementen die Unterzeitfenster für Merkmalelemente, wie beispielsweise "X" und "+", festgelegt werden. Solche Merkmalelemente können für die grafische Erfassung eines Dreiecks redundant oder unnötig sein. Andererseits führt das Erfassen des Fehlens solcher Merkmalelementen zu höherer Genauigkeit der Erfassung eines grafischen Musters eines Dreiecks.
Selbst wenn eine Änderung, die nicht durch eine Kombination der vorstehenden Merkmalelemente repräsentiert wird, hinzugefügt wird, wie beispielsweise ein Fall, in dem eine Rotation innerhalb eines vorbestimmten Bereichs hinzugefügt wird, haben die Impulse, die von den Neuronen der Merkmalintegrations schicht, die die vorangehenden Merkmalelemente repräsentieren, ausgegeben werden, kontinuierliche Phasenverzögerungen basierend auf den Graden von Abweichungen von einem idealen Muster, welches als "zierliche Verschlechterung" bekannt ist. Der Bereich der Phasenverzögerungsausmaße in diesem Fall ist derart, dass die Impulse in vorbestimmten Unterzeitfenstern oder Zeitschlitzen ankommen. Daher können die Ausgaben stabilisiert werden, so dass der erlaubte Bereich für die Änderungen in den grafischen Merkmalen, die zu erfassen sind, auf einem vorbestimmten Niveau oder höher bleibt. Zum Beispiel sollten, Bezug nehmend auf 7C, ein Dreieck Q1, das durch die Merkmale entsprechend zu den Merkmalen f₁₁, f₁₂ und f₁₃ gebildet wird, und ein Dreieck Q2, das durch die Merkmale entsprechend zu den Merkmalen f₄₁, f₄₂ und f₄₃ gebildet wird, zumindest in ihren Orientierungen voneinander unterschiedlich sein.
In diesem Fall werden, wenn den Merkmalen zugeordnete Erfassungs- oder Integrationszellen existieren, dann für ein Dreieck Q3, das in der Mitte zwischen den vorstehenden beiden Dreiecken orientiert ist, die Erfassungs- oder Integrationszellen, die f₁₁, f₁₂ und f₁₃ zugeordnet sind, und die Erfassungs- oder Integrationszellen, die f₄₁, f₄₂ und f₄₃ zugeordnet sind, beide Ausgangs- bzw. Ausgabepegel haben, die niedriger sind als ein maximaler Antwortausgabepegel, und direkt auf einem berechneten Wert einer Faltung mit einem Filterkern basieren, der eine Empfangsfeldstruktur bereitstellt, die von der Art des Merkmals abhängt. Die Vektorgrößen der Ausgaben aller dieser Zellen werden als die einer Zwischengrafikfigur intrinsische Faktoren integriert, so dass die Erfassung einer Grafik möglich wird, die eine Forum mittig den beiden Dreiecken hat, als ein Ergebnis einer Rotation.
Qualitativ werden zum Beispiel, wenn der Rotationswinkel verringert wird, welches bewirkt, dass die Zwischengrafikfigur näher bei Q1 liegt, die Ausgaben aus den f₁₁, f₁₂ und f₁₃ zugeordneten Zellen relativ erhöht. Wenn sich die Zwischengrafikfigur Q2 annähert, werden die Ausgaben von den f₄₁, f₄₂ und f₄₃ zugeordneten Zellen relativ erhöht.
Räumlich-zeitliche Integration von Impulsausgaben und Netzwerkmerkmalen
Das Folgende wird die Berechnung der räumlich-zeitlichen gewichteten Gesamtsumme von Eingangsimpulsen beschreiben. Wie in 7B gezeigt ist, berechnet jedes Neuron die gewichtete Summe von Eingangsimpulsen unter Verwendung einer vorbestimmten Gewichtungsfunktion (beispielsweise Gauss) für jedes Unterzeitfenster oder jeden Zeitschlitz, und vergleicht die Gesamtsumme der individuellen gewichteten Summen mit einem Schwellenwert. Das Bezugszeichen τ_j bezeichnet die Mittenposition der Gewichtungsfunktion eines Unterzeitfensters j, und wird ausgehend von der Anfangszeit eines Zeitfensters als Referenz, d. h. mittels der seit der Anfangszeit verstrichenen Zeit, gemessen. Allgemein kann die Gewichtungsfunktion eine Funktion des Abstands von der vorbestimmten Mittenposition, das heißt, der Abweichung auf einer Zeitbasis sein. Die Mittenposition hier gibt eine Impulsankunftszeit an, wenn ein Merkmal, dessen Erfassung erwartet wird, gefunden wurde. Die Funktion kann alternativ eine asymmetrische Funktion sein.
Wenn die Gewichtungsfunktion die vorgenannte Abstandsfunktion ist, kann dann, wenn die Mittenposition τ der Gewichtungsfunktion jedes Unterzeitfensters oder Zeitschlitzes eines Neurons eine Zeitverzögerung nach Lernen unter Neuronen bezeichnet, ein die räumlich-zeitlich gewichtete Gesamtsumme von Eingangsimpulsen berechnendes neuronales Netzwerk als ein Radialbasisfunktionsnetzwerk (nachstehend als RBF bezeichnet) eines Typs des Zeitbasisbereichs betrachtet werden. Ein Zeitfenster F_τi eines Neurons n_i, das eine Gaußsche Funktion als die Gewichtungsfunktion heranzieht, ist in Übereinstimmung mit dem folgenden Ausdruck gegeben, wenn die Größe in jedem Unterzeitfenster als σ bezeichnet wird, und ein Koeffizientenfaktor als b_ij bezeichnet wird:
Die Gewichtungsfunktion kann einen negativen Wert annehmen. Wenn zum Beispiel von einem Neuron einer bestimmten Merkmaler fassungsschicht erwartet wird, dass es schließlich ein Dreieck erfasst, können dann, wenn ein Merkmal F_falsch, wie beispielsweise "X" oder "+", welches offensichtlich kein Bestandteil eines grafischen Musters des Dreiecks ist, erfasst wird, eine Gewichtungsfunktion und eine Verbindung von einer Merkmalerfassungs- oder Merkmalintegrationszelle, die einen negativen Beitrag leisten, von dem Impuls, der dem Merkmal F_falsch zugeordnet ist, und nach dem Berechnen des Gesamtsummenwerts von Eingaben verliehen werden, so dass eine endgültige Erfassungsausgabe des Dreiecks auch dann nicht geliefert wird, wenn es einen großen Beitrag von einem anderen Merkmalelement gibt.
Eine räumlich-zeitliche Summe X_i(t) eines dem Neuron n_i der Merkmalerfassungsschicht zugeführten Eingangssignals ist gegeben durch:
worin ε_j eine anfängliche Phase eines Ausgangsimpulses von dem Neuron n_j bezeichnet. Diese anfängliche Phase ε_j kann durch das Feuern, das mit dem des Neurons n_i synchronisiert ist, auf Null konvergiert werden, oder ε_j kann immer auf Null gesetzt werden, falls das Zeitfenster zwangsweise durch Zuführen eines Zeitsteuerimpulses von einem Schrittmacherneuron synchronisiert wird. Das Erhalten der gewichteten Summe basierend auf den in 7A gezeigten Impulseingaben und den in 7B gezeigten Gewichtungsfunktionen stellt den zeitlichen Übergang von gewichteten Summenwerten bereit, wie in 7E gezeigt ist. Wenn der gewichtete Summenwert einen Schwellenwert Vt erreicht, gibt das Erfassungsneuron einen Impuls aus.
Wie vorstehend erwähnt wurde, wird das Ausgangsimpulssignal von dem Neuron n_i mit einer durch Lernen erhaltenen Zeitverzögerung (Phase) einem Neuron einer oberen Schicht auf einem Ausgangspegel basierend auf einer quetschenden nichtlinearen Funktion einer räumlich-zeitlichen Summe ("Gesamtsumme von Eingaben") der Eingangssignale zugeführt. Die Impulsausgabe nimmt eine binär fixierte Frequenz an, und zur Zeit der Ausgabe wird ein Phasenmodulationsausmaß basierend auf der quetschenden nichtlinearen Funktion für die räumlich-zeitliche Summe von Eingangssignalen zu dem Phasenäquivalent zu einem durch Lernen bestimmten festen Verzögerungsausmaß hinzugefügt.
Durch Schichten implementierte Verarbeitungsprozedur
8 ist ein Ablaufdiagramm, das die Verarbeitungsprozedur jeder vorstehend beschriebenen Schicht darstellt. Das Ablaufdiagramm fasst den Ablauf der Verarbeitung von der Erfassung von Merkmalen niedriger Ordnung bis zu der Erfassung von Merkmalen hoher Ordnung zusammen. Zunächst führt in Schritt S801 eine Schicht die Erfassung von Merkmalen niedriger Ordnung durch, einschließlich der Berechnung eines Gabor-Wave-let-Transformationskoeffizienten an jeder Position. Dann führt in Schritt S802 die Schicht die Integrationsverarbeitung der Merkmale niedriger Ordnung durch, wie beispielsweise eine lokale Mittelwertbildung der Merkmale. Die Schicht erfasst und integriert Merkmale mittlerer Ordnung in Schritten S803 und S804, und erfasst und integriert dann Merkmale höherer Ordnung in Schritten S805 und S806. In Schritt S807 wird eine Ausgabe bezüglich ob ein zu erkennendes oder zu erfassendes Objekt, oder eine Ausgabe bezüglich der erfassten Position des Objekts als die Ausgabe der letzten Schicht geliefert. Die Anzahl von den Schritten S803 und S804, und S805 und S806, zugewiesenen Schichten kann beliebig festgelegt oder in Übereinstimmung mit einem Gegenstand, wie beispielsweise einem zu erkennenden Objekt geändert werden.
9 ist ein Ablaufdiagramm, das die Prozedur der Verarbeitung zeigt, die durch jedes der Merkmalerfassungsneuronen 602 implementiert wird. Zunächst empfängt in Schritt S901 das Merkmalerfassungsneuron Impulse, die einer Vielzahl von Merkmalkategorien zugeordnet sind, von einem Neuron 601, das das Empfangsfeld 105 in einer Eingabeschicht 101 oder einer Merkmalintegrationsschicht 103, welches die vorangehende Schicht ist, bildet. In Schritt S902 erzeugt das Neuron 602 ein Zeitfenster und eine Gewichtungsfunktion auf der Grundlage eines lokalen Synchronisationssignals, das von einem Schrittmacherneuron 603 empfangen wurde, oder über die Interaktion mit Neuronen in der vorangehenden Schicht erhalten wurde. In Schritt S903 erhält das Neuron eine gewichtete Summe auf der Grundlage einer vorbestimmten zeitlichen Gewichtungsfunktion. In Schritt S904 ermittelt das Neuron 602, ob ein Schwellenwert erreicht worden ist, und falls das Ermittlungsergebnis bestätigend ist, dann gibt das Neuron 602 in Schritt S905 einen Impuls aus. Die Schritte S902 und 903 sind in dem Ablaufdiagramm seriell gezeigt, während sie in Wirklichkeit im Wesentlichen zur gleichen Zeit implementiert sind.
Die Prozedur der durch jedes Merkmalintegrationsneuron implementierten Verarbeitung ist wie durch das Ablaufdiagramm von 10 gezeigt. In Schritt S1001 empfängt das Merkmalintegrationsneuron eine Impulseingabe von einem Merkmalerfassungsneuron, das ein Verarbeitungsmodul 104 zum Erfassen von Merkmalen derselben Kategorie bereitstellt und ein lokales Empfangsfeld, das für das Neuron intrinsisch ist, bereitstellt. In Schritt S1002 addiert das Merkmalintegrationsneuron Eingangsimpulse für eine vorbestimmte Zeitbreite, welche einen Zeitbereich außer einer Refraktärperiode bedeutet. In Schritt S1003 ermittelt das Merkmalerfassungsneuron, ob der Gesamtsummenwert der Eingangsimpulse, welcher zum Beispiel auf der Grundlage eines Potenzials gemessen werden kann, einen Schwellenwert erreicht hat, und falls das Ermittlungsergebnis bestätigend ist, dann gibt das Neuron einen Impuls in einer Phase auf der Grundlage des Gesamtsummenwerts aus.
Modifikationsbeispiele des Netzwerks und der Konfiguration
Die Eingangsimpulse werden den Merkmalen an individuellen Positionen in einem räumlichen Bereich oder einer räumlichen dispositionellen Beziehung von Merkmalelementen zugeordnet, welches ermöglicht, dass eine räumlich-zeitliche RBF gebildet wird.
Um es genauer auszudrücken, werden neuronale Ausgabewerte bzw. Ausgangswerte gewichtet, bevor sie addiert werden, um es möglich zu machen, eine räumlich-zeitliche Funktion eines Impulsmusters für ein beliebiges grafisches Muster unter Verwendung eines Satzes einer ausreichend großen Anzahl von Merkmalele menten oder Merkmalerfassungszellen zu repräsentieren, welche im Voraus erstellt wird, und eine gewichtete Gesamtsumme in einer ausreichend großen Anzahl von Unterzeitfenstern oder Zeitschlitzen zu berechnen. Falls die Kategorie eines zu erkennenden Objekts und die Änderungen in der Form des Objekts auf ein gewisses Maß beschränkt werden, dann kann die erforderliche Anzahl von Merkmalerfassungszellen oder Unterzeitfenstern oder Zeitschlitzen verringert werden.
In dem vorliegenden Ausführungsbeispiel verwenden die gemeinsamen Busse lokale Busleitungen derart, dass eine Busleitung einem Empfangsfeld zugewiesen ist; der gemeinsame Bus ist jedoch nicht darauf beschränkt. Alternativ können Impulsphasen-Verzögerungsausmaße separat auf einer Zeitbasis festgelegt werden, damit eine Zwischenschichtverbindung von einer Schicht zu einer anderen Schicht unter Verwendung einer einzelnen Busleitung erzielt werden kann. Ferner kann eine gemeinsame Busleitung für benachbarte Empfangsfelder verwendet werden, die relativ große Abschnitte derselben haben, die einander überlappen.
Anstelle des Verwendens der vorstehend beschriebenen räumlichzeitlichen RBF kann eine Verarbeitung oder eine Schwellenwert-Verarbeitung derart ausgeführt werden, dass das Berechnungsergebnis der gewichteten Summe in jeweiligen Unterzeitfenstern oder Zeitschlitzen zu einem nichtlinearen Quetschfunktionswert wird, so dass das Produkt derselben erhalten werden kann. Zum Beispiel kann unter Verwendung einer (nicht gezeigten) Schaltungskonfiguration ein Schwellenwert-Verarbeitungsergebnis (binär) für jedes Unterzeitfenster erhalten und vorübergehend in einem Speicher gespeichert werden. Die logischen Produkte der in Folge erhaltenen Schwellenwert-Verarbeitungsergebnisse kann auf eine zeitserielle Art und Weise erhalten werden.
Wenn die Produkte der Ergebnisse der Schwellenwertverarbeitung, wird die Toleranz der Erfassung von Merkmalen kleiner sein, falls ein Muster fehlt oder sein Herausragen gering ist.
Die vorstehend diskutierte Verarbeitung zum Erfassen eines grafischen Musters unter Verwendung der räumlich-zeitlichen RBF kann alternativ in der Form eines Betriebsablaufs vergleichbar zu einem Wiederaufrufprozess eines assoziativen Speichers erzielt werden. Genauer ausgedrückt ist es auch dann, wenn ein in einer lokaler Region oder einer gesamten Region zu erfassendes Merkmalelement einer niedrigen oder einer mittleren Ordnung fehlt, möglich, eine Anordnung derart zu treffen, dass das gesamte räumlich-zeitliche RBF-Netzwerk Merkmalelemente mittlerer oder hoher Ordnung erfasst und die geeigneten Neuronen abfeuert, falls einige andere Merkmalelemente erfasst werden und der vorangehende Gesamtsummenwert des Ausdrucks (8) einen Schwellenwert überschreitet.
Die Konfiguration des Netzwerks ist nicht auf das in 1 gezeigte Eine beschränkt. Offensichtlich kann MLP oder eine andere Alternative verwendet werden, so lange sie eine Schicht zum Erfassen vorbestimmter geometrischer Merkmalelemente beinhaltet.
Beispiel der Anwendung auf eine Bilderzeugungsvorrichtung
11 zeigt eine Bilderzeugungsvorrichtung bzw. eine Abbildungsvorrichtung, die die Mustererfassungs- oder Mustererkennungsvorrichtung mit der Konfiguration des vorliegenden Ausführungsbeispiels integriert. Das Folgende wird einen Betriebsablauf zum Fokussieren auf ein bestimmtes Objekt, Durchführen von Farbkorrekturen des bestimmten Objekts, und Steuern der Belichtung beschreiben. 11 stellt die Konfiguration eines Beispiels dar, in welchem die Mustererkennungs- oder Mustererfassungsvorrichtung in Übereinstimmung mit dem Ausführungsbeispiel mit der Bilderzeugungsvorrichtung verwendet wird.
Eine in 11 gezeigte Bilderzeugungsvorrichtung 1101 ist primär mit einem bilderzeugenden optischen System 1102 ausgerüstet, das ein Aufnahmeobjektiv und eine Zoomfotografie-Ansteuer-Steuereinrichtung, einen CCD- oder CMOS-Bildsensor 1103, eine Bildparameter-Messschaltung 1104, eine Bildsignal- Verarbeitungsschaltung 1105, einen Speicher 1106, einen Steuersignalgenerator 1107 zum Erzeugen von Steuersignalen zum Steuern eines Abbildungsvorgangs, Steuern von Abbildungsbedingungen usw., eine Anzeige 1108, die auch als ein Sucher dient, wie beispielsweise ein elektronischer Sucher bzw. electronic view finder; EVF, eine Blitzbeleuchtungseinheit 1109, und ein Aufzeichnungsmedium 1110 beinhaltet. Die Abbildungsvorrichtung 1101 ist ferner mit der vorgenannten Mustererfassungs- oder Mustererkennungsvorrichtung als eine Objekterfassungs- oder Objekterkennungsvorrichtung 1111 versehen.
Die Abbildungsvorrichtung 1101 verwendet die Objekterfassungs- oder Objekterkennungsvorrichtung 1111, um zum Beispiel die Position und die Größe eines Gesichtsbilds einer Person zu erfassen, das im Voraus aus aufgenommenen Bildern registriert wurde. Dann werden die Informationen bezüglich der Position und der Größe des Gesichts der Person von der Objekterfassungs- oder der Objekterkennungsvorrichtung 111 an den Steuersignalgenerator 1107 geliefert. Der Steuersignalgenerator 1107 erzeugt Steuersignale zum optimalen Ausführen der Fokussierungssteuerung, der Belichtungsbedingungssteuerung, der Weißabgleichsteuerung usw. für die Person, auf der Grundlage der Ausgaben der Abbildungsparameter-Messeinheit 1104.
Die Verwendung der vorgenannten Mustererfassungs- oder Mustererkennungsvorrichtung mit der Abbildungsvorrichtung ermöglicht die Erfassung einer Person und eine optimale Steuerung einer Bildgebung basierend auf Erfassungsergebnissen, die mit geringer Leistungsaufnahme und mit einer hohen Geschwindigkeit in Echtzeit zu erzielen sind.
<Zweites Ausführungsbeispiel>
In dem ersten Ausführungsbeispiel wurden Synapsen so konfiguriert, dass sie eine Phasenmodulation ausführen. In diesem Ausführungsbeispiel wird die Erkennung eines grafischen Musters oder dergleichen unter Verwendung eines Netzwerks durchgeführt, das aus Synapsenelementen, die Impulsbreiten in Analogwerte modulieren, und Integrations-und-Feuer-Neuronen be steht, gezeigt in dem ersten Ausführungsbeispiel in der in 1 gezeigten Netzwerkkonfiguration.
Die Modulation durch eine Synapse wird durch W_a = S_ijW_b ausgedrückt, wenn die Impulsbreite eines postsynaptischen Signals als W_a ausgedrückt wird. In diesem Fall bedeutet S_ij dasselbe wie die Verbindungsstärke in Ausdruck (5) des ersten Ausführungsbeispiels. Um einen weiten Dynamikbereich für die Modulation zu erreichen, muss die grundlegende Impulsbreite eines Impulssignals auf einen Wert festgelegt werden, der ausreichend kleiner ist als die Periode, d. h. ein grundlegendes Impulsintervall.
Ein Neuron feuert einen Impuls ab oder gibt ihn aus, wenn sein Potenzial wegen der aufgrund des Einstroms einer Vielzahl von Impulsströmen, die vorbestimmte Merkmalelemente repräsentieren, akkumulierten Ladungen einen vorbestimmten Schwellenwert überschreitet. Dieses Ausführungsbeispiel benötigt nicht besonders die gewichtete Addition von angekommenen Impulsen für jedes Unterzeitfenster, welche in dem ersten Ausführungsbeispiel beschrieben wurde, sondern implementiert eine Integration in einem Zeitfenster mit einer vorbestimmten Breite. In diesem Fall hängt ein zu erfassendes Merkmalelement oder grafisches Muster einzig und allein von einer gesamten zeitlichen Summe der Signale ab, die vom einem Neuron in einer Merkmalerfassungsschicht, d. h. der Gesamtsumme von Impulsstromwerten, abhängen. Das Verhältnis der Impulsbreite zwischen Eingangs- und Ausgangsimpulsen ist äquivalent zu dem Wert der Gewichtungsfunktion in dem ersten Ausführungsbeispiel. Wenn die gewichtete Addition der angekommenen Impulse für jedes Unterzeitfenster durchgeführt wird, werden Informationen bezüglich des Vorhandenseins oder der Transformation eines erfassten Merkmals in den Zeitintervallen von ankommenden Impulsen oder in dem Ankunftszeitmuster selbst repräsentiert, wie in dem Fall des ersten Ausführungsbeispiels.
Das Ausgabemerkmal eines Merkmalerfassungsschichtneurons kann derart festgelegt werden, dass die Frequenz zunimmt, oder derart, dass die Impulsbreite oder die Amplitude mit zunehmendem Grad des Herausragens (siehe das erste Ausführungsbeispiel) eines anwendbaren Merkmals zunimmt.
12A zeigt eine Konfigurationseinheit eines Synapsenelements 401, das in diesem Ausführungsbeispiel verwendet wird. Eine Lernschaltung 402 derselben Art wie diejenige in dem ersten Ausführungsbeispiel und eine Impulsbreiten-Modulationsschaltung 1201 sind enthalten. Für die Impulsbreiten-Modulationsschaltung 1201 kann eine gut bekannte Schaltung, wie beispielsweise die in der Gazette des Patents Nr. 2717662 von der vorliegenden Anmelderin offenbarte, verwendet werden.
Anstelle des Durchführens der vorgenannten Impulsbreitenmodulation kann eine Impulsfrequenz an jedem Synapsenelement moduliert werden. In diesem Fall beinhaltet die Konfiguration des Synapsenelements 401, die der vorstehenden Konfiguration entspricht, die Lernschaltung 402 und eine Impulsfrequenz-Modulationsschaltung 1202, wie in 12B gezeigt ist. Eine bekannte Konfiguration kann auf die Impulsfrequenz-Modulationsschaltung 1202 angewandt werden. Die Modulation durch die Synapse wird durch f_a = S_ijf_b ausgedrückt, wenn die präsynaptische Impulsfrequenz als f_b bezeichnet wird, und die postsynaptische Impulsfrequenz als f_a bezeichnet wird.
Es erübrigt sich zu sagen, dass die Impulsmodulationsschaltung oder dergleichen mit einer Steuereinrichtung ausgerüstet ist, die bis zu einem oberen Grenzwert, d. h. einem Impulszyklus, sättigt, bei einer maximalen Impulsbreite, falls eine Neuronenausgabe eine Frequenzmodulation oder eine Impulsbreitenmodulation involviert.
<Drittes Ausführungsbeispiel>
Die in diesem Ausführungsbeispiel verwendeten Merkmalerfassungsneuronen sind dazu ausgelegt, grafische Merkmale und ihre Deformation auf der Grundlage auf der Grundlage der Zeitintervalle in analogen Werten und den Reihenfolgen von Impulsintervallen zu erfassen, oder grafische Merkmale auf der Grundlage der Wichtigkeitsniveaus zu erfassen, welches nachstehend beschrieben werden wird.
Die in diesem Ausführungsbeispiel verwendete Netzwerkkonfiguration ist dieselbe wie die in 1 gezeigte, mit der Ausnahme, dass jeder Zwischenschicht-Synapsenverbindung ein Phasenversatz auf der Grundlage des Orts in einem Empfangsfeld verliehen wird. 13 zeigt eine Abtaststruktur in dem Empfangsfeld eines in diesem Ausführungsbeispiel verwendeten Merkmalerfassungsneurons. Wenn zum Beispiel das Empfangsfeld elliptisch ist, wie in 13 gezeigt ist, dann ist die Abtaststruktur derart konfiguriert, dass die Phasenmodulationsausmaße an Gitterpunkten (S₁, S₂, ...), die ausgehend von der Mittenposition der Ellipse spiralförmig abgetastet werden, langsam zunehmen. Das Phasenmodulationsausmaß an einem beliebigen Punkt ist als das Phasenmodulationsausmaß an dem zu diesem Punkt nächsten Gitterpunkt definiert.
14 zeigt ein Beispiel des Phasenmodulationsausmaßes auf der Grundlage eines Orts in dem Empfangsfeld eines Merkmalelements. Folglich werden die Phasenmodulationsausmaße (p₁, p₂, ...) auf der Grundlage der Orte in dem Empfangsfeld innerhalb des Modulationsbereichs des Bereichs eines Unterzeitfensters, zu welchem ein zugeordnetes Merkmal gehören sollte, addiert, welches es ermöglicht, die Informationen bezüglich der Anordnungen von Merkmalen aus den Orten in den individuellen Unterzeitfenstern oder Signalimpulszügen zu extrahieren. Es erübrigt sich zu sagen, dass die Abtastung in einem anderen Muster als dem spiralförmigen Muster durchgeführt werden kann.
Es wird angenommen, dass die gewichtete Addition unter Verwendung der Zeitfensterfunktionen in Neuronen (wie in dem ersten Ausführungsbeispiel beschrieben) oder die zeitliche Integration in einem vorbestimmten Zeitfenster eines Impulsbreiten-Modulationssignals (wie in dem zweiten Ausführungsbeispiel beschrieben) durchgeführt wird, und dass jedes Merkmalelement sein zugeordnetes Unterzeitfenster hat. Folglich gibt die Position eines Signalspitzenwerts in jedem Unterzeitfenster die räumliche Position eines Merkmalelements in demselben Emp fangsfeld an, welches es dem zeitlichen Intervallmuster von einer Vielzahl von Signalspitzenwerten erlaubt, die Anordnungen von Merkmalelementen oder grafischen Mustern hoher Ordnung zu repräsentieren.
Außerdem können die Fensterfunktionen auf der Grundlage der Wichtigkeitsniveaus oder der Phasenmodulation vergeben werden. Das Wichtigkeitsniveau in diesem Fall bezieht sich auf ein "herausragendes" Merkmalelement oder ein grafisches Muster, das die Unterscheidung eines zu erfassenden oder zu erkennenden Musters gegenüber anderen Mustern erleichtert, und ist für jede Musterkategorie unterschiedlich. Dieses wird empirisch durch Lernen gewonnen. Die Wichtigkeitsniveaus können zum Beispiel durch Aktualisieren von Parametern in Richtungen für eine verbesserte Zuverlässigkeit bei der Erfassung oder Erkennung gewonnen werden, wenn der Störeinfluss eines Parameters, der stark den Beitrag zu der Erfassung eines bestimmten Merkmals bewertet, durch zum Beispiel Erhöhen des Unterzeitfenster-Funktionswerts oder durch Ändern des Phasenmodulationsausmaßes eines zugeordneten Merkmals bereitgestellt wird.
In den vorstehend erklärten Ausführungsbeispielen wurde das Verfahren beschrieben, in welchem ein Signalspitzenzug, der einer Vielzahl von unterschiedlichen Merkmalen von dem Empfangsfeld zugeordnet ist, zum Repräsentieren, Erfassen oder Erkennen von zweidimensionalen Musterinformationen verwendet wird. Merkmalelemente oder grafische Elemente niedriger oder hoher Ordnung werden durch eine Schwellenwertverarbeitung einer gewichteten Summe in einem Zeitfenster eines Impulszugs erfasst. Dies macht es möglich, ein gewünschtes Muster auch dann zuverlässig zu erfassen, wenn sich ein zu erfassendes oder zu erkennendes Objekt aufgrund einer positionellen Änderung, einer Rotation usw. deformiert oder eine Unzulänglichkeit bei dem Erfassen eines Merkmals aufgrund der Einflüsse der Beleuchtung, von Rauschen oder dergleichen unter komplizierten, diversen Bedingungen auftritt. Dieser Vorteil kann ohne die Notwendigkeit des Zurückgreifens auf irgendeine besondere Netzwerkstruktur erhalten werden.
Außerdem kann eine "Kontext-abhängige" Verarbeitung implementiert werden, einschließlich der Verarbeitung, die an ein um ein zu erfassendes oder zu erkennendes Objekt herum existierendes Muster angepasst ist, der Verarbeitung zum Verleihen von Priorität an einen bestimmten Abschnitt eines zu erfassenden oder zu erkennenden Objekts, und der Verarbeitungsschritte zum Umgehen mit einem Fall, in dem ein Muster, das nicht erfasst werden sollte, erfasst worden ist. Darüber hinaus ist es möglich, eine Anordnung zum Implementieren einer schnelleren Erfassung oder Identifikation vertrauterer Muster zu treffen.
Ob ein Merkmal erfasst worden ist, kann aus der Ankunft eines Impulses (digitale Information) von einem vorbestimmten Neuron in einem vorbestimmten Zeitbereich erkannt werden. Der Grad der Abweichung in der Form der Deformation gegenüber einem idealen Muster des Merkmals wird in einem Netzwerk explizit repräsentiert durch analoge Informationen, einschließlich einem Impulsverzögerungsausmaß, einer Impulsbreite, und einer Frequenz. Diese Anordnung macht es möglich, die Genauigkeit zum Unterscheiden hochgradig ähnlicher Muster und die für die Verarbeitung erforderliche Zeit dramatisch zu verbessern.
Außerdem sind in Übereinstimmung mit den vorstehend beschriebenen Konfigurationen die Impulse eines Impulszugs, die zeitlich auf einer einzelnen Eingangsleitung eines vorbestimmten Neurons angeordnet sind, so in einem Zeitfenster positioniert, dass sie den Merkmalen eines vorbestimmten Musters entsprechen. Mit dieser Anordnung können die Schwierigkeiten der Verdrahtung zwischen Neuronenelementen umgangen werden, und können die Schaltungsgröße und der Leistungsverbrauch zum Erkennen oder Erfassen eines vorbestimmten Objekts durch die zweidimensionale Musterverarbeitung im Vergleich zum Stand der Technik signifikant verringert werden, während gleichzeitig eine hohe Zuverlässigkeit aufrecht erhalten wird.
In Übereinstimmung mit der vorstehend beschriebenen Mustererfassungsvorrichtung kann ein gewünschtes Muster auch dann zuverlässig erfasst werden, wenn eine Unzulänglichkeit oder dergleichen von Merkmalen eines zu erfassenden Objekts auftritt.
Darüber hinaus können die Genauigkeit der Unterscheidung zwischen Mustern mit hoher Ähnlichkeit und die dafür erforderliche Zeit dramatisch verbessert werden.
<Viertes Ausführungsbeispiel>
Dieses Ausführungsbeispiel wird Muster erfassen oder erkennen, ohne von Skalen abzuhängen. Das Folgende wird die Aspekte beschreiben, die sich von den vorstehend diskutierten Ausführungsbeispielen unterscheiden.
Allgemeine Konfiguration
Die allgemeine Konfiguration der Mustererfassungs- oder Mustererkennungsvorrichtung gemäß dem vierten Ausführungsbeispiel ist identisch zu der in 1 gezeigten.
In diesem Ausführungsbeispiel bilden die in 1 gezeigten Merkmalerfassungsschichten (1, 0), (1, 1), ... und die Merkmalintegrationsschichten (2, 0), (2, 1), ... einen Satz von Verarbeitungskanälen bei einer Vielzahl von Auflösungen oder Skalenniveaus als Ganzes. Jeder Verarbeitungskanal implementiert eine Verarbeitung bei einem Skalenniveau oder einer Auflösung zum Erfassen und Erkennen von Merkmalen niedriger bis hoher Ordnung durch hierarchische Verarbeitung.
Jede Schicht hat eine Vielzahl von Schaltungselementen, die zu unterschiedlichen Verarbeitungskanälen gehören, wobei die Schaltungselemente in einem vorbestimmten Layout angeordnet sind. Nunmehr auf die in 15 und in 16 gezeigten Beispiele Bezug nehmend, wird die Konfiguration der Verarbeitungskanäle in Verbindung mit der Merkmalintegrationsschicht (2, 0) beschrieben werden.
Beide in 15 und 16 gezeigten Beispiele bilden einen Verarbeitungskanal mit einer nachfolgenden Schicht, falls das Skalenniveau oder die Auflösung gleich sind. 15 zeigt die Merkmalintegrationszellen, die nahe beieinander angeordnet sind, weil sie dieselbe Merkmalkategorie (eine gerichtete Kom ponente in diesem Fall) gemeinsam haben, obwohl die zu unterschiedlichen Verarbeitungskanälen gehören. 16 zeigt die Merkmalintegrationsschichten, die nahe beieinander angeordnet sind, weil sie dasselbe Skalenniveau, d. h. denselben Verarbeitungskanal, gemeinsam haben, obwohl sie unterschiedliche Merkmalkategorien handhaben. Die funktionellen Unterschiede der vorstehenden Konfigurationen werden später erklärt werden. In einer Merkmalintegrationsschicht (2, 0) empfängt jedes Schaltungselement Gabor-Wavelet-Transformationsmerkmale als Merkmale niedriger Ordnung, welches später erklärt werden wird, von den Zellen einer Merkmalerfassungsschicht (1, 0).
Allgemein sind in einer Merkmalerfassungsschicht (1, k), worin "k" eine natürliche Zahl angibt, Merkmalerfassungszellen, die die Ausgaben von einer Vielzahl von Merkmalintegrationszellen empfangen, die denselben Kanal in der vorangehenden Schicht (2, k – 1) bilden, so konfiguriert, dass sie zu dem Kanal gehören.
Die Merkmalintegrationsschicht (2, 0) auf einem Was-Pfad hat eine vorbestimmte Empfangsfeldstruktur, und ist aus Neuronenelementen gebildet, die Impulszüge erzeugen. Die Merkmalintegrationsschicht (2, 0) integriert eine Vielzahl von Neuronelementausgaben in demselben Empfangsfeld von der Merkmalerfassungsschicht (1, 0) durch eine Unterabtastung, die durch eine lokale Mittelwertbildung oder dergleichen durchgeführt wird, und durch Durchführen einer Berechnung zum Kombinieren der Verarbeitungsergebnisse bei unterschiedlichen Skalenniveaus. Die Neuronen in der Merkmalintegrationsschicht haben eine gemeinsame Struktur für ihre Empfangsfelder gemeinsam, so lange dieselbe Merkmalkategorie und dasselbe Skalenniveau betroffen sind.
Merkmalintegrationsschichten (1, 1), (1, 2), ..., (1, N) haben vorbestimmte Empfangsfeldstrukturen, die durch Lernen gewonnen wurden. Wie in dem Fall der vorstehend beschriebenen Schichten erfassen die Schichten ((1, 1), ...) eine Vielzahl von unterschiedlichen Merkmalen in jedem Merkmalerfassungsmodul, und integrieren die späteren Schichten ((2, 1), ...) die Erfassungser gebnisse über eine Vielzahl von Merkmalen, die von den Merkmalerfassungsschichten in den vorangehenden Stufen empfangen wurden. Die Merkmalerfassungsschichten sind so verbunden oder verdrahtet, dass sie Zellenelementausgaben der Merkmalintegrationsschichten in den vorangehenden Stufen empfangen, die zu denselben Kanälen gehören. Die Merkmalerfassungsschichten führen zwei Arten von Verarbeitung aus.
Eine Art der Verarbeitung ist die Unterabtastung. Der Unterabtastungsprozess mittelt primär die Ausgaben aus einer lokalen Region (einem lokalen Empfangsfeld einer geeigneten Merkmalintegrationsschicht-Neurons) einer Merkmalerfassungszellenpopulation derselben Merkmalkategorie und desselben Skalenniveaus. Die andere Art der Verarbeitung ist die Integration der Ergebnisse der Verarbeitung bei unterschiedlichen Skalenniveaus. Diese Verarbeitung kombiniert die Ausgaben einer Vielzahl von Merkmalerfassungszellenpopulationen derselben Merkmalkategorie, aber bei einer Vielzahl von unterschiedlichen Skalenniveaus, linear oder nichtlinear.
Ein Wo-Pfad mit Merkmalposition-Erfassungsschichten ((3, 0), ... (3, k)) empfängt die Eingabe von vorbestimmten Merkmalintegrationsschichten (nicht notwendiger Weise allen Merkmalintegrationsschichten) auf dem Was-Pfad und ist in das Ausgeben der Positionen von Merkmalen niedriger, mittlerer und hoher Ordnung involviert. In den folgendenden Beschreibungen wird eine weitere detaillierte Erklärung jeder Schicht auf dem Wo-Pfad weggelassen.
Verarbeitung durch Merkmalerfassungsschichten
Jedes Neuron der Merkmalerfassungsschicht (1, 0) hat eine Empfangsfeldstruktur basierend auf g_mn. Wenn g_mn denselben Skalenindex m hat, ist sein Empfangsfeld auch von derselben Größe. Bei der Berechnung basiert eine zugeordneter Kernel-g_mn-Größe auf demselben Skalenindex. In diesem Beispiel sind die Größen von 30 × 30, 15 × 15 und 7 × 7 auf einem Eingangsbild festgelegt, beginnend mit der gröbsten Skale bzw. dem gröbsten Maßstab.
Jedes Neuron gibt Impulse mit einem Ausgangspegel aus, welcher eine nichtlineare Quetschfunktion eines Wavelet-Transformationskoeffizientenwerts annimmt, der durch Eingeben der Summe von Produkten eines Verteilungsgewichtungsfaktors mit Bilddaten erhalten wurde. In diesem Ausführungsbeispiel wird eine Phase zum Repräsentieren von Ausgangsinformationen verwendet; es können jedoch alternativ eine Frequenz, eine Amplitude oder eine Impulsbreite als Referenz verwendet werden. Somit wurde die Gabor-Wavelet-Transformation gemäß Ausdruck (4) durchgeführt, um die Ausgabe der gesamten Schicht (1, 0) zu erhalten.
Die Anzahl von Abtastpunkten, d. h. die Anzahl von Positionen, an welchen die Merkmalerfassung oder dergleichen durchgeführt wird, wird so festgelegt, dass sie für jedes Skalenniveau gleich ist. Daher werden die Merkmale an einzelnen Punkten oder Orten, die durch die Gabor-Wavelet-Transformation extrahier wurden, schematisch durch die in 25 gezeigte hierarchische Struktur repräsentiert, die unterschiedliche repräsentative Bereiche für unterschiedliche Skalenniveaus hat. Die repräsentativen Bereiche bedeuten Eingangsdatenbereiche, in denen an jedem repräsentativen Punkt ein Merkmal erfasst werden kann. Mehrfache Repräsentationen von Merkmalen bei einer Vielzahl von Skalenniveaus werden auf jeder Position in einem Bild für den Populationscodierprozess erhalten, um eine Entsprechung zu wahlfreien Skalenniveaus herzustellen, welches später diskutiert werden wird. Die Kreise (O) in 25 geben den entsprechenden Punkt in Eingangsdaten bei jedem Skalenniveau an.
Anders als die Neuronen der Erfassungsschichten bilden die Neuronen der nachfolgenden Merkmalerfassungsschichten ((1, 1), (1, 2), ..., (1, N)) die Empfangsfeldstrukturen zum Erfassen von für ein zu erkennendes Muster einmaligen Merkmalen unter Verwendung der Hebb-Lernregel oder dergleichen. In einer späteren Schicht nähert sich die Größe einer lokalen Region zum Erfassen eines Merkmals langsam der Größe des zu erkennenden Objekts an, so dass spätere Schichten in der Hierarchie geometrisch Merkmale mittlerer oder hoher Ordnung erfassen. Zum Beispiel beziehen sich bei der Erfassung oder Erkennung eines Gesichts die Merkmale mittlerer oder hoher Ordnung auf das Merkmal auf der Ebene von grafischen Elementen, wie beispielsweise den Augen, der Nase und des Munds, die das Gesicht ergeben.
Unterschiedliche Verarbeitungskanäle, die ein identisches hierarchisches Niveau, d. h. ein identisches Niveau der Komplexität eines zu erfassenden Merkmals, gemeinsam haben, erfassen Merkmale, die zu derselben Kategorie bei unterschiedlichen Skalen gehören. Zum Beispiel werden "Augen", welche als Merkmale mittlerer Ordnung definiert sind, durch unterschiedliche Merkmale als "Augen" unterschiedlicher Größe erfasst. In anderen Worten wird die Erfassung in einer Vielzahl von Verarbeitungskanälen unterschiedlicher Skalenniveau-Selektivitäten für die "Augen" der gegebenen Größe in einem Bild durchgeführt. Die Neuronen der Merkmalerfassungsschicht können einen Mechanismus zum Empfangen von hemmenden Verbindungen (des Kurzschluß-Hemmungstyps) von Ausgaben einer Schicht in der vorangehenden Stufe aufweisen, um stabile Ausgaben sicherzustellen.
Verarbeitung an Merkmalintegrationsschichten
Nun werden die Neuronen der Merkmalintegrationsschichten 103 ((2, 0), (2, 1), ...) beschrieben.
Wie in 1 gezeigt ist, ist die Verbindung von der Merkmalerfassungsschicht 102 (beispielsweise (1, 0)) zu der Merkmalintegrationsschicht 103 (beispielsweise (2, 0) so konfiguriert, dass eine Eingabe einer stimulierenden Verbindung von einem Neuron desselben Merkmalelements oder Typs einer Merkmalerfassungsschicht in der vorangehenden Stufe in dem Empfangsfeld des Merkmalintegrationsneurons empfangen wird. Es gibt zwei Arten von Neuronen der Merkmalintegrationsschicht 103, das heißt Unterabtastneuronen und Populationscodierungsneuronen. Die Unterabtastneuronen führen eine Unterabtastung durch lokale Mittelwertbildung, wie beispielsweise das Berechnen eines Mittelwerts, eines repräsentativen Werts oder eines Maximalwerts, von Eingaben von Neuronen, die das Empfangsfeld des Merkmalerfassungsneurons bilden, für jede Merkmalkategorie aus, wie vorangehend beschrieben wurde. Die Populationscodierungsneuronen verbinden Ausgaben, die Bezug zu den Merkmalen derselben Kategorie haben, über unterschiedliche Skalen oder Verarbeitungskanäle.
In Übereinstimmung mit dem Vorstehenden werden die Impulse, die einer Vielzahl von Merkmalen derselben Klasse zugeordnet sind, zugeführt, und werden die Impulseingaben in einer lokalen Region integriert und gemittelt, oder wird ein Empfangsfeld-, oder ein repräsentativer Wert, wie beispielsweise ein Maximalwert in einem Empfangsfeld berechnet. Dies erlaubt eine verlässliche Erfassung eines Merkmals auch dann, wenn die Position des Merkmals fluktuiert oder eine Verformung auftritt. Daher können die Empfangsfelder der Merkmalintegrationsneuronen unabhängig von den Kategorien oder Merkmalen dieselbe Struktur haben. Zum Beispiel können Empfangsfelder aus rechteckigen Regionen einer vorbestimmten Größe zusammengesetzt sein und darin gleichmäßig verteilte Empfindlichkeit oder Gewichtungskoeffizienten haben.
Populationscodierung bezogen auf das Skalenniveau
Der Mechanismus der von der letztgenannten Art von Neuronen durchgeführten Populationscodierung wird im Einzelnen erklärt. Die Populationscodierungsneuronen führen eine Integration durch Durchführen einer normalisierten linearen Koppelung der Ausgaben von einer Vielzahl von Unterabtastneuronen durch, die auf derselben hierarchischen Ebene liegen (d. h. die Komplexität eines grafischen Merkmals liegt in etwa auf demselben Niveau), aber zu unterschiedlichen Verarbeitungskanälen für dasselbe Merkmal gehören, und in derselben Merkmalintegrationsschicht existieren. Zum Beispiel integriert die Merkmalintegrationsschicht (2, 0), die die Ausgaben der die Gabor-Wavelet-Transformation ausführenden Merkmalerfassungsschicht (1, 0) empfängt, durch lineare Kombination oder dergleichen, die Ausgaben, die einem Satz {g_mn} (n ist konstant, und m = 1, 2, ...) von Gabor-Filtern zugeordnet sind, die zu unterschiedlichen Verarbeitungskanälen gehören, aber dieselbe gerichtete Empfindlichkeit haben.
Um es genauer auszudrücken, werden eine Ausgabe p_ij(t) eines Unterabtastneurons, das eine Richtungskomponentenselektivität und eine Skalenselektivität j hat, und ein Populationscode q_ij(t) mit derselben Selektivität durch einen Ausdruck (9), der die lineare Kombination von normalisierten Ausgaben des Unterabtastneurons angibt, und einen Ausdruck (10), der ein Normalisierungsschema hierfür angibt, repräsentiert. Zum Zwecke der Einfachheit der Erklärung wird der Ausgangszustandübergang des Unterabtastneurons und des Populationscodierungsneurons als diskreter Zeitübergang ausgedrückt.
worin w_ij,ab einen Koppelungskoeffizienten bezeichnet, der den von einem Neuron oder einer Neuronenpopulation, die eine Vielzahl von unterschiedlichen Selektivitäten oder Empfindlichkeitsmerkmalen hat, geleisteten Beitrag angibt. Der Beitrag der Ausgabe eines Unterabtastneurons mit einer Merkmalkategorie, das heißt einem Richtungskomponenten-Selektivitätsindex "a" und einem Skalenniveau-Selektivitätsindex "b", wird einem Populationscodierungsneuron mit einem Richtungskomponenten-Selektivitätsindex "i" und einem Skalenniveau-Selektivitätsindex "j" zugeführt. Das w_ij,ab bezeichnet eine Filterungsfunktion oder Selektivität, die primär auf dem Richtungskomponentenindex "i" und dem Skalenniveauindex "j" basiert, und nimmt typisch die Form der Funktion von |i – a| und |j – b| wie folgt an: w_ij,ab = f(|i – a|, |j – b|).
Wie später diskutiert werden wird, ist die Populationscodierung basierend auf der linearen Koppelung über den Mittler w_ij,ab für q_ij beabsichtigt, um eine Wahrscheinlichkeit der Existenz im Hinblick auf Merkmalkategorie oder Richtungskomponente und ein Skalenniveau zu verleihen, unter Berücksichtigung der Erfassungspegel von Neuronen mit anderen Selektivitäten. Der Parameter C bezeichnet eine Normalisierungskonstante, und λ und β bezeichnen Konstanten. Typisch ist β 1 oder 2. Das Setzen von β auf 2 stellt im Vergleich zu dann, wenn β auf 1 gesetzt ist, eine Wirkung zum Komprimieren und Reduzieren des Beitrags von niedrigpegeligen Rauschkomponenten bereit. C bezeichnet eine Konstante zum Verhindern, dass p_ij divergiert, und zwar auch dann, wenn die Gesamtsumme von Populationscodes für eine bestimmte Merkmalkategorie nahezu null ist. In einem Anfangszustand ist, wenn ein System hochgefahren wird, q_ij(0) = p_ij(0).
In Verbindung mit 15 wird die Addition nur auf dem Skalenniveau-Selektivitätsindex in den Ausdrücken (9) und (10) ausgeführt. Infolge dessen geben die Populationscodierungsneuronen die Größen proportional zu den Wahrscheinlichkeiten der Existenz von jeweiligen Merkmalen aus, die zu derselben Merkmalkategorie, aber zu unterschiedlichen Skalenniveaus oder Verarbeitungskanälen gehören.
Ferner kann, wie in dem in 16 gezeigten Beispiel, im allgemeinen, ein System zum Implementieren der Populationscodierung, auch auf dem mittleren Niveau einer voreingestellten Anzahl von Richtungskomponenten, durch weiteres Hinzufügen des Richtungskomponenten-Selektivitätsindex aufgebaut werden. In diesem Fall ermöglicht es durch geeignetes Festlegen der Parameter β und w_ij,lk in Ausdrücken (11) und (12), die nachstehend beschrieben werden, die in 16 gezeigte Konfiguration, dass die Populationscodierungsneuronen die Größen proportional zu den Wahrscheinlichkeiten der Existenz der Merkmale für individuelle Skalenniveaus und in Merkmalkategorien ausgeben.
Wie durch Ausdruck (9) angegeben wird, wird der Populationscode q_ij(t) durch die normalisierte lineare Kombination erhalten, die mit den Ausgaben von Neuronen mit der Empfindlichkeit auf unterschiedlichen Skalenniveaus befasst ist. Falls ein q_ij(t), das einen stabilen Zustand erreicht hat, korrekt normalisiert wird, um seinen Wert irgendwo zwischen 0 und 1 festzulegen, dann wird q_ij eine Wahrscheinlichkeit der Richtungskomponente i und des Skalenniveaus j bereitstellen, vorausgesetzt, dass die vorstehend erwähnte korrekte Normalisierung durch zum Beispiel Verwenden eines Gesamtsummenwerts über q_ij erzielt wird.
Demgemäß wird, um explizit das Skalenniveau zu bestimmen, das der Größe eines Objekts in Eingangsdaten zugeordnet ist, eine Kurve zum Einpassen von q_ij ermittelt, um dem maximalen Wert abzuschätzen, und wird das Skalenniveau basierend darauf ermittelt. Das somit erhaltene Skalenniveau gibt allgemein einen Zwischenwert von voreingestellten Skalenniveaus an.
26 zeigt ein Beispiel der Populationscodierung von Skalenniveaus, wobei die Abszissenachse das Skalenniveau angibt, während die Ordinatenachse Zellenausgaben angibt. Die Ausgaben entsprechen Impulsphasen. Ein Neuron, das seine Spitzenempfindlichkeit bei einer bestimmten Skale hat, zeigt einen Abfall in seinem Ausgangspegel oder eine Phasenverzögerung für ein Merkmal mit einer Größe, die von dieser bestimmten Skale abweicht, wie verglichen für ein Merkmal mit der der Größe, die dieser bestimmten Skale entspricht.
26 zeigt die Empfindlichkeitskurven oder "Abstimmkurven" für die Skalenempfindlichkeiten von individuellen Merkmalerfassungszellen, Zellenausgaben, und integrierte, populationscodierte Ausgaben oder Momente mit Bezug zu den Skalenniveaus von Zellenausgaben, d. h. lineare Summen. Die Positionen der integrierten, populationscodierten Ausgaben auf der Abszissenachse spiegelt die angenommenen Werte der Skale bzw. des Maßstabs oder der Größe eines zu erkennenden Objekts wider.
In diesem Ausführungsbeispiel werden in Wirklichkeit die Skalenniveaus nicht explizit bestimmt, und werden die Ausgaben von einer Merkmalintegrationsschicht an eine Merkmalerfassungsschicht mit q_ij bezeichnet. In diesem Fall kann alternativ ein normalisiertes q_ij verwendet werden. Genauer ausgedrückt sind in sowohl 15 als auch 16 die Ausgaben von der Merkmalintegrationsschicht 103 an die Merkmalerfassungsschicht 102 eher die Ausgaben von Populationscodierungsneuronen als solche von Unterabtastneuronen. Folglich werden die Ausgaben letzten Endes kollektiv in der Form einer Erfassungswahrscheinlichkeit eines bestimmten Objekts repräsentiert, das eine Vielzahl von Skalenniveaus oder Auflösungen wie das normalisierte q_ij abdeckt.
In Übereinstimmung mit der Schaltungskonfiguration der in 15 gezeigten Merkmalintegrationsschicht 103 werden in einer Unterabtastneuronen-Schaltung 1501, unter den Merkmalerfassungsschicht-Neuronenausgaben der vorangehenden Stufe, die Neuronenausgaben, die dieselben Merkmalkategorien und Größenselektivitäten gemeinsam haben, von den lokalen Empfangsfeldern der Unterabtastneuronen zuerst empfangen, um eine lokale Mittelwertbildung durchzuführen. Die Unterabtastneuronenausgaben werden an eine Koppelschaltung 103 gesendet. Zu dieser Zeit wird, wie später diskutiert werden wird, das Impulssignal von jedem der Neuronen durch eine (nicht gezeigte) Synapsenschaltung Verzögerungen um ein vorbestimmtes Phasenausmaß (beispielsweise einem Ausmaß proportional zu dem Quadrat des Ausgangspegels eines Merkmalerfassungsneurons, falls β aus Ausdruck (6) 2 ist) unterworfen und über einen lokalen gemeinsamen Bus ausgebreitet. Alternativ jedoch können die Neuronen physikalisch unabhängig verdrahtet werden, ohne den gemeinsamen Bus zu verwenden.
Die Koppelschaltung 1503 implementiert die Verarbeitung basierend auf den Ausdrücken (5) und (6), um eine Populationscodierung über die Information auszuführen, die zu derselben Merkmalkategorie gehört, aber unterschiedliche Größenselektivitäten hat oder eine Vielzahl von Verarbeitungskanälen involviert.
In Übereinstimmung mit der in 15 gezeigten Schaltungskonfiguration wurde die Populationscodierung auf den Unterabtastneuronenausgaben derselben Merkmalkategorie durchgeführt (Richtungskomponentenselektivität). Demgegenüber wird in Übereinstimmung mit der in 16 gezeigten Schaltungskonfiguration die Verarbeitung basierend auf den nachstehenden Ausdrücken (11) und (12) durch die Koppelschaltung 1503 implementiert, die die Populationscodierung auf Unterabtastneuronenausgaben über gesamte Merkmalkategorien und Größenselektivitäten durchführt.
Nun wird das Verfahren zum Berechnen des Skalenniveaus eines zu erkennenden Objekts beschrieben. Das Implementieren der vorstehenden Verarbeitung erlaubt die Berechnung des Skalenniveaus des zu erkennenden Objekts, die auf einem mittleren Aktivitätsniveau oder Unterabtastneuron-Ausgangspegel P_a jedes Verarbeitungskanals basiert. Ein geschätztes Skalenniveau S wird zum Beispiel wie folgt dargestellt:
worin P_a das mittlere Aktivitätsniveau eines Verarbeitungskanals "a" bezeichnet, S_a das Skalenniveau oder den Skalenindex des Verarbeitungskanals "a" bezeichnet, und p_ia das Aktivitätsniveau eines Unterabtastneurons bezeichnet, das zu dem Verarbeitungskanal "a" gehört. Das mittlere Aktivitätsniveau P_a kann, für die Verarbeitung in der nachfolgenden Schicht, zum Steuern der Aktivitätsniveaus der Neuronen in jedem Verarbeitungskanal verwendet werden.
Zum Beispiel kann P_a zum Erzeugen eines Signals zum Steuern eines Neuronen-Feuerschwellenwerts in der nachfolgenden Schicht verwendet werden. In diesem Fall werden die Feuerschwellenwerte der nachfolgenden Schichten verringert, um wirksam eine Merkmalerfassungsempfindlichkeit für den Kanal mit einem maximalen Pegel bzw. Niveau von P_a zu erhöhen, während die Feuer schwellenwerte der nachfolgenden Schichten erhöht werden, um wirksam die Merkmalerfassungsempfindlichkeit für die verbleibenden Kanäle zu verringern. Dies erlaubt es, nur den Kanal oder das Skalenniveau mit dem maximalen P_a zu aktivieren, wodurch es möglich gemacht wird, einen verringerten Leistungsverbrauch und eine robuste, gegenüber Rauschen immune Verarbeitung zu erreichen. Außerdem werden die Schwellenwerte der nachfolgenden Schichten auf der Grundlage des Werts von P_a durch Verringern der Schwellenwerte für Kanäle mit relativ höheren P_a-Werten gesteuert. Diese Anordnung macht es möglich, eine adaptive Steuerung der Merkmalerfassungsempfindlichkeit auf der Grundlage eines mittleren Kanalaktivitätsniveaus in der Stufe, in der Merkmale niedriger Ordnung extrahiert werden, durchzuführen.
Außerdem ist es ebenfalls möglich, eine Kanalaktivierungs-Steuerschaltung bereitzustellen, die die Ausgangssignale jedes Populationscodierungsneurons durch Verstärken oder Abschwächen der Signale, d. h. Voreilen oder Verzögern von Impulsphasen derselben, auf der Grundlage von P_a für jeden Kanal in der Schicht (2, 0) verarbeitet. 18 zeigt eine Konfiguration einer solchen Kanalaktivierungs-Steuerschaltung. Eine Kanalaktivierungs-Steuerschaltung 1802 ist zwischen den Populationscodierungsneuronen und den nachfolgenden Schichten, das heißt der in den 15 und 16 gezeigten Merkmalerfassungsschicht, bereitgestellt und empfängt die Verarbeitungsergebnisse einer Mittelaktivitäts-Berechnungsschaltung 1801, die die Ausgaben der Populationscodierungsneuronen verarbeitet.
In der letzten Schicht wird, über eine Vielzahl von Kanälen, die Wahrscheinlichkeit der Existenz eines als ein Merkmal hoher Ordnung zu erkennenden Objekts in der Form des Aktivitätsniveaus eines Neurons repräsentiert, wobei das Aktivitätsniveau primär auf einer Feuerfrequenz oder der Phase einer Feuerimpulsspitze basiert. In einem Wo-Verarbeitungspfad, oder falls die Information bezüglich der Position des zu erfassenden oder zu erkennenden Objekts ebenfalls in der letzten Schicht erfasst wird, wird die Wahrscheinlichkeit der Existenz des Objekts auf der Grundlage der Position oder des Orts in Eingangsdaten im Hinblick auf das Aktivitätsniveau jedes Neurons in der letzten Schicht erfasst. In diesem Fall wird die Wahrscheinlichkeit der Existenz des Objekts durch das Vorhandensein des Objekts ersetzt, falls die Schwellenwertverarbeitung implementiert wird.
Die Populationscodierung könnte durch lineare Koppelung durchgeführt werden, die keine Normalisierung involviert; dies würde jedoch zu Empfindlichkeit gegenüber Rauschen führen. Daher wird es bevorzugt, eine Normalisierung durchzuführen. Die in Ausdruck (10) und (12) gezeigte Normalisierung kann durch die "Kurzschlußhemmung" auf der Ebene des neuronalen Netzwerks erzielt werden. Die in Ausdruck (9) und (11) gezeigte lineare Koppelung kann durch eine laterale Verschaltung erzielt werden.
Ein Beispiel einer Normalisierungsschaltung für β gleich 2 ist in 17 gezeigt. Die Normalisierungsschaltung wird durch eine Summe-von-Quadraten-Berechnungsschaltung 1703 zum Bestimmen der Summe von Quadraten der Ausgaben von Merkmalerfassungszellen n_ij, die zu unterschiedlichen Verarbeitungskanälen gehören, eine Kurzschlußhemmungsschaltung 1704 zum primären Normalisieren des Ausdrucks (10), und eine Linearsummenschaltung 1705 zum Bestimmen und Ausgeben der linearen Summe des Ausdrucks (9) gebildet.
Die Summe-von-Quadraten-Berechnungsschaltung 1703 weist eine Zwischenneuronenschaltung 1706 zum Zusammenfassen der Quadratwerte von Merkmalerfassungszellen auf, und ein synaptisches Verbindungselement 1702 zum Anwenden einer Verbindung zu der Zwischenneuronenschaltung 1706 verleiht eine Impulsphasenverzögerung, eine Impulsbreitenmodulation oder eine Impulsfrequenzmodulation äquivalent zu dem Quadratwert einer Ausgabe des Merkmalerfassungs-Neuronenelements 1701.
Die Kurzschlußhemmungsschaltung 1704 wird durch zum Beispiel ein Element mit variablem Widerstand (und einen Kondensator), das proportional zu der inversen Zahl eines durch Multiplizieren einer Ausgabe der Zwischenneuronenschaltung 1706 mit einem vorbestimmten Koeffizienten (λ/C) erhaltenen Werts ist, einen Kondensator und eine Impulsphasen-Modulationsschaltung (oder eine Impulsbreiten-Modulationsschaltung oder eine Impulsfrequenz-Modulationsschaltung), die das Quadrat der Ausgabe des Merkmalerfassungs-Neuronenelements 1701 liefert, gebildet.
Nun wird ein Modifikationsbeispiel der Kanalverarbeitung beschrieben. Es gibt eine Alternative zu der vorgenannten Konfiguration, bei der die Populationscodierung für jeden Verarbeitungskanal ausgeführt wird, und die Ausgabe jedes Verarbeitungskanals an eine nachfolgende Schicht übertragen wird (d. h. die Konfiguration, in der die in 15 oder 16 gezeigte Konfiguration nach Art einer Kaskade in nachfolgende Schichten weitergeführt wird). In der alternativen Konfiguration werden die Ausgaben der Populationscodierungsneuronen nur zu den Merkmalerfassungszellen der nachfolgenden Schicht weitergeleitet, die zu demselben Kanal wie der Verarbeitungskanal gehören, wodurch ein maximaler Antwortpegel in der Merkmalintegrationsschicht (2, 0) verliehen wird, um die Verarbeitungseffizienz zu verbessern und den Leistungsverbrauch zu verringern.
In diesem Fall ist eine Maximaleingabe-Erfassungsschaltung, das heißt eine so genannte "Gewinner-nimmt-alles-Schaltung" (nachstehend als "WTA-Schaltung" (Winner-Take-All) bezeichnet), zwischen den Ausgängen der Merkmalintegrationsschicht (2, 0) und der nachfolgenden Merkmalerfassungsschicht (1, 1) zusätzlich zu der in 15 oder 16 gezeigten Konfiguration bereitgestellt. Die WTA-Schaltung wirkt als eine Verarbeitungskanal-Auswahlschaltung, die die Ausgaben der Populationscodierungs-Neuronenschaltung empfängt und einen maximalen Antwortpegel verleiht. Die Verarbeitungskanal-Auswahlschaltung kann für jede Position der Merkmalintegrationsschicht bereitgestellt sein. Alternativ kann eine solche Verarbeitungskanal-Auswahlschaltung für diese Schicht bereitgestellt sein, um einen maximalen Antwortpegel für jeden Verarbeitungskanal über die gesamten Eingangsdaten unabhängig von Orten zu berechnen.
Für die WTA-Schaltung kann eine bekannte Konfiguration verwendet werden, wie beispielsweise die in der japanischen Patent- Offenlegungsschrift Nr. 08-321747, dem US-Patent 5059814, oder dem US-Patent 5146106 offenbarte. 19A zeigt schematisch die Konfiguration, in der die Ausgaben nur der maximale Antworten in einer Merkmalintegrationsschicht anzeigenden Verarbeitungskanäle durch die WTA-Schaltung zu einer Merkmalerfassungsschicht (der nachfolgenden Schicht) in der Merkmalintegrationsschicht weitergeleitet werden. Diese Schaltungskonfiguration ist identisch zu der in 18 gezeigten Einen mit der Ausnahme, dass die Kanalaktivierungs-Steuerschaltung 1802 von 18 durch eine Torschaltung 1902 ersetzt worden ist.
Wie in 19B gezeigt ist, weist die Torschaltung 1902 eine WTA-Schaltung 1603 auf, die einen mittleren Ausgangspegel für jeden Verarbeitungskanal empfängt, und eine Kanalauswahlschaltung 1604 zum Weiterleiten der Ausgabe jedes Neurons von einem einen maximalen mittleren Ausgangspegel anzeigenden Verarbeitungskanal zu demselben Kanal der nächsten Schicht.
In einer nachfolgenden Merkmalintegrationsschicht (2, k), wobei k 1 oder größer ist, ist eine solche Verarbeitungskanal-Auswahlschaltung verzichtbar. Zum Beispiel kann eine Ausgabe einer Merkmalintegrationsschicht, nachdem ein Merkmal hoher Ordnung erfasst wird, über die Verarbeitungskanal-Auswahlschaltung zurückgeführt werden, um einen Verarbeitungskanal in einer Integrationsschicht von Merkmalen niedriger oder mittlerer Ordnung auszuwählen. Dies vervollständigt die Erklärung des Modifikationsbeispiels der Kanalverarbeitung. Die Konfiguration ist nicht auf die in 15 oder 16 gezeigten Einen beschränkt, bei denen die Verarbeitungsschritte der Unterabtastung, der Koppelung und der Populationscodierung in der Merkmalintegrationsschicht implementiert sind. Alternativ können zum Beispiel getrennte Schichten für die Verarbeitung zum Koppeln bzw. die Verarbeitung für die Populationscodierung bereitgestellt sein.
Die nachstehend beschriebenen Vorteile werden durch Durchführen der Populationscodierung über die Ausgaben aus derselben Art von Merkmalkategorie-Erfassungsneuronen unterschiedlicher Skalenniveaus erhalten. Eine genaue Erfassung oder Erkennung kann auch dann erreicht werden, wenn die Größe eines Objekts einem Skalenniveau entspricht, das sich von einem beliebigen von voreingestellten Skalenniveaus unterscheidet und irgendwo zwischen diesen liegt. Außerdem macht es die mehrskalige hierarchische parallele Verarbeitung möglich, eine stabile Erkennung oder Erfassung eines Objekts durch korrektes Auswählen einer Vielzahl von Skalenniveaus oder Auflösungen auch dann zu erreichen, wenn ein Objekt einer unterschiedlichen Größe in einer Nachbarschaft oder auf eine überlappende Art und Weise existiert. Darüber hinaus ist es nicht länger notwendig, Modelle entsprechend zu einer enormen Anzahl von Schablonen bzw. Vorlagen zum Umgehen mit Objekten wahlfreier Größen zu erstellen, so dass eine Verarbeitung unter Verwendung von weniger Skalenniveaus implementiert werden kann.
Außerdem kann in Übereinstimmung mit dem Ausführungsbeispiel, in dem die Verarbeitungskanäle räumlich getrennt und bis zu der letzten Schicht angeordnet sind, die Populationscodierung, einschließlich der Verarbeitung der Verbindung zwischen Verarbeitungskanälen, ohne die Notwendigkeit einer komplizierten zeitlichen Steuerung durchgeführt werden, im Vergleich zu den Konfigurationen, in denen die Verarbeitungskanäle auf einer Zeitbasis genutzt werden, wie in einem fünften und einem sechsten Ausführungsbeispiel, die nachstehend zu beschreiben sind, gezeigt werden wird. Es gibt einen anderen Vorteil, der aufgrund der Konfiguration erhalten wird, in welcher die Unterschiede zwischen den Verarbeitungskanälen in der Form der Feuercharakteristik von physikalisch verschiedenen Neuronen ausgegeben werden. Dies erlaubt es, die Erkennungs- oder Erfassungsverarbeitung gleichzeitig bei einer Vielzahl von Skalen durchzuführen, im Vergleich mit einem Fall, in dem die Verarbeitung von individuellen Skalenniveaus in einer Zeitreihe implementiert ist.
Selbst wenn ein anderes Objekt einer nahezu identischen Größe in einer Nachbarschaft oder auf eine überlappende Art und Weise existiert, wird natürlich das Leistungsvermögen zum Erkennen oder Erfassen eines zu erkennenden oder zu erfassenden Objekts aufgrund des Mechanismus aufrecht erhalten, der dazu an gepasst ist, eine Vielzahl von Arten von teilweisen Merkmalen durch die lokale Empfangsfeldstruktur, die Unterabtaststruktur usw. zu integrieren.
Die Impulscodierung und das Erfassungsverfahren für zweidimensionale grafische Muster sind dieselben wie diejenigen des ersten Ausführungsbeispiels, so dass die Erklärung derselben nicht wiederholt wird.
Impulssignalverarbeitung durch die Merkmalintegrationsschicht
In der vorgenannten Koppelungsschaltung werden die Impulse, die den durch Ausdruck (9) oder (11) erhaltenen Populationscodierungsniveaus zugeordnet sind, den individuellen Populationscodierungsneuronen zugeführt, und die als die Ausgabezellen (n₁, n₂ und n₃) der mit (2, k) nummerierten Merkmalintegrationsschicht wirkenden Populationscodierungsneuronen empfangen die Impulseingaben von den Schrittmacherneuronen einer mit (1, k + 1) nummerierten Schicht. Dann geben die Populationscodierungsneuronen Ausgangsimpulse aus, unter Verwendung der abfallenden Flanken der Impulse von den Schrittmacherneuronen als Rezerenzzeitpunkte derselben, falls die Ausgaben der Koppelungsschaltung aufgrund der Eingaben von einer Merkmalerfassungsschicht oder einer Sensoreingabeschicht, nummeriert mit (1, k), in der vorangehenden Schicht auf ausreichend hohen Niveaus liegen. Die ausreichend hohen Niveaus hier bedeuten, dass zum Beispiel die mittlere Anzahl von Eingangsimpulsen in einem vorbestimmten Zeitbereich oder Zeitfenster größer ist als ein Schwellenwert, oder dass Impulsphasen voreilen.
Die vorstehend beschriebenen Unterabtastneuronen werden nicht der Steuerung durch irgendeines der Schrittmacherneuronen unterworfen, und führen eine Unterabtastung auf der Grundlage eines mittleren Ausgangsniveaus bzw. -pegels aus den Merkmalerfassungszellen der Schicht (1, k) der vorangehenden Stufe durch. Das mittlere Ausgangsniveau bezieht sich auf das Niveau bzw. den Pegel von in einem Zeitfenster empfangenen Ausgaben bzw. Ausgangssignalen mit einer unabhängigen Phase für jedes Unterabtastneuron. Die Steuerung der Zeitpunkte zum Ausgeben von Impulsen aus den Unterabtastneuronen an die Koppelungsschaltung wird ohne die Vermittlung der Schrittmacherneuronen durchgeführt. Dasselbe gilt für die Impulse, die von der Koppelungsschaltung an die Populationscodierungsneuronen ausgegeben werden.
Folglich sind in Übereinstimmung mit dem vorliegenden Ausführungsbeispiel die Merkmalintegrationszellen, wie beispielsweise die Unterabtastneuronen und die Populationscodierungsneuronen, nicht dazu angepasst, unter die Zeitpunktsteuerung durch die Schrittmacherneuronen auf ihrer vorangehenden, mit (1, k) nummerierten Merkmalerfassungsschicht gesetzt zu werden. Dies ist deshalb so, weil die Zeitpunkte zum Erzeugen der Zeitfenster nicht sehr wichtig sind, da die Merkmalintegrationszellen Impulse in Phasen (die in diesem Ausführungsbeispiel verwendeten Phasen können beliebig durch Frequenzen, Impulsbreiten und Amplituden ersetzt werden) ausgeben, die durch die Eingangspegel bestimmt werden, die im Hinblick auf die zeitlichen Integrationswerte von Eingangsimpulsen oder dergleichen in einem vorbestimmten Zeitbereich anstelle einer Abhängigkeit von einem Eingangsimpuls-Ankunftszeitmuster angegeben werden.
Dies sollte nicht so gesehen werden, dass die Konfiguration ausgeschlossen wird, in der die Merkmalintegrationszellen die Zeitpunktsteuerung von den Schrittmacherneuronen einer Merkmalerfassungsschicht in der vorangehenden Schicht empfangen. Der Punkt ist, die Möglichkeit einer solchen Konfiguration vorzuschlagen.
Es ist ebenfalls möglich, eine Lernsteuerung, die eine Vielzahl von Skalen oder Verarbeitungskanälen abdeckt, einfach durch Präsentieren eines zu erkennenden oder erfassenden Objekts in einer Größe während eines Lernmodus zu erzielen. Um es genauer auszudrücken, wird während des Lernmodus die in 18 gezeigte Kanalaktivierungs-Steuerschaltung so gesteuert, dass sie die Ausgaben eines Kanals, der das höchste mittlere Aktivitätsniveau unter den Ausgaben in der Merkmalintegrationsschicht (2, 0) hat, zu den verbleibenden Kanälen ver teilt, und dann wird das vorstehend beschriebene Lernen durchgeführt.
Falls zum Beispiel angenommen wird, dass eine Lernregel im voraus so erstellt wird, dass dieselben Impulsintervalle oder dasselbe Ankunftszeitmuster für unterschiedliche Verarbeitungskanäle in Bezug auf dieselbe Merkmalkategorie verwendet werden, dann werden die Ausgaben der Merkmalintegrationsschichtneuronen des Kanals mit dem höchsten mittleren Aktivitätsniveau verteilt und an die Neuronen der Merkmalerfassungschicht (der nächsten Schicht) der folgenden gesamten Kanäle oder der Kanäle nahe an dem Skalenniveau dieses Kanals in Übereinstimmung mit den Empfangsfeldstrukturen der Merkmalerfassungsneuronen geliefert (in demselben Impulszugmuster). Die Ausgaben werden in der Form desselben Impulszugmusters geliefert. In diesem Fall werden alle Kanäle der nachfolgenden Schicht auf demselben Niveau aktiviert. Ein anderes Verfahren kann verwendet werden, um dasselbe Ergebnis zu erhalten.
Folglich kann derselbe Effekt, der durch einen Lernprozess auf Objekten einer Vielzahl von unterschiedlichen Größen oder Skalenniveaus erhalten wird, einfach in einem Lernprozess erhalten werden, ohne den Lernprozess durch Präsentieren unterschiedlicher Größen eines zu erkennenden oder zu erfassenden Objekts zu implementieren.
Das Folgende wird die Verarbeitung in einem Lernmodus und einem Erkennungsmodus beschreiben, die hauptsächlich in einer Merkmalerfassungsschicht ausgeführt wird.
Wie vorangehend beschrieben wurde, werden in jeder Merkmalerfassungsschicht 102 Impulssignale, die einer Vielzahl von unterschiedlichen Merkmalen zugeordnet sind, von demselben Empfangsfeld empfangen, und werden die räumlich-zeitliche gewichtete Gesamtsummenberechnung und die Schwellenwertverarbeitung in einem für jedes Skalenniveau festgelegten Verarbeitungskanal ausgeführt. Die Merkmalsgrößen zugeordneten Impulse kommen in vorbestimmten Zeitintervallen auf der Grundlage von Verzögerungsausmaßen oder Phasen, voreingestellt durch Lernen, an.
Die Lernsteuerung des Impulsankunftszeitmusters ist kein Hauptpunkt der vorliegenden Anmeldung, so dass nur eine geringst mögliche Beschreibung gegeben wird. Zum Beispiel wird ein konkurrierendes Lernprogramm eingeführt, bei dem dann, wenn ein ein bestimmtes grafisches Muster bildendes Merkmalelement ein herausragendes Merkmal ist, das am meisten zu der Erfassung des grafischen Musters beiträgt, dieses Merkmalelement zuerst ankommt, und die Merkmalelemente, deren Grade des Herausragens nahezu gleich sind, mit vorbestimmten, dazwischen bereitgestellten Zeitintervallen ankommen, um Merkmalelemente durch Impulssignale zu unterscheiden. Alternativ kann die Lernsteuerung derart ausgestaltet werden, dass vordefinierte Merkmalelemente, welche die Merkmalelemente sind, die ein zu erkennendes Objekt bilden und die als besonders wichtig betrachtet werden (beispielsweise eine große mittlere Krümmung und ein hoher Linearitätsgrad), in unterschiedlichen Zeitintervallen ankommen.
Der Grad des Herausragens wird zum Beispiel in der Stärke der Antwort (das Impulsverzögerungsausmaß in diesem Ausführungsbeispiel) einer Zelle zum Erfassen von Merkmalelementen widergespiegelt, wenn das grafische Muster erfasst wird. In diesem Fall werden die Neuronen, die den Merkmalelementen niedriger Ordnung in demselben Empfangsfeld auf der Merkmalintegrationsschicht (der Schicht in der vorangehenden Stufe) zugeordnet sind, synchron feuern oder Impulse in vorbestimmten Phasen ausgeben.
Im allgemeinen feuern dann, wenn ein Neuron in der Merkmalintegrationsschicht eine Verbindung zu einem Merkmalerfassungsneuron zum Erfassen desselben Merkmals höherer Ordnung hat, das sich an einer unterschiedlichen Position befindet (in diesem Fall hat das Neuron ein unterschiedliches Empfangsfeld, aber hat eine Verbindung zum Ausbilden desselben Merkmals hoher Ordnung), diese Neuronen synchron. Jedoch hängt der Ausgangspegel auch von einer Gesamtsumme oder einem Mittelwert oder dergleichen der Beiträge von einer Vielzahl von Schrittmacherneuronen ab, die für jedes Empfangsfeld eines Merkmalerfassungsneurons bereitgestellt sind. Der Ausgangspegel in die sem Beispiel ist durch eine Phase gegeben; alternativ können jedoch Frequenzen, Amplituden oder Impulsbreiten als Referenz verwendet werden. In jedem Neuron auf der Merkmalerfassungsschicht 102 wird die räumlich-zeitliche gewichtete Gesamtsumme von Eingangsimpulsen über einen Impulszug berechnet, der das Neuron nur in einem Zeitfenster mit einer vorbestimmten Breite erreicht. Die Mittel zum Durchführen der gewichteten Addition in dem Zeitfenster ist nicht auf die in 2 gezeigte Neuronenelementschaltung beschränkt; es kann ein anderes Verfahren verwendet werden.
In diesem Ausführungsbeispiel wurde die Gabor-Wavelet-Transformation zum Extrahieren von Merkmalen niedriger Ordnung verwendet. Es ist jedoch offensichtlich, dass ein anderes Mehrfachskalen-Merkmal, wie beispielsweise ein lokaler Autokorrelationskoeffizient, der durch Größen proportional zu Skalen erhalten wurde, alternativ verwendet werden kann.
Wie in dem Fall des ersten Ausführungsbeispiels macht es ein Installieren der Mustererfassungs- oder Mustererkennungs-Vorrichtung mit der Konfiguration gemäß dem Ausführungsbeispiel in einer Abbildungsvorrichtung bzw. bildgebenden Vorrichtung, wie in 11 gezeigt, möglich, auf ein bestimmtes Objekt zu fokussieren, Farbkorrekturen des bestimmten Objekts durchzuführen, und die Belichtung zu steuern.
<Fünftes Ausführungsbeispiel>
In diesem Ausführungsbeispiel werden die Repräsentation von Merkmalen bei unterschiedlichen Skalenniveaus und die vorstehend beschriebene Populationscodierung nur auf Merkmalen niedriger Ordnung ausgeführt. Eine skaleninvariante Repräsentation von Merkmalen wird erzielt durch Impulsphasenmodulation oder dergleichen auf Merkmalen, und Merkmale mittlerer oder hoher Ordnung werden in dem skaleninvarianten Merkmalsrepräsentationsbereich erfasst.
Genauer ausgedrückt wird bis hin zu der Merkmalintegrationsschicht (2, 0) dieselbe Struktur wie die des ersten Ausfüh rungsbeispiels verwendet, und wird danach eine skaleninvariante Signalumwandlung auf Merkmalen niedriger Ordnung, die dieses Ausführungsbeispiel kennzeichnet, durchgeführt. Ausgehend von einer Merkmalerfassungsschicht (1, 1) und danach werden eine Merkmalerfassung von mittlerer bis hoher Ordnung und eine Integration auf skaleninvarianter Merkmalrepräsentation durchgeführt. Mit dieser Anordnung können eine vereinfachte Schaltungskonfiguration, ein kleinerer Schaltungsmaßstab und ein verringerter Leistungsverbrauch erreicht werden, während gleichzeitig eine skaleninvariante Erkennungsleistung beibehalten wird, ohne die Konfiguration zu verwenden, die eine Vielzahl von Verarbeitungskanälen für Merkmale mittlerer bis hoher Ordnung, gezeigt in dem ersten Ausführungsbeispiel, beinhaltet.
21 zeigt eine in dem fünften Ausführungsbeispiel verwendete Netzwerkkonfiguration. Genauer ausgedrückt werden in einer Merkmalerfassungsschicht (1, k), worin "k" eine natürliche Zahl ist, Merkmale erfasst, die von höherer Ordnung sind als die Merkmale, die durch die Gabor-Wavelet-Transformation oder dergleichen erhalten und aus einer Schicht (1, 0) extrahiert wurden. Wie in 21 gezeigt ist, ist es jedoch ausgehend von einer Schicht (1, 1) und danach möglich, physikalische Unterschiede zwischen Verarbeitungskanälen in der Schaltungskonfiguration zu eliminieren.
Bezug nehmend auf 21 wird in einer Schicht (1, 0) S_k,m erfasst, und dies gibt eine Merkmalkategorie eines Skalenniveaus m und einer k-ten Merkmalkategorie an. C_k,m wird in einer Schicht (2, 0) integriert, und dies gibt eine Merkmalkategorie eines Skalenniveaus m und einer k-ten Merkmalkategorie an. Ausgehend von einer Schicht (1, 1) und danach sind den zu erfassenden und zu integrierenden Merkmalkategorien keine Skalenindizes angefügt.
23 zeigt den Übergang von Signalzügen. Um eine skaleninvariante Repräsentation von Information durch Impulsphasenmodulation zu erhalten, wird einmal eine Phasenumwandlung durch einen in 21 gezeigten Impulsphasenkonverter 2101 so durchgeführt, dass Impulse von unterschiedlichen Verarbeitungskanälen an unterschiedlichen Positionen auf einer Zeitbasis platziert werden, und dass zu unterschiedlichen Verarbeitungskanälen gehörende Impulssignale nicht vermischt werden (cgl. 23A). Dann werden skaleninvariante Impulssignalzüge durch einen skaleninvarianten Signalkonverter 2102 erhalten, und werden die Impulszüge aus der Merkmalintegrationsschicht (2, 0) veranlasst, an den Neuronen der Merkmalerfassungsschicht (1, 1) anzukommen.
Um genauer zu sein, wird für die Impulse, die derselben Merkmalkategorie niedriger Ordnung, aber unterschiedlichen Skalenniveau-Verarbeitungskanälen zugeordnet sind (nachstehend als "dasselbe Merkmal, aber unterschiedliche Skale" bezeichnet), eine Lernregel, wie beispielsweise eine Selbstorganisation oder dergleichen wie vorangehend erwähnt, oder eine Selbstorganisation des Phasenverzögerungsausmaßes so festgelegt, dass die Impulse im Hinblick auf ein vorbestimmtes Impulsintervallmuster repräsentiert werden, wenn sie Merkmalerfassungszellen erreichen. Zum Beispiel ist in dem Fall desselben Merkmals unterschiedlicher Skalen eine Konfiguration derart ausgestaltet, dass der Unterschied im Verarbeitungskanal (unterschiedliche Skalierungseigenschaft) bei der Erfassung von Merkmalen niedriger Ordnung als ein Muster dargestellt wird, in dem das Verhältnis der Intervalle von Eingangsimpulsen zu den Merkmalerfassungszellen identisch ist, aber die Skalierung im Zeitbereich unterschiedlich ist, oder als ein Muster dargestellt wird, in dem die Absolutwerte von Impulsintervallen die Phasenversatzwerte bereitstellen, die sich in Übereinstimmung mit Skalenniveaus unterscheiden, als ein Ergebnis eines Lernprozesses.
Genauer ausgedrückt ist in dem früheren Fall τ, das in der Lernregel von Ausdruck (6) verwendet wird, durch die folgende Formel in Übereinstimmung mit dem Skalenniveauindex m und dem Merkmalkategorieindex k gegeben. Um die Erklärung einfacher zu machen, wird die Indexrepräsentation der Zeitverzögerung, die von dem Neuron j zu dem Neuron i in Ausdruck (6) übernommen wird, weggelassen. τ(k, m) = αηkρm + ξkm (15)
In dem letztgenannten Fall wird τ wie folgt repräsentiert: τ(k, m) = ηk + αpm (16)worin η_k eine Größe angibt, die für eine Merkmalkategorie einmalig ist, ρ_m eine Größe angibt, die für ein Skalenniveau einzigartig ist, und α eine positive Konstante angibt. In den vorstehenden Ausdrücken gibt ρ_m die Expansions- und Kontraktionsrate im Zeitbereich an, und gibt ξ_km einen Phasenversatz an, wobei alle derselben in dem Skalenniveau intrinsisch sind. Der Ausdruck (15) beinhaltet das Phasenversatzausmaß ξ zum Verhindern, dass unterschiedliche Verarbeitungskanalsignale auf einer Zeitbasis vermischt werden.
Daraufhin erzeugt ein skaleninvarianter Signalkonverter 2102 eine Zeitfenster-Gewichtungsfunktion für einen Zeitbereich für einen bestimmten Kanal, das heißt, ein Skalenniveau, ausgewählt durch eine Torschaltung (vgl. 23B), und führt eine Umwandlung in skaleninvariante Impulszuginformationen bezüglich des zu erfassenden Merkmals durch (vgl. 23C). Normalerweise wird nur ein Impulszug, der der Merkmalkategorie zugeordnet ist, die durch ein bestimmtes Skalenniveau oder einen bestimmten Verarbeitungskanal erfasst wurde, extrahiert, und wird der Impulszug kopiert, um bedarfsweise einer vorbestimmten Umwandlung unterzogen zu werden.
Um genauer zu sein, wird die Torschaltung wie in 19 gezeigt dazu verwendet, einen Impulszug eines Verarbeitungskanals mit dem höchsten mittleren Aktivitätsniveau zu extrahieren. Für den erstgenannten Fall führt der Impulsphasenkonverter 2101 eine Impulsphasenumwandlung durch, um das Expansions- und Kontraktionsverhältnis im Zeitbereich zu erhalten, das in Bezug auf einen Referenzwert konstant bleibt. Für den letztgenannten Fall wird die Umwandlung so durchgeführt, dass ein Phasenversatzausmaß in einem Ankunftsmuster einer Vielzahl von Impulsen zu Merkmalerfassungsneuronen zum Erfassen eines be stimmten grafischen Merkmals bei dem Empfangen von Impulsen von beliebigen Verarbeitungskanälen konstant bleibt. In jedem Fall wird die Umwandlung so durchgeführt, dass Impulsphasen nur von Merkmalkategorien abhängen, wie durch den nachstehenden Ausdruck gezeigt ist: τ = C1ηk + C2 (17)worin C₁ eine positive Konstante angibt, und C₂ eine nicht negative Konstante angibt. In dem Fall des Repräsentierens von Information basierend auf Impulsbreitenmodulation kann eine ähnliche Verarbeitung zum Handhaben einer Vergrößerung oder Verkleinerung von Impulsbreiten oder des Versatzausmaßes verwendet werden.
In dem Lernmodus kann, wie vorangehend in dem ersten Ausführungsbeispiel erklärt wurde, eine Anordnung so sein, dass auch dann, wenn ein zu erkennendes oder zu erfassendes Objekt in einer Größe präsentiert wird, die Umwandlung in eine Vielzahl von Skalenniveaus intern durchgeführt werden, um eine Lernsteuerung durchzuführen. In diesem Ausführungsbeispiel wird, wenn ein Lernmuster mit einer festen Skale oder Größe für einen Kanal präsentiert wird, ein Impulszugmuster basierend auf diesem bestimmten Kanal in Übereinstimmung mit Ausdruck (15) oder (16) durch die in 18 gezeigte Kanalaktivierungsgrad-Steuerschaltung in einen anderen Kanal, d. h. eine andere Position einer Zeitbasis, umgewandelt. Der umgewandelte Impulszug wird kopiert und an die nachfolgenden Schichten übertragen (vgl. 23D).
Die Umwandlung in die skaleninvariante Merkmalrepräsentation kann nicht auf die Gabor-Wavelet-Transformation oder die Merkmalsebenen niedriger Ordnung, wie beispielsweise eine gerichtete Komponente, beschränkt sein. Alternativ kann dieselbe Konfiguration wie die des ersten Ausführungsbeispiels für die Verarbeitung bis hin zu Merkmalen mittlerer Ordnung mit einem vorbestimmten Niveau an Komplexität verwendet werden. Genauer ausgedrückt kann die Erfassung oder Integration von Merkmalen mit der Komplexität eines vorbestimmten Niveaus oder darunter durch physikalisch unabhängige oder räumlich angeordnete Verarbeitungskanäle durchgeführt werden, und können Merkmale mit einer Komplexität eines vorbestimmten Niveaus oder darüber durch Erhalten der skaleninvarianten Repräsentation wie in diesem Ausführungsbeispiel verarbeitet werden.
In diesem Fall wird bis hin zu Merkmalen mittlerer Ordnung mit der Komplexität eines vorbestimmten Niveaus oder darunter die Populationscodierung, wie beispielsweise die Koppelung von Verarbeitungskanälen, ohne komplizierte Zeitpunktsteuerung ausgeführt, und wird der Unterschied von Verarbeitungskanälen in der Form der Feuercharakteristik von physikalisch unterschiedlichen Neuronen ausgegeben. Diese Anordnung stellt einen Vorteil dahingehend bereit, dass die Erfassungsverarbeitung für bis hin zu Merkmalen mittlerer Ordnung schnell und gleichzeitig bei einer Vielzahl von Skalen durchgeführt werden kann, im Vergleich mit einem Fall, in dem die Verarbeitung von individuellen Skalenniveaus in Serie implementiert ist.
Für Merkmale hoher Ordnung kann ein kleinerer Maßstab der Schaltung und ein verringerter Leistungsverbrauch einer Schaltung erreicht werden, wie vorangehend erwähnt wurde. Somit kann das Merkmalniveau oder das Komplexitätsniveau, bei welchem die skaleninvariante Repräsentation erhalten wird, durch Berücksichtigen aller Faktoren zusammen, einschließlich der Verarbeitungszeit, der Komplexität der Zeitpunktsteuerung, des erforderlichen Schaltungsmaßstabs und des Leistungsverbrauchs, entschieden werden.
<Sechstes Ausführungsbeispiel>
In Übereinstimmung mit diesem Ausführungsbeispiel wird in den Merkmalerfassungsneuronen, die zu unterschiedlichen Skalenniveaus oder Verarbeitungskanälen gehören, eine Lernregel derart erstellt, dass sich die Ankunftszeitintervalle oder die Ankunftszeitmuster der grafischen Merkmalen derselben Kategorie (beispielsweise L-förmige Muster) zugeordneten Impulse in Übereinstimmung mit Skalenniveaus unterscheiden. Die Populationscodierung wird durch lineare Koppelung basierend auf ge wichteter Addition gesamter zeitlich geteilter Impulssignale durchgeführt.
22 zeig eine für das sechste Ausführungsbeispiel verwendete Netzwerkkonfiguration. Das in der Zeichnung gezeigte sechste Ausführungsbeispiel beinhaltet einen Impulsphasenkonverter 2101 und einen Zeitbasis-Populationscodierer 2201, der in der in den 15 und 16 gezeigten Konfiguration zwischen Populationscodierungsneuronen und einer Merkmalerfassungsschicht, welche die nachfolgende Schicht ist, bereitgestellt ist. Mit dieser Anordnung empfängt eine Merkmalerfassungsschicht (1, 1) Signale, die durch Nutzen oder Anordnen der Impulse, die zu unterschiedlichen Verarbeitungskanälen gehören, auf einer Zeitbasis eines vorbestimmten Kanals erhalten werden.
20 stellt ein Beispiel von Signalen dar, die einer Merkmalintegrationsschicht zugeführt werden, wenn Muster unterschiedlicher Größen an demselben Ort in dem Prozess des Entwickelns von Verarbeitungskanälen oder Skalenniveaus im Zeitbereich erfasst worden sind. Wie dargestellt ist, sind die Unterschiede der Verarbeitungskanäle oder Skalenniveaus zeitlich geteilt, um an unterschiedlichen Positionen auf der Zeitbasis von Merkmalerfassungsneuronen erreichenden Impulsen festgelegt zu werden. In anderen Worten werden unterschiedliche Phasenversatzausmaße vergeben.
Speziell sind in 20 gezeigte Unterzeitfenster w_1,1, w_2,1, w_3,1 die Zeitfenster für den auf dem Skalenniveau 1 erfassten L-förmigen Mustersatz, und sind w_1,n, w_2,n, w_3,n die Zeitfenster für Signalimpulse, die erfasste L-förmige Muster repräsentieren, die einen Satz derselben Merkmalkategorie bilden und einem Skalenniveau zugeordnet sind.
Wie in dem Fall des fünften Ausführungsbeispiels kann eine mehrskalige Verarbeitung durch eine einzelne Schaltung in den Schichten ausgehend von der Merkmalerfassungsschicht (1, 1) und danach implementiert werden, ohne die Notwendigkeit zur Bereitstellung einer unterschiedlichen Schaltung für jeden Ver arbeitungskanal, wodurch es ermöglicht wird, eine wirtschaftliche Schaltungskonfiguration zu erhalten. In anderen Worten kann, wie in 22 gezeigt ist, die physikalische Unterscheidung zwischen unterschiedlichen Verarbeitungskanälen aus der Schaltungskonfiguration ausgehend von der Schicht (1, 1) und danach eliminiert werden. In diesem Ausführungsbeispiel werden die Koppelung und die Populationscodierung entsprechend zu den Ausdrücken (9) bzw. (10) im Zeitbereich auf den Signalen der Skalenniveaus oder der Verarbeitungskanäle, die an zeitlich unterschiedlichen Positionen angeordnet sind, in der Schicht (1, 1) und danach durchgeführt.
Die Ausgaben von der Merkmalerfassungsschicht (1, 1) an eine Merkmalintegrationsschicht (2, 1) werden in einem Zeitteilungsmodus für jeden Verarbeitungskanal oder jedes Skalenniveau geliefert. Dies gilt für alle nachfolgenden Schichten. Genauer ausgedrückt werden, wenn eine zeitliche Integration auf Eingangssignalen von Merkmalerfassungszellen durchgeführt wird, Impulse für einen Verarbeitungskanal in Entsprechung zu dem gesamten Bereich eines ein Skalenniveau bildenden Unterzeitfensters ausgegeben. Die Populationscodierung in der Merkmalintegrationsschicht wird durch Integrieren von Eingangsimpulsen in den mehrere Kanäle involvierenden Zeitfenstern implementiert.
Die Grafikmerkmalsignale von unterschiedlichen Skalenniveaus oder Verarbeitungskanälen werden durch Populationscodierungsneuronen in den folgenden beiden Schritten verarbeitet. Zunächst werden Eingangsimpulse in dem Zeitfenster für jeden Verarbeitungskanal integriert, um dadurch eine Erfassung auf derselben Merkmalkategorie für jedes Skalenniveau auszuführen, und dann wird die Berechnung für die Populationscodierung in Übereinstimmung mit den Ausdrücken (9) und (10) durch Bezeichnen des Integrationswerts jedes Zeitfensters mit p_ij durchgeführt. Die somit zeitgeteilten Verarbeitungskanalausgaben werden zeitlich integriert, um die Erfassung oder die Erkennung eines grafischen Musters eines wahlfreien Musters zu erlauben.
Das in 24 gezeigte Beispiel stellt den Übergang eines Signalzugs in Reihenfolge von oben dar, beginnend ausgehend von den Ausgaben von Merkmalerfassungszellen auf jedem Kanal oder Skalenniveau hin zu den Ausgaben der Populationscodierungszellen einer Merkmalintegrationsschicht. In diesem Beispiel reicht das Skalenniveau von 1 bis n, und reicht die Merkmalkategorie von 1 bis 3.
24A stellt die Ausgaben von den Merkmalerfassungszellen zu der Merkmalintegrationsschicht dar, die auf einer Zeitbasis für jedes Skalenniveau und jedes Merkmal genutzt wurden. Es gibt eine Vielzahl von Ausgaben für jedes Merkmal, einfach weil eine Vielzahl von Merkmalzellen zum Erfassen desselben Merkmals oder desselben Skalenniveaus existiert, und die Ausgaben spiegeln das Vorhandensein von Fluktuationen aufgrund von Poisson-Rauschen oder dergleichen oder aufgrund der Schwankungen in der Empfindlichkeit in Bezug auf die Merkmalkategorie oder Skalenniveaus wider. Die fehlenden Impulse, die einem Merkmal 2 bei einem Skalenniveau n zugeordnet sind, bedeuten lediglich, dass keine Impulse erfasst worden sind. Bei dem Skalenniveau n sind im Vergleich mit einer anderen Skale auch die Phasen auf Merkmalen 1 und 3 verzögert. Dies bedeutet, dass das Erfassungsniveau niedrig ist.
24B zeigt die Gewichtungsfunktionen zum zeitlichen Integrieren der Ausgaben der Merkmalerfassungszellen durch die Unterabtastzellen der Merkmalintegrationsschicht. 24C zeigt die resultierenden Ausgaben der Unterabtastzellen. 24D zeigt die Zeitfenster-Gewichtungsfunktionen für individuelle Skalen, die zum Integrieren der Ausgaben der Unterabtastzellen in Populationscodierungszellen verwendet werden. 24E zeigt die Verteilung der Ausgaben aus den Populationscodierungszellen auf einer Zeitbasis.
Nun werden Beschreibungen eines Beispiels gegeben, das einen Vorteil angibt, der durch die Populationscodierung erhalten wird. Bezüglich Merkmal 1 auf Skalenniveaus 1 und 2 werden die Impulse auf der Zeitbasis vor und nach der Populationscodierung so moduliert, dass die Impulse des Skalenniveaus 1 eine Phasenverzögerung, das heißt eine Zeitverzögerung Δ_p11, haben, während die Impulse des Skalenniveaus 2 eine Phasenvoreilung, das heißt eine Zeitvoreilung Δ_p12, haben. Dies gibt an, dass die Ausgaben der Unterabtastzellen auf dem Aktivitätsniveau oder dergleichen aller Kanäle in Übereinstimmung mit den Ausdrücken (3) und (4) moduliert worden sind, und dass die Größe oder das Skalenniveau des zu erkennenden oder zu erfassenden Objekts zwischen den voreingestellten Skalenniveaus 1 und 2 liegt. Die Verarbeitung danach kann auf einer Zeitbasis durch die Kanalaktivierungssteuerung oder die Tor- bzw. Gating-Funktion, gezeigt in den 18 und 16 in dem ersten Ausführungsbeispiel, durchgeführt werden.
Um es genauer auszudrücken, berechnet die Kanalaktivierungs-Steuerschaltung oder die Torschaltung einen Zielkanal-Aktivierungsgrad oder wählt einen Kanal aus den zeitlich gemeinsam geteilten Kanaldaten. Dann legt die Kanalaktivierungs-Steuerschaltung oder die Torschaltung Neuronenschwellenwerte für die nachfolgenden Schichten auf der Grundlage des Kanalaktivierungsgrads für jedes Zeitfenster für jeden Kanal oder jedes Skalenniveau fest, oder führt eine Steuerung von Signalpegeln durch Verstärken oder Dämpfen derselben durch, oder erlaubt nur Signale nur eines ausgewählten Kanals, hindurch zu gelangen.
In Übereinstimmung mit dem vorstehend dargelegten Ausführungsbeispiel werden Merkmale bei einer Vielzahl von Auflösungen oder Skalenniveaus erfasst, und wird die Populationscodierung auf den Merkmalen der erfassten mehreren Skalenniveaus durchgeführt, wodurch es möglich gemacht wird, eine Verschlechterung in der Erfassungsleistung auch dann zu verhindern, wenn sich die Größe eines zu erfassenden Objekts beliebig ändert.
Die Erfassung von Merkmalelementen niedriger oder hoher Ordnung oder eines Grafikmusterelements wird durch die Umwandlung in Impulszüge mit Phasen durchgeführt, die sich in Übereinstimmung mit Auflösungen oder Skalenniveaus unterscheiden, um die Erkennungsverarbeitung bei mehreren Skalen durch die einzelne Verarbeitungsschaltung zu erzielen. Diese Konfiguration vermeidet die Notwendigkeit zum Bereitstellen physikalisch unterschiedlicher Verarbeitungskanäle, welches im Vergleich mit einem Fall, in dem keine solche Phasenumwandlung durchgeführt wird, eine dramatisch reduzierte Schaltungsgröße und einen dramatisch reduzierten Leistungsverbrauch erlaubt.
Außerdem werden die als Merkmalerfassungssignale dienenden Impulssignale der Schwellenwertverarbeitung einer gewichteten Summe in einem Zeitfenster unterzogen. Dies macht es möglich, ein gewünschtes Muster auch dann zuverlässig zu erfassen, wenn sich ein zu erfassendes oder zu erkennendes Objekt aufgrund einer positionellen Änderung, einer Rotation usw. verformt, oder eine Mangelhaftigkeit oder dergleichen bei dem Erfassen eines Merkmals aufgrund einer Größenänderung, oder den Einflüssen der Beleuchtung, des Rauschens oder dergleichen unter komplizierten, diversen Bedingungen auftritt. Dieser Vorteil kann ohne die Notwendigkeit des sich Verlassens auf irgend eine bestimmte Netzwerkstruktur erhalten werden.
In Übereinstimmung mit dem vorstehend beschriebenen Ausführungsbeispiel sind die Positionen der Impulszüge in Zeitfenstern, die zeitlich auf einer einzelnen Eingangsleitung eines vorbestimmten Neurons angeordnet sind, vorbestimmten Mustermerkmalen und Skalenniveaus zugeordnet. Mit dieser Anordnung können die Schwierigkeiten mit der Verdrahtung zwischen Neuronenelementen umgangen werden, welches es eine signifikant reduzierte Größe und einen signifikant reduzierten Leistungsverbrauch einer Schaltung zum Erkennen oder Erfassen eines vorbestimmten Objekts durch eine zweidimensionale Musterverarbeitung erlaubt, während die vorstehend erwähnte hohe Zuverlässigkeit beibehalten wird.
Ferner werden Merkmale bei einer Vielzahl von Auflösungen oder Skalenniveaus erfasst, und wird ein Multiplexen oder die Populationscodierung auf den Merkmalen der erfassten mehreren Skalenniveaus durchgeführt, wodurch es möglich gemacht, eine Verschlechterung in der Erfassungsleistung auch dann zu verhindern, wenn dich die Größe eines zu erfassenden Objekts beliebig ändert.
Die Erfassung von Merkmalelementen wird durch die Umwandlung in Impulszüge mit Phasen durchgeführt, die Phasen haben, die sich in Übereinstimmung mit Auflösungen oder Skalenniveaus unterscheiden, um die Erfassungsverarbeitung bei mehreren Skalen durch eine einzelne Verarbeitungsschaltung zu erzielen. Diese Konfiguration reduziert dramatisch die Schaltungsgröße und den Leistungsverbrauch.
<Siebtes Ausführungsbeispiel>
In diesem Ausführungsbeispiel werden Beschreibungen eines Falls gegeben, in dem ein Muster erfasst oder erkannt wird, während eine selektive Aufmerksamkeit durchgeführt wird.
27 zeigt die allgemeine Konfiguration einer Mustererfassungs- oder Mustererkennungs-Vorrichtung gemäß dem siebten Ausführungsbeispiel.
In diesem Ausführungsbeispiel wird die detaillierte Erklärung der Anwendung auf Spracherkennung weggelassen. Kurz gesagt ist die selektive Aufmerksamkeit für Spracherkennung in der folgenden Beschreibung äquivalent zu, zum Beispiel, Extrahieren und Verarbeiten nur in einem bestimmten Band oder Phonem, selektivem Verarbeiten nur von durch ein Verfahren extrahierten Merkmalen, wie beispielsweise einer unabhängigen Komponentenanalyse, oder Extrahieren und Verarbeiten der Sprache oder des Merkmals eines bestimmten Sprecher, die bzw. das von Kontext abhängt.
Das folgende wird den Prozess des Eingebens eines Bilds beschreiben. Ein Was-Pfad beinhaltet Merkmalerfassungsschichten 102 ((1, 0), (1, 1), ..., (1, N), Merkmalintegrationsschichten 103 ((2, 0), (2, 1), ..., (2, N), und eine Aufmerksamkeitsregion- oder Fixierungsregion-Festlegesteuerschicht 108.
Die Fixierungsregion-Festlegesteuerschicht 108 empfängt eine Merkmalsherausragekarte von einer Merkmalsintegrationsschicht (2, 0), welches nachstehend diskutiert werden wird, und eine Rückkoppelungsverbindung von einer oberen Schicht, beispiels weise einer Merkmalposition-Erfassungsschicht (3, k), über einen Wo-Pfad, welches nachstehend diskutiert werden wird. Basierend auf den Rückkoppelungssignalen führt die Fixierungsregion-Festlegesteuerschicht 108 eine Steuerung der Festlegung der Position und der Größe einer Fixierungsregion und des Aktualisierens oder dergleichen derselben durch. Die Einzelheiten des Betriebsmechanismus der Fixierungsregion-Festlegesteuerschicht 108 wird später erklärt werden.
Merkmalerfassungsschichten (1, k) bilden als Ganzes Verarbeitungskanäle einer Vielzahl von Auflösungen oder Skalenniveaus. Speziell ein Beispiel heranziehend, in dem die Gabor-Wavelet-Transformation durch eine Merkmalerfassungsschicht (1, 0) durchgeführt wird, gehört ein Satz von Merkmalerfassungszellen mit Gabor-Filterkernen in ihren jeweiligen Empfangsfeldstrukturen, dis sich dasselbe Skalenniveau gemeinsam teilen, aber unterschiedliche Richtungsselektivitäten haben, zu demselben Verarbeitungskanal in der Merkmalerfassungsschicht (1, 0), wie in 12 gezeigt ist. In der nachfolgenden Schicht (1, 1) gehören die Merkmalerfassungszellen zum Erfassen von Merkmalen höherer Ordnung, die die Ausgaben von den Merkmalerfassungszellen empfangen, zu demselben Verarbeitungskanal. In weiteren nachfolgenden Schichten (1, k), wobei k > 1, gehören auch die Merkmalerfassungszellen, die die Ausgaben von einer Vielzahl von Merkmalintegrationszellen, die denselben Kanal in einer Schicht (2, k – 1) bilden, zu diesem Kanal. In jedem Verarbeitungskanal ist eine Verarbeitung auf demselben Skalenniveau oder derselben Auflösung implementiert, um Merkmale niedriger Ordnung bis hin zu Merkmalen hoher Ordnung über die hierarchische parallele Verarbeitung zu Erfassen und zu Erkennen.
Die Merkmalintegrationsschicht (2, 0) auf dem Was-Pfad hat eine vorbestimmte Empfangsfeldstruktur und besteht aus Neuronenelementen, die Impulszüge erzeugen. Nachstehend wird das Empfangsfeld den Bereich der Verbindung zu den Ausgabeelementen eine unmittelbar vorangehenden Schicht, und wird die Empfangsfeldstruktur die Verteilung der Verbindungsgewichte bedeuten. Die Neuronenmerkmal-Integrationsschichten (2, 0) integrieren eine Vielzahl von Neuronelementausgaben in den Empfangsfeldern von der Merkmalerfassungsschicht (1, 0). Die Integration wird durch Unterabtasten mittels lokaler Mittelwertbildung oder dergleichen, und durch Berechnung, wie beispielsweise das Koppeln der Ergebnisse der Verarbeitung bei unterschiedlichen Skalenniveaus.
Jedes Empfangsfeld der Neuronen in der Merkmalintegrationsschicht teilen sich gemeinsam dieselbe Struktur, solange die Neuronen zu derselben Schicht gehören. Merkmalerfassungsschichten (1, 1), (1, 2), ..., (1, N) und Merkmalintegrationsschichten (2, 1), (2, 2), ..., (2, N) haben vorbestimmte Empfangsfeldstrukturen, die individuell durch Lernen gewonnen werden. Wie in dem Fall der vorgenannten Schichten erfassen die früheren Schichten ((1, 1), ...) eine Vielzahl von unterschiedlichen Merkmalen in individuellen Merkmalerfassungsmodulen, und integrieren die späteren Schichten ((2, 1), ...) Erfassungsergebnisse bezüglich einer Vielzahl von Merkmalen, die von einer vorangehenden Merkmalerfassungsschicht empfangen wurden.
Die früheren Merkmalerfassungsschichten sind dazu verbunden oder verdrahtet, um die Ausgaben der Zellenelemente der Merkmalintegrationsschichten in der vorangehenden Stufe zu empfangen, die zu demselben Kanal gehören. Die Merkmalintegrationsschichten implementieren zwei Arten von Verarbeitung. Eine Art von Verarbeitung ist das Unterabtasten durch zum Beispiel Mittelwertbilden über die Ausgaben von lokalen Regionen, d. h. dem lokalen Empfangsfeld des Neurons on der Merkmalintegrationsschicht, der Populationen von Merkmalerfassungszellen derselben Merkmalkategorie und desselben Skalenniveaus. Die andere Art von Verarbeitung besteht darin, die Ergebnisse der Verarbeitung bei unterschiedlichen Skalenniveaus zu integrieren. In der Integrationsverarbeitung werden die Ausgaben einer Vielzahl von Merkmalerfassungszellenpopulationen derselben Merkmalkategorie linear gekoppelt oder nichtlinear gekoppelt.
Ein Wo-Pfad mit Merkmalposition-Erfassungsschichten ((3, 0), ..., (3, k) empfängt die Ausgaben von vorbestimmten (nicht notwendiger Weise aller) Merkmalerfassungsschichten auf dem Was-Pfad, und ist in die Ausgaben der Positionen von Merkmalen niedriger Ordnung, mittlerer Ordnung und hoher Ordnung involviert. Der Wo-Pfad bildet die Verbindung der Rückkoppelung von einer oberen Merkmalintegrationsschicht oder einer Merkmalerfassungsschicht, wie in 1 ((1, N) → (3, k) → Fixierungsregion-Festlegesteuerschicht 108) gezeigt ist.
In anderen Worten wird angenommen, dass die Rückkoppelungsverbindung zuvor durch Lernen als eine Verbindung zu einem Aufmerksamkeitssteuerneuron 2901 (29) einer Fixierungsregion-Festlegesteuerschicht 108 gebildet wurde, die einem bestimmten Merkmal niedriger Ordnung zugeordnet ist, das ein Merkmalmuster hoher Ordnung bildet, das durch eine obere Schicht erfasst wurde. Das Lernen involviert den Prozess der Selbstorganisation, bei dem dann, zum Beispiel, die Verbindung potenziert wird oder durch gleichzeitiges Feuern eines Merkmalerfassungsneurons einer oberen Schicht und eines Merkmalerfassungsneurons einer unteren Schicht innerhalb einer vorbestimmten Zeitbreite gebildet wird, wobei andernfalls die Verbindung unterdrückt wird oder ausgelöscht wird.
Die Ausgaben jeder Merkmalposition-Erfassungsschicht 107 bewahren Komponenten relativ hoher Auflösung der Ausgaben einer zugeordneten Merkmalerfassungsschicht 102 derselben. Dies ist vereinfacht durch die Pfeile von den Merkmalerfassungsschichten zu den Merkmalposition-Erfassungsschichten in 27 gezeigt. Alternativ werden die Ausgaben der Merkmalintegrationsschichten vorübergehend bewahrt, um eine Karte zu kreieren, die das Herausrageniveau jeder Merkmalkategorie zeigt. Eine Herausragekarte in einer bestimmten Schicht zeigt die räumlichen Verteilungen der Erfassungsniveaus oder der Wahrscheinlichkeiten der Existenz auf Eingangsdaten einer Vielzahl von Merkmalkategorien oder Merkmalelementen mit ähnlicher Komplexität. Die in den Merkmalposition-Erfassungsschichten auf dem Wo-Pfad implementierte Verarbeitung wird später erneut diskutiert.
In einer anderen Netzwerkkonfiguration, die in 28 gezeigt ist, und die einen Was-Pfad aufweist, der identisch zu dem in 1 gezeigten ist, mit der Ausnahme der Empfangsfeldgröße, bewahren eine Reihe von Merkmalintegrationsschichten die räumliche Anordnungsbeziehung zwischen Merkmalkategorien bis hin zu Merkmalen hoher Ordnung. Daher sind die Größen der Empfangsfelder auch in oberen Schichten auf ein vorbestimmtes Niveau oder weniger festgelegt. Aus diesem Grund erfolgt die Rückkoppelungsverbindung ausgehend von einer Merkmalintegrationsschicht hin zu der Fixierungsregion-Festlegesteuerschicht 108, ohne eine Merkmalposition-Erfassungsschicht bereitzustellen.
Selektive Aufmerksamkeit
Nun wird die Konfiguration und der Betriebsablauf der Fixierungsregion-Festlegesteuerschicht 108 erklärt. In einem Anfangszustand ist die Größe der in derselben Schicht festgelegten Fixierungsregion als ein gesamter Bildschirm in Bezug auf einen Verarbeitungskanal einer maximalen Größe unter der vorstehend erwähnten Vielzahl von voreingestellten Skalenniveaus definiert.
Um es genau zu sagen sind, wie in 29 gezeigt ist, Aufmerksamkeitssteuerneuronen 2901, die einer vorbestimmten Anzahl von Positionen zugeordnet sind, wo die Merkmalerfassung ausgeführt wird, von Eingangsdaten in der Fixierungsregion-Steuerschicht angeordnet. Die in 29 gezeigten, eingekreisten Regionen zeigen vereinfacht die Fixierungspunkte (in der Schicht (1, 0)) und die zugeordneten Regionen in jeder nachfolgenden Schicht. Aus Gründen der Zweckmäßigkeit der Erklärung ist in jeder Schicht nur eine solche zugeordnete Region gezeigt; es können jedoch eine Vielzahl von zugeordneten Regionen in jeder Schicht existieren, da die Erfassung allgemein auf einer Vielzahl von Merkmalkategorien durchgeführt wird. Die Größen der Regionen sind näherungsweise dieselben wie die Größen von Empfangsfeldern.
Bezug nehmend auf 29 zeigen die fetten Pfeile, die von den Merkmalerfassungsschichten zu den Merkmalposition-Erfassungsschichten gerichtet sind, vereinfacht, dass die Neuronen der Merkmalposition-Erfassungsschichten die Ausgaben der zuge ordneten Neuronen der Merkmalerfassungsschichten empfangen. Die Neuronen der Merkmalposition-Erfassungsschichten haben gewöhnlich Empfangsfelder, die kleiner sind als diejenigen der Neuronen der Merkmalintegrationsschicht und führen eine Unterabtastung durch, wie in dem Fall der Merkmalintegrationsschichten. Folglich kann die Information über die räumliche Anordnung bezüglich Merkmalkategorien als besser als die betrachtet werden, die in der Merkmalintegration erhalten wird.
Die individuellen Aufmerksamkeitssteuerneuronen 2901 empfangen Eingaben über den Mittler von Rückkoppelungsverbindungen von einer oberen Merkmalposition-Erfassungsschicht (3, 2) oder (3, 1) über den Wo-Pfad. In dem in 28 gezeigten Fall empfangen die individuellen Aufmerksamkeitssteuerneuronen 2901 Eingaben über den Mittler von Rückkoppelungsverbindungen von Neuronen an den Positionen, die den Aufmerksamkeitssteuerneuronen in einer Merkmalintegrationsschicht (2, 2) zugeordnet sind. Die Aufmerksamkeitssteuerneuronen können die Ausgaben von einer Merkmalintegrationsschicht (2, 0) parallel empfangen. Eine vorbestimmte, gewichtete Addition oder einen nichtlineare Addition dieser beiden oder dreier Arten von Eingaben wird durchgeführt, oder eine Auswahlsteuerung auf einer Fixierungsregion auf der Grundlage dieser Eingaben wird ausgeführt (dies wird nachstehend diskutiert werden). Ein bestimmtes Aufmerksamkeitssteuerneuron, das als das Ergebnis der vorstehend erwähnten Addition oder Auswahlsteuerung ausgewählt wurde, wird aktiviert, wodurch die Fixierungsregion bestimmt wird.
Die Position der Fixierungsregion wird durch Zurückkoppeln der positionellen Informationen bezüglich eines Objekts eines maximalen Niveaus bzw. Pegels, das bzw. der hauptsächlich in der obersten Merkmalintegrationsschicht (2, N) oder der obersten Merkmalposition-Erfassungsschicht (3, M), festgelegt. Die erstgenannte, das heißt die in 28 gezeigte Konfiguration, ist auf den Fall beschränkt, in dem positionelle Informationen in einer Merkmalintegrationsschicht bewahrt wird. Es gibt hauptsächlich drei Verfahren zum Auswählen von Fixierungspositionen, wie nachstehend beschrieben wird.

(1) Die Position eines Fixierungspunkts wird durch das Aufmerksamkeitssteuerneuron spezifiziert, das eine maximale lineare Summe oder nichtlineare Summe des Rückkoppelungsausmaßes von einer oberen Schicht oder ein Gesamt-Rückkoppelungsausmaß von einer Vielzahl von oberen Schichten, und eine Merkmalerfassungsschicht-Ausgabe oder ein Herausrageniveau eines Merkmals niedriger Ordnung hat.
(2) Die Position eines betrachteten Punkts wird durch das Aufmerksamkeitssteuerneuron spezifiziert, das ein Maximum oder maximalen Niedrigordnungsmerkmal-Herausrageniveau-Kartenwert hat.
(3) Die Position eines betrachteten Punkts wird durch das Aufmerksamkeitssteuerneuron spezifiziert, das ein Maximum oder ein maximales Rückkoppelungsausmaß von einer oberen Schicht empfängt, oder ein Maximum oder eine maximale Gesamtsumme von Rückkoppelungsausmaßen empfängt, falls ein bestimmtes Aufmerksamkeitssteuerneuron eine Vielzahl von Pfaden hat.

Das vorstehend erwähnte Rückkoppelungsausmaß bezieht sich auf den Ausgangspegel oder eine dazu proportionale Größe eines Neurons einer oberen Merkmalposition-Erfassungsschicht oder einer Merkmalintegrationsschicht auf einem bestimmten Verarbeitungskanal und einer bestimmten Merkmalkategorie. Bei der vorliegenden Erfindung gilt Fall (1) oder (3). Das in (2) beschriebene Verfahren ist gut bekannt, und hat einen vorstehend beschriebenen Nachteil. Somit wird die Fixierungsposition durch einen Beitrag des Rückkoppelungsausmaßes von einer oberen Schicht bestimmt. Der Prozess zum Erkennen eines Objekts wird nicht begonnen, bis die Festlegung einer Fixierungsregion oder die Aktivierung eines Aufmerksamkeitssteuerneurons durchgeführt ist. Die Festlegung wird durch die Koordination zwischen einem Oberschichtneuron und einem Niedrigschichtneuron in einem von unten nach oben ablaufenden Prozess basierend auf der Verarbeitung von Signalen von einer unteren Schicht zu einer oberen Schicht erzielt, und ein von oben nach unten ablaufenden Prozess von einer oberen Schicht zu einer unteren Schicht wird durchgeführt.
Daher wird in einem anfänglichen Schritt, in dem ein Oberschichtneuron ein Signal in einem ersten, von unten nach oben ablaufenden Prozess ausgibt, ein Erkennungszustand oder ein Erfassungszustand nicht festgelegt. Auf dieser Stufe befinden sich diese noch in einem latenten Zustand, in dem eine Herausragekarte bezüglich Merkmalen hoher Ordnung in einer oberen Schicht ausgegeben wurde. Basierend auf einem Aufmerksamkeitssteuersignal, das als das Ergebnis des von oben nach unten ablaufenden Prozess erzeugt wird, liefern Erfassungs- und Integrations-Neuronen für Merkmale hoher Ordnung einer oberen Schicht Ausgaben in einem anderen, von unten nach oben ablaufenden Prozess. Auf dieser Stufe wird ein eruierter Zustand festgelegt, in dem Neuronen von hohem Ausgangspegel lokalisiert und in der oberen Schicht spärlich vorhanden sind. Dieses vervollständigt eine Reihe von Betriebsabläufen zur Erkennung und Erfassung. Die obere Schicht ist nicht notwendiger Weise auf eine in 1 oder 28 gezeigte Schicht (2, N), oder auf eine in 1 gezeigte Schicht (3, k) beschränkt. Die obere Schicht kann anstelle dessen eine Zwischenschicht sein, die niedriger liegt als die Schicht auf höchster Ebene, oder eine (nicht gezeigte) obere Schicht, die höher liegt als die Schicht der höchsten Ebene.
Die Anzahl von Aufmerksamkeitssteuerneuronen 2901 muss nicht mit der Anzahl von Neuronen, das heißt einer Anzahl N_FO der Positionen, an denen Merkmale erfasst werden, in einer Merkmalintegrationsschicht (2, 0) übereinstimmen. Alternativ kann die Anzahl der Aufmerksamkeitssteuerneuronen 2901 identisch sein zu zum Beispiel einer Anzahl (N_Fp) von Neuronen der obersten Merkmalpositon-Erfassungsschicht. Falls N_Fp < N_FO, dann wird die Anzahl von Abtastpunkten zum Durchführen der Aufmerksamkeitssteuerung kleiner sein als die Anzahl von Niedrigordnung-Merkmalerfassungspositionen. Jedoch wird es, solange N_Fp << νN_FO, in der praktischen Verwendung kaum ein Problem geben, wenn der untere Grenzwert der Größe eines zu erfassenden Objekts νS₀ ist, worin 0 < ν < 1 und So den gesamten Bereich des Bilds bezeichnet. Die durch ein Aufmerksamkeitssteuerneuron empfangene Niedrigordnungsmerkmal-Herausragekarte kann ei ne Ausgabe von einer Merkmalerfassungsschicht (beispielsweise der Schicht (1, 0) sein).
Eine durch Aktualisieren einer Fixierungsposition festgelegte Fixierungsregion hat eine vorbestimmte Größe, die durch einen Verarbeitungskanal bestimmt wird, an welchen die Neuronen der obersten Schicht, die ein maximales Rückkoppelungsausmaß an das Aufmerksamkeitssteuerneuron 2901 liefern, oder der Kanal, zu welchem ein Merkmalintegrationsneuron, das einem Aufmerksamkeitssteuerneuron zugeordnet ist, gehört. Dies gilt für den Fall von (3), der vorstehend beschrieben wurde. Alternativ wird die voreingestellte Größe durch einen Verarbeitungskanal bestimmt, zu welchem ein Merkmalintegrationsschichtneuron gehört, wobei das Merkmalintegrationsschichtneuron einem Aufmerksamkeitssteuerneuron zugeordnet ist, das ein Maximum oder eine maximale lineare Summe einer Eingabe von einer oberen Schicht und eines Niedrigordnungsmerkmal-Herausragens empfängt. In diesem Ausführungsbeispiel ist die Größe der Fixierungsregion als die Kerngröße eines Gabor-Filters definiert, das zu dem Verarbeitungskanal der vorgenannten Merkmalintegrationsschicht (2, 0) gehört.
Eine mögliche bestimmte Konfiguration für die Fixierungsregion-Festlegesteuerschicht kann die Torschaltung 1902 von 19 und eine Fixierungsposition-Aktualisierungssteuerschaltung 3001 von 30, welche nachstehend gezeigt werden wird, in der in 15 oder 16 gezeigten Kanalverarbeitungsstruktur zusätzlich zu dem Aufmerksamkeitssteuerneuron 2901 beinhalten.
Die Torschaltung wird zum Maskieren von Merkmalen niedriger Ordnung verwendet, um die Daten nur eines bestimmten Abschnitts einer Region zu einer oberen Schicht fortzuleiten. Die Torschaltung arbeitet zum selektiven Extrahieren einer Region, der Aufmerksamkeit zu schenken ist, in einem ausgewählten bestimmten Kanal, aus den Ausgaben von der Merkmalintegrationsschicht (2, 0), dann Fortleiten der Signale, die der extrahierten Region zugeordnet ist, zu einem nachfolgenden Kanal. Somit kann eine Fixierungsregion durch Fortleiten von nur Niedrigordnungsmerkmalsignalen aus einer bestimmten Region auf einem bestimmten Kanal und Eingangsdaten.
In einer anderen möglichen Konfiguration wird ein bestimmtes Aufmerksamkeitssteuerneuron ausgewählt und aktiviert, im Ansprechen auf zum Beispiel ein Rückkoppelungssignal von einer oberen Schicht, um dadurch einen Impuls zum Stimulieren eines Feuerns über eine Synapse an das Neuron an der zugeordneten Position in der Merkmalintegrationsschicht (2, 0) zu übertragen. Dieses veranlasst das zugeordnete Neuron der Merkmalintegrationsschicht, eingeschaltet zu werden, oder feuerbereit zu machen. Der feuerbereite Zustand in diesem Fall bezieht sich auf einen Zustand, in dem das Neuron bereit ist, eine Ausgabe von einem Schrittmacherneuron oder dergleichen zu empfangen, das heißt einen Übergangszustand oder einen Zustand, in dem ein solcher Übergangszustand zugelassen ist.
Die 31 und 32 zeigen die Beispiele der Pfade der Signalausbreitung zwischen der Fixierungsregion-Festlegesteuerschicht 108, einer Merkmalintegrationsschicht (2, 0), und einer Merkmalerfassungsschicht (1, 1). Die in sowohl der 31 als auch der 32 gezeigten Konfigurationen verwenden eine Torschaltung 3101, die zusammen mit einem gemeinsamen Bus einer digitalen Schaltung bereitgestellt ist und eine Schaltfunktion aufweist, und eine Schaltsignal-Steuerschaltung 3102 zum Steuern des Einschalt/Ausschalt-Zustands der Schaltfunktion mit hoher Geschwindigkeit. Bezug nehmend auf 31 stellt das Fixierungssteuerneuron 2901 eine Verbindung zu einem Neuron in einer Region einer vorbestimmten Größe, die einmalig für den Verarbeitungskanal eines Neurons ist, das zu einer sich um eine Vielzahl von Neuronen der Merkmalintegrationsschicht zentrierenden Region 109 gehört, d. h. den Neuronen auf der Merkmalintegrationsschicht, die Fixierungspositionen zugeordnet sind (nachstehend als "Aufmerksamkeits-Mitten-Neuronen" bezeichnet. Die Größe der Region 109 ist intrinsisch für den Verarbeitungskanal, zu welchem die Aufmerksamkeits-Mitten-Neuronen auf einer Integrationsschicht gehören.
Die in 31 gezeigte Konfiguration hat Verbindungen zwischen dem Aufmerksamkeitssteuerneuron 2901 und einer Merkmalintegrationsschicht, und Fixierungspositionen werden ausschließlich auf der Grundlage der Rückkoppelungsausmaße einer Merkmalerfassungsschicht auf dem Wo-Pfad gesteuert. Eine modifizierte Konfiguration kann verwendet werden, bei der Aufmerksamkeitssteuerneuronen und Merkmalintegrationsschichtneuronen reziprok verbunden sind, so dass die Fixierungspositionen auf der Grundlage der vorangehenden Rückkoppelungsausmaße und Merkmalintegrationsschichtausgaben gesteuert werden. In Übereinstimmung mit der in 32 gezeigten Konfiguration hat das Aufmerksamkeitssteuerneuron 2901 eine ähnliche Verbindung zu einer Gating- bzw. Torschicht 3201 äquivalent zu der Gating- bzw. Torschaltung 1902 von 19, so dass die Ausgaben der Merkmalintegrationsschicht (2, 0) über den Mittler der Torschicht 3201 der Merkmalerfassungsschicht (1, 1) zugeführt werden.
In der in 31 gezeigten Konfiguration wird eine vorwiegend kreisförmige oder rechteckförmige Region mit einer für den Verarbeitungskanal intrinsischen Größe, die um das Merkmalintegrationsschichtneuron, das sich an einer Fixierungsposition befindet, zentriert ist, aktiviert, und wird die Ausgabe der Merkmalintegrationsschicht (2, 0), die der Region zugeordnet ist, zu der Merkmalerfassungsschicht (1, 1) fortgeleitet. In der in 32 gezeigten Konfiguration wird nur das Tor einer Region mit einer für den Verarbeitungskanal einmaligen Größe, die um die Fixierungsposition zentriert ist, geöffnet, und wird die Ausgabe der Merkmalintegrationsschicht (2, 0), die der Region zugeordnet ist, zu der Merkmalerfassungsschicht (1, 1) fortgeleitet.
Die Torschicht wird durch ein FPGA oder dergleichen gebildet, und äquivalent zu einer typischen Torschaltung bzw. Gatterschaltung, bei der alle logischen Schaltungen, die in Entsprechung zu den individuellen Positionen von Aufmerksamkeitssteuerneuronen bereitgestellt sind, existieren zwischen der Merkmalintegrationsschicht (2, 0) und der Merkmalerfassungsschicht (1, 1). Wenn ein Aufmerksamkeitssteuerneuron aktiviert wird, wird nur eine logische Schaltungseinheit, die sich an einer entsprechenden Position in der Torschicht bzw. Gatterschicht befindet, aktiviert, um ein Signal an eine nachfolgende Schicht zu übertragen.
Die Größe einer festzulegenden Fixierungsregion hängt von dem Verarbeitungskanal ab, zu dem das dem vorgenannten Aufmerksamkeitssteuerneuron zugeordnete Merkmalintegrationsschichtneuron gehört, wie vorangehend erklärt wurde. Falls zum Beispiel das zugeordnete Merkmalintegrationsschichtneuron zu dem in 15 oder 16 gezeigten Verarbeitungskanal 1 gehört, dann wird die Größe der Fixierungsregion unter voreingestellten Größen die maximale Eine sein.
Nun wird der Mechanismus für die Aktualisierungssteuerung von Fixierungspositionen beschrieben. In dem Fall von (3) des vorstehend erwähnten Aufmerksamkeitssteuermechanismus wird die Fixierungsposition, nachdem sie anfänglich festgelegt ist, grundlegend in der Reihenfolge der Größe von Rückkoppelungsausmaßen aktualisiert, die durch die Aufmerksamkeitssteuerneuronen von einer oberen Schicht in einer Region in der Nähe eines vorbestimmten Bereichs einer aktuellsten Fixierungsposition aktualisiert. Die Größe von Rückkoppelungsausmaßen bezieht sich hier auf die Größe neben einem maximalen Wert. In dem Fall des vorgenannten Aufmerksamkeitssteuermechanismus von (1) werden die Positionen in der Reihenfolge eines Auswertungswerts G_f aktualisiert, wie nachstehend gezeigt ist: Gf = η1Sf + η2SPB,f (18)worin G_f einen Auswertungswert bezüglich eines Merkmals f bezeichnet, S_f das Herausragen bezüglich eines Merkmals f bezeichnet, das von einer niedrigeren Merkmalintegrationsschicht empfangen wird, S_FB,f ein Rückkoppelungsausmaß bezeichnet, das dem Aufmerksamkeitssteuerneuron 2901 bezüglich des Merkmals f zugeführt wird, das an der obersten Schicht oder einer zwischen liegenden Schicht Merkmalerfassungsschicht erfasst wird, und η₁ und η₂ positive Konstanten bezeichnen. Die Konstanten η₁ und η₂ können in Übereinstimmung mit der Natur eines zu erken nenden oder zu erfassenden adaptiv geändert werden, beispielsweise mittels einem detaillierten Vergleich von Merkmalen zum Identifizieren eines bestimmten Objekts unter anderen ähnlichen Objekten, oder einem mittleren (groben) Vergleich von Merkmalen beim Erfassen von Merkmalen, die zu einer bestimmten Kategorie, wie etwa dem Gesicht einer Person, gehören.
Um es genauer auszudrücken, wird das Verhältnis von η₂ zu η₁ für den vorgenannten detaillierten Vergleich auf einen kleinen Wert festgelegt, wohingegen das Verhältnis für den vorgenannten mittleren (oder groben) Vergleich auf einen großen Wert festgelegt wird. Eine derartige Steuerung der Konstanten η₁ und η₂ wird durch Ändern der zugeordneten synaptischen Verbindungen zu Aufmerksamkeitssteuerneuronen ausgeführt.
33 zeigt ein Beispiel der Konfiguration, die sich um ein Aufmerksamkeitssteuerneuron 2901 und eine Schaltung 3302 zum Steuern der Zuweisung von Eingaben zu dem Aufmerksamkeitssteuerneuron, wenn die Steuerung der Konstanten η₁ und η₂, die zu der Synapse des Aufmerksamkeitssteuerneurons gehören, ausgeführt wird, zentriert.
In diesem Fall verbindet die Eingangsverteilungs-Steuerschaltung 3302 zu der Synapse 3301, die in die Modulation des Erfassungspegels der Herausragekarte-Signaleingaben von von niedrigeren Schichten empfangenen Merkmalen niedriger Ordnung involviert ist, und auch zu einer anderen Synpse 3301, die in die Modulation des Erfassungspegels von Rückkoppelungssignalen von oberen Schichten involviert ist. Die Eingangsverteilungs-Steuerschaltung 3302 steuert hauptsächlich die Phasenverzögerungsausmaße an der den Werten von η₁ und η₂ entsprechenden Synapsen in Antwort auf externe Steuersignale (beispielsweise ein Signal bezüglich eines Subjekts, das von einer weiteren, in 1 nicht gezeigten oberen Schicht empfangen wurde, wobei das Signal anzeigt, ob ein bestimmter Modus der Eine zum Erfassen eines Objekts oder für eine detaillierte Identifikation ist).
Die Größe einer benachbarten Region ist etwa dieselbe wie die Größe einer Fixierungsregion in Eingangsdaten (beispielsweise ein Wert, der das Zehnfache der Fixierungsregionsgröße nicht überschreitet). Die Suche wird auf die benachbarte Region beschränkt, um eine hohe Verarbeitungsgeschwindigkeit aufrecht zu erhalten. So lange die Verarbeitungsgeschwindigkeit auf einem vernünftigen Niveau aufrecht erhalten werden kann, kann der Suchbereich gesamte Bilddaten abdecken.
Nun werden die Beschreibungen der Fixierungsposition-Aktualisierungssteuerschaltung 3001 zum Steuern der sequenziellen Aktualisierung von Fixierungspositionen gegeben. Diese Schaltung, die in 30 gezeigt ist, ist hauptsächlich durch einen primären Speicher 3002 eines Rückkoppelungsausmaßes, die dem Aufmerksamkeitssteuerneuron 2901 zugeführt wird, das sich an einem einer aktuellsten Position entsprechenden Punkt befindet, eine Eingabeeinrichtung von Rückkoppelungsausmaßen in einer benachbarten Region 3003, und einen aktualisierte Position-Ermittler 3004, der eine nächstes Kandidaten-Rückkopplungsausmaß, das einem Rückkoppelungsausmaß an einer aktuellsten Fixierungsposition in der benachbarten Region folgt, findet und ein Aufmerksamkeitssteuerneuron, das die nächste Kandidatenrückkoppelung empfängt, erfasst und aktiviert, aufgebaut.
Der aktualisierte Position-Ermittler 3004 beinhaltet einen Vergleicher 3007, der die Eingaben von dem primären Speicher 3002 und der Eingabeeinrichtung von Rückkoppelungsausmaßen in einer benachbarten Region 3003 empfängt, und das Rückkoppelungsausmaß an einem aktuellsten Aufmerksamkeitssteuerneuron mit dem Rückkoppelungsausmaß in dessen benachbarter Region vergleicht, einen zweiten Rückkoppelungssignalverstärker 3006, welcher nachstehend diskutiert werden wird, und einen nächstes Kandidatenrückkoppelungsausmaß-Detektor 3005. Falls der aktualisierte Position-Ermittler 3004 über den nächstes Kandidatenrückkoppelungsausmaß-Detektor 3005 ein Rückkoppelungsausmaß findet, das mit dem aktuellsten Rückkoppelungsausmaß übereinstimmt, dann veranlasst der Ermittler 3004 den zweiten Rück koppelungssignalverstärker 3006, einen Impuls an das dazu zugeordnete Aufmerksamkeitssteuerneuron auszugeben.
Das vorgenannte "übereinstimmend mit dem aktuellsten Rückkoppelungsausmaß" bedeutet speziell das Folgende. Wenn ein Rückkoppelungsausmaß zufällig in einer benachbarten Region eingegeben wird und die beiden Rückkoppelungsausmaße in Übereinstimmung mit dem vorstehend erwähnten Verfahren verglichen werden, dann wird dann, wenn der Unterschied dazwischen innerhalb eines vorbestimmten Referenz- oder Schwellenwert-Bereichs liegt, oder wenn das Rückkoppelungsausmaß eines zu vergleichenden Objekts größer ist als das aktuellste Rückkoppelungsausmaß, welches geschehen kann, wenn ein Suchbereich aktualisiert wird, diese Situation als "übereinstimmend mit dem aktuellsten Rückkoppelungsausmaß" bezeichnet. Infolge dessen wird die nächste aktualisierte Position wirksam erfasst.
Nun auf die vereinfacht in den 31 und 32 gezeigte Konfiguration Bezug nehmend, wird die Übertragung von Signalen zwischen dem Aufmerksamkeitssteuerneuron 2901 und der Fixierungsposition-Aktualisierungssteuerschaltung 3001 beschrieben werden. Wir es später diskutiert werden wird, sind ein bestimmtes Aufmerksamkeitssteuerneuron 2901 und die Fixierungsposition-Aktualisierungssteuerschaltung 3001 vorübergehend mit einander verbunden, und wird das Aufmerksamkeitssteuerneuron, das der in Übereinstimmung mit dem vorstehend erwähnten Verfahren gewählten aktualisierten Position zugeordnet ist, durch Empfangen einer sekundären Rückkoppelungseingabe von dem aktualisierte Position-Ermittler 3004 aktiviert. Die sekundäre Rückkoppelungseingabe ist ein Rückkoppelungssignal mit einem Signalpegel proportional zu dem Rückkoppelungsausmaß, das von einer oberen Schicht einem Aufmerksamkeitssteuerneuron zugeführt wird. Dies öffnet eine Fixierungsregion, die für das Neuron intrinsisch ist, und nur das Signal entsprechend zu den Daten dieser Region in Eingangsdaten wird an eine nachfolgende Schicht übertragen werden.
Die vorgenannte vorübergehende, wechselseitige Verbindung wird genauer beschrieben werden. Ein zu einer bestimmten Zeit akti viertes Aufmerksamkeitssteuerneuron, d. h. das Aufmerksamkeitssteuerneuron, das unter die Steuerung zur Übertragung eines Signals an eine nachfolgende Schicht zu setzen ist, wird vorübergehend mit einem anderen bestimmten Aufmerksamkeitssteuerneuron in einer benachbarten Region verbunden, die in Entsprechung zu dem vorstehenden Aufmerksamkeitssteuerneuron existiert. Diese vorübergehende, wechselseitige Verbindung wird dazu gebracht, das Signal über den Mittler eines lokalen gemeinsamen Busses fortzuleiten. Um es genauer auszudrücken feuert unter anderen Aufmerksamkeitssteuerneuronen in einer benachbarten Region nur ein Neuron, das sich an einer zufälligen Position befindet, spontan und gibt einen Spitzenimpuls innerhalb eines vorbestimmten Zeitbereichs (beispielsweise in dem Bereich von einigen zehn Millisekunden) aus, und der Spitzenimpuls erreicht ein aktiviertes Aufmerksamkeitssteuerneuron über den gemeinsamen Bus. Folglich wird ein Kanal einer Kommunikation mit der bereits aktivierten Fixierungsposition-Aktualisierungssteuerschaltung 3001 nur während der vorstehend erwähnten Zeitspanne aktiviert.
Demgemäß wird auf den gemeinsamen Bus nur dann zugegriffen, wenn zum Beispiel ein anderes Neuron als ein aktuellstes Aufmerksamkeitssteuerneuron in einem benachbarten Bereich abgefeuert wird. Um es genauer auszudrücken ein Array mit variablem Widerstand, dessen Verdrahtungswiderstand vorübergehend fällt, wenn ein Impulssignal von dem abgefeuerten Neuron auf der mit dem gemeinsamen Bus verbundenen Leitung fortgeleitet wird, und eine (nicht gezeigte) Steuerschaltung wird hierfür verwendet. Als eine andere Alternative sind eine Torschaltung 3101 oder eine Umschaltschaltung und eine Umschaltsignal-Steuerschaltung 3102, vereinfacht gezeigt in den 31 und 32, zwischen den Aufmerksamkeitssteuerneuronen und dem gemeinsamen Bus bereitgestellt. Die Umschaltsignal-Steuerschaltung 3102 sendet ein Einschaltsignal zu einem von Torschaltungen ("c" von 3103, gezeigt in den 31 und 32) unter Verwendung eines Feuerimpulssignals von einem Aufmerksamkeitssteuerneuron als Auslöser, wodurch vorübergehend ein Kanal geöffnet wird, d. h. die Verbindung zu dem gemeinsamen Bus auf EIN geschaltet wird.
Nachdem eine nächste Kandidaten-Fixierungsposition ausgewählt ist, verstärkt der sekundäre Rückkoppelungssignalverstärker 1906 mittels Voreilen einer Impulsphase in dem Fall einer Phasenmodulation ein Rückkoppelungssignal von einer oberen Schicht zu einem Aufmerksamkeitssteuerneuron auf einen vorbestimmten Pegel, wonach das verstärkte Rückkoppelungssignal zu dem Aufmerksamkeitssteuerneuron zurückgeführt wird.
In diesem Fall ist die Anzahl der Aufmerksamkeitssteuerneuronen, die zu einer bestimmten Zeit aktiviert sind, welches demgemäß eine Fixierungsregion bedeutet, auf eines pro Merkmalkategorie beschränkt. Aus diesem Grund wird dann, wenn sich das Aufmerksamkeitssteuerneuron, das zu einer bestimmten Zeit aktiviert war, zu einem anderen Aufmerksamkeitssteuerneuron in dem Aktivierungszustand verschiebt, die Aktivität des ursprünglich aktivierten Neurons für eine vorbestimmte Zeit unterdrückt. Dies wird durch die Bildung einer hemmenden wechselseitigen Verbindung zwischen nächstliegenden Aufmerksamkeitssteuerneuronen implementiert. Die hemmende Verbindung ist durch die gepunktete Linie, die sich ausgehend von dem Aufmerksamkeitssteuerneuron 2901 der 31 und 32 ausgehend erstreckt, gezeigt.
Der Bereich des Rückkoppelungsausmaßes mit Bezug zu der vorstehend beschriebenen Aufmerksamkeitssteuerung hat einen voreingestellten unteren Grenzwert. Nachdem die Steuerung auf eine Fixierungsposition entsprechend zu dem unteren Grenzwert geht, wird die Steuerung auf eine anfängliche Fixierungspunktposition zurückgesetzt.
Der vorgenannte Mechanismus zum direkten Steuern der Aktualisierung einer Fixierungsregion durch die Aufmerksamkeitssteuerschicht und durch Verwenden der Rückkoppelungssignale von oberen Schichten stellt die folgenden, mit Stand der Technik nicht verfügbaren Vorteile bereit.
Im Vergleich mit einem Fall, in dem nur eine Herausragekarte für Merkmale niedriger Ordnung verwendet wird, um die Fixierungsregionssteuerung durchzuführen, ermöglicht es der vorge nannte Mechanismus, eine effiziente, schnelle Suche zu erreichen, und macht es darüber hinaus möglich, eine bedeutungslose visuelle Suche zu vermeiden, in welcher eine Fixierungsregion damit fortfährt, zwischen zwei Merkmalmustern hin und her zu schwanken.
In einem anzuschauenden Objekt kann nur nach einem insbesondere anzuschauenden Merkmalteil oder Muster (beispielsweise die Augen oder dergleichen in dem Objekt, das ein Gesicht ist) selektiv und effizient gesucht werden. In diesem Fall kann anstelle der Rückkoppelung von der obersten Schicht die Rückkoppelung von einer Zwischenschicht mit Bezug zu der Erfassung eines Merkmalteils in einem Objekt verwendet werden.
Die Suche nach der nächsten aktualisierten Position in einer benachbarten Region der neuesten Fixierungsposition erlaubt es, eine rasche Fixierungsposition-Aktualisierungssteuerung zu erzielen.
Selbst falls es eine Vielzahl von Objekten gibt, die zu derselben Kategorie gehören, kann durch geeignetes Festlegen der Größen von benachbarten Regionen, in denen die Suche durchgeführt wird, die Steuerung ausgeführt werden, um eine stabile, sequenzielle Suche von einem Objekt zu einem anderen ausgeführt werden, ohne zu verursachen, das der Verschiebereich von Fixierungspunktpositionen auf irgend ein bestimmtes Objekt fixiert wird.
Verarbeitung in der Merkmalposition-Erfassungsschicht
Bezug nehmend auf 29 haben Merkmalposition-Erfassungsschichten Wo-Pfade getrennt von einem Was-Pfad und stellen eine Verbindung zu einer Merkmalerfassungsschicht (1, k) auf derselben hierarchischen Ebene und darüber hinaus eine Rückkoppelungsverbindung zu einer Fixierungsregion-Festlegesteuerschicht 108 her. Die Merkmalposition-Erfassungsschicht 107 teils dieselbe Anordnung und Funktion wie diejenigen des Unterabtastneurons 1501 der Merkmalintegrationsschicht 103, mit der Ausnahme, dass die durch die Merkmalintegrationsschicht 103 ausgeführte Populationscodierung nicht durchgeführt wird, und dass sich die Empfangsfeldgrößen zwischen oberen Schichten und unteren Schichten nicht signifikant ändern, um zu verhindern, dass Informationen bezüglich einer Merkmalanordnungsbeziehung verloren gehen. Daher sind in der Merkmalposition-Erfassungsschicht 107 die Neuronen auf der Grundlage von Merkmalkategorien angeordnet, und verbinden die Neuronen zu Merkmalerfassungsschichtneuronen, um die Unterabtastung durchzuführen. Folglich kann die Verteilung von feuernden Neuronen, die eine grobe räumlicht Verteilung oder Anordnung betreffend ein zu erkennendes oder erfassendes Objekt repräsentiert, in der Merkmalposition-Erfassungsschicht einer obersten Merkmalposition-Erfassungsschicht erhalten werden.
Impulssignalverarbeitung in der Merkmalposition-Erfassungsschicht
Die Impulssignalverarbeitung der Merkmalposition-Erfassungsschicht ist identisch zu der des Unterabtastneurons 1501 der Merkmalintegrationsschicht 103. Die Neuronen einer Schicht (3, k) führen eine Unterabtastung auf der Grundlage eines mittleren Ausgabe- bzw. Ausgangspegels von dem Merkmalerfassungszellen einer Schicht (1, k) in der vorangehenden Stufe durch, ohne unter die Steuerung durch irgend welche Schrittmacherneuronen gesetzt zu werden. Der mittlere Ausgangspegel in diesem Fall wird aus Ausgaben erhalten, die innerhalb eines Zeitfensters mit einer unabhängigen Phase für jedes Unterabtastneuron empfangen wurden.
Verarbeitungsprozedur für die Fixierungsposition-Festlegesteuerung
37 umreißt die Verarbeitung zum Steuern der Festlegung einer Fixierungsposition. Zunächst wird in Schritt S3701 die Fixierungsposition auf die Mitte eines Bilds festgelegt, um das gesamte Bild als die Größe einer Fixierungsregion zu definieren. Dann wird in Schritt S3702 die Verarbeitung mittels des Was-Pfads bis zu der obersten Schicht implementiert. In dieser Stufe, wie vorstehend erwähnt wurde, ist der Zustand, in welchem ein Objekt wahrgenommen worden ist, das heißt, ein erkannter Zustand, noch nicht erreicht worden.
Danach wird in Schritt S3703 auf der Grundlage eines Rückkoppelungsausmaßes oder dergleichen, empfangen von einer Merkmalposition-Erfassungsschicht (3, M) entsprechend zu der obersten Schicht über den Wo-Pfad oder dergleichen, ein Neuron in der Merkmalintegrationsschicht, die dem Aufmerksamkeitssteuerneuron entspricht, das ein maximales Rückkoppelungsausmaß oder einen vorbestimmten Auswertungswert, gegeben durch den Ausdruck (17), empfängt, als eine neue Fixierungsposition spezifiziert, und wird die Größe der Fixierungsregion, die für den Verarbeitungskanal, zu welchem dieses bestimmte Merkmalintegrationsschichtneuron gehört, festgelegt. In Schritt S3704 wird die Erkennungsverarbeitung in dem Was-Pfad ausgeführt. In dem nächsten Schritt S3705 wird ermittelt, ob die Fixierungsposition aktualisiert werden sollte, und falls das Ermittlungsergebnis bestätigend ist, wird ein Suchen nach einem neuen Kandidaten-Aufmerksamkeitssteuerneuron in einer Region in der Nähe der neuesten Fixierungsposition in Schritt S3706 durchgeführt, wodurch die Steuerung zum Aktualisieren der Fixierungsregion durchgeführt wird.
Ob eine Fixierungsregion aktualisiert werden sollte, wird wie folgt ermittelt. In einem ersten Beispiel wird ermittelt, ob es ein anderes Aufmerksamkeitssteuerneuron mit einem ausreichenden Niveau eines Rückkoppelungsausmaßes in einer benachbarten Region gibt. Ein solches Neuron wird ein "nächstes Kandidatenneuron" genannt. In einem zweiten Beispiel wird ermittelt, ob kein nächstes Kandidatenneuron in einer benachbarten Region existiert, und ob es eine nicht festgelegte Fixierungsposition in einem Bildschirm gibt. In diesem Fall ist eine (nicht gezeigte) Schaltung zum Ermitteln des Vorhandenseins einer nicht festgelegten Fixierungsposition erforderlich. In einem dritten Beispiel wird ermittelt, ob ein externes Steuersignal empfangen worden ist.
In dem vorstehenden ersten Beispiel wird ein nächstes Kandidatenneuron in Übereinstimmung mit dem vorstehend beschriebenen Verfahren ausgewählt, um die nächste Fixierungsposition oder dergleichen festzulegen. In dem vorstehenden zweiten Beispiel wird die nächste Fixierungsposition auf eine beliebige nicht festgelegte Position außerhalb der neuesten benachbarten Region oder auf eine beliebige nicht festgelegte Position, die an die benachbarte Region angrenzt, festgelegt. Das vorstehende dritte Beispiel gilt für einen Fall, in dem dann, wenn ein Betätigungssignal, ausgegeben durch zum Beispiel einen Benutzer, der einen Verschlussschalter betätigt, nicht als ein Steuersignal erfasst wird, der Benutzer dann eine Anweisung zum Drängen auf eine Aktualisierung gibt, und wird das Signal für die Aktualisierungsanweisung als ein Steuersignal erfasst.
In Schritt S3707 wird als das Ergebnis der Aktualisierung das Aufmerksamkeitssteuerneuron, das ein semi-maximales Rückkoppelungsausmaß, vorstehend erwähnt, empfängt, aktiviert, und wird ein Signal zum Festlegen der nächsten Fixierungsregion von dem aktivierten Neuron an eine Merkmalintegrationsschicht in dem in 31 gezeigten Fall oder an eine Torschicht in dem in 32 gezeigten Fall ausgegeben. In Schritt S3708 wird ein Teil eines bestimmten Verarbeitungskanals geöffnet, um dadurch das Signal von dem Merkmalintegrationsschichtneuron, das der aktualisierten Fixierungsregion zugeordnet ist, zu einer Merkmalerfassungsschicht (1, 1) fortzuleiten. Falls es andererseits als ein Ergebnis des Ermittelns, ob die Aufmerksamkeit aktualisiert werden sollte, bestimmt wird, die Aktualisierung nicht durchzuführen (vgl. die vorstehend beschriebenen drei Fälle von Ermittlungen), dann wird der Steuerbetriebsablauf zum Aktualisieren der Fixierungsregion beendet.
Beispiele von Modifikationen
Als eine Alternative wird die Erkennung eines grafischen Musters oder dergleichen unter Verwendung eines Netzwerks durchgeführt, das durch Synapsenelemente, die Impulsbreiten in analoge Werte moduliert, und Integrier-und-Feuer-Neuronen in der in 27 gezeigten Netzwerkkonfiguration gebildet wird. In diesem Fall wird die Modulation durch eine Synapse durch W_a = S_ijW_b ausgedrückt, wenn die Impulsbreite eines präsynaptischen Signals als W_b bezeichnet wird, und die Impulsbreite eines postsynaptischen Signals als W_a bezeichnet wird, worin S_ij dasselbe wie die Verbindungsstärke in Ausdruck (5) des ersten Ausführungsbeispiels bedeutet. Um einen breiten Dynamikbereich für die Modulation zu erzielen, muss die grundlegende Impulsbreite eines Impulssignals auf einen Wert festgelegt werden, der ausreichend kleiner ist als der Zyklus, d, h. ein grundlegendes Impulsintervall.
Ein Neuron feuert oder gibt einen Impuls aus, wenn sein Potenzial wegen der Ladungen, die aufgrund des Einströmens einer Vielzahl von Impulsströmen, die vorbestimmte Merkmalelemente repräsentieren, akkumuliert wurden, einen vorbestimmten Schwellenwert überschreitet. In dem Fall der Impulsbreitenmodulation oder dergleichen ist die gewichtete Addition angekommener Impulse für jedes Unterzeitfenster nicht insbesondere notwendig; jedoch wird eine Integration in einem Zeitfenster mit einer vorbestimmten Breite implementiert. In diesem Fall hängt das zu erfassende Merkmalelement oder grafische Muster ausschließlich von der zeitlichen Gesamtsumme von Signalen für das Merkmalerfassungsschichtneuron, d. h. der Gesamtsumme von Impulsstromwerten, ab. Die Breite von Eingangsimpulsen entspricht dem Wert einer Gewichtungsfunktion.
Als eine andere Alternative kann zunächst die Konfiguration zum Erhalten einer skalen-invarianten Merkmalrepräsentation verwendet werden, um dadurch die Notwendigkeit einer Vielzahl von Verarbeitungskanälen für mittlere und hohe Ordnungen zum umgehen. In Übereinstimmung mit der nachstehend zu beschreibenden Konfiguration kann die skalen-invariante Erkennungsleistung aufrecht erhalten werden, so dass die Effizienz der selektiven Aufmerksamkeitsverarbeitung verbessert werden kann. Dies führt zu einer vereinfachten Schaltungskonfiguration, einer kleineren Größe, und reduziertem Leistungsverbrauch.
In der grundlegenden Konfiguration, die vorangehend diskutiert wurde, wurde die Steuerung zum Festlegen einer Fixierungsregion nach der Populationscodierung für Merkmale niedriger Ordnung durchgeführt, und wurde die Populationscodierung für jede Schichtebene durchgeführt. Alternativ können die Merkmalrepräsentationen bei unterschiedlichen Populationscodierungs-Skalenniveaus und die vorgenannte Populationscodierung nur für Merkmale niedriger Ordnung durchgeführt werden, und können skalen-invariante Merkmalrepräsentationen, d. h. eine skaleninvariante Impulsinformationsumwandlung, durch eine Phasenmodulation von Merkmalen zugeordneten Impulsen durchgeführt werden, wie später beschrieben werden wird. Danach kann die Steuerung zum Festlegen der vorgenannten Fixierungsregion durchgeführt werden, und kann die Erfassung von Merkmalen mittlerer und hoher Ordnung in einem skalen-invarianten Merkmalrepräsentationsbereich ausgeführt werden. Die Steuerung zum Festlegen der Fixierungsregion könnte vor der Populationscodierung ausgeführt werden; die Verarbeitungseffizienz wird jedoch niedriger sein als in dem Fall, in dem sie nach der Populationscodierung durchgeführt wird.
Um die Umwandlung in die vorhergehende skalen-invariante Impulsinformation zu erzielen, werden die Merkmale, die zu derselben Merkmalkategorie gehören, aber unterschiedliche Skalenniveaus oder Größen haben, durch ein identisches Impulsintervall repräsentiert. Die Umwandlung wird zum Beispiel so durchgeführt, dass ein Phasenversatzausmaß in einem Ankunftsmuster einer Vielzahl von Impulsen an Merkmalerfassungsneuronen zum Erfassen eines bestimmten grafischen Merkmals bei dem Empfangen von Impulsen aus beliebigen Verarbeitungskanälen konstant bleibt. Dieselbe Verarbeitung kann implementiert werden zum Vergrößern oder Verkleinern einer Impulsbreite oder einer Versatzbreite, wenn Information durch Impulsbreitenmodulation repräsentiert wird.
Ferner kann in Merkmalerfassungsneuronen, die zu unterschiedlichen Skalenniveaus oder Verarbeitungskanälen gehören, eine Lernregel eingerichtet werden, so dass die Ankunftszeitintervalle oder das Ankunftszeitmuster der Impulse, die grafischen Merkmalen derselben Kategorie (beispielsweise L-förmige Muster) zugeordnet sind, für unterschiedliche Skalenniveaus unterschiedlich und im Hinblick auf Zeit gemeinsam geteilt werden.
Die Populationscodierung wird durch lineare Koppelung oder dergleichen basierend auf der gewichteten Addition aller im Hinblick auf Zeit gemeinsam geteilten Impulssignale durchgeführt. Bei einer selektiven Aufmerksamkeitsverarbeitung werden die Ausgabe- bzw. Ausgangsdaten von einer Merkmalintegrationsschicht (2, 0), die einer bestimmten Teilregion zugeordnet sind, vor der Populationscodierung selektiv als eine Fixierungsregion extrahiert. Die Populationscodierung auf den ausgewählten Ausgangsdaten wird auf einer Zeitbasis ausgeführt. In Schichten ausgehend von einer Merkmalerfassungsschicht (1, 1) und danach kann eine Multi-Skalenverarbeitung durch eine einzelne Schaltung implementiert werden, wodurch die Notwendigkeit zum Bereitstellen unterschiedlicher Schaltungen für unterschiedliche Verarbeitungskanäle umgangen wird. Das Ergebnis ist eine wirtschaftliche Schaltungskonfiguration.
In anderen Worten ist es in den Schichten ausgehend von der Schicht (1, 1) und danach möglich, eine physikalische Unterscheidung zwischen unterschiedlichen Verarbeitungskanälen in einer Schaltungskonfiguration zu vermeiden.
Die Ausgaben von der Merkmalerfassungsschicht (1, 1) an eine Merkmalintegrationsschicht (2, 1) werden in einem Zeitteilungsmodus für jeden Verarbeitungskanal oder jedes Skalenniveau geliefert.
Beispiel einer Anwendung auf eine bildgebende Vorrichtung
38 umreißt den Verarbeitungsablauf eines fotografischen Vorgangs, während eine selektive Aufmerksamkeit in einer bildgebenden Vorrichtung bzw. Abbildungsvorrichtung durchgeführt wird.
Zunächst werden in Schritt S3801, um ein zu erfassendes oder zu erkennendes Objekt im voraus zu identifizieren, Modelldaten bezüglich eines zu fotografierenden Objekts, wie etwa das Gesicht einer Zielperson, wenn eine Person fotografiert wird, aus einem Speicher 1106 oder von außerhalb über den Mittler einer (nicht gezeigten) Kommunikationseinheit, die in die bildgebende Vorrichtung integriert sind, in einen (nicht gezeigten) zeitlichen Speicher geladen. Dann wird in Schritt S3802 eine Initialisierung zur Aufmerksamkeitssteuerverarbeitung in einem Fotografierbereitschaftszustand, wie beispielsweise einem Zustand, in dem ein Verschluss halb gedrückt ist, durchgeführt. Die Initialisierung hier ist zum Beispiel das Festlegen einer Fixierungsregion auf die Mitte des Bilds oder auf die gesamte Bildgröße.
Nachfolgend wird in Schritt S3808 die Aktualisierung der Fixierungsregion wie vorstehend beschrieben begonnen, um eine Fixierungsregion festzulegen, die ein vorbestimmtes Erfordernis erfüllt (beispielsweise wird auf der Grundlage einer Ausgabe der obersten Schicht ermittelt, dass ein zu fotografierendes Objekt erfasst worden ist). In Schritt S3804 wird die Aktualisierung der Fixierungsregion unterbrochen, und wird die Stetuerung für optimale Fotografierbedingungen (beispielsweise AF, AE, AW und Zoomen) durchgeführt, zentrierend um eine in Schritt S3805 ausgewählte Fixierungsregion. Zu dieser Zeit wird die Position des zu fotografierenden Objekts in Schritt S3806 auf einer Sucheranzeige mittels einer Markierung, wie beispielsweise einem Fadenkreuz, angezeigt, um es dem Benutzer zu ermöglichen, das zu fotografierende Objekt zu bestätigen.
Als Nächstes wird in Schritt S3807 zum Prüfen auf Erfassungsfehler zum Beispiel ermittelt, ob ein Verschlussschalter innerhalb eines vorbestimmten Zeitbereichs niedergedrückt wurde, oder ob ein Benutzer eine Anweisung zum Suchen eines anderen Objekts ausgegeben hat (beispielsweise der Zustand, in dem ein halb niedergedrückter Verschluss freigegeben wurde). Falls ermittelt wird, dass ein Erfassungsfehler erfolgte, dann kehrt das Programm zu Schritt S3803 zurück, um die Aktualisierung der Fixierungsregion neu zu beginnen. Falls ermittelt wird, dass kein Erfassungsfehler erfolgte, dann wird das Fotografieren unter den festgelegten Fotografierbedingungen implementiert.
Die Verwendung der Mustererfassungs- oder Mustererkennungs-Vorrichtung in Übereinstimmung mit dem vorstehend beschriebenen Ausführungsbeispiel in der bildgebenden Vorrichtung ermöglicht es, ein Subjekt auch dann zuverlässig und wirkungsvoll zu erfassen oder zu erkennen, wenn die Position eines Subjekts oder die Größe desselben in einem Bildschirm unbekannt ist, wenn eine Vielzahl von Subjekten in einem Eingangsbild existieren. Dieses Merkmal kann mit hoher Geschwindigkeit in einem Echtzeitmodus mit weniger verbrauchter Leistung bei Durchführen der Erfassung einer Person oder dergleichen und der Steuerung von Bedingungen (AF, AE, usw.) zum Gewährleisten optimaler Fotografierbedingungen implementiert werden.
<Achtes Ausführungsbeispiel>
In diesem Ausführungsbeispiel werden die Rangfolge oder Prioritätsniveaus für die Orte (die Positionen in dem Bild) oder dergleichen, denen selektiv Aufmerksamkeit zu schenken ist, im voraus ermittelt, um die Aktualisierung der selektiven Aufmerksamkeit selbst rasch zu erzielen. Ein Vorteil des achten Ausführungsbeispiels besteht darin, dass die Verarbeitungseffizienz, das heißt, die Geschwindigkeit der Aktualisierung des Fixierungspunkts, durch Festlegen der Rangfolge im voraus bevor dem Beginnen einer Erfassung oder dergleichen mittels einem Festleger 3401 zum Festlegen der Prioritätsniveaus, welche nachstehend definiert werden werden, beträchtlich verbessert wird. Außerdem wird der erlaubte Bereich der Prioritätsniveaus bereitgestellt zum Beschränken der Positionen, die aktualisiert werden können, so dass die Fixierungspositionen auf nur den Aufmerksamkeitssteuerneuronen mit den Prioritätsniveaus innerhalb des Bereichs aktualisiert werden können. Dies erlaubt eine weiter schnellere Verarbeitung.
34 zeigt die Konfiguration eines wesentlichen Abschnitts des Ausführungsbeispiels, zentrierend um eine Fixierungsregion-Festlegesteuerschicht 108. Ein Prioritätsfestleger 3401 ist bereitgestellt zum Festlegen der Rangfolge bei dem Auswählen von Aufmerksamkeitssteuerneuronen auf der Grundlage der Herausragekarte von Merkmalen niedriger Ordnung, ausgegeben von einer Merkmalintegrationsschicht (2, 0), und des Rückkoppelungsausmaßes von einer oberen Schicht. Der Prioritätsfestleger 3401 und eine Fixierungsposition-Aktualisierungssteuerschaltung 3001 sollten in der Nähe der Fixierungsregion- Festlegesteuerschicht 108 bereitgestellt sein, oder diese können auf der Fixierungsregion-Festlegesteuerschicht 108 bereitgestellt sein. Der Prioritätsfestleger 3401 und die Fixierungsposition-Aktualisierungssteuerschaltung 3001 bestehen aus digitalen Signalverarbeitungsschaltungen oder Logik-Gate-Arrays. Wie in den vorangehenden Ausführungsbeispielen hat die Fixierungsregion-Festlegesteuerschicht 108 die Aufmerksamkeitssteuerneuronen den Positionen zugeordnet, an denen die Erfassung von Merkmalen niedriger Ordnung auf Eingangsdaten durchgeführt wird. Die Anzahl der Aufmerksamkeitssteuerneuronen wird durch Multiplizieren der Anzahl von Verarbeitungskanälen mit der Anzahl von Merkmalkategorien erhalten, und die Aufmerksamkeitssteuerneuronen befinden sich an den Positionen, die durch die Ellipsen in 34 angegeben sind.
Die ein Prioritätsniveau angebende Größe entspricht einer linearen Summe der Ausgabe einer Merkmalintegrationsschicht oder dem Wert des Herausrageniveaus und einem Rückkoppelungsausmaß oder der Reihenfolge derselben, empfangen von einer oberen Schicht, wie durch Ausdruck (18) gezeigt. Ein Steuersignal zum Aktivieren der Aufmerksamkeitssteuerneuronen in der absteigenden Reihenfolge der Prioritätsniveaus wird von der Fixierungsposition-Aktualisierungssteuerschaltung 3001 an ein bestimmtes Aufmerksamkeitssteuerneuron an der zu aktualisierenden Position ausgesendet. Um die Positionen, das heißt, die Adressen der Aufmerksamkeitssteuerneuronen mit höheren Prioritätsniveaus, zu ermitteln, greift die Fixierungsposition-Aktualisierungssteuerschaltung 3001 in Übereinstimmung mit einem vorbestimmten Verfahren (welches nachstehend diskutiert werden wird) auf die Aufmerksamkeitssteuerneuronen zu, um ihre Prioritätsniveaus zu berechnen. Dann sortiert die Fixierungsposition-Aktualisierungssteuerschaltung 3001 darüber hinaus die Informationen bezüglich der Adressen der Neuronen in der absteigenden Reihenfolge der Prioritätsniveaus aus und speichert sie in einem (nicht gezeigten) primären Speicher. Zu dieser Zeit speichert die Fixierungsposition-Aktualisierungssteuerschaltung 3001 nur die Adressen der Aufmerksamkeitssteuerneuronen mit den Prioritätsniveaus innerhalb eines voreingestellten erlaubten Bereichs von Prioritätsniveaus.
Der Zugriff auf die Aufmerksamkeitssteuerneuronen zum Zwecke des Berechnens ihrer Prioritätsniveaus wird durch zum Beispiel spiralförmiges Abtasten derselben implementiert, beginnend bei einer anfänglichen Fixierungsposition, das heißt, der Mitte des Bilds wie in den vorangehenden Ausführungsbeispielen. Alternativ wird ein zu suchender Verarbeitungskanal auf der Grundlage von Fotografierbedingungen, wie beispielsweise die Entfernung zu einem Subjekt und einer Vergrößerungsleistung, ermittelt, und nur die zugeordnete Population von Aufmerksamkeitssteuerneuronen kann gesucht werden. Falls die Größe eines Subjekts im voraus bekannt ist, dann kann die Größe eines Objekts in einem Bildschirm basierend auf Fotografierbedingungen demgemäß bekannt sein, so dass das Skalenniveau nach unten eingeengt wird.
Die Fixierungsposition-Aktualisierungssteuerschaltung 3001 wählt die Aufmerksamkeitssteuerneuronen, die in einem voreingestellten Bereich von Prioritätsniveaus liegen, anstelle alls registrierten Aufmerksamkeitssteuerneuronen durch Zugreifen auf ihre Adressen in Aufeinanderfolge auszuwählen. Zum Beispiel wird in einer anfänglichen Stufe zum Ausführen einer visuellen Suche, das heißt, der selektiven Aufmerksamkeitssteuerung, der erlaubte Bereich von Prioritätsniveaus auf ein höheres Niveau festgelegt, und wird jedes Mal dann, wenn ein erlaubter Bereich von Prioritätsniveaus durchlaufen ist, wird die Anzahl der Zyklen als die Anzahl von Aktualisierungssuchen nach Fixierungspositionen gezählt, so dass der erlaubte Bereich von Prioritätsniveaus aktualisiert werden kann. Zum Beispiel kann der erlaubte Bereich von Prioritätsniveaus jedes Mal, wenn die Anzahl von Zyklen aufaddiert wird, enger oder weiter gemacht werden.
<Neuntes Ausführungsbeispiel>
Die Konfiguration eines neunten Ausführungsbeispiels, zentrierend um eine Fixierungsregion-Festlegesteuerschicht 108, ist in den 31 und 32 gezeigt. In dem neunten Ausführungsbeispiel empfängt ein Aufmerksamkeitssteuerneuron 2901 eine Rückkoppelungsverbindung von einer oberen Schicht (beispielsweise einer Merkmalposition-Erfassungsschicht (3, 2) oder einer Merkmalintegrationsschicht (2, 2), die die Informationen bezüglich der Position und der Wahrscheinlichkeit der Existenz eines Objekts, das zu der Kategorie des zu erkennenden Objekts gehört, ausgibt, und eine weitere Rückkoppelungsverbindung von einer Zwischenschicht (beispielsweise einer Merkmalposition-Erfassungsschicht (3, 1) oder einer Merkmalintegrationsschicht (2, 1)), die die Informationen bezüglich der Positionen und der Wahrscheinlichkeiten der Existenz von Merkmalen mittlerer Ordnung, die das Objekt dieser bestimmten Kategorie, das zu erkennen ist, hat (vgl. die Beschreibung der Populationscodierung), oder die Informationen bezüglich Erfassungspegeln ausgibt. Unter Verwendung von Steuersignalen oder dergleichen von außen (beispielsweise einer weiteren oberen Schicht als der in 27 gezeigten obersten Schicht) gibt das Aufmerksamkeitssteuerneuron 2901 dann Prioritäten an eine Rückkoppelungseingabe von einer oberen Schicht während einer Suche nach dem Objekt in einem Erfassungsmodus, während es Prioritäten an eine Rückkoppelungseingabe von einer Zwischenschicht gibt, während das Objekt in einem Erkennungsmodus erkannt wird.
In diesem Fall bedeutet die Suche nach einem Objekt in dem Erfassungsmodus einfach die Erfassung eines Objekts, das zu derselben Kategorie gehört, wie ein zu erkennendes Objekt gehört (beispielsweise die Erfassung eines Gesichts). Die Erkennung hier bedeutet, zu ermitteln, ob das erfasste Objekt das zu erkennende Objekt ist (beispielsweise ob das erfasste Objekt das Gesicht einer bestimmten Person ist), durch Ausführen der Fixierungspositionsfestlegung auf der Grundlage detaillierterer Merkmale. In dem letztgenannten Erkennungsmodus ist ein "Blickgrad" höher als in dem erstgenannten Erfassungsmodus.
Die Prioritäten basierend auf der Gewichtung von Rückkoppelungsverbindungen werden durch einen Rückkoppelungsausmaßmodulator 3601 festgelegt, der in 36 gezeigt ist. Der Ablauf der Verarbeitung, die über den Mittler des Rückkoppelungsausmaßmodulators 3601 implementiert wird, ist in 35 gezeigt. In Schritt S3501 empfängt der Rückkoppelungsausmaßmodulator 3601 zunächst das Rückkoppelungsausmaß von einer oberen Schicht und das Rückkoppelungsausmaß von einer Zwischenschicht für die Aufmerksamkeitssteuerneuronen.
Ein Modussteuersignal, das angibt, ob der Modus der Erfassungsmodus oder der Erkennungsmodus ist, wird in Schritt S3502 zugeführt. Falls der Modus der Erfassungsmodus ist, dann nimmt das Programm nur das Rückkoppelungsausmaß von einer oberen Schicht oder eine lineare Summe der vorstehenden beiden Rückkoppelungsausmaße, die geeignet gewichtet worden sind (αF₁ + βF₂, worin F₁ das Rückkoppelungsausmaß von einer oberen Schicht bezeichnet, und F₂ das Rückkoppelungsausmaß von einer Zwischenschicht ist). Das Programm berechnet dann ein Verbindungs-Rückkoppelungsausmaß, das einen größeren Beitrag des Rückkoppelungsausmaßes von der oberen Schicht bereitstellt, so dass α > β ≥ 0, und führt eine Modulation oder eine Verstärkung aus, um das berechnete Rückkoppelungsausmaß in Schritt S3503 auszugeben. Falls der Modus der Erkennungsmodus ist, dann nimmt das Programm nur das Rückkoppelungsausmaß von einer Zwischenschicht oder eine lineare Summe der vorstehenden beiden Rückkoppelungsausmaße, und berechnet ein Verbindungs-Rückkoppelungsausmaß, das einen größeren Beitrag des Rückkoppelungsausmaßes von der Zwischenschicht bereitstellt, so dass 0 ≤ α < β, und führt eine ähnliche Modulation in Schritt S3504 aus.
In diesem Ausführungsbeispiel kann die Steuerung zum Festlegen von Fixierungspositionen auf dieselbe Art und Weise wie die in dem ersten Ausführungsbeispiel durchgeführt werden, ausgenommen welcher Rückkoppelungsverbindung Priorität gegeben wird. Zusätzlich zu dem Verfahren gemäß dem ersten Ausführungsbeispiel kann die Steuerung zum Festlegen von Fixierungspositionen ausgeführt werden, während zufällige zeitliche Änderungen zu Fixierungspunktpositionen hinzugefügt werden. Es gibt einige Fälle, in denen die Erfassung eines Objekts, nach dem zu suchen ist, effizient durch Hinzufügen von Fluktuationen zu Fixierungspositionen durchgeführt werden kann. Genauer ausgedrückt erfordert in dem ersten Ausführungsbeispiel das Aktualisieren einer Fixierungsposition immer die Suche nach dem nächsten Kandidaten in einer benachbarten Region, und falls es kein Aufmerksamkeitssteuerneuron gibt, das der nächste Kandidat in der benachbarten Region einer neuesten Fixierungsposition sein muss, dann wird die nächste Fixierungsposition außerhalb der benachbarten Region oder an einer externen angrenzenden Position festgelegt. Das Verleihen der vorangehenden Fluktuationen an Fixierungspositionen stellt die folgenden, einmaligen Vorteile bereit:

(1) Auch dann, wenn eine benachbarte Region zum Suchen auf eine kleinere Größe als die in dem Fall ohne die vorangehenden Fluktuationen festgelegt wird, kann das Verarbeitungsgewicht, das für die Suche in der benachbarten Region erforderlich ist, reduziert werden, ohne der Zeit, die für die Suche erforderlich ist, etwas hinzuzufügen. Dies ist deshalb so, weil die zufälligen Fluktuationen, die Fixierungspositionen verliehen werden, eine Aktion äquivalent zu dem Suchen nach einer Fixierungsposition ohne Durchführen eines Vergleichs zwischen den Rückkoppelungsausmaßen oder dergleichen, die einem Aufmerksamkeitssteuerneuron in der benachbarten Region zugeführt werden, bereitstellt.
(2) Falls die Breiten von Fluktuationen klein sind, dann kann die Erkennungs- oder Erfassungsrate basierend auf den zeitlich gemittelten Ausgaben einer Merkmalerfassungsschicht, die um eine vorbestimmte Fixierungsposition zentriert ist, verbessert werden.

Wenn Fixierungspositionen Fluktuationen verliehen werden, kann die Variationsbreite in Übereinstimmung mit dem Grad der Aufmerksamkeit eingestellt werden. Der Grad der Aufmerksamkeit ist der Grad der Wichtigkeit, der dem Rückkoppelungsausmaß ausgehend von einer Schicht, in der ein bestimmtes Muster, das das gesamte Muster eines zu erkennenden oder zu erfassenden Objekts bildet, oder in der die Anordnung von bestimmten Mustern, die solche Bestandteil bildenden Elemente erfasst wird, geschenkt wird. Zum Beispiel wird der Grad der Aufmerksamkeit im Hinblick auf den Wert eines Erfassungspegels des vorstehenden Rückkoppelungsausmaßes an einem Aufmerksamkeitssteuerneuron ausgedrückt, wobei der Wert durch Verwenden, als seine Re ferenz, des Erfassungspegels einer Rückkoppelungseingabe von einer oberen Schicht ermittelt wird, in der das gesamte Muster oder ein Merkmal höherer Ordnung erfasst wird. Der Wert wird durch ein Verhältnis eines Rückkoppelungsausmaßes F₂ von einer Zwischenschicht zu einem Rückkoppelungsausmaß F₁ von einer oberen Schicht repräsentiert (F₂/F₁).
Die Variationsbreite einer Fixierungsposition wird auf eine Art und Weise derart gesteuert, dass die Variationsbreite für einen höheren Grad der Aufmerksamkeit verringert wird. Der Grad der Aufmerksamkeit kann eine monotone Anstiegsfunktion der Gesamtsumme der Rückkoppelungsausmaße von einer oberen Schicht sein, oder kann durch Verstärken von Rückkoppelungsausmaßen, um den Grad der Aufmerksamkeit mit abnehmenden Unterschieden im Rückkoppelungsausmaß zwischen einer Vielzahl von Aufmerksamkeitssteuerneuronen zu erhöhen, bestimmt werden. Der Grad der Aufmerksamkeit hier entspricht dem den Neuronen zugeführten Rückkoppelungsausmaß. Die Verstärkung der Rückkoppelungsausmaße in dem vorstehend erwähnten letzteren Fall wird durch zugeordnete Aufmerksamkeitssteuerneuronen 2901 in der Fixierungsregion-Festlegesteuerschicht 108 durch den in 36 gezeigten Rückkoppelungsausmaßmodulator 3601 durchgeführt.
Ein nachstehend beschriebenes Verfahren ist zum Verleihen einer zeitlichen Variation für eine Fixierungspunktposition verfügbar. Zum Beispiel wird in einer benachbarten Region ähnlich zu der einen in dem ersten Ausführungsbeispiel, die sich um die aktuellste Fixierungspunktposition zentriert, eine aktualisierte Fixierungspunktposition auf der Grundlage des vorgenannten modellierten Rückkoppelungsausmaßes auf dieselbe Art und Weise wie die in dem ersten Ausführungsbeispiel festgelegt. Dann wird der Position eine zufällige Variation verliehen, um die endgültige aktualisierte Aufmerksamkeitssteuerneuron- oder Fixierungsposition festzulegen. Zu dieser Zeit kann die Breite der zufälligen Variation in Übereinstimmung mit dem Blickgrad gesteuert werden, wie vorstehend beschrieben wurde.
<Zehntes Ausführungsbeispiel>
In dem zehnten Ausführungsbeispiel, wie in 39 gezeigt, ist eine Subjekterfassungs- oder Subjekterkennungs-Vorrichtung 1111 in einer Bildeingabevorrichtung, wie beispielsweise einer Kamera oder einer Videokamera installiert. Die Vorrichtung 1111 beinhaltet einen Unterstützungsinformationsdetektor 3902 zum Erfassen von Informationen, wie beispielsweise die Position und die Größe eines Objekts, von welchem ein Benutzer beabsichtigt, ein Bild einzugeben oder zu fotografieren, und eine Fixierungsregion-Festlegesteuereinrichtung 3901 gemäß den vorstehend beschriebenen Ausführungsbeispielen. In diesem Ausführungsbeispiel wird der Unterstützungsinformationsdetektor 3902 unter Heranziehen einer visuellen Achse als Beispiel beschrieben werden.
Der Unterstützungsinformationsdetektor oder der visuelle Achse-Detektor 3902 und die Fixierungsregion-Festlegesteuereinrichtung 3901 arbeiten zusammen, um die Steuerung zum Festlegen einer Fixiertungsposition auszuführen. Diese Anordnung macht es möglich, einen automatischen schnellen Fotografiervorgang zu erreichen, der ideal für ein bestimmtes Objekt in dem Bild geeignet ist und der es ermöglicht, die Absicht des Benutzers widerzuspiegeln. Die Unterstützungsinformationen zusätzlich zu der visuellen Achse können explizit von einem Benutzer festgelegt werden. In der folgenden Beschreibung wird der Unterstützungsinformationsdetektor 3902 der "visuelle Achse-Detektor 3902" genannt werden.
Bezug nehmend auf 39 ist die bildgebende Vorrichtung 1101 primär mit einem bilderzeugenden optischen System 1102 ausgerüstet, das Aufnahmelinsen und eine Zoomfotografie-Antriebssteuereinrichtung, ein CCD-Element oder einen CMOS-Bildsensor 1103, eine Abbildungsparameter-Messeinheit 1104, eine Bildsignal-Verarbeitungsschaltung 1105, einen Speicher 1106, einen Steuersignalgenerator 1107 zum Erzeugen von Steuersignalen zum Steuern eines Abbildungsvorgangs, Abbildungsbedingungen usw., einer Anzeige 1108, die auch als ein Sucher dient, wie bei spielsweise ein EVF (Electronic View Finder), eine Blitzbeleuchtungseinheit 1109 und ein Aufzeichnungsmedium beinhaltet.
Die Subjekterfassungs- oder Subjekterkennungs-Vorrichtung 1111 beinhaltet den visuelle Achse-Detektor 3902, ein optisches Okularsystem 3903 zum Erfassen von visuellen Achsen, und eine Fixierungsregion-Festlegesteuereinrichtung 3901. Das optische Okularsystem 3903 wird hauptsächlich durch ein Okular, einen optischen Teiler, wie beispielsweise einen Halbspiegel, eine Kondensorlinse, und eine Beleuchtungslichtquelle, wie beispielsweise eine infrarotes Licht emittierende Leuchtdiode bzw. LED gebildet. Der visuelle Achse-Detektor 3902 wird hauptsächlich durch einen Spiegel, eine Fokussierscheibe, ein Pentaprisma, einen fotoelektrischen Wandler, und eine Signalverarbeitungseinrichtung gebildet. Visuelle Achse-Positionserfassungssignale werden von der Abbildungsparameter-Messeinheit 1104 ausgegeben.
Der visuelle Achse-Detektor 3902 kann die in Patent Nr. 2505854, Patent Nr. 2763296 oder Patent Nr. 2941847 der Anmelderin oder eine andere, ähnliche Konfiguration verwenden. Die Beschreibung der Konfiguration wird daher weggelassen.
Eine spezifische Prozedur zur Aufmerksamkeitssteuerung wird nun beschrieben. Zunächst extrahier ein Benutzer mittels des visuelle Achse-Detektors 3902 einen Ort oder eine Region, die den Benutzer interessiert, und die Informationen werden in einem primären Speicher gespeichert. Dann wird die Fixierungsregion-Festlegesteuereinrichtung 3901 betätigt, um bevorzugt nach einer Fixierungskandidatenposition oder nach Positionen, die im voraus gespeichert wurden, zu suchen. Die bevorzugte Suche ist ähnlich zu der Festlegung von Fixierungspositionen auf der Grundlage der Rangfolge, wie in Verbindung mit dem achten Ausführungsbeispiel beschrieben wurde. Zum Beispiel werden die Fixierungspositionen in Übereinstimmung mit der Reihenfolge von Positionen, denen der Benutzer Aufmerksamkeit schenkt, festgelegt, und wird für jede Fixierungsposition die Suche in einer benachbarten Region, beschrieben hauptsächlich in dem siebten Ausführungsbeispiel, innerhalb eines vorbe stimmten Zeitbereichs implementiert. Danach werden die Aktualisierung der Position, der der Benutzer Aufmerksamkeit schenkt, und die Suche in einer benachbarten Region aus dem Grund, der noch zu beschreiben ist, abwechselnd wiederholt.
Alternativ können die Signale von dem visuelle Achse-Detektor 3902 in vorbestimmten Zeitintervallen zugeführt werden, während die Fixierungsregion-Festlegesteuereinrichtung 3901 in Betrieb ist, und kann die Suche bevorzugt in den peripheren Bereichen der Positionen, denen der Benutzer Aufmerksamkeit schenkt, und die aus den Signalen erhalten werden, implementiert werden. Um es genauer auszudrücken wird ein Aufmerksamkeitssteuerneuron, das sich am nächsten an der Fixierungsposition in dem Bild befindet, die durch ein Signal von dem visuelle Achse-Detektor 3902 spezifiziert wird, ausgewählt, und wird dieses Steuerneuron aktiviert, oder wird ein Toröffnungssignal an ein Tor bzw. Gatter in einem vorbestimmten Bereich der in 32 gezeigten Torschicht 3201 gesendet, wodurch eine Erkennung oder Erfassung durchgeführt wird, die die Position widerspiegelt, der der Benutzer Aufmerksamkeit schenkt.
Somit werden die Informationen bezüglich der Positionen, auf die der Benutzer blickt, mit den Informationen bezüglich der Fixierungspositionen, die automatisch durch die Fixierungsposition-Festlegesteuerverarbeitung aktualisiert werden, kombiniert, um die Festlegung von Fixierungsregionen aus den folgenden Gründen zu steuern:

1. Die Positionen, auf welche der Benutzer blickt, repräsentieren nicht immer genau ein zu fotografierendes Objekt, oder sind nicht immer nützlich zum Erfassen eines zu fotografierenden Objekts.
2. Das Verwenden der positionellen Informationen bezüglich eines Objekts, das der Benutzer zu fotografieren beabsichtigt, als Hilfsinformationen macht es möglich, einen engeren Suchbereich zu erhalten. Dies erlaubt es, im Vergleich mit dem Fall, in dem nur die Fixierungsposition-Festlegesteuerverarbeitung implementiert ist, eine effizientere Suche zu erreichen, wie in Verbindung mit dem siebten, dem achten und dem neunten Ausführungsbeispiel beschrieben wurde.
3. Es ist einfach, ungeeignete Fixierungspositionen zu erfassen, die durch die Fixierungsregion-Festlegesteuereinrichtung festgelegt wurden.

Folglich wurde eine genaue und rasche Erfassung und Erkennung eines Subjekts unter Verwendung der Ergebnisse der Erfassung der Positionen, auf die der Benutzer blickt, als Unterstützungsinformationen erzielt.
In Übereinstimmung mit den vorstehend beschriebenen Ausführungsbeispielen kann die Festlegesteuerung einer Region, auf die zu blicken ist, mit höherer Effizienz mit einer kleinskaligen Schaltung erzielt werden, ohne durch Merkmale niedriger Ordnung, wie beispielsweise einer Kante, die bei der Erfassung eines Objekts keinerlei Bedeutung hat, abgelenkt zu werden. Die Multi-Auflösungsverarbeitung und der Populationscodierungsmechanismus, die in die Aufmerksamkeitssteuerung integriert, in welcher die von oberen Schichten Rückkoppelungsausmaße empfangen werden, sind involviert. Daher kann auch dann, wenn eine Vielzahl von Objekten, die zu derselben Kategorie gehören, in unterschiedlichen Größen an zufälligen Positionen existieren, eine effiziente Suche unter den mehreren Objekten durch den Mechanismus zum Ausführen einer Rückkoppelungssteuerung unter Verwendung der Erfassungspegel von Merkmalen hoher Ordnung durchgeführt werden.
Impulssignale, welche Merkmalerfassungssignale sind, werden dem Schwellenwertvorgang von gewichteten Lastsummen in Zeitfenstern unterzogen. Dies macht es möglich, zuverlässig und effizient ein gewünschtes Muster auch dann zu erfassen, wenn es eine Vielzahl von zu erfassenden oder zu erkennenden Objekten gibt und die Anordnungsbeziehung zwischen diesen im voraus unbekannt ist, oder auch wenn die Objekte aufgrund von positionellen Änderungen, einer Rotation usw. ihre Größe ändern oder sich verformen, oder eine Mangelhaftigkeit bei dem Erfassen eines Merkmals aufgrund der Einflüsse der Beleuchtung, von Rauschen oder dergleichen unter komplizierten, diversen Bedingungen auftritt. Dieser Vorteil kann ohne die Notwendigkeit des sich Verlassens auf irgendeine bestimmte Netzwerkstruktur erhalten werden.
Das Festlegen und Aktualisieren von Fixierungsregionen kann rasch und zuverlässig durch Kombinieren der Unterstützungsinformationen (beispielsweise der Richtung einer visuellen Achse) von einem Benutzer und der Fixierungsregion-Festlegesteuerverarbeitung erzielt werden.
Die Suche in Fixierungsregionen auf der Grundlage der Erfassungspegel von Merkmalen hoher Ordnung kann mit hoher Effizienz durchgeführt werden, welches eine rasche Erfassung und Erkennung eines zu einer vorbestimmten Kategorie gehörenden Objekts unter Verwendung einer kompakten Systemkonfiguration durchgeführt werden.
Die Fixierungsregionen werden nur für Merkmale niedriger Ordnung oder für Eingangsdaten festgelegt, wodurch die Notwendigkeit der Festlegesteuerung für Merkmale niedriger bis hoher Ordnung umgangen wird, welches im Stand der Technik durchgeführt wurde (das selektive Abstimmverfahren und der in der japanischen geprüften Patentveröffentlichung Nr. 6-34236 offenbarte Stand der Technik). Diese Anordnung führt zu höherer Verarbeitungseffizienz und zu höherer Geschwindigkeit.
Sowohl die Grade des Herausragens von Merkmalen niedriger Ordnung oder dergleichen als auch Rückkopplungssignale werden in einer gemischten Weise verwendet. Diese Anordnung ermöglicht es, eine adaptive Verarbeitung in Übereinstimmung mit einem Erkennungs- oder Erfassungsmodus zu implementieren. Zum Beispiel werden die Informationen bezüglich Mustern, die die Elemente bereitstellen, die ein zu erkennendes Objekt bilden, oder bezüglich lokalen Merkmalanordnungen werden bevorzugt in einem Erkennnungsmodus genutzt, in dem detaillierte Musteranalysen durchgeführt werden, während allgemeine Merkmale (beispielsweise Merkmale hoher Ordnung oder die Rückkoppelungssignale von oberen Schichten) bevorzugt in einem Erfassungsmodus gehandhabt werden, in dem eine einfache Erfassung eines Musters, das zu einer bestimmten Merkmalkategorie gehört, durchgeführt wird.
Die Prioritätsniveaus für Fixierungspositionen werden im voraus ermittelt, und Fixierungspositionen werden auf der Grundlage der Ergebnisse der voreingestellten Prioritätsniveaus gesteuert. Diese Anordnung erlaubt eine extrem prompte Suchsteuerung in Fixierungsregionen.
Die erlaubten Bereiche der Prioritätsniveaus für Fixierungspositionen werden in Übereinstimmung mit der Anzahl von Suchen nach Fixierungspositionen geändert. Daher kann dann, wenn die Suche nach einem zu erkennenden Objekt praktisch an derselben Position wiederholt durchgeführt wird, der erlaubte Bereich von Prioritätsniveaus geändert werden, um den wesentlichen Suchbereich zu ändern.
Auf der Grundlage der Verteilung von Prioritätsniveaus werden die Fixierungspositionen in absteigender Reihenfolge der Prioritätsniveaus festgelegt. Die Größe einer Fixierungsregion wird durch den Verarbeitungskanal gesteuert, zu welchem das auf der Grundlage der Prioritätsniveaus ausgewählt Merkmal gehört, gesteuert. Diese Anordnung macht es möglich, die Fixierungsregion für die Größe eines Objekts auch dann automatisch festzulegen, wenn die Größe des zu erkennenden oder zu erfassenden Objekts im voraus nicht bekannt ist.
Fixierungsregionen werden als aktive Empfangsfelder der Merkmalerfassungselemente, die bei dem Steuern der Festlegung der Fixierungsregionen zu einer Niedrigordnung-Merkmalerfassungsschicht gehören, gehandhabt. Dies ermöglicht es, Fixierungsregionen ohne die Notwendigkeit des Bereitstellens irgend welcher speziellen Torelemente zum Festlegen von Fixierungsregionen festzulegen.
Eine Vielzahl von Merkmalen werden für jede(s) von einer Vielzahl von Auflösungen oder Skalenniveaus extrahiert, wodurch eine hoch effiziente Suche nach Objekten beliebiger Größe erlaubt wird.
Die Priorität wird den Rückkoppelungseingaben von oberen Schichten gegeben, wenn nach einem Objekt gesucht wird, während die Priorität den Rückkoppelungseingaben von Zwischenschichten gegeben wird, wenn das vorstehende Objekt erkannt wird. Somit kann die Suche auf der Grundlage von Merkmalen hoher Ordnung oder allgemeinen Merkmalen eines Musters durchgeführt werden, wenn nur die Erfassung eines Objekts, das zu einer vorbestimmten Kategorie gehört, durchgeführt wird. Eine detaillierte Verarbeitung basierend auf mittleren Merkmalen, einschließlich der Informationen bezüglich eines Musters, das einen Teil eines gesamten Objekts bildet, oder der Informationen bezüglich einer Anordnungsbeziehung von Merkmalen, kann durchgeführt werden, wenn ein Objekt zu unterscheiden ist oder unter ähnlichen Objekten zu erkennen ist.
Falls ein vorbestimmter Grad der Aufmerksamkeit hoch ist, wird die zeitliche Variation der Position der Mitte einer Fixierungsregion verringert. Daher wird die Fluktuation einer Fixierungsposition während einer visuellen Suche variabel gemacht, um eine höhere Effizienz der Suche auf der Grundlage des Blickgrads und eine verkürzte Suchzeit zu realisieren.
Die Größen von Fixierungsregionen werden auf der Grundlage von erfassten Skalenniveaus von Mustern festgelegt, die zu der Kategorie eines zu erkennenden Objekts gehören. Mit dieser Anordnung kann auch dann, wenn die Größe eines Objekts im voraus nicht bekannt ist, eine im voraus durch einen Verarbeitungskanal zugeordnete Größe als eine angenommene Größe verwendet werden, wodurch eine hoch effiziente Festlegung einer Fixierungsregionsgröße erlaubt wird.
Ein Grad der Aufmerksamkeit wird als eine monotone Anstiegsfunktion der Amplitude eines Rückkoppelungssignals von einer oberen Schicht definiert. Somit wird ein höherer Erfassungspegel eines Merkmals hoher Ordnung als ein höherer Grad der Aufmerksamkeit betrachtet, und kann eine automatische Verarbei tung auf der Grundlage des Merkmals hoher Ordnung durchgeführt werden.
Das Durchführen einer Betriebsablaufsteuerung auf der Grundlage der Ausgangssignale der vorgenannten Mustererkennungsvorrichtung erlaubt es, die Eingabe eines Bildes eines bestimmten Subjekts prompt in einer beliebigen Entfernung zu dem Subjekt bei reduziertem Leistungsverbrauch zu erzielen. Eine derartige Bildeingabeausrüstung beinhaltet eine Fotografiervorrichtung für Standbilder, animierte Bilder, dreidimensionale Bilder, usw., ein Kopiergerät, ein Telefaxgerät, einen Drucker, und andere Arten von Ausrüstungen, die eine Bildeingabeeinheit integrieren.
Es kann mit hoher Effizienz nach einem zu fotografierenden Objekt gesucht werden, und ein optimales automatisches Fotografieren für das erfasste Objekt kann durch Festlegen einer Fixierungsregion, die ein vorbestimmtes Erfordernis erfüllt, und durch Ausführen eines Steuerung zum Optimieren von fotografischen Bedingungen zentrierend um die festgelegte Fixierungsregion kann implementiert werden.
Das Aktualisieren oder Festlegen einer Fixierungsregion auf der Grundlage der Unterstützungsinformationen, wie beispielsweise eine erfasste visuelle Achse, eines Benutzers erlaubt es, das Festlegen einer Fixierungsregion prompt und rasch zu steuern, um rasch ein vorbestimmtes Muster zu erfassen.

Claims

Mustererfassungsvorrichtung, umfassend: eine Eingangseinrichtung (101) zum Zuführen eines Eingangssignals; und eine Mustererfassungseonrichtung (102, 103), die eine Vielzahl von Signalverarbeitungselementen (104, 106) zum Erfassen eines vorbestimmten Musters innerhalb des Eingangssignals durch Erfassen einer Vielzahl von vorbestimmten Merkmalen des Musters umfasst; wobei jedes der Vielzahl von Signalverarbeitungselementen (104, 106) dazu betreibbar ist, in Antwort auf das Eingangssignal von der Eingangseinrichtung oder von einem anderen Signalverarbeitungselement (104, 106) ein Impulssignal an ein anderes Signalverarbeitungselement (104, 106) oder als ein Antwortsignal auszugeben; wobei vorbestimmte eine der Vielzahl von Signalverarbeitungselementen (104, 106) dazu betreibbar sind, ihre jeweiligen Impulssignale mit einer jeweiligen vorbestimmten Verzögerung relativ zu einer Zeitpunktreferenz auf eine einzelne gemeinsame Busleitung (203) auszugeben; und wobei zumindest eines der Signalverarbeitungselemente (104, 106) dazu betreibbar ist, die Impulse von der einzelnen gemeinsamen Busleitung (203) zu empfangen, und dazu betreibbar ist, die Impulse von den jeweiligen Signalverarbeitungselementen (104, 106) durch Ermitteln der Ankunftszeit jedes Impulses relativ zu der Zeitreferenz zu identifizieren.
Mustererfassungsvorrichtung nach Anspruch 1, bei der die Vielzahl von Signalverarbeitungselementen (104, 106) umfasst: ein Merkmalerfassungselement (104; 602), das zu einer Merkmalerfassungsschicht (102) zum Extrahieren eines vorbe stimmten Merkmals gehört, und ein Merkmalintegrationselement (106; 601), das zu einer Merkmalintegrationsschicht (103) zum Integrieren von Ausgaben von der Merkmalerfassungsschicht (102) in Übereinstimmung mit einem vorbestimmten Verfahren und zum Ausgeben eines Ergebnisses der Integration, und wobei die vorbestimmten einen unter der Vielzahl von Signalverarbeitungselementen (104, 106) Merkmalerfassungselemente (104; 602) sind, die Eingaben von einer Vielzahl der Merkmalintegrationselemente (106; 601) empfangen.
Mustererfassungsvorrichtung nach Anspruch 2, bei der das Merkmalerfassungselement (104; 602) dazu betreibbar ist, ein Impulssignal mit einem Ausgangspegel basierend auf dem Grad des Hervorspringens oder der Anordnung der Merkmale auszugeben.
Mustererfassungsvorrichtung nach Anspruch 2, bei der das Merkmalintegrationselement (106; 601) dazu betreibbar ist, in einem vorbestimmten Zeitbereich ein Impulssignal mit einem Ausgangspegel basierend auf einer Gesamtsumme von Eingaben von der Vielzahl von Merkmalerfassungselementen (104; 602), die einem identischen Merkmal zugehörig sind, auszugeben.
Mustererfassungsvorrichtung nach Anspruch 2, bei der eine Vielzahl von Merkmalerfassungsschichten (102) und Merkmalintegrationsschichten (103) abwechselnd in einer Kaskade verbunden sind.
Mustererfassungsvorrichtung nach Anspruch 5, bei der jedes der Merkmalintegrationselemente (106; 601) der Merkmalintegrationsschichten (103) eine lokalrezeptive Feldstruktur aufweist zum Empfangen der Signale von einer Vielzahl von Merkmalerfassungselementen (104; 602), welche in einem lokalen Bereich in einer Merkmalerfassungsschicht (102) einer vorangehenden Stufe existieren und welche dazu betreibbar sind, individuell ein identisches Merkmal zu erfassen.
Mustererfassungsvorrichtung nach Anspruch 5, bei der Merkmalerfassungselemente (102) der Merkmalerfassungsschicht (104; 602) dazu betreibbar sind, Signale von Merkmalintegrationselementen (106; 601) zu empfangen, die unterschiedlichen Merkmalen in einer Merkmalintegrationsschicht (103) in der vorangehenden Stufe zugehörig sind, um ein Merkmal höherer Ordnung zu erfassen.
Mustererfassungsvorrichtung nach Anspruch 5, bei der zumindest einige der Merkmalerfassungsschichten (102) eine Vielzahl von Filtern zum Durchführen einer lokalen räumlichen Frequenzanalyse mit Bezug zu einer Komponente in einer vorbestimmten Richtung umfassen.
Mustererfassungsvorrichtung nach Anspruch 6, bei der die Vielzahl von Merkmalerfassungselementen (104; 602), die in demselben rezeptiven Feld der Merkmalintegrationselemente (106; 601) existieren, dazu betreibbar sind, Impulse in Phasensynchronisation miteinander für ein vorbestimmtes Muster auszugeben.
Mustererfassungsvorrichtung nach Anspruch 2, bei der Merkmalerfassungselemente (104; 602) dazu betreibbar sind, durch Ermitteln, ob ein Impuls in einem vorbestimmten Zeitfensterbereich, der dem Impuls in einem Ankunftszeitmuster der Vielzahl von Impulsen innewohnt, vorhanden ist, das Vorhandensein eines vorbestimmten zugehörigen Merkmals zu erfassen.
Mustererfassungsvorrichtung nach Anspruch 2, bei der die Merkmalerfassungsschicht (102) Zeitgeberelemente (603) umfasst, die den Merkmalerfassungselementen (602) in der Schicht zugehörig sind, und die Zeitgeberelemente (603) dazu betreibbar sind, Impulse bei vorbestimmten Impulsintervallen auszugeben, um Signale der Phasensynchronisation für Merkmalerfassungselemente (602) auf der Grundlage der Ausgabe aus den Merkmalintegrationselementen (601) auf demselben rezepti ven Feld (105) einer Schicht in der vorangehenden Stufe auszugeben.
Mustererfassungsvorrichtung nach Anspruch 11, bei der die Zeitgeberelemente (603) dazu betreibbar sind, vorbestimmte Zeitgeberimpulse an einige Merkmalerfassungselemente (602) in der die Zeitgeberelemente (603) umfassenden Merkmalerfassungsschicht, und an Merkmalintegrationselemente (601) in der Merkmalintegrationsschicht in der vorangehenden Stufe, die in demselben rezeptiven Feld (105) des Merkmalerfassungselements (602) existiert, auszugeben.
Mustererfassungsvorrichtung nach Anspruch 2, bei der jedes Merkmalerfassungselement (104; 602) in der Merkmalerfassungsschicht (102) dazu betreibbar ist, ein Impulssignal mit einer Phase basierend auf einem dadurch zu erfassenden Merkmal auszugeben.
Mustererfassungsvorrichtung nach Anspruch 2, umfassend eine Vielzahl der Merkmalerfassungsschichten (102) und der Merkmalintegrationsschichten (103), wobei ein Signalverarbeitungselement der letzten Schicht dazu betreibbar ist, ein Signal auszugeben, das ein Ergebnis der Erfassung des vorangehenden Musters repräsentiert.
Mustererfassungsvorrichtung nach Anspruch 1, bei der die Vielzahl von Signalverarbeitungselementen (102, 103) über das Mittel einer Verbindungseinrichtung (202) verbunden sind, und bei der die Verbindungseinrichtung (202) dazu betreibbar ist, eine vorbestimmte Modulation auf ein Ausgangsimpulssignal eines der Signalverarbeitungselemente (102; 103) auszuführen und das modulierte Ausgangsimpulssignal an die anderen der Signalverarbeitungselemente (102, 103) zu übertragen.
Mustererfassungsvorrichtung nach Anspruch 15, bei der die Verbindungseinrichtung (202) dazu betreibbar ist, die Modulation durch Verzögern einer Impulsphase auszuführen.
Mustererfassungsvorrichtung nach Anspruch 16, bei der die Verbindungseinrichtung (202) dazu betreibbar ist, das Verzögerungsausmaß der Impulsphase zu verringern, wenn die Anzahl von Ereignissen mit Eingangsimpulsen, die Muster derselben Kategorie repräsentieren, zunimmt.
Mustererfassungsvorrichtung nach Anspruch 16, bei der das Verzögerungsausmaß der Impulsphase unabhängig von der Art eines Merkmals im Wesentlichen konstant bleibt.
Mustererfassungsvorrichtung nach Anspruch 15, bei der die Modulation eine Impulsbreitenmodulation oder eine Frequenzmodulation ist.
Mustererfassungsvorrichtung nach Anspruch 1, bei der die vorbestimmten einen unter der Vielzahl von Signalverarbeitungselementen (102, 103) dazu betreibbar sind, Impulssignale mit Ausgangspegeln basierend auf der gewichteten Summe auszugeben, die durch Multiplizieren einer Vielzahl von innerhalb dem vorbestimmten Zeitbereich empfangenen Impulssignale mit vorbestimmten Gewichtungskoeffizientenwerten, welche sich temporär ändern, und Addierer. der Ergebnisse erhalten wurde.
Mustererfassungsvorrichtung nach Anspruch 1, bei der der Ausgangspegel auf der Phase, der Frequenz, der Amplitude oder der Impulsbreite des Impulssignals beruht.
Mustererfassungsvorrichtung nach Anspruch 2, ferner umfassend eine Merkmalpositionserfassungsschicht (102), die dazu betreibbar ist, eine Ausgabe von der Merkmalintegrationsschicht (103) zu empfangen und Informationen bezüglich der Position, an der ein vorbestimmtes Merkmal oder Muster existiert, auszugeben.
Mustererfassungsvorrichtung nach Anspruch 22, bei der die Anzahl von Merkmalpositionserfassungsschichten (102) kleiner ist als die der Merkmalintegrationsschichten (103), und bei der die Merkmalpositionserfassungsschichten (102) je weils mit vorbestimmten Abschnitten der Merkmalintegrationsschichten (103) verbunden sind.
Mustererfassungsvorrichtung nach Anspruch 1, bei der: die Mustererfassungseinrichtung (102, 103) eine Vielzahl von Verarbeitungsschichten aufweist, die aus einer Vielzahl von Neuronenelementen (201) bestehen, die als die Signalverarbeitungselemente (102, 103) parallel angeordnet sind, wobei die Neuronenelemente (201) dazu betreibbar sind, eine Vielzahl von Signalen zu empfangen und Impulssignale auszugeben, die von einer Vielzahl von Neuronenelementen (201) einer anderen Schicht an zumindest eines der Neuronenelemente (201) einer vorbestimmten einen der Verarbeitungsschichten ausgegebenen Impulssignale über das Mittel einer Busleitung (203), die synaptischen Verbindungseinrichtungen (202), die für jedes der Vielzahl von Neuronenelementen (201) bereitgestellt sind, gemeinsam ist, und der Vielzahl von Neuronenelementen (201) zugeführt werden, und die synaptischen Verbindungseinrichtungen (202) dazu betreibbar sind, den von der Vielzahl von Neuronenelementen (201) ausgegebenen Impulssignalen ein bestimmtes Impulsphasen-Verschiebeausmaß zu verleihen.
Mustererfassungsvorrichtung nach Anspruch 1, bei der: die Mustererfassungseinrichtung (102, 103) aufweist eine Vielzahl von Verarbeitungseinrichtungen (1501, 1502) zum Implementieren einer Verarbeitung für unterschiedliche Auflösungen oder Maßstabpegel für von der Eingangseinrichtung empfangene Muster; und eine Multiplex-Verarbeitungseinrichtung (1503) zum Koppeln der Ausgaben der Vielzahl von Verarbeitungseinrichtungen (1501, 1502), wobei jede der Vielzahl von Verarbeitungseinrichtungen (1501, 1502) eine Vielzahl von Merkmalerfassungselementen (104) als die Signalverarbeitungselemente (102, 103) umfasst, die dazu betreibbar sind, eine Vielzahl von Merkmalen zu erfassen und auszugeben, die einzelnen Punkten zugehörig sind, die durch Abtasten der Eingangsdaten in Übereinstimmung mit einem vorbestimmten Verfahren erhalten wurden, und wobei die Multiplex-Verarbeitungseinrichtung (1503) dazu betreibbar ist, die Ausgaben der Vielzahl von Merkmalerfassungselementen (104) zu koppeln.
Mustererfassungsvorrichtung nach Anspruch 25, bei der die Vielzahl von Verarbeitungseinrichtungen (1501, 1502) dazu angeordnet sind, eine hierarchische Netzwerkstruktur zu bilden, und bei der die Multiplex-Verarbeitungseinrichtung (1503) dazu betreibbar ist, für eine Vielzahl von Auflösungen oder Maßstabspegeln eine Auflösung oder einen Maßstabspegel auszuwählen, oder eine Einstellung vorzunehmen zum Koppeln verarbeiteter Ausgaben einer Vielzahl von Auflösungen oder Maßstabspegeln, auf der Grundlage einer vorbestimmten Vielzahl von Ausgaben unter den Ausgaben der Merkmalerfassungselemente (104), die den Verarbeitungsergebnissen in jeweiligen Zwischenhierarchien der Verarbeitungseinrichtungen (1501, 1502) entsprechen.
Mustererfassungsvorrichtung nach Anspruch 26, bei der die Multiplex-Verarbeitungseinrichtung (1503) dazu betreibbar ist, eine Auflösung oder einen Maßstabpegel auszuwählen, der eine maximale Antwortausgabe unter den Verarbeitungsergebnissen angibt, die bei einer vorbestimmten Zwischenhierarchie der Vielzahl von Verarbeitungseinrichtungen (1501, 1502) für unterschiedliche Auflösungen oder Maßstabspegel erhalten wurde.
Mustererfassungsvorrichtung nach Anspruch 26, bei der die Multiplex-Verarbeitungseinrichtung (1503) dazu betreibbar ist, eine Auflösung oder einen Maßstabspegel durch Koppeln einer vorbestimmten Vielzahl von Ergebnissen unter den Verarbeitungsergebnissen, die bei den Zwischenhierarchien der Vielzahl von Verarbeitungseinrichtungen für unterschiedliche Auflösungen oder Maßstabspegel erhalten wurden, auszuwählen.
Mustererfassungsvorrichtung nach Anspruch 25, bei der jede der Vielzahl von Verarbeitungseinrichtungen (1501, 1502) eine Vielzahl von hierarchischen Verarbeitungsschichten umfasst, und die Multiplex-Verarbeitungseinrichtung (1503) dazu betreibbar ist, auf Zwischenverarbeitungsergebnisse bei Verarbeitungsschichten unterschiedlicher hierarchischer Ebenen Bezug zu nehmen, um dadurch eine Auflösung oder einen Maßstabspegel auszuwählen.
Mustererfassungsvorrichtung nach Anspruch 28, bei der jede der Vielzahl von Verarbeitungseinrichtungen (1501, 1502) eine Vielzahl von hierarchischen Verarbeitungsschichten umfasst, und die Multiplex-Verarbeitungseinrichtung (1503) dazu betreibbar ist, auf unterschiedliche Auflösungen oder Maßstabspegel für die Werte Bezug zu nehmen, die durch Koppeln der Verarbeitungsergebnisse unterschiedlicher Berechnungselemente bei demselben hierarchischen Niveau der Verarbeitungseinrichtungen (1501, 1502) erhalten wurden, und eine Ausgabe mit Bezug zu einer vorbestimmten Auflösung oder einem vorbestimmten Maßstabspegel bereitzustellen.
Mustererfassungsvorrichtung nach Anspruch 25, bei der jede der Vielzahl von Verarbeitungseinrichtungen (1501, 1502) Merkmalerfassungsschichten (102) zum Erfassen von Merkmalen bei unterschiedlichen Auflösungen oder Maßstabspegeln auf jeder von einer vorbestimmten Vielzahl von Merkmalskategorien umfasst.
Mustererfassungsvorrichtung nach Anspruch 31, bei der die Multiplex-Verarbeitungseinrichtung (1503) für jedes Merkmalerfassungselement (104) der Merkmalerfassungsschicht bereitgestellt ist.
Mustererfassungsvorrichtung nach Anspruch 31, bei der die Merkmalerkennungsschicht (102) dazu betreibbar ist, lokal eine räumliche Filterung für unterschiedliche räumliche Frequenzen durchzuführen.
Mustererfassungsvorrichtung nach Anspruch 31, bei der jedes Merkmalerfassungselement (104) der Merkmalerfassungsschicht (102) dazu betreibbar ist, eine Vielzahl von Merkmalen bei unterschiedlichen Auflösungen oder Maßstabspegeln in einer lokalen, identischen Region von Eingangsdaten zu erfassen.
Mustererfassungsvorrichtung nach Anspruch 31, bei der die einzelnen Merkmalerfassungselemente (104) der Merkmalerfassungsschicht (102) eine Selektivität auf eine Vielzahl von unterschiedlichen Auflösungen oder Maßstabspegeln auf derselben geometrischen Merkmalskategorie haben, wobei sich die Selektivität derselben überlappt.
Mustererfassungsvorrichtung nach Anspruch 31, bei der die Merkmalerfassungsschicht (102) eine Vielzahl von Berechnungselementen beinhaltet mit Empfindlichkeitsmerkmalen, die durch eine Basisfunktion angenähert werden, die lokal unterschiedliche gerichtete Selektivitäten bei unterschiedlichen Auflösungen oder Maßstabspegeln für eine zu erfassende Merkmalkategorie aufweist.
Mustererfassungsvorrichtung nach Anspruch 2, bei der die Merkmalerfassungsschicht (102) dazu betreibbar ist, eine Vielzahl von Merkmalen für eine Vielzahl von Auflösungen oder Maßstabspegeln für ein von der Eingangseinrichtung empfangenes Muster zu erfassen.
Mustererfassungsvorrichtung nach Anspruch 37, bei der das Merkmalintegrationselement (106) ein Element (1501) zum Unterabtasten von Merkmaldaten in einer lokalen rezeptiven Feldregion und ein Populationscodierelement (1502) zum Integrieren der Ausgaben der Unterabtastelemente, die sich über eine Vielzahl von Auflösungen oder Maßstabspegel erstrecken, umfasst.
Mustererfassungsvorrichtung nach Anspruch 37, bei der die Merkmalerfassungsschicht (102) umfasst: ein Merkmalerfassungselement (104), das dazu betreibbar ist, eine Vielzahl von Merkmalen unterschiedlicher Auflösungen oder Maßstabspegel nur auf Merkmalen niedriger Ordnung zu erfassen und die Ausgaben der den Merkmalen zugehörigen Erfassungsimpulssignale auf der Grundlage der Auflösungen oder Maßstabspegel so umzuwandeln, dass die Ausgaben mit in der Richtung einer Zeitbasis unterschiedlichen Phasen bereitgestellt werden; und ein Maßstabumwandlungs-Merkmalextraktionselement (2101, 2102), das dazu betreibbar ist, die Phasen der Ausgangssignale aus dem Element umzuwandeln, um dadurch Merkmalerfassungssignale zu erhalten, die gegenüber Auflösungen oder Maßstabspegeln unveränderlich bleiben.
Mustererfassungsvorrichtung nach Anspruch 25, bei der die Verarbeitungseinrichtung (1501, 1502) ferner eine Steuereinrichtung (1802) umfasst, die dazu betreibbar ist, die Vielzahl der Ausgaben der Merkmalerfassungselemente (104) der Vielzahl von Verarbeitungselementen (1501, 1502) bei unterschiedlichen Auflösungen oder Maßstabspegeln zu integrieren, um eine Steuerung mit Bezug zu Auflösungen oder Maßstabspegeln auszuführen.
Mustererfassungsvorrichtung nach Anspruch 40, bei der die Steuereinrichtung (1802) dazu betreibbar ist, die Festlegung einer vorbestimmten Auflösung oder eines vorbestimmten Maßstabspegels zu steuern.
Mustererfassungsvorrichtung nach Anspruch 40, bei der die Steuereinrichtung (1802) dazu betreibbar ist, den Aktivierungsgrad des Merkmalerfassungselements auf der Grundlage einer Auflösung oder eines Maßstabspegels zu steuern.
Mustererfassungsvorrichtung nach Anspruch 40, bei der die Steuereinrichtung (1802) dazu betreibbar ist, ein Signal einer vorbestimmten Auflösung oder eines vorbestimmten Maßstabs in ein Signal einer anderen Auflösung oder eines anderen Maßstabs in Übereinstimmung mit einem vorbestimmten Ver fahren umzuwandeln oder zu kopieren, und das resultierende Signal in einer Lernbetriebsart zu verteilen.
Mustererfassungsvorrichtung nach Anspruch 25, bei der die Vielzahl von Verarbeitungseinrichtungen (1501, 1502) eine Vielzahl von Kanälen umfasst, die dazu betreibbar sind, individuell eine Verarbeitung bei unterschiedlichen Maßstabspegeln oder Auflösungen durch Verwenden von Gruppen von Neuronen mit hierarchischen Strukturen zu implementieren, und bei der die Multiplex-Einrichtung (1503) eine Gruppe von Populationscodierungsneuronen (1502) umfasst, die dazu betreibbar sind, Ausgaben einer Vielzahl von Kanälen zu integrieren.
Mustererfassungsvorrichtung nach Anspruch 44, bei der ein optimaler Maßstabspegel oder eine optimale Auflösung auf der Grundlage der Verarbeitungsergebnisse der Gruppe von Populationscodierungsneuronen (1502) festgelegt wird.
Mustererfassungsvorrichtung nach Anspruch 44, bei der die Gruppen von Neuronen mit den hierarchischen Strukturen Gruppen von Unterabtastneuronen (1501) umfassen, die dazu betreibbar sind, eine Unterabtastung für jede Kategorie durchzuführen.
Mustererfassungsvorrichtung nach Anspruch 1, bei der die Mustererfassungseonrichtung (102, 103) umfasst: eine Vielzahl von Mustererfassungselementen (104) in einer Vielzahl von Hierarchien zum Erfassen einer Vielzahl von Merkmalen in Entsprechung zu Punkten, die durch Abtasten der von der Eingangseinrichtung empfangenen Muster in Übereinstimmung mit einem vorbestimmten Verfahren erhalten wurden, und eine Fixierungsregionfestlegungs-Steuereinrichtung (3001) zum Steuern der Festlegung einer Fixierungsregion, die einer Ausgabe einer unteren Schicht der Vielzahl von Hierarchien zugehörig ist, auf der Grundlage der Verteilungen von Rückführsignalen von einer oberen Schicht der Vielzahl von Hierarchien.
Mustererfassungsvorrichtung nach Anspruch 47, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, eine Festlegungsposition oder Größe einer Fixierungsregion zu aktualisieren.
Mustererfassungsvorrichtung nach Anspruch 47, bei der: die Mustererfassungseirrichtung (102, 103) Hervorsprungpegel-Erfassungselemente (2901) zum Erfassen des Hervorspringens von Merkmalen und eine Kopplungseinrichtung zum Koppeln der Hervorsprungpegel-Erfassungselemente (2901) und Übertragungssignalen umfasst, und eine Vielzahl von Elementschichten (108) für Merkmale niedriger Ordnung bis hoher Ordnung bildet; die Mustererfassungsvorrichtung ferner eine Rückführverbindungseinrichtung zum Übertragen von Signalen von einer Elementschicht (108) für ein Merkmal hoher Ordnung zu einer Elementschicht (108) für ein Merkmal einer niedrigeren Ordnung umfasst; und die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, die Festlegung einer Fixierungsregion für Merkmaldaten niedriger Ordnung oder Eingangsdaten auf der Grundlage des Merkmalhervorsprungspegels und eines Signalübertragungsausmaßes, erhalten durch die Rückführverbindungseinrichtung, zu steuern.
Mustererfassungsvorrichtung nach Anspruch 49, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) umfasst: eine Prioritätspegel-Berechnungseinrichtung (3401) zum Ermitteln des Prioritätspegels einer Fixierungsposition bei Abtastpunkten jedes Elements von Eingangsdaten auf der Grundlage eines von der Rückführverbindungseinrichtung empfangenen Signalübertragungsausmaßes und des Hervorsprungpegels eines Merkmals niederer Ordnung; und eine Fixierungspositions-Festlegeeinrichtung zum Festlegen von Fixierungspositionen in einer absteigenden Reihenfolge von Prioritätspegeln auf der Grundlage einer Verteilung von Prioritätspegeln.
Mustererfassungsvorrichtung nach Anspruch 50, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) umfasst: eine Zähleinrichtung zum Zählen der Anzahl von Suchen nach Fixierungspositionen; und eine Steuereinrichtung zum Steuern eines zulässigen Bereichs von Prioritätspegeln, wobei Fixierungspositionen durch die Fixierungsposition-Festlegeeinrichtung auf der Grundlage der Anzahl von Suchen nach Fixierungspositionen festgelegt werden können.
Mustererfassungsvorrichtung nach Anspruch 50, bei der die Erfassungseinrichtung eine Vielzahl von Verarbeitungskanälen umfasst, die einer Vielzahl von Maßstabspegeln oder Auflösungen zugeordnet sind; und bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, die Größe einer Fixierungsregion auf der Grundlage des Verarbeitungskanals zu steuern, zu welchem ein auf der Grundlage des Prioritätspegels ausgewähltes Merkmal gehört.
Mustererfassungsvorrichtung nach Anspruch 49, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, die Festlegung einer Fixierungsregion als ein aktives rezeptives Feld eines Merkmalerfassungselements (104), das zu einer Merkmalerfassungsschicht (102) einer niedrigen Ordnung gehört, zu steuern.
Mustererfassungsvorrichtung nach Anspruch 49, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, eine Rückführverbindung von einer oberen Schicht, die Informationen bezüglich der Position eines Objekts, das zu der zu erkennenden Kategorie gehört, und bezüg lich einer Wahrscheinlichkeit der Existenz ausgibt, und eine Rückführverbindung von einer Zwischenschicht, die Informationen bezüglich der Position eines Merkmals mittlerer Ordnung eines Objekts einer zu erkennenden Kategorie und bezüglich einer Wahrscheinlichkeit der Existenz ausgibt, zu empfangen, und dazu betreibbar ist, einer Rückführeingabe von der oberen Schicht, wenn nach dem Objekt gesucht wird, oder einer Rückführeingabe von der der Zwischenschicht, wenn das Objekt erkannt wird, Priorität zu geben.
Mustererfassungsvorrichtung nach Anspruch 49, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, eine zeitliche Änderung in der zentralen Position einer Fixierungsregion zu verringern, wenn ein vorbestimmter Blickgrad hoch ist.
Mustererfassungsvorrichtung nach Anspruch 54, bei der der Grad der Aufmerksamkeit einen monotonen Anstiegsfunktionswert eines Rückführsignalpegels von der oberen Schicht annimmt.
Mustererfassungsvorrichtung nach Anspruch 2, ferner umfassend: eine Rückführverbindungseinrichtung zum Übertragen von Signalen von einer oberen Schicht zu einer unteren Schicht in einer hierarchischen Netzwerkstruktur, die die Merkmalerfassungsschichten (102) und die Merkmalintegrationsschichten (103) kombiniert; und die Fixierungsregionfestlegungs-Steuereinrichtung (3001) ist dazu betreibbar, Steuersignale mit Bezug zu einer Fixierungsregion auf der Grundlage eines Signals von der Rückführverbindungseinrichtung und dem Hervorsprungpegel eines Merkmals auszugeben, wobei die Merkmalerfassungsschicht (102) dazu betreibbar ist, eine Vielzahl von Merkmalen für jede(n) von einer Vielzahl von Auflösungen oder Maßstabspegeln zu extrahieren, und wobei die Merkmalerfassungsschicht (102) oder die Merkmalintegrationsschicht (103) ein Hervorsprungerfassungsele ment (2901) zum Erfassen des Hervorspringens eines Merkmals umfasst.
Mustererfassungsvorrichtung nach Anspruch 57, bei der die Fixierungsregionfestlegungs-Steuereinrichtung (3001) dazu betreibbar ist, die Größe einer Fixierungsregion auf der Grundlage eines erfassten Maßstabspegels festzulegen, der dem Muster zugehörig ist, das zu einer zu erkennenden Kategorie gehört.
Bildgebungsvorrichtung, umfassend: eine Fixierungsregion-Festlegungseinrichtung (1107) zum Festlegen einer Fixierungsregion; eine Ermittlungseinrichtung (1104, 1107) zum Ermitteln fotografischer Bedingungen auf der Grundlage einer durch die Fixierungsregion-Festlegungseinrichtung (1107) festgelegten Fixierungsregion; und eine Speichereinrichtung zum Speichern von Modelldaten bezüglich eines zu fotografierenden Objekts; und die Mustererfassungsvorrichtung (1111) nach Anspruch 48; wobei die Fixierungsregionfestlegungs-Steuereinrichtung (3901) der Mustererfassungsvorrichtung (1111) dazu betreibbar ist, die Fixierungsregion-Festlegungseinrichtung (1107) so zu steuern, dass eine Fixierungsregion sequentiell aktualisiert wird, um nach einer Fixierungsregion zu suchen, die eine vorbestimmte Anforderung bezüglich der Modelldaten erfüllt, und um dadurch die Fixierungsregion festzulegen.
Bildgebungsvorrichtung nach Anspruch 59, ferner umfassend eine Initialisierungseinrichtung (1107) zum Initialisieren einer Fixierungsregion in einem Fotografiebereitschaftszustand.
Bildgebungsvorrichtung nach Anspruch 59, ferner umfassend eine Anzeigeeinrichtung (1108) zum Anzeigen eines zu fotografierenden Objekts, das mit einer durch die Fixierungsregion-Festlegungseinrichtung (3902) festgelegten Fixierungsregion verknüpft ist.
Bildgebungsvorrichtung nach Anspruch 59, ferner umfassend eine Erfassungseinrichtung zum Erfassen eines Verschlussansteuersignals, wobei die Fixierungsregion-Festlegungseinrichtung (1107) dazu betreibbar ist, eine Suche nach einer Fixierungsregion wieder aufzunehmen, falls durch die Erfassungseinrichtung innerhalb einer vorbestimmten Zeit, nachdem eine Fixierungsregion festgelegt ist, kein Verschlussansteuersignal erfasst wird.
Bildgebungsvorrichtung, umfassend: eine Fixierungsregion-Festlegungseinrichtung (1107) zum Festlegen einer Fixierungsregion; eine Ermittlungseinrichtung (1104, 1107) zum Ermitteln von Fotografierbedingungen auf der Grundlage einer durch die Fixierungsregion-Festlegungseinrichtung festgelegten Fixierungsregion; eine Fixierungsposition-Erfassungseinrichtung (3902) zum Erfassen einer Fixierungsposition auf der Grundlage einer visuellen Achse eines Benutzers; und die Mustererfassungsvorrichtung (1111) nach Anspruch 48; wobei die Fixierungsregionfestlegungs-Steuereinrichtung der Mustererfassungsvorrichtung (1111) dazu betreibbar ist, die Fixierungsregion-Festlegungseinrichtung (1107) zum Suchen nach und Festlegen einer Fixierungsregion auf der Grundlage der Fixierungsposition zu steuern.
Bildgebungsvorrichtung nach Anspruch 63, bei der die Fixierungsregion-Festlegungseinrichtung (1107) dazu betreibbar ist, eine Nachbarschaft der Fixierungsposition zu untersuchen.
Bildverarbeitungsvorrichtung, ausgelegt zum Steuern eines Betriebsablaufs zum Verarbeiten eines Bilds, wobei die Bildverarbeitungsvorrichtung die Mustererkennungsvorrichtung nach einem der Ansprüche 1 bis 58 umfasst, und wobei die Bildverarbeitungsvorrichtung dazu betreibbar ist, den Betriebsablauf zum Verarbeiten eines Bilds in Abhängigkeit von einem vorbestimmten Muster zu steuern, das innerhalb des Bilds durch die Mustererfassungsvorrichtung erfasst wurde.
Computer-Implementiertes Mustererfassungsverfahren, umfassend die Schritte: Empfangen eines Eingangssignals von einem Eingangsabschnitt; und Unterziehen des empfangenen Eingangssignals einer Erfassung einer vorbestimmten Vielzahl von Merkmalen, um dadurch ein in dem Eingangssignal enthaltenes, vorbestimmtes Muster durch Verwenden einer Vielzahl von Signalverarbeitungselementen zu erfassen, wobei der Schritt des Unterziehens des empfangenen Eingangssignals einer Erfassung den Schritt des Ausgebens, von einem Signalverarbeitungselement, eines Impulssignals an ein anderes Signalverarbeitungselement oder als ein Ausgangssignal in Antwort auf das Eingangssignal von dem Eingangsabschnitt oder von einem anderen Signalverarbeitungselement beinhaltet, gekennzeichnet durch: Ausgeben von Impulssignalen aus vorbestimmten einen der Vielzahl von Signalverarbeitungselementen mit einer jeweiligen vorbestimmten Verzögerung bezüglich zu einer Zeitpunktreferenz auf eine einzelne gemeinsame Busleitung; und Empfangen der Impulse von der einzelnen gemeinsamen Busleitung bei zumindest einem der Signalverarbeitungselemente; und Identifizieren der Impulse von den jeweiligen Signalverarbeitungselementen durch Ermitteln der Ankunftszeit jedes Impulses bezüglich der Zeitpunktreferenz.