DE602004006190T2

DE602004006190T2 - Vorrichtung, Verfahren und Programm zur Gestenerkennung

Info

Publication number: DE602004006190T2
Application number: DE602004006190T
Authority: DE
Inventors: Nobuo c/o K.K. Honda Gijutsu Kenkyus Higaki; Takamichi c/o K.K.Honda Gijutsu Kenk Shimada
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2003-03-31
Filing date: 2004-03-19
Publication date: 2007-12-27
Also published as: US7593552B2; DE602004006190T8; US20040190776A1; EP1477924A2; EP1477924A3; DE602004006190D1; EP1477924B1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft eine Vorrichtung, ein Verfahren und ein Programm zum Erkennen von Haltungen oder Gesten einer Zielperson aus von Kameras aufgenommenen Bildern der Zielperson.
Wie in der JP-A-2000-149025 (Seiten 3–6 und 1) offenbart, sind verschiedene Gestenerkennungsverfahren vorgeschlagen worden, worin Merkmalspunkte, die ein Bewegungsmerkmal der Zielperson anzeigen, aus von Kameras aufgenommenen Bildern der Zielperson erfasst werden, um die Geste der Zielperson auf der Basis der Merkmalspunkte zu schätzen.
Jedoch ist es bei diesem herkömmlichen Gestenerkennungsverfahren notwendig, Wahrscheinlichkeiten von Gesten oder Haltungen der Zielperson auf der Basis der Merkmalspunkte immer dann zu berechnen, wenn eine Geste der Zielperson erkannt wird. Dies erfordert nachteilig einen großen Rechenaufwand für die Haltungserkennungsprozess oder den Gestenerkennungsprozess.
Im Hinblick auf den vorstehenden Nachteil der herkömmlichen Technik strebt die vorliegende Erfindung danach, eine Gestenerkennungsvorrichtung, ein Gestenerkennungsverfahren sowie ein Gestenerkennungsprogramm anzugeben, die den Rechenprozess beim Erkennen von Haltungen oder Gesten verringern können.
Die US 2000/0181773 offenbart ein(e) Gestenerkennungsvorrichtung/verfahren/programm gemäß dem Oberbegriff der Ansprüche 1, 7 und 10. Dort werden die Gesten durch Bestimmung der Handposition im Allgemeinen erkannt.
Sakagami: The intelligent ASIMO: System overview and integration (proceedings of the 2002 IEEE/RSJ Intl. Conference an Intelligent Robots and Systems EPFL, Lausanne, Schweiz, Oktober 2002) offenbart, Gesten, einschließlich Handschütteln, Handkreisen, Auf Wiedersehen, Handschwenken, Hohe Hand und Komm her, auf der Basis der Kopf- und Handpositionsbeziehung zu erfassen.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß der vorliegenden Erfindung wird eine Gestenerkennungsvorrichtung zum Erkennen von Haltungen oder Gesten einer Zielperson basierend auf von Kameras aufgenommenen Bildern der Zielperson angegeben, umfassend: ein Gesicht/Fingerspitzenposition-Erfassungsmittel, das eine Gesichtsposition und eine Fingerspitzenposition der Zielperson im dreidimensionalen Raum basierend auf Konturinformation und Menschenhautbereich-Information der Zielperson erfasst, die durch die aufgenommenen Bilder zu erzeugen sind; und ein Haltungs/Gestenerkennungsmittel, das arbeitet, um Änderungen der Fingerspitzenposition durch ein vorbestimmtes Verfahren zu erfassen, die erfassten Ergebnisse durch ein zuvor gespeichertes Verfahren zu bearbeiten und eine Haltung oder eine Geste der Zielperson zu erkennen.
Gemäß der vorliegenden Erfindung ist die Gestenerkennungsvorrichtung dadurch gekennzeichnet, dass das Haltungs/Gestenerkennungsmittel einen Bestimmungsbereich mit einer ausreichenden Größe für eine Hand der Zielperson setzt, wobei der Bestimmungsbereich ein Bestimmungskreis ist, dessen Größe derart bestimmt ist, dass er die Hand der Zielperson vollständig überdeckt, und eine Fläche der Hand mit einer Fläche des Bestimmungsbereichs vergleicht, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition ähnlich sind.
Bevorzugt ist das vorbestimmte Verfahren, eine relative Position zwischen der Gesichtsposition und der Fingerspitzenposition sowie Änderungen der Fingerspitzenposition relativ zur Gesichtsposition zu erfassen, und das zuvor gespeicherte Verfahren ist, die erfassten Ergebnisse mit zuvor gespeicherten Haltungsdaten oder Gestendaten zu vergleichen.
In der Gestenerkennungsvorrichtung erfasst das Gesicht/Fingerspitzenpositionserfassungsmittel eine Gesichtsposition und eine Fingerspitzenposition der Zielperson im dreidimensionalen Raum auf der Basis von Konturinformation und Menschenhautbereichsinformation der Zielperson, die aus den aufgenommenen Bildern zu erzeugen sind. Das Haltungs/Gestenerkennungsmittel erfasst dann eine relative Position zwischen der Gesichtsposition und der Fingerspitzenposition auf der Basis der Gesichtsposition und der Fingerspitzenposition, und erfasst auch Änderungen der Fingerspitzenposition relativ zur Gesichtsposition. Das Haltungs/Gestenerkennungsmittel erkennt eine Haltung oder eine Geste der Zielperson durch Vergleich der erfassten Ergebnisse mit Haltungsdaten oder Gestendaten, die Haltungen oder Gesten anzeigen, entsprechend "der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition" und "den Änderungen der Fingerspitzenposition relativ zur Gesichtsposition".
Genauer gesagt, die von dem Haltungs/Gestenerkennungsmittel erfasste "relative Position zwischen der Gesichtsposition und der Fingerspitzenposition" bezeichnet die "Höhe der Gesichtsposition und die Höhe der Fingerspitzenposition" und den "Abstand der Gesichtsposition von den Kameras und den Abstand von der Fingerspitzenposition von den Kameras". Mit dieser Konstruktion kann das Haltungs/Gestenerkennungsmittel die "relative Position zwischen der Gesichtsposition und der Fingerspitzenposition" durch Vergleich zwischen "der Höhe der Gesichtsposition" und "der Höhe der Fingerspitzenposition" und den Vergleich zwischen "dem Abstand der Gesichtsposition von den Kameras" und "dem Abstand der Fingerspitzenposition von den Kameras" leicht erfassen. Ferner kann das Haltungs/Gestenerkennungsmittel die "Relativposition zwischen der Gesichtsposition und der Fingerspitzenposition" von der "horizontalen Abweichung der Gesichtsposition und der Fingerspitzenposition auf dem Bild" erfassen.
Das Haltungs/Gestenerkennungsmittel kann Haltungen oder Gesten der Zielperson mittels Musterabgleich erkennen. Bei dieser Konstruktion das Haltungs/Gestenerkennungsmittel Haltungen oder Gesten der Zielperson durch Vergleich von Eingabemustern einschließlich "der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition" und "den Änderungen der Fingerspitzenposition relativ zur Gesichtsposition" mit Haltungsdaten oder Gestendaten, die zuvor gespeichert worden sind, und durch Auswahl des ähnlichsten Musters leicht erkennen.
Ferner kann das Haltungs/Gestenerkennungsmittel einen Bestimmungsbereich von ausreichender Größe für eine Hand der Zielperson setzen und eine Fläche der Hand mit einer Fläche des Bestimmungsbereichs vergleichen, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der Relativposition zwischen der Gesichtsposition und der Fingerspitzenposition ähnlich sind. In dieser Konstruktion kann das Haltungs/Gestenerkennungsmittel die "HANDSCHÜTTEL"-Haltung (9(d)) und die "KOMM HER"-Geste (10(c)) unterscheiden, die einander ähnlich sind und schwierig zu unterscheiden sind, da sie darin gemeinsam sind, dass die Höhe der Fingerspitzenposition niedriger ist als die Gesichtsposition und dass der Abstand der Fingerspitzenposition von den Kameras kürzer ist als der Abstand der Gesichtsposition von den Kameras. Genauer gesagt, wenn die Fläche der Hand größer ist als eine Hälfte der Fläche des Bestimmungskreises als dem Bestimmungsbereich, bestimmt das Haltungs/Gestenerkennungsmittel die Geste oder Haltung als "KOMM HER". Wenn hingegen die Fläche der Hand gleich oder kleiner als eine Hälfte der Fläche des Bestimmungskreises ist, bestimmt das Haltungs/Gestenerkennungsmittel die Geste oder Haltung als "HANDSCHÜTTELN".
Gemäß einem anderen Aspekt der vorliegenden Erfindung ist das vorbestimmte Verfahren, einen Merkmalsvektor aus einem Mittelwert und einer Varianz einer vorbestimmten Anzahl von Frames für eine Arm/Handposition oder eine Hand-Fingerspitzenposition zu berechnen, und das zuvor gespeicherte Verfahren ist, für alle Haltungen oder Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable auf der Basis des Merkmalsvektors und mittels eines statistischen Verfahrens berechnen, um eine Haltung oder eine Geste mit einer maximalen Wahrscheinlichkeitsdichte zu bestimmen.
Bei dieser Gestenerkennungsvorrichtung erfasst das Gesicht/Fingerspitzenpositionerfassungsmittel eine Gesichtsposition und eine Fingerspitzenposition der Zielperson im dreidimensionalen Raum auf der Basis von Konturinformation und Menschenhautbereichsinformation der Zielperson, die aus den aufgenommenen Bildern zu erzeugen ist. Das Haltungs/Gestenerkennungsmittel berechnet dann aus der Fingerspitzenposition und der Gesichtsposition einen Mittelwert und eine Varianz einer vorbestimmten Anzahl von Frames (z.B. 5 Frames) für die Fingerspitzenposition relativ zur Gesichtsposition als "Merkmalsvektor". Auf der Basis des erhaltenen Merkmalsvektors und mitteles eines statistischen Verfahrens berechnet das Haltungs/Gestenerkennungsmittel für alle Haltungen und Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable und bestimmt eine Haltung oder eine Geste mit der maximalen Wahrscheinlichkeitsdichte für jeden Frame, sodass die Haltung oder die Geste mit der maximalen Wahrscheinlichkeitsdichte als die Haltung oder die Geste des entsprechenden Frames erkannt wird.
Das Haltungs/Gestenerkennungsmittel kann eine Haltung oder eine Geste der Zielperson erkennen, wenn die gleiche Haltung oder Geste für eine bestimmte Anzahl oder mehr in einer bestimmten Anzahl von Frames wiederholt erkannt wird.
Gemäß der vorliegenden Erfindung wird auch ein Gestenerkennungsverfahren zum Erkennen von Haltungen oder Gesten einer Zielperson basierend auf von Kameras aufgenommenen Bildern der Zielperson angegeben, umfassend:
einen Gesichts/Fingerspitzenpositions-Erfassungsschritt zum Erfassen einer Gesichtsposition und einer Fingerspitzenposition der Zielperson im dreidimensionalen Raum basierend auf Konturinformation und Menschenhautbereich-Information der Zielperson, die durch die aufgenommenen Bilder zu erzeugen sind; und
einen Haltungs/Gestenerkennungsschritt zum Erfassen von Änderungen der Fingerspitzenposition durch ein vorbestimmtes Verfahren, Verarbeiten der erfassten Ergebnisse durch ein zuvor gespeichertes Verfahren und Erkennen einer Haltung oder Geste der Zielperson.
Gemäß der vorliegenden Erfindung ist das Gestenerkennungsverfahren dadurch gekennzeichnet, dass der Haltungs/Gestenerkennungsschritt einen Bestimmungsbereich mit ausreichender Größe für eine Hand der Zielperson setzt, wobei der Bestimmungsbereich ein Bestimmungskreis ist, dessen Größe derart bestimmt ist, dass er die Hand der Zielperson vollständig überdeckt, und eine Fläche der Hand mit einer Fläche des Bestimmungsbereichs vergleicht, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition ähnlich sind.
Bevorzugt ist das vorbestimmte Verfahren, eine relative Position zwischen der Gesichtsposition und der Fingerspitzenposition sowie Änderungen der Fingerspitzenposition relativ zur Gesichtsposition zu erfassen, und das zuvor gespeicherte Verfahren ist, die erfassten Ergebnisse mit zuvor gespeicherten Haltungsdaten oder Gestendaten zu vergleichen.
Gemäß diesem Gestenerkennungsverfahren wird in dem Gesicht/Fingerspitzenpositionerfassungsschritt die Gesichtsposition und die Fingerspitzenposition der Zielperson im dreidimensionalen Raum basierend auf Konturinformation und Menschenhautbereichsinformation der Zielperson erfasst, die aus den aufgenommenen Bildern zu erzeugen ist. Als Nächstes werden in dem Haltungs/Gestenerkennungsschritt "die relative Position zwischen der Gesichtsposition und der Fingerspitzenposition" und "Änderungen der Fingerspitzenposition relativ zur Gesichtsposition" aus der Gesichtsposition und der Fingerspitzenposition erfasst. Danach werden die erfassten Ergebnisse mit Haltungsdaten oder Gestendaten verglichen, die Haltungen oder Gesten anzeigen, entsprechend "der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition" und "den Änderungen der Fingerspitzenposition relativ zur Gesichtsposition", um hierdurch Haltungen oder Gesten der Zielperson zu erkennen.
Gemäß einem anderen Aspekt der vorliegenden Erfindung ist das vorbestimmte Verfahren, einen Merkmalsvektor aus einem Mittelwert und einer Varianz einer vorbestimmten Anzahl von Frames für eine Arm/Handposition oder eine Hand-Fingerspitzenposition zu berechnen, und das zuvor gespeicherte Verfahren ist, für alle Haltungen oder Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable auf der Basis des Merkmalsvektors und mittels eines statistischen Verfahrens berechnen, um eine Haltung oder eine Geste mit einer maximalen Wahrscheinlichkeitsdichte zu bestimmen.
Gemäß diesem Gestenerkennungsverfahren werden in dem Gesichts/Fingerspitzenpositionerfassungsschritt die Gesichtsposition und die Fingerspitzenposition der Zielperson im dreidimensionalen Raum basierend auf Konturinformation und Menschenhautbereichsinformation der Zielperson, die durch die aufgenommenen Bilder zu erzeugen sind, erfasst. Dann werden im Haltungs/Gestenerkennungsschritt als "Merkmalsvektor", der Mittelwert und die Varianz einer vorbestimmten Anzahl von Frames der Fingerspitzenposition relativ zur Gesichtsposition aus der Fingerspitzenposition und der Gesichtsposition berechnet. Auf der Basis des erhaltenen Merkmalsvektors und vermittels eines statistischen Verfahrens wird die Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable für alle Haltungen und Gesten berechnet, und die Haltung oder die Geste mit der maximalen Wahrscheinlichkeitsdichte wird als die Haltung oder die Geste in dem entsprechenden Frame erkannt.
Gemäß der vorliegenden Erfindung wird ein Gestenerkennungsprogramm angegeben, das einen Computer Haltungen oder Gesten der Zielperson basierend auf von Kameras aufgenommenen Bildern der Zielperson erkennen lässt, wobei das Gestenerkennungsprogramm erlaubt, der Computer arbeitet als:
ein Gesicht/Fingerspitzenposition-Erfassungsmittel, das eine Gesichtsposition und eine Fingerspitzenposition der Zielperson im dreidimensionalen Raum basierend auf Konturinformation und Menschenhautbereich-Information der Zielperson erfasst, die durch die aufgenommenen Bilder zu erzeugen sind; und
ein Haltungs/Gestenerkennungsmittel, das arbeitet, um Änderungen der Fingerspitzenposition durch ein vorbestimmtes Verfahren zu erfassen, die erfassten Ergebnisse durch ein zuvor gespeichertes Verfahren zu bearbeiten und eine Haltung oder eine Geste der Zielperson zu erkennen.
Das Gestenerkennungsprogramm ist dadurch gekennzeichnet, dass das Haltungs/Gestenerkennungsmittel einen Bestimmungsbereich mit einer ausreichenden Größe für eine Hand der Zielperson setzt, wobei der Bestimmungsbereich ein Bestimmungskreis ist, dessen Größe derart bestimmt ist, dass er die Hand der Zielperson vollständig überdeckt, und eine Fläche der Hand mit einer Fläche des Bestimmungsbereichs vergleicht, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition ähnlich sind.
Bevorzugt ist das vorbestimmte Verfahren, eine relative Position zwischen der Gesichtsposition und der Fingerspitzenposition sowie Änderungen der Fingerspitzenposition relativ zur Gesichtsposition zu erfassen, und das zuvor gespeicherte Verfahren ist, die erfassten Ergebnisse mit zuvor gespeicherten Haltungsdaten oder Gestendaten zu vergleichen.
Bei diesem Gestenerkennungsprogramm erfasst das Gesicht/Fingerspitzenpositionerfassungsmittel eine Gesichtsposition und eine Fingerspitzenposition der Zielperson im dreidimensionalen Raum basierend auf Konturinformation und Menschenhautbereichsinformation der Zielperson, die aus den aufgenommenen Bildern zu erzeugen sind. Das Haltungs/Gestenerkennungsmittel erfasst dann eine relative Position zwischen der Gesichtsposition und der Fingerspitzenposition auf der Basis der Gesichtsposition und der Fingerspitzenposition, und erfasst auch Änderungen der Fingerspitzenposition relativ zur Gesichtsposition. Das Haltungs/Gestenerkennungsmittel erkennt eine Haltung oder eine Geste der Zielperson mittels eines Vergleichs der erfassten Ergebnisse mit Haltungsdaten oder Gestendaten, die Haltungen oder Gesten angeben, entsprechend "der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition" und "den Änderungen der Fingerspitzenposition relativ zur Gesichtsposition".
Gemäß einem anderen Aspekt der vorliegenden Erfindung ist das vorbestimmte Verfahren, einen Merkmalsvektor aus einem Mittelwert und einer Varianz einer vorbestimmten Anzahl von Frames für eine Arm/Handposition oder eine Hand-Fingerspitzenposition zu berechnen, und das zuvor gespeicherte Verfahren ist, für alle Haltungen oder Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable auf der Basis des Merkmalsvektors und mittels eines statistischen Verfahrens berechnen, um eine Haltung oder eine Geste mit einer maximalen Wahrscheinlichkeitsdichte zu bestimmen.
Bei diesem Gestenerkennungsprogramm erfasst das Gesicht/Fingerspitzenerfassungsmittel eine Gesichtsposition und eine Fingerspitzenposition der Zielperson im dreidimensionalen Raum auf der Basis von Konturinformation und Menschenhautbereichsinformation der Zielperson, die aus den aufgenommenen Bildern zu erzeugen ist. Das Haltungs/Gestenerkennungsmittel berechnet dann aus der Fingerspitzenposition und der Gesichtsposition einen Mittelwert und eine Varianz einer vorbestimmten Anzahl von Frames (z.B. 5 Frames) für die Fingerspitzenposition relativ zur Gesichtsposition als "Merkmalsvektor". Auf der Basis des erhaltenen Merkmalsvektors und mitteles eines statistischen Verfahrens berechnet das Haltungs/Gestenerkennungsmittel für alle Haltungen und Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable und bestimmt eine Haltung oder eine Geste mit der maximalen Wahrscheinlichkeitsdichte für jeden Frame, sodass die Haltung oder die Geste mit der maximalen Wahrscheinlichkeitsdichte als die Haltung oder die Geste des entsprechenden Frames erkannt wird.
Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlich.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Nachfolgend werden bevorzugte Ausführungen der vorliegenden Erfindung nur als Beispiel in Bezug auf die beigefügten Zeichnungen beschrieben, worin:
1 ist ein Blockdiagramm, das die Gesamtanordnung eines Gestenerkennungssystems A1 darstellt;
2 ist ein Blockdiagramm, das die Anordnungen einer Aufnahmebild-Analysevorrichtung 2 und einer Konturextraktionsvorrichtung 3 darstellt, die in dem Gestenerkennungssystem A1 von 1 enthalten sind;
3 zeigt Bilder, worin (a) ein Abstandsbild D1, (b) ein Differenzbild D2 ist, (c) ein Randbild D3 ist und (d) Menschenhautbereiche R1, R2 zeigt;
4 zeigt Figuren, die die Art des Setzens des Objektabstands erläutern;
5 zeigt Figuren, die die Art des Setzens des Zielbereichs T und die Art der Extraktion der Kontur O der Zielperson C innerhalb des Zielbereichs T erläutern;
6 ist ein Blockdiagramm, das die Anordnung einer Gestenerkennungsvorrichtung 4 darstellt, die in dem Gestenerkennungssystem A1 von 1 enthalten ist;
7 zeigt Figuren, worin (a) zur Erläuterung eines Erfassungsverfahrens für die Kopfscheitelposition m1 dient und (b) zur Erläuterung eines Erfassungsverfahrens für die Gesichtsposition m2 dient;
8 zeigt Figuren, worin (a) zur Erläuterung eines Erfassungsverfahrens für die Arm/Handposition m3 dient und (b) zur Erläuterung eines Erfassungsverfahrens für die Hand/Fingerspitzenposition m4 dient;
9 zeigt Haltungsdaten P1 bis P6;
10 zeigt Gestendaten J1 bis J4;
11 zeigt ein Flussdiagramm, das den Umriss des Prozesses im Haltungs/Gestenerkennungsabschnitt 42B erläutert;
12 ist ein Flussdiagramm, das den Haltungserkennungsprozess (Schritt S1) erläutert, der im Flussdiagramm von 11 gezeigt ist;
13 ist ein erstes Flussdiagramm, das den Haltungs/Gestenerkennungsprozess (Schritt S4) erläutert, der im Flussdiagramm von 11 gezeigt ist;
14 ist ein zweites Flussdiagramm, das den Haltungs/Gestenerkennungsprozess (Schritt S4) erläutert, der im Flussdiagramm von 11 gezeigt ist;
15 ist ein Flussdiagramm, das eine erste Modifikation des Prozesses beim Haltungs/Gestenerkennungsabschnitt 42B erläutert;
16 zeigt Haltungsdaten P11 bis P16;
17 zeigt Gestendaten J11 bis J14;
18 ist ein Flussdiagramm, das eine zweite Modifikation des Prozesses beim Haltungs/Gestenerkennungsabschnitt 42B erläutert;
19 zeigt Figuren, worin (a) die Art des Setzens eines Bestimmungskreises E erläutert, (b) einen Fall erläutert, wo die Fläche Sh des Menschenhautbereichs R2 größer ist als eine Hälfte der Fläche S des Bestimmungskreises E, und (c) einen Fall erläutert, wo die Fläche Sh des menschlichen Hautbereichs R2 gleich oder kleiner als eine Hälfte der Fläche S des Bestimmungskreises E ist;
20 ist ein Flussdiagramm, das den Aufnahmebildanalyseschritt und den Konturextraktionsschritt beim Betrieb des Gestenerkennungssystems A1 erläutert;
21 ist ein Flussdiagramm, das den Gesicht/Fingerspitzenpositionerfassungsschritt und den Haltungs/Gestenerkennungsabschritt beim Betribe des Gestenerkennungssystems A1 erläutert;
22 ist ein Blockdiagramm, das die Gesamtanordnung eines Gestenerkennungssystems A2 darstellt;
23 ist ein Blockdiagramm, das die Anordnung der Gestenerkennungsvorrichtung 5 darstellt, die im Gestenerkennungssystem A2 von 22 enthalten ist;
24 ist ein Flussdiagramm, das den Umriss des Prozesses bei dem Haltungs/Gestenerkennungsabschnitt 52B erläutert;
25 ist ein Flussdiagramm, das den Haltungs/Gestenerkennungsprozess (Schritt S101) erläutert, der im Flussdiagramm von 24 gezeigt ist;
26 ist ein Graph, der für die Haltungen P1, P2, P5, P6 und die Gesten J1 bis J4 eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable ωi im Bereich von Frame 1 bis Frame 100 zeigt;
27 ist ein Flussdiagramm, das den Aufnahmebildanalyseschritt und den Konturextraktionsschritt beim Betrieb des Gestenerkennungssystems A2 erläutert; und
28 ist ein Flussdiagramm, das den Gesicht/Fingerspitzenpositionerfassungsschritt und den Haltungs/Gestenerkennungschritt beim Betrieb des Gestenerkennungssystems A2 erläutert.
AUFNAHME UNTER BEZUG
Die folgenden Bezugnahmen werden hiermit durch Bezug auf die detaillierte Beschreibung der Erfindung aufgenommen, und auch zur Offenbarung von alternativen Ausführungen von Elementen oder Merkmalen der bevorzugten Ausführung, die nicht anderweitig oben oder unten oder in den Zeichnungen aufgeführt sind. Eine einzige oder eine Kombination von zwei oder mehr dieser Bezugnahmen kann in Betracht gezogen werden, um eine Variante der bevorzugten Ausführung zu erhalten.

Japanische Patentanmeldung Nr. 2003-096271, eingereicht am 31. März 2003.
Japanische Patentanmeldung Nr. 2003-096520, eingereicht am 31. März 2003.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
In Bezug auf die beigefügten Zeichnungen werden eine erste Ausführung und eine zweite Ausführung eines Gestenerkennungssystems gemäß der vorliegenden Erfindung beschrieben.
ERSTE AUSFÜHRUNG
Die Anordnung eines Gestenerkennungssystems A1, die eine Gestenerkennungsvorrichtung 4 enthält, wird in Bezug auf die 1 bis 19 beschrieben, und danach wird der Betrieb des Gestenerkennungssystems A1 in Bezug auf die 20 und 21 beschrieben.
ANORDNUNG DES GESTENERKENNUNGSSYSTEMS A1
In Bezug auf 1 wird die Gesamtanordnung des Gestenerkennungssystems A1, das die Gestenerkennungsvorrichtung 4 enthält, beschrieben.
Wie in 1 gezeigt, enthält das Gestenerkennungssystem A1 zwei Kameras 1 (1a, 1b) zum Aufnehmen einer Zielperson (nicht gezeigt), eine Aufnahmebildanalysevorrichtung 2 zum Erzeugen verschiedener Information durch die Analyse der von den Kameras 1 aufgenommenen Bildern (aufgenommenen Bildern), eine Konturextraktionsvorrichtung 3 zum Extrahieren einer Kontur der Zielperson basierend auf der von der Aufnahmebildanalysevorrichtung 2 erzeugten Information, sowie eine Gestenerkennungsvorrichtung 4 zum Erkennen einer Haltung oder einer Geste der Zielperson basierend auf der von der Aufnahmebildanalysevorrichtung 2 erzeugten Information und der von der Konturextraktionsvorrichtung 3 extrahierten Kontur der Zielperson (Konturinformation). Nachfolgend wird eine Beschreibung für die Kameras 1, die Aufnahmebildanalysevorrichtung 2, die Konturextraktionsvorrichtung 3 und die Gestenerkennungsvorrichtung 4 angegeben.
KAMERAS 1
Die Kameras 1a, 1b sind Farb-CCD-Kameras. Die rechte Kamera 1a und die linke Kamera 1b sind mit einem ABstand B voneinander angeordnet. In dieser bevorzugten Ausführung ist die rechte Kamera 1a eine Referenzkamera. Die von den Kameras 1a, 1b aufgenommenen Bilder (aufgenommene Bilder) werden in einem Frame Grabber (nicht gezeigt) separat für die jeweiligen Frames gespeichert und sie werden dann synchronisiert in die Aufnahmebildanalysevorrichtung 2 eingegeben.
Bilder (aufgenommene Bilder), die von den Kameras 1a, 1b aufgenommen sind, werden einem Kalibrierprozess und einem Ausrichtungsprozess in einem Kompensator (nicht gezeigt) unterzogen, und sie werden nach der Bildkorrektur in die Aufnahmebildanalysevorrichtung 2 eingegeben.
AUFNAHMEBILDANALYSEVORRICHTUNG 2
Die Aufnahmebildanalysevorrichtung 2 analysiert die von den Kameras 1a, 1b eingegebenen Bilder (aufgenommenen Bilder) und erzeugt Abstandsinformation, Bewegungsinformation, Randinformation und Menschenhautbereichsinformation (1).
Wie in 2 gezeigt, enthält die Aufnahmebildanalysevorrichtung 2 einen Abstandsinformationserzeugungsabschnitt 21 zum Erzeugen der Abstandsinformation, einen Bewegungsinformationerzeugungsabschnitt 22 zum Erzeugen der Bewegungsinformation, einen Randinformationserzeugungsabschnitt 32 zum Erzeugen der Randinformation sowie einen Menschenhautbereichsinformationserzeugungsabschnitt 24 zum Erzeugen der Menschenhautbereichsinformation.
Abstandsinformationserzeugungsabschnitt 21
Der Abstandsinformationserzeugungsabschnitt 21 erfasst für jedes Pixel einen Abstand von den Kameras 1 (dem Brennpunkt der Kameras 1) auf der Basis einer Parallaxe zwischen den zwei aufgenommenen Bildern, die gleichzeitig von den Kameras 1a, 1b aufgenommen worden sind. Genauer gesagt, die Parallaxe wird durch das Blockkorrelationsverfahren erhalten, unter Verwendung eines ersten aufgenommenen Bilds, das von der Kamera 1a als der Referenzkamera aufgenommen wurde, und eines zweiten aufgenommenen Bilds, das von der Kamera 1b aufgenommen wurde. Der Abstand von den Kameras 1a zu dem Objekt, das von jedem Pixel aufgenommen wurde, wird dann durch die Parallaxe und mittels Trigonometrie erhalten. Das Abstandsbild D1 (3(a)), das einen Abstand um einen Pixelbetrag angibt, wird durch Zuweisen des erhaltenen Abstands zu jedem Pixel des ersten aufgenommenen Bilds erzeugt. Das Abstandsbild D1 wird die Abstandsinformation. Im in 3(a) gezeigten Fall befindet sich die Zielperson C im gleichen Abstand von den Kameras 1a, 1b.
Das Blockkorrelationsverfahren vergleicht den gleichen Block mit einer bestimmten Größe (z.B. 8 × 3 Pixel) zwischen dem ersten aufgenommenen Bild und dem zweiten aufgenommenen Bild und erfasst, wie viele Pixel das Objekt in dem Block zwischen den ersten und zweiten aufgenommenen Bildern voneinander entfernt ist, um die Parallaxe zu erhalten.
Bewegungsinformationserzeugungsabschnitt 22
Der Bewegungsinformationserzeugungsabschnitt 22 erfasst die Bewegung der Zielperson auf der Basis der Differenz zwischen dem aufgenommenen Bild (t) zur Zeit t und dem aufgenommenen Bild (t+Δt) zur t+Δt, die von der Kamera (der Referenzkamera) 1a in zeitserieller Folge aufgenommen werden. Genauer gesagt, die Differenz wird zwischen dem aufgenommenen Bild (t) und dem aufgenommenen Bild (t+Δt) erhalten, und die Verlagerung jedes Pixels wird hierauf bezogen. Der Verlagerungsvektor wird dann auf der Basis der hierauf bezogenen Verlagerung erhalten, um ein Differenzbild D2 (3(b)) zu erhalten, das den erhaltenen Verlagerungsvektor pro Pixelbetrag anzeigt. Das Differenzbild D2 wird die Bewegungsinformation. Im in 3(b) gezeigten Fall kann die Bewegung am linken Arm der Zielperson C erfasst werden.
Randinformationserzeugungsabschnitt 23
Der Randinformationserzeugungsabschnitt 23 erzeugt, basierend auf Gradationsinformation oder Farbinformation für jedes Pixel in einem Bild (aufgenommenen Bild), das von der Kamera (Referenzkamera) 1a aufgenommen wurde, ein Randbild durch Extraktion von Rändern, die sich in dem aufgenommenen Bild befinden. Genauer gesagt, basierend auf der Helligkeit oder Luminanz jedes Pixels in dem aufgenommenen Bild wird ein Teil, wo sich die Helligkeit um ein größeres Ausmaß verändert, als Rand erfasst, und das Randbild D3 (3(c)), das nur aus den Rändern gebildet ist, wird erzeugt. Das Randbild D3 wird die Randinformation.
Die Erfassung von Rändern kann durchgeführt werden durch Multiplikation jedes Pixels z.B. mit einem Sobel-Operator, und im Hinblick auf die Reihe oder Spalte wird ein Segment, das eine bestimmte Differenz zum nächsten Segment hat, als Rand erfasst (quer verlaufender Rand oder Längsrand). Der Sobel-Operator ist eine Koeffizientenmatrix mit einem Wichtungskoeffizienten relativ zu einem Pixel in einem benachbarten Bereich eines bestimmten Pixels.
Menschenhautbereichsinformationserzeugungsabschnitt 24
Der Menschenhautbereichsinformationserzeugungsabschnitt 24 extrahiert einen Menschenhautbereich der Zielperson, der sich in dem aufgenommenen Bild befindet, aus den von der Kamera (Referenzkamera) 1a aufgenommenen Bildern (aufgenommenen Bildern). Genauer gesagt, werden RGB-Werte aller Pixel in dem aufgenommenen Bild in einen HLS-Raum von Tönung, Helligkeit und Sättigung umgewandelt. Pixel, deren Tönung, Helligkeit und Sättigung in einem vorbestimmten Bereich von Schwellenwerten liegen, werden dann als Menschenhautbereiche extrahiert (3(d)). Im in 3(d) gezeigten Fall wird das Gesicht der Zielperson C als Menschenhautbereich R1 extrahiert, und die Hand der Zielperson C wird als Menschenhautbereich R2 extrahiert. Die Menschenhautbereiche R1, R2 werden die Menschenhautbereichsinformation.
Die Abstandsinformation (das Abstandsbild D1), die Bewegungsinformation (das Differenzbild D2) und die Randinformation (Randbild D3), die von der Aufnahmebildanalysevorrichtung 2 erzeugt worden sind, werden in die Konturextraktionsvorrichtung 3 eingegeben. Die Abstandsinformation (Abstandsbild D1) und die Menschenhautbereichsinformation (Menschenhautbereiche R1, R2), die von der Aufnahmebildanalysevorrichtung 2 erzeugt wurden, werden in die Gestenerkennungsvorrichtung 4 eingegeben.
KONTUREXTRAKTIONSVORRICHTUNG 3
Die Konturextraktionsvorrichtung 3 extrahiert eine Kontur der Zielperson (1) auf der Basis der Abstandsinformation (Abstandsbild D1), der Bewegungsinformation (dem Differenzbild D2) und der Randinformation (dem Randbild D3), die von der Aufnahmebildanalysevorrichtung 2 erzeugt wurden.
Wie in 2 gezeigt, enthält die Konturextraktionsvorrichtung 3 einen Objektabstandssetzabschnitt 31 zum Setzen eines Objektabstands, wo sich die Zielperson befindet, einen Objektabstandsbilderzeugungsabschnitt 32 zum Erzeugen eines Objektabstandsbilds auf der Basis des Objektabstands, einen Objektbereichsetzabschnitt 33 zum Setzen eines Objektbereichs innerhalb des Objektabstandsbilds, und einen Konturextraktionsabschnitt 34 zum Extrahieren einer Kontur der Zielperson.
Objektabstandssetzabschnitt 31
Der Objektabstandssetzabschnitt 31 setzt einen Objektabstand, der der Abstand ist, wo sich die Zielperson befindet, basierend auf dem Abstandsbild D1 (3(a)) und dem Differenzbild D2 (3(b)), die von der Aufnahmebildanalysevorrichtung 2 erzeugt wurden. Genauer gesagt, die Pixel mit der gleichen Pixelmenge (gleichem Abstand) werden als Gruppe (Pixelgruppe) in dem Abstandsbild D1 bezeichnet, und in Bezug auf das Differenzbild D2 und die entsprechende Pixelgruppe wird die Gesamtzahl der Pixel innerhalb der gleichen Pixelmenge für jede Pixelgruppe gezählt. Es wird bestimmt, dass das bewegende Objekt mit dem größten Bewegungsbetrag, d.h. die Zielperson, sich in einem Bereich dort befindet, wo die Gesamtmenge von Pixeln für eine bestimmte Pixelgruppe größer ist als ein vorbestimmter Wert und der Abstand davon den Kameras 1 am nächsten ist, sodass ein Abstand als der Objektabstand bestimmt wird (4(a)). Im in 4(a) gezeigten Fall ist der Objektabstand auf 2,2 m gesetzt. Der durch den Objektabstandssetzabschnitt 31 gesetzte Objektabstand wird in den Objektabstandsbilderzeugungsabschnitt 32 eingegeben.
Objektabstandsbilderzeugungsabschnitt 32
Der Objektabstandsbilderzeugungsabschnitt 32 bezieht sich auf das Abstandsbild D1 (3(a)), das von der Aufnahmebildanalysevorrichtung 2 aufgenommen wurde, und extrahiert Pixel, die den Pixeln entsprechen, die sich innerhalb des Objektabstands ±αm befinden, die durch den Objektabstandssetzabschnitt 31 gesetzt wurde, von dem Randbild D3 (3(c)), um ein Objektabstandsbild zu erzeugen. Genauer gesagt, in dem Abstandsbild D1 werden Pixel erhalten, die dem Objektabstand ±αm entsprechen, der von dem Objektabstandssetzabschnitt 31 eingegeben wurde. Nur die erhaltenen Pixel werden aus dem vom Randinformationserzeugungsabschnitt 23 erzeugten Randbild D3 extrahiert, und es wird das Objektabstandsbild D4 (4(b)) erzeugt. Daher repräsentiert das Objektabstandsbild D4 ein Bild, das mittels Rändern die Zielperson ausdrückt, die sich in dem Objektabstand befindet. Das von dem Objektabstandsbilderzeugungsabschnitt 32 erzeugte Objektabstandsbild D4 wird in den Objektbereichsetzabschnitt 33 und den Konturextraktionsabschnitt 34 eingegeben.
Objektbereichsetzabschnitt 33
Der Objektbereichsetzabschnitt 33 setzt einen anderen Objektbereich innerhalb des Objektabstandsbild D4 (4(b)), das von dem Objektabstandsbilderzeugungsabschnitt 32 erzeugt wurde. Genauer gesagt, es wird ein Histogramm H erzeugt, durch Totalisierung der Pixel des Objektabstandsbilds D4 in der Längs (vertikalen)-Richtung, und die Position, wo die Frequenz des Histogramms H das Maximum einnimmt, wird als die Mittelposition der Zielperson C in der horizontalen Richtung spezifiziert (5(a)). Der Bereich, der sich nach rechts und links von der spezifizierten Mittelposition mit einer vorbestimmten Größe (z.B. 0,5 m von der Mitte) erstreckt, wird als Objektbereich T gesetzt (5(b)). Die Reichweite des Objektbereichs T in der vertikalen Richtung wird auf eine vorbestimmte Größe (z.B. 2 m) gesetzt. Beim Setzen des Objektbereichs T wird der Setzbereich des Objektbereichs T in bezug auf Kameraparameter korrigiert, wie z.B. Neigungwinkel oder Höhe der Kameras 1. Der von dem Objektbereichsetzabschnitt 33 gesetzte Objektbereich T wird in den Konturextraktionsabschnitt 34 eingegeben.
Konturextraktionsabschnitt 34
In dem vom Objektabstandsbilderzeugungsabschnitt 32 erzeugten Objektabstandsbild D4 (4(b)) extrahiert der Konturextraktionsabschnitt 34 eine Kontur O der Zielperson C aus dem vom Objektbereichsetzabschnitt 33 gesetzten Objektbereich T (5(c)). Genauer gesagt, beim Extrahieren der Kontur O der Zielperson C wird die sogenannte "SNAKES"-Methode angewendet. Die SNAKES-Methode ist eine Methode, die ein aktives Konturmodell verwendet, das aus einer geschlossenen Kurve besteht, die "SNAKES" genannt wird. Die SNAKES-Methode reduziert oder deformiert SNAKES als aktives Konturmodell, um eine vordefinierte Energie zu minimieren und extrahiert die Kontur der Zielperson. Wie in 1 gezeigt, wird die Kontur O der Zielperson C, die durch den Konturextraktionsabschnitt 34 extrahiert ist, in die Gestenerkennungsvorrichtung 4 als Konturinformation eingegeben.
GESTENERKENNUNGSVORRICHTUNG 4
Die Gestenerkennungsvorrichtung 4 erkennt, basierend auf der Abstandsinformation und der Menschenhautbereichsinformation, die durch die Aufnahmebildanalysevorrichtung 2 erzeugt wurden, und der Konturinformation, die von der Konturextraktionsvorrichtung 3 erzeugt wurde, Haltungen oder Gesten der Zielperson und gibt die Erkennungsergebnisse aus (siehe 1).
Wie in 6 gezeigt, enthält die Gestenerkennungsvorrichtung 4 ein Gesicht/Fingerspitzenpositionerfassungsmittel 41 zum Erfassen der Gesichtsposition und der Handfingerspitzenposition der Zielperson C im dreidimensionalen Raum (realen Raum), sowie ein Haltungs/Gestenerkennungsmittel 42 zum Erkennen einer Haltung oder einer Geste der Zielperson, basierend auf der Gesichtsposition und der Handfingerspitzenposition, die von dem Gesicht/Fingerspitzenpositionerfassungsmittel 41 erfasst wurde.
Gesicht/Fingerspitzenpositionerfassungsmittel 41
Das Gesicht/Fingerspitzenpositionerfassungsmittel 41 enthält einen Kopfpositionerfassungsabschnitt 41a zum Erfassen einer Kopfscheitelposition der Zielperson im dreidimensionalen Raum, einen Gesichtspositionserfassungsabschnitt 41b zum Erfassen einer Gesichtsposition der Zielperson, einen Arm/Handpositionerfassungsabschnitt 41c zum Erfassen einer Arm/Handposition der Zielperson sowie eine Fingerspitzenpositionserfassungsabschnitt 41d zum Erfassen einer Handfingerspitzenposition der Zielperson. Hierin bezeichnet der Begriff "Arm/Hand" einen den Arm und die Hand enthaltenden Teil, und der Begriff "Handfingerspitze" bezeichnet Fingerspitzen der Hand.
Kopfpositionerfassungsabschnitt 41A
Der Kopfpositionerfassungsabschnitt 41A erfasst die "Kopfscheitelposition" der Zielperson C auf der Basis der Konturinformation, die durch die Konturextraktionsvorrichtung 3 erzeugt wird. Die Art der Erfassung der Kopfscheitelposition wird in Bezug auf 7(a) beschrieben. Wie in 7(a) gezeigt, erhält man den Schwerpunkt G in dem von der Kontur O umgebenen Bereich (1). Als Nächstes wird der Bereich (Kopfscheitelpositionsuchbereich) F1 zum Suchen der Kopfscheitelposition gesetzt (2). Die horizontale Breite (Breite in der X-Achse) des Kopfscheitelpositionsuchbereichs F1 wird derart bestimmt, dass sich eine vorbestimmte Länge, die der durchschnittlichen menschlichen Schulterlänge W entspricht, sich von der X-Koordinate des Schwerpunkts G weg erstreckt. Die durchschnittliche menschliche Schulterlänge W wird in Bezug auf die Abstandsinformation gesetzt, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird. Die vertikale Breite (Breite in der Y-Achse) des Kopfscheitelpositionsuchbereichs F1 wird so bestimmt, dass sie eine ausreichende Breite zum Abdecken der Kontur O hat. Der oberste Punkt der Kontur O innerhalb des Kopfscheitelpositionsuchbereichs F1 wird als Kopfscheitelposition m1 bestimmt (3). Die von dem Kopfpositionerfassungsabschnitt 41A Kopfscheitelposition m1 wird in den Gesichtspositionerfassungsabschnitt 41B eingegeben.
Gesichtspositionerfassungsabschnitt 41B
Der Gesichtspositionserfassungsabschnitt 41B erfasst die "Gesichtsposition" der Zielperson C basierend auf der Kopfscheitelposition m1, die von dem Kopfpositionerfassungsabschnitt 41A erfasst ist, und der Menschenhautbereichsinformation, die durch die Aufnahmebildanalysevorrichtung 2 erzeugt wurde. Die Art der Erfassung der Gesichtsposition wird in Bezug auf 7(b) beschrieben. Wie in 7(b) gezeigt, wird der Bereich (der Gesichtspositionsuchbereich) F2 zum Suchen der Gesichtsposition gesetzt. Die Reichweite des Gesichtspositionsuchbereichs F2 wird derart bestimmt, dass eine vorbestimmte Größe, um den Kopf eines Menschen weitgehend abzudecken, sich unter Berücksichtigung der Kopfscheitelposition m1 erstreckt. Die Reichweite des Gesichtspositionsuchbereichs F2 wird in Bezug auf die Abstandsinformation gesetzt, die durch die Aufnahmebildanalysevorrichtung 2 erzeugt wird.
Dann wird in dem Gesichtspositionsuchbereich F2 der Schwerpunkt des Menschenhautbereichs R1 als die Gesichtsposition m2 auf dem Bild bestimmt (5). Auf den Menschenhautbereich R1 bezieht sich die Menschenhautbereichsinformation, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird. Von der Gesichtsposition m2 (Xf, Yf) auf dem Bild und in Bezug auf die Abstandsinformation, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird, erhält man die Gesichtsposition m2t (Xft, Yft, Zft) im dreidimensionalen Raum.
"Die Gesichtsposition m2 auf dem Bild", die von dem Gesichtspositionerfassungsmittel 41B erfasst ist, wird in den Arm/Handpositionerfassungsabschnitt 41C und den Fingerspitzenpositionerfassungsabschnitt 41D eingegeben. "Die Gesichtsposition m2t im dreidimensionalen Raum", die von dem Gesichtspositionerfassungsabschnitt 41B erfasst ist, wird in ein Speichermittel (nicht gezeigt) derart gespeichert, dass der Haltungs/Gestenerkennungsabschnitt 42B des Haltungs/Gestenerkennungsmittels 42 (6) eine Haltung oder eine Geste der Zielperson C erkennt.
Arm/Handpositionerfassungsabschnitt 41C
Der Arm/Handpositionerfassungsabschnitt 41C erfasst die Arm/Handposition der Zielperson C basierend auf der von der Aufnahmebildanalysevorrichtung 2 erzeugten Menschenhautbereichsinformation und der von der Konturextraktionsvorrichtung 3 erzeugten Konturinformation. Die Menschenhautbereichsinformation betrifft Information des Bereichs, der Peripherie der Gesichtsposition m2 ausschließt. Die Art der Erfassung der Arm/Handposition wird in Bezug auf 8(a) beschrieben. Wie in 8(a) gezeigt, wird der Bereich (der Arm/Handpositionsuchbereich) F3 (F3R, F3L) zum Suchen der Arm/Handposition gesetzt (6). Der Arm/Handpositionsuchbereich F3 wird derart bestimmt, dass eine vorbestimmte Reichweite gesetzt wird, um Reichweiten abzudecken, wo rechte und linke Arme/Hände den Bezug der von dem Gesichtspositionerfassungsabschnitt 41B erfassten Gesichtsposition m2 erreiche. Die Größe des Arm/Handpositionsuchbereichs F3 wird in Bezug auf die Abstandsinformation gesetzt, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird.
Dann wird der Schwerpunkt des Menschenhautbereichs R2 in dem Arm/Handpositionsuchbereich F3 als die Arm/Handposition m3 auf dem Bild bestimmt (7). Auf den Menschenhautbereich R2 bezieht sich die Menschenhautbereichsinformation, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird. Die Menschenhautbereichsinformation betrifft Information des Bereichs, der die Peripherie der Gesichtsposition m2 ausschließt. Weil im in 8(a) gezeigten Beispiel sich der Menschenhautbereich nur in dem Arm/Handpositionsuchbereich F3(L) befindet, kann die Arm/Handpositsion m3 nur in dem Arm/Handpositionsuchbereich F3(L) erfasst werden. Auch weil im in 8(a) gezeigten Beispiel die Zielperson langärmelige Kleidung trägt, die einen Teil des Handgelenks freilässt, wird die Handposition zur Arm/Handposition m3. Die "Arm/Handposition m3 auf dem Bild", die von dem Arm/Handpositionerfassungsabschnitt 41C erfasst ist, wird in den Fingerspitzenpositionerfassungsabschnitt 41D eingegeben.
Fingerspitzenpositionserfassungsabschnitt 41D
Der Fingerspitzenpositionserfassungsabschnitt 41D erfasst die Handfingerspitzenposition der Zielperson C basierend auf der Gesichtsposition m2, die von dem Gesichtspositionerfassungsabschnitt 41B erfasst ist, und der Arm/Handposition m3, die durch den Arm/Handpositionerfassungsabschnitt 41C erfasst ist. Die Art der Erfassung der Handfingerspitzenposition wird in Bezug auf 8(b) beschrieben. Wie in 8(b) gezeigt, wird der Bereich (der Handfingerspitzenpositionsuchbereich) F4 zum Suchen der Handfingerspitzenposition in den Arm/Handpositionsuchbereich F3(L) gesetzt (8). Der Handfingerspitzenpositionsuchbereich F4 wird so bestimmt, dass eine vorbestimmte Reichweite gesetzt wird, um die Hand der Zielperson unter Berücksichtigung der Arm/Handposition m3 weitgehend abzudecken. Die Größe des Handfingerspitzenpositionsuchbereichs F4 wird in Bezug auf die Abstandsinformation gesetzt, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird.
Als Nächstes werden Endpunkte m4a bis m4d von der Oberseite, Unterseite, rechts und links des Menschenhautbereichs R2 innerhalb des Handfingerspitzenpositionsuchbereichs F4 erfasst (9). Der Menschenhautbereich R2 bezieht sich auf die Menschenhautbereichsinformation, die von der Aufnahmebildanalysevorrichtung 2 erzeugt iwrd. Durch Vergleich des Vertikalrichtungsabstands d1 zwischen oberen und unteren Endpunkten (m4a, m4b) und des Horizontalrichtungsabstands d2 zwischen den rechten und linken Endpunkten (m4c, m4d), wird der eine mit dem längeren Abstand als die Richtung bestimmt, in der sich der Arm/die Hand der Zielperson erstreckt (10). Weil im in 8 (nb) gezeigten Beispiel der Vertikalrichtungsabstand d1 länger ist als der Horizontalrichtungsabstand d2, wird bestimmt, dass sich die Handfingerspitzen in der Oben- und Unterichtung erstrecken.
Dann wird, basierend auf der Positionsbeziehung zwischen der Gesichtsposition m2 auf dem Bild und der Arm/Handposition m3 auf dem Bild, eine Bestimmung darüber durchgeführt, welcher des oberen Endpunkts m4a und des unteren Endpunkts m4b (der rechte Endpunkt m4c und der linke Endpunkt m4d) die Arm/Handposition ist. Genauer gesagt, wenn die Arm/Handposition m3 von der Gesichtsposition m2 weit entfernt ist, wird angenommen, dass die Zielperson ihren Arm ausstreckt, sodass der Endpunkt, der von der Gesichtsposition m2 weiter entfernt ist als die Handfingerspitzenposition (Handfingerspitzenposition auf dem Bild) m4 bestimmt wird. Wenn hingegen die Arm/Handposition m3 der Gesichtsposition m2 nahe ist, wird angenommen, dass die Zielperson ihren Ellenbogen knickt, sodass der Endpunkt, der der Gesichtsposition m2 näher ist als die Handfingerspitzenposition m4 bestimmt wird. Weil im in 8(b) gezeigten Beispiel die Arm/Handposition m3 weit von der Gesichtsposition m2 entfernt ist und der obere Endpunkt m4a weiter von der Gesichtsposition m2 als der untere Endpunkt m4b entfernt ist, wird bestimmt, dass der obere Endpunkt m4a die Handfingerspitzenposition m4 ist (11).
Dann wird aus der Handfingerspitzenposition m4 (Xh, Yh) auf dem Bild und in Bezug auf die von der Aufnahmebildanalysevorrichtung 2 erzeugte Abstandinforamtion die Handfingerspitzenposition m4t (Xht, Yht, Zht) im dreidimensionalen Raum erhalten. Die "Handfingerspitzenposition m4t im dreidimensionalen Raum", die von dem Fingerspitzenpositionerfassungsabschnitt 41D erfasst wird, wird in einem Speichermittel (nicht gezeigt) gespeichert, sodass der Haltungs/Gestenerkennungsabschnitt 42B des Haltungs/Gestenerkennungsmittels 42 (6) eine Haltung oder Geste der Zielperson C erkennt.
Haltungs/Gestenerkennungsmittel 42
das Haltungs/Gestenerkennungsmittel 42 enthält einen Haltungs/Gestendatenspeicherabschnitt 42A zum Speichern von Haltungsdaten und Gestendaten, einen Haltungs/Gestenerkennungsabschnitt 42B zum Erkennen einer Haltung oder einer Geste der Zielperson basierend auf "der Gesichtsposition m2t im dreidimensionalen Raum" und "der Handfingerspitzenposition m4t im dreidimensionalen Raum", die von dem Gesichts/Fingerspitzenpositionerfassungsmittel 41 erfasst sind (siehe 6).
Haltungs/Gestendatenspeicherabschnitt 42A
Der Haltungs/Gestendatenspeicherabschnitt 42A speichert Haltungsdaten P1–P6 (9) und Gestendaten J1–J4 (10). Die Haltungsdaten P1–P6 und die Gestendaten J1–J4 sind Daten, die Haltungen oder Gesten anzeigen, entsprechend "der relativen Position zwischen der Gesichtsposition und der Fingerspitzenposition im dreidimensionalen Raum" und "Änderungen der Handfingerspitzenposition relativ zur Gesichtsposition". "Die relative Position zwischen der Gesichtsposition und der Handfingerspitzenposition" bezeichnet spezifisch "Höhen der Gesichtsposition und der Handfingerspitzenposition" und "Abstände der Gesichtsposition und der Handfingerspitzenposition von den Kameras 1". Das Haltungs/Gestenerkennungskmittel 42 kann auch "die relative Position zwischen der Gesichtsposition und der Handfingerspitzenposition" von "der horizontalen Abweichung der Gesichtsposition und der Handfingerspitzenposition auf dem Bild" erfassen. Die Haltungsdaten P1–P6 und die Gestendaten J1–J4 werden benutzt, wenn der Haltungs/Gestenerkennungsabschnitt 42B eine Haltung oder eine Geste der Zielperson erkennt.
Wie in 9 gezeigt, werden die Haltungsdaten P1–P6 beschrieben. In 9 zeigt (a) die "GESICHTSSEITE" (Haltung P1), was "Hallo" anzeigt, (b) zeigt "HOHE HAND" (Haltung P2), was "Folgen Sie mir" bedeutet, (c) zeigt "STOPP" (Haltung P3), was "Stopp" bedeutet, (d) zeigt "HANDSCHÜTTELN" (Haltung P4), was "Handschütteln" bedeutet, (e) zeigt "HAND SEITLICH" (Haltung P5), was "Blicke in Handrichtung" bedeutet, und (f) zeigt "HAND UNTEN" (Haltung P6), was "Wenden zur Handrichtung" bedeutet.
Wie in 10 gezeigt, werden die Gesten J1–J4 beschrieben. In 10 zeigt (a) "HAND SCHWENKEN" (Geste J1), was "Aufpassen" bedeutet, (b) zeigt "AUF WIEDERSEHEN" (Geste J2), was "Auf Wiedersehen" bedeutet, (c) zeigt "KOMM HER" (Geste J3), was "Kommen Sie her" bedeutet, und (d) zeigt "HAND KREISEN" (Geste J4), was "Drehen Sie sich um" bedeutet.
In dieser bevorzugten Ausführung speichert der Haltungs/Gestendatenspeicherabschnitt 42A (6) die Haltungsdaten P1–P6 (9) und die Gestendaten J1–J4 (10). Jedoch können die Haltungsdaten und die Gestendaten, die in dem Haltungs/Gestendatenspeicherabschnitt 42A gespeichert sind, beliebig eingestellt werden. Bedeutung jeder Haltung und Geste kann auch beliebig eingestellt werden.
Haltungs/Gestenerkenungsabschnitt 42B
Der Haltungs/Gestenerkennungsabschnitt 42B erfasst "die relative Position zwischen der Gesichtsposition m2t und der Handfingerspitzenposition m4t" und "die Änderungen der Handfingerspitzenposition m4t relativ zur Gesichtsposition m2t" von "die Gesichtsposition m2t im dreidimensionalen Raum" und "die Handfingerspitzenposition m4t im dreidimensionalen Raum", die von dem Gesichts/Fingerspitzenpositionerfassungsmittel 41 erfasst werden, und vergleicht die erfassten Ergebnisse mit den Haltungsdaten P1–P6 (9) oder den Gestendaten J1–J4 (10), die in dem Haltungs/Gestendatenspeicherabschnitt 42A gespeichert sind, um eine Haltung oder Geste der Zielperson zu erkennen. Die Erkennungsergebnisse an dem Haltungs/Gestenerkennungsabschnitt 42B sind als zeitlicher Ablauf gespeichert.
In Bezug auf die in den 11 bis 14 gezeigten Flussdiagramme wird nun das Haltungs/Gestenerkennungsverfahren in dem Haltungs/Gestenerkennungsabschnitt 42B im Detail beschrieben. Der Umriss des Prozesses am Haltungs/Gestenerkennungsabschnitt 42B wird zuerst in Bezug auf das in 11 gezeigte Flussdiagramm beschrieben, und der Haltungserkennungsprozess (Schritt S1), der im Flussdiagramm von 11 gezeigt ist, wird in Bezug auf das Flussdiagramm von 12 beschrieben, und dann wird der Haltungs/Gestenerkennungsprozess (Schritt S4), der im Flussdiagramm von 11 gezeigt ist, in Bezug auf die Flussdiagramme der 13 und 14 beschrieben.
Umriss des Prozesses am Haltungs/Gestenerkennungsabschnitt 42B
Wie im Flussdiagramm von 11 zu sehen, werden in Schritt S1 Haltungen P1 bis P4 (9) erkannt. Dann wird in Schritt S2 bestimmt, ob in Schritt S1 eine Haltung erkannt wurde. Wenn bestimmt wird, dass eine Haltung erkannt wurde, geht der Vorgang zu Schritt S3 weiter. Wenn nicht bestimmt wird, dass eine Haltung erkannt wurde, geht der Vorgang zu Schritt S4 weiter. In Schritt S3 wird die in Schritt S1 erkannte Haltung als Erkennungsergebnis ausgegeben und der Prozess wird beendet.
In Schritt S4 werden Haltungen P5, P6 (9) oder Gesten J1–J4 (10) erkannt. Dann wird in Schritt S5 bestimmt, ob eine Haltung oder Geste in Schritt S4 erkannt wurde. Wenn bestimmt wird, dass eine Haltung oder Geste erkannt wurde, geht der Vorgang zu Schritt S6 weiter. Wenn nicht bestimmt wird, dass eine Haltung oder Geste erkannt wurde, geht der Vorgang zu Schritt S8 weiter.
In Schritt S6 wird bestimmt, ob die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen (z.B. 5 mal) oder mehr in vorbestimmten vergangenen Frames (z.B. 10 Frames) erkannt wurde. Wenn bestimmt wird, dass die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen oder darüber hinaus erkannt wurde, geht der Vorgang zu Schritt S7 weiter. Nicht bestimmt wird, dass die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen oder mehr erkannt wurde, geht der Vorgang zu Schritt S8 weiter.
In Schritt S7 wird die in Schritt S4 erkannte Haltung oder Geste als Erkennungsergebnis ausgegeben und der Prozess wird beendet. In Schritt S8 wird auch "nicht erkennbar" ausgegeben, was anzeigt, dass eine Haltung oder Geste nicht erkannt wurde, und der Prozess wird beendet.
Schritt S1: Haltungserkennungsprozess
Wie im Flussdiagramm von 12 ersichtlich, gibt in Schritt S11 das Gesicht/Fingerspitzenpositionserfassungsmittel 41 die Gesichtsposition m2t und die Handfingerspitzenposition m4t der Zielperson im dreidimensionalen Raum ein (nachfolgend als "eingegebene Information" bezeichnet). Dann wird im nächsten Schritt S12 basierend auf der Gesichtsposition m2t und der Handfingerspitzenposition m4t ein Vergleichen zwischen dem Abstand von den Kameras 1 zur Handfingerspitze (nachfolgend als "Handfingerspitzenabstand" bezeichnet) und dem Abstand von den Kameras 1 zum Gesicht (nachfolgend als "Gesichtsabstand" bezeichnet) durchgeführt, um zu bestimmen, ob der Handfingerspitzenabstand und der Gesichtsabstand annähernd gleich sind, d.h. ob Differenz zwischen dem Handfingerspitzenabstand und dem Gesichtsabstand gleich oder kleiner als ein vorbestimmter Wert ist. Wenn bestimmt wird, dass diese Abstände angenähert gleich sind, geht der Vorgang zu Schritt S13 weiter. Wenn nicht bestimmt wird, dass sie angenähert gleich sind, dann geht der Vorgang zu Schritt S18 weiter.
In Schritt S13 ist ein Vergleich zwischen der Höhe der Handfingerspitze (nachfolgend als "Handfingerspitzenhöhe" bezeichnet) und der Höhe des Gesichts (nachfolgend als "Gesichtshöhe" bezeichnet) durchgeführt, um zu bestimmen, ob die Handfingerspitzenhöhe und die Gesichtshöhe angenähert gleich sind, d.h. ob die Differenz zwischen der Handfingerspitzenhöhe und der Gesichtshöhe gleich oder kleiner als ein vorbestimmter Wert ist. Wenn bestimmt wird, dass diese Höhen angenähert gleich sind, geht der Vorgang zu Schritt S14 weitr. Wenn nicht bestimmt wird, dass sie angenähert gleich sind, geht der Vorgang zu Schritt S15 weiter. In Schritt S14 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung eine GESICHTSSEITE (Haltung 1) ist (9(a)), und der Prozess wird beendet.
In Schritt S15 wird ein Vergleich zwischen der Handfingerspitzenhöhe und der Gesichtshöhe durchgeführt, um zu bestimmen, ob die Handfingerspitzenhöhe höher als die Gesichtshöhe ist. Wenn bestimmt wird, dass die Handfingerspitzenhöhe höher ist als die Gesichtshöhe, geht der Vorgang zu Schritt S16 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitzenposition höher als die Gesichtshöhe ist, dann geht der vorgang zu Schritt S17 weiter. In Schritt S16 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung HOHE HAND (Haltung P2) ist (9(b)), und der Prozess wird beendet. In Schritt S17 wird das Erkennungsergebnis ausgegeben, sodass die eingegebene Information keiner Haltung entspricht, und der Prozess wird beendet.
In Schritt S18 wird ein Vergleich zwischen der Handfingerspitzenhöhe und der Gesichtshöhe durchgeführt, um zu bestimmen, ob die Handfingerspitzenhöhe und die Gesichtshöhe angenähert gleich sind, d.h. ob die Differenz zwischen der Handfingerspitzenhöhe und der Gesichtshöhe gleich oder kleiner als ein vorbestimmter Wert ist. Wenn bestimmt wird, dass diese Höhen annähernd gleich sind, geht der Vorgang zu Schritt S19 weiter, wenn nicht bestimmt, dass sie angenähert gleich sind, dann geht der Vorgang zu Schritt S20 weiter. In Schritt S19 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung STOPP (Haltung P3) ist (9(c)), und der Prozess wird beendet.
In Schritt S20 wird ein Vergleich zwischen der Handfingerspitzenhbhe und der Gesichtshöhe durchgeführt, um zu bestimmen, ob die Handfingerspitzenhöhe niedriger als die Gesichtshöhe ist. Wenn bestimmt wird, dass die Handfingerspitzenhöhe niedriger als die Gesichtshöhe ist, geht der Vorgang zu Schritt S21 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitzenhöhe niedriger als die Gesichtshöhe ist, dann geht der Vorgang zu Schritt S22 weiter. In Schritt S21 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung HANDSCHÜTTELN (Haltung P4) ist (9(d)), und der Prozess wird beendet. In Schritt S22 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information keiner Haltung entspricht, und der Prozess wird beendet.
Schritt S4: Haltungs/Gestenerkennungsprozess
Wie im Flussdiagramm von 13 ersichtlich, wird in Schritt S31 die eingeebene Information (die Gesichtsposition m2t und die Handfingerspitzen position m4t der Zielperson im dreidimensionalen Raum) eingegeben. Dann wird in Schritt S32 die Standardabweichung der Handfingerspitzenposition m4t auf der Basis der Gesichtsposition m2t erhalten, um basierend auf der erhaltenen Standardabweichung wird bestimmt, ob die Bewegung der Hand stattfindet oder nicht. Genauer gesagt, wenn die Standardabweichung der Handfingerspitzenposition m4t gleich oder kleiner als ein vorbestimmter Wert ist, wird bestimmt, dass die Bewegung der Hand nicht stattfindet. Wenn die Standardabweichung der Handfingerspitzenposition größer als der vorbestimmte Wert ist, wird bestimmt, dass die Bewegung der Hand stattfindet. Wenn bestimmt wird, dass die Bewegung der Hand nicht stattfindet, geht der Vorgang zu Schritt S33 weiter. Wenn bestimmt wird, dass die Bewegung der Hand stattfindet, dann geht der Vorgang zu Schritt S36 weiter.
In Schritt S33 wird eine Bestimmung durchgeführt, ob die Handfingerspitzenhöhe unmittelbar unterhalb der Gesichtshöhe ist. Wenn bestimmt wird, dass die Handfingerspitzenhöhe unmittelbar unterhalb der Gesichtshöhe ist, geht der Vorgang zu Schritt S34 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitzenhöhe unmittelbar unterhalb der Gesichtshöhe ist, dann geht der Vorgang zu Schritt S35 weiter. In Schritt S34 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste HAND SEITLICH (Haltung P5) ist (9(e)) und der Prozess wird beendet. In Schritt S35 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste HAND UNTEN (Haltung P6) ist (9(f)) und der Prozess wird beendet.
In Schrit S36 wird ein Vergleich zwischen der Handfingerspitzenhöhe und der Gesichtshöhe durchgeführt, um zu bestimmen, ob die Handfingerspitzenhöhe höher als die Gesichtshöhe ist. Wenn bestimmt wird, dass die Handfingerspitzenhöhe höher als die Gesichtshöhe ist, geht der Vorgang zu Schritt S37 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitzenhöhe höher als die Gesichtshöhe ist, dann geht der Vorgang zu Schritt S41 weiter (14). In Schritt S37 wird ein Vergleich zwischen dem Handfingerspitzenabstand und dem Gesichtsabstand durchgeführt, um zu bestimmen, ob der Handfingerspitzenabstand und der Gesichtsabstand angenähert gleich sind, d.h. ob die Differenz zwischen dem Handfingerspitzenabstand und dem Gesichtsabstand gleich oder kleiner als ein vorbestimmter Wert ist. Wenn bestimmt wird, dass diese Abstände angenähert gleich sind, geht der Vorgang zu Schritt S38 weiter. Wenn nicht bestimmt wird, dass sie angenähert gleich sind, dann geht der Vorgang zu Schritt S40 weiter.
In Schritt S38 wird eine Bestimmung durchgeführt, ob die Handfingerspitze in Richtung nach rechts und links schwenkt. Basierend auf einer Verschiebung in Richtung nach rechts und links zwischen zwei Frames, sofern bestimmt wird, dass die Handfingerspitze in Richtung nach rechts und links schwingt, geht der Vorgang zu Schritt S39 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitze in Richtung nach rechts und links schwingt, dann geht der Vorgang zu Schritt S40 weiter. In Schritt S39 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste HAND SCHWENKEN (Geste J1) ist (10(a)), und der Prozess wird beendet. In Schritt S40 wird das Erkennungsergebnis ausgegeben, sodass keine Haltung oder Geste der eingegebenen Information entspricht, und der Prozess wird beendet.
Wie im Flussdiagramm von 14 ersichtlich, wird in Schritt S41 ein Vergleich zwischen dem Handfingerspitzenabstand und dem Gesichtsabstand durchgeführt, um zu bestimmen, ob der Handfingerspitzenabstand kürzer als der Gesichtsabstand ist. Wenn bestimmt wird, dass der Handfingerspitzenabstand kürzer als der Gesichtsabstand ist, geht der Vorgang zu Schritt S42 weiter. Wenn nicht bestimmt wird, dass der Handfingerspitzenabstand kürzer als der Gesichtsabstand ist, dann geht der Vorgang zu Schritt S47 weiter.
In Schritt S42 wird eine Bestimmung durchgeführt, ob die Handfingerspitze in Richtung nach rechts und links schwenkt. Basierend auf einer Verschiebung in Richtung nach rechts und links zwischen zwei Frames, sofern bestimmt wird, dass die Handfingerspitze in Richtung nach rechts und links schwenkt, geht der Vorgang zu Schritt S43 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitze in Richtung nach rechts und links schwenkt, dann geht der Vorgang zu Schritt S44 weiter. In Schritt S43 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste AUF WIEDERSEHEN ist (Geste J2) (10(b)), und der Prozess wird beendet.
In Schritt S44 wird eine Bestimmung durchgeführt, ob die Handfingerspitze in Richtung nach oben und unten schwenkt. Basierend auf einer Verschiebung in Richtung aufwärts und abwärts zwischen zwei Frames, sofern bestimmt wird, dass die Handfingerspitze in Richtungen aufwärts und abwärts schwenkt, geht der Vorgang zu Schritt S45 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitze in Richtung aufwärts und abwärts schwenkt, dann geht der Vorgang zu Schritt S46 weiter. In Schritt S45 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste KOMM HER (Geste J3) ist (10(c)), und der Prozess wird beendet. In Schritt S46 wird das Erkennungsergebnis ausgegeben, sodass keine Haltung oder Geste der eingegebenen Information entspricht, und der Prozess wird beendet.
In Schritt S47 wird ein Vergleich zwischen dem Handfingerspitzenabstand und dem Gesichtsabstand durchgeführt, um zu bestimmen, ob der Handfingerspitzenabstand und der Gesichtsabstand angenähert gleich sind, d.h. ob die Differenz zwischen dem Handfingerspitzenabstand und dem Gesichtsabstand gleich oder kleiner als ein vorbestimmter Wert ist. Wenn bestimmt wird, dass diese Abstände angenähert gleich sind, geht der Vorgang zu Schritt S48 weiter. Wenn nicht bestimmt wird, dass sie angenähert gleich sind, dann geht der Vorgang zu Schritt S50 weiter. In Schritt S48 wird eine Bestimmung durchgeführt, ob die Handfingerspitze in Richtung nach rechts und links schwenkt. Wenn bestimmt wird, dass die Handfingerspitze in Richtung nach rechts und links schwenkt, geht der Vorgang zu Schritt S49 weiter. Wenn nicht bestimmt wird, dass die Handfingerspitze in Richtung nach rechts und links schwenkt, dann geht der Vorgang zu Schritt S50 weiter.
In Schritt S49 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste HANDKREISEN (Geste J4) ist (10(d)), und der Prozess wird beendet. In Schritt S50 wird das Erkennungsergebnis ausgegeben, sodass keine Haltung oder Geste der eingegebenen Information entspricht, und der Prozess wird beendet.
Wie oben beschrieben, erfasst der Haltungs/Gestenerkennungsabschnitt 42B "die relative Position zwischen der Gesichtsposition m2t und der Handfingerspitzenposition m4t" und "die Änderungen der Handfingerspitzenposition m4t relativ zur Gesichtsposition m2t" aus der eingegebenen Information (Der Gesichtsposition m2t und der Handfingerspitzenposition m4t der Zielperson im dreidimensionalen Raum), die von dem Gesichts/Fingerspitzenpositionerfassungsmittel 41 eingegeben ist, und vergleicht die Erfassungsergebnisse mit den Haltungsdaten P1–P6 (9) und den Gestendaten J1–J4 (10), die in dem Haltungs/Gestendatenspeicherabschnitt 42A gespeichert sind, um hierdurch die Haltungen oder Gesten der Zielperson zu erkennen.
Abgesehen vom obigen Verfahren kann der Haltungs/Gestenerkennungsabschnitt 42B auch Haltungen oder Gesten der Zielperson auch durch andere Verfahren erkennen, wie etwa der folgenden MODIFIKATION 1 und MODIFIKATION 2. In Bezug auf die 15 bis 17 wird die "MODIFIKATION 1" de Prozesses am Haltungs/Gestenerkennungsabschnitt 42B beschrieben, und in Bezug auf die 18 und 19 wird die "MODIFIKATION 2" des Prozesses des Haltungs/Gestenerkennungsabschnitts 42B beschrieben.
MODIFIKATION 1
In dieser Modifikation wird ein Musterabgleichverfahren für die Erkennung von Haltungen oder Gesten der Zielperson angewendet. Wie im Flussdiagramm von 15 ersichtlich, werden in Schritt S61 Haltungen oder Gesten erkannt. Genauer gesagt, der Haltungs/Gestenerkennungsabschnitt 42B vergleicht "das eingegebene Muster", das aus der eingegebenen Information (der Gesichtsposition m2t und der Handfingerspitzenposition m4t der Zielperson im dreidimensionalen Raum), die von dem Gesichts/Fingerspitzenpositionerfassungsmittel 41 eingegeben wird, und "den Änderungen der Hand/Fingerspitzenposition m4t relativ zur Gesichtsposition m2t" besteht, mit den Haltungsdaten P11–P16 (16) oder den Gestendaten J11–J14 (17), die in dem Haltungs/Gestendatenspeicherabschnitt 42A gespeichert sind, und ermittelt das ähnlichste Muster, um hierdurch eine Haltung oder Geste der Zielperson zu erkennen. Der Haltungs/Gestendatenspeicherabschnitt 42A speichert zuvor die Haltungsdaten P11–P16 (16) und die Gestendaten J11–J14 (17) für den Musterabgleich.
Im nächsten Schritt S62 wird eine Bestimmung durchgeführt, ob in Schritt S61 eine Haltung oder eine Geste erkannt wurde. Wenn bestimmt wird, dass eine Haltung oder Geste erkannt wurde, geht der Vorgang zu Schritt S63 weiter. Wenn nicht bestimmt wird, dass eine Haltung oder Geste erkannt wurde, dann geht der Vorgang zu Schritt S65 weiter.
In Schritt S63 wird eine Bestimmung durchgeführt, ob die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen (z.B. 5 mal) oder mehr in vorbestimmten vergangenen Frames (z.B. 10 Frames) erkannt wurde. Wenn bestimmt wird, dass die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen oder mehr erkannt wurde, geht der Vorgang zu Schritt S64 weiter.
Wenn nicht bestimmt wird, dass die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen oder mehr erkannt wurde, dann geht der Vorgang zu Schritt S65 weiter.
In Schritt S64 wird die in Schritt S61 erkannte Haltung oder Geste als Erkennungsergebnis ausgegeben und der Prozess wird beendet. Auch wird in Schritt S65 "nicht erkennbar" ausgegeben, was anzeigt, dass keine Haltung oder Geste erkannt wurde, und der Prozess wird beendet.
Wie oben beschrieben, kann der Haltungsgestenerkennungsabschnitt 428 Haltungen oder Gesten der Zielperson durch Musterabgleich erkennen, d.h. durch Musterabgleich des eingegebenen Musters, das aus der vom Handfingerspitzenpositionerfassungsmittel 41 eingegebenen Information und "den Änderungen der Handfingerspitzenposition m4t relativ zur Gesichtsposition m2t" besteht, mit den Haltungsdaten P11–P16 (16) und den Gestendaten J11–J14 (17), die in dem Haltungs/Gestendatenspeicherabschnitt 42A gespeichert sind.
MODIFIKATION 2
In dieser Modifikation 2 setzt der Haltungs/Gestenerkennungsabschnitt 42B einen Bestimmungskreis E mit ausreichender Größe für die Hand der Zielperson und vergleicht die Fläche der Hand mit der Fläche des Bestimmungskreises E, um "HANDSCHÜTTELN" (Haltung P4) (9(d)) und "KOMM HER" (Geste J3) (10(c)) zu unterscheiden, deren relative Position zwischen der Gesichtsposition m2t und der Handfingerspitzenposition m4t ähnlich sind. "HANDSCHÜTTELN" (Haltung P4) und "KOMM HER" (Geste J3) sind einander ähnlich und nur schwer zu unterscheiden, da sie gemeinsam darin sind, dass die Höhe der Fingerspitzenposition niedriger ist als die Gesichtsposition und dass der Abstand der Fingerspitzenposition von den Kameras kürzer ist als der Abstand der Gesichtsposition von den Kameras.
Wie im Flussdiagramm von 18 ersichtlich, wird in Schritt S71 ein Bestimmungskreis (Bestimmungsbereich) E um die Arm/Handposition m3 herum gesetzt (siehe 19). Die Größe des Bestimmungskreises E ist so bestimmt, dass der Bestimmungskreis E die Hand der Zielperson vollständig überdeckt. Die Größe (der Durchmesser) des Bestimmungskreises E wird in Bezug auf die von der Aufnahmebildanalysevorrichtung 2 erzeugte Abstandsinformation gesetzt. Im in 19 gezeigten Beispiel wird der Bestimmungskreis E für einen Durchmesser von 20 cm gesetzt.
Im nächsten Schritt S72 wird eine Bestimmung durchgeführt, ob die Fläche Sh des Menschenhautbereichs R2 innerhalb des Bestimmungskreises E gleich oder größer als eine Hälfte der Fläche S des Bestimmungskreises E ist. Der Menschenhautbereich R2 bezieht sich auf die Menschenhautbereichsinformation, die von der Aufnahmebildanalysevorrichtung 2 erzeugt wird. Wenn bestimmt wird, dass die Fläche Sh des Menschenhautbereichs R2 gleich oder größer als die Hälfte der Fläche S des Bestimmungskreises E ist (19(b)), geht der Vorgang zu Schritt S73 weiter. Wenn bestimmt wird, dass die Fläche Sh des Menschenhautbereichs R2 kleiner als die Hälfte der Fläche S des Bestimmungskreises E ist (19(c)), geht der Vorgang zu Schritt S74 weiter.
In Schritt S73 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste KOMM HER (Geste J3) ist (10(c)), und der Prozess wird beendet. In Schritt S73 wird das Erkennungsergebnis ausgegeben, sodass die der eingegebenen Information entsprechende Haltung oder Geste HANDSCHÜTTELN (Haltung P4) ist (9(d)), und der Prozess wird beendet.
Wie oben beschrieben, setzt der Haltungs/Gestenerkennungsabschnitt 42B einen Bestimmungskreis E mit ausreichender Größe für die Hand der Zielperson und vergleicht die Fläche Sh des Menschenhautbereichs R2 innerhalb des Bestimmungskreises E mit der Fläche des Bestimmungskreises E, um "KOMM HER" (Geste J3) und "HANDSCHÜTTELN" (Haltung P4) zu unterscheiden.
BETRIEB DES GESTENERKENNUNGSSYSTEMS A1
Nachfolgend wird der Betrieb des Gestenerkennungssystems A1 in Bezug auf das Blockdiagramm von 1 und die Flussdiagramme der 20 und 21 beschrieben.
AUFNHAMEBILDANALYSESCHRITT
Wie im Flussdiagramm von 20 ersichtlich, erzeugt in der Aufnahmebildanalysevorrichtung 2, wenn ein aufgenommenes Bild von den Kameras 1a, 1b zur Aufnahmebildanalysevorrichtung 2 eingegeben wird (Schritt S81), der Abstandsinformationserzeugungsabschnitt 21 aus dem aufgenommenen Bild ein Abstandsbild D1 (3(a)) als die Abstandsinformation (Schritt S82), und der Bewegungsinformationserzeugungsabschnitt 22 erzeugt aus dem aufgenommenen Bild ein Differenzbild D2 (3(b)) als Bewegungsinformation (Schritt S83). Ferner erzeugt der Randinformationserzeugungsabschnitt 23 aus dem aufgenommenen Bild ein Randbild D3 (3(c)) als die Randinformation (Schritt S84), und der Menschenhautbereichsinformationserzeugungsabschnitt 24 extrahiert aus dem aufgenommenen Bild Menschenhautbereiche R1, R2 (3(d)) als die Menschenhautbereichsinformation (Schritt S85).
KONTUREXTRAKTIONSSCHRITT
Wie in 20 gezeigt, setzt in der Konturextraktionsvorrichtung 3 der Objektabstandsetzabschnitt 31 basierend auf dem Abstandsbild D1 und dem Differenzbild D2, die in den Schritten S82 und S83 erzeugt wurden, einen Objektabstand dort, wo die Zielperson vorhanden ist (Schritt S86). Anschließend erzeugt der Objektabstandsbilderzeugungsabschnitt 32 ein Objektabstandsbild D4 (4(b)), das durch Extraktion von Pixeln, die auf dem in Schritt S86 gesetzten Objektabstand existieren, von dem in Schritt S84 erzeugten Randbild D2 hergestellt wird (Schritt S87).
Der Objektbereichsetzabschnitt 33 setzt dann einen Objektbereich T (5(b)) in das in Schritt S87 erzeugte Objektabstandsbild D4 hinein (Schritt S88), und der Konturextraktionsabschnitt 34 extrahiert eine Kontur O der Zielperson C (5(c)) innerhalb des in Schritt S88 gesetzten Objektbereichs T (Schritt S89).
GESICHT/HANDFINGERSPITZENPOSITIONERFASSUNGSSCHRITT
Wie im Flussdiagramm von 21 ersichtlich, erfasst, in dem Gesicht/Fingerspitzenpositionerfassungsmittel 41 der Gestenerkennungsvorrichtung 4, der Kopfpositionerfassungsabschnitt 41A die Kopfscheitelposition m1 (7(a)) der Zielperson C basierend auf der in Schritt S89 erzeugten Konturinformation (Schritt S90).
Das Gesichtspositionserfassungsmittel 41B erfasst "die Gesichtsposition m2 auf dem Bild" (7(b)) basierend auf der in Schritt S90 erfassten Kopfscheitelposition m1 und der in Schritt S85 erzeugten Menschenhautbereichsinformation, und erhält aus der erfassten "Gesichtsposition m2 (Xf, Yf) auf dem Bild" die "Gesichtsposition m2t (Xft, Yft, Zft) im dreidimensionalen Raum (realen Raum)" in Bezug auf die in Schritt S82 erzeugte Abstandsinformation (Schritt S91).
Dann erfasst der Arm/Handpositionserfassungsabschnitt 41C "die Arm/Handposition m3 auf dem Bild" (8(a)) aus der in Schritt S91 erfassten "Gesichtsposition m2 auf dem Bild" (Schritt S92).
Dann erfasst der Fingerspitzenpositionserfassungsabschnitt 41D die "Handfingerspitzenposition m4 auf dem Bild" (8(b)) basierend auf "der vom Gesichtspositionerfassungsabschnitt 41B erfassten "Gesichtsposition m2 auf dem Bild" und der vom Arm/Handpositionserfassungsabschnitt 41C erfassten Arm/Handposition m3 und erhält, aus der erfassten "Handfingerspitzenposition m4 (Xh, Yh) auf dem Bild", die "Handfingerspitzenposition m4t (Xht, Yht, Zht) im dreidimensionalen Raum (realen Raum)" in Bezug auf die in Schritt S82 erzeugte Abstandsinformation (Schritt S93).
HALTUNGS/GESTENERKENNUNGSSCHRITT
Wie im Flussdiagramm von 18 ersichtlich, erfasst, in dem Haltungs/Gestenerkennungsmittel 42 der Gestenerkennungsvorrichtung 4, der Haltungs/Gestenerkennungsabschnitt 42B "die relative Position zwischen der Gesichtsposition m2t und der Handfingerspitzenposition m4t" und "die Änderungen der Handfingerspitzenposition m4t relativ zur Gesichtsposition m2t" aus "der Gesichtsposition m2t (Xft, Yft, Zft) im dreidimensionalen Raum" und "der Handfingerspitzenposition m4t (Xht, Yht, Zht) im dreidimensionalen Raum", die in den Schritten S91 und S93 erhalten wurden, und vergleicht die Erfassungsergebnisse mit den im Haltungs/Gestendatenspeicherabschnitt 42A gespeicherten Haltungsdaten P1–P6 (9) und den Gestendaten J1–J4 (Schritt S10), um Haltungen oder Gesten der Zielperson zu erkennen (Schritt S94). Weil die Art der Erkennung von Haltungen oder Gesten in dem Haltungs/Gestenerkennungsabschnitt 42B im Detail beschrieben worden ist, wird eine Erläuterung davon weggelassen.
Obwohl oben das Gestenerkennungssystem A1 beschrieben worden ist, kann die in dem Gestenerkennungssystem A1 enthaltene Gestenerkennungsvorrichtung 4 realisiert werden, indem jedes Mittel als Funktionsprogramm des Computers erlangt wird oder durch Betreiben eines Gestenerkennungsprogramms als Kombination dieser Funktionsprogramme.
Das Gestenerkennungssystem A1 kann z.B. an einem autonomen Roboter angewendet werden. In diesem Fall kann der autonome Roboter eine Haltung als "HANDSCHÜTTELN" (Haltung P4) (9(d)) erkennen, wenn eine Person ihre Hand nach dem Roboter ausstreckt, oder eine Geste als "HANDSCHWENKEN" (Geste J1) (10(a)), wenn eine Person ihre Hand schwenkt.
Die Anweisung mit Haltungen oder Gesten ist vorteilhaft im Vergleich zu akustischen Anweisungen: Da sie nicht durch Umgebungsgeräusche beeinträchtigt wird, kann sie den Roboter auch in einem solchen Fall anweisen, wo die Stimme ihn nicht erreichen kann, sie kann den Roboter mit einer einfachen Instruktion anweisen, auch in einem solchen Fall, wo ein schwieriger Ausdruck (oder ein redundanter Ausdruck) erforderlich ist.
Weil es gemäß dieser bevorzugten Ausführung nicht notwendig ist, Merkmalspunkte zu berechnen (Punkte, die Bewegungsmerkmale der Zielperson repräsentieren), immer dann, wenn eine Geste der Zielperson erkannt wird, kann der Rechenaufwand verringert werden, der für den Haltungserkennungsprozess oder den Gestenerkennungsprozess erforderlich ist.
ZWEITE AUSFÜHRUNG
Die Anordnung und der Betrieb des Gestenerkennungssystems A2, das die Gestenerkennungsvorrichtung 5 enthält, wird in Bezug auf die 22 bis 28 beschrieben. Das Gestenerkennungssystem A2 gemäß dieser bevorzugten Ausführung ist im Wesentlichen das gleiche wie das Gestenerkennungssystem A1 gemäß der ersten Ausführung, außer für die Gestenerkennungsvorrichtung 5. Daher bezieht sich die Erläuterung nun auf die Gestenerkennungsvorrichtung 5, und danach wird der Betrieb des Gestenerkennungssystems A2 beschrieben. Teile, die jenen der zuvor beschriebenen ersten Ausführung ähnlich sind, sind mit den gleichen Bezugszahlen bezeichnet, und eine detaillierte Beschreibung davon wird weggelassen.
GESTENERKENNUNGSVORRICHTUNG 5
Die Gestenerkennungsvorrichtung 5 erkennt, basierend auf der von der Aufnahmebildanalysevorrichtung 2 erzeugten Abstandsinformation und Menschenhautinformation, und der von der Konturextraktionsvorrichtung 3 erzeugten Konturinformation, Haltungen oder Gesten der Zielperson und gibt die Erkennungsergebnisse aus (22).
Wie in 23 gezeigt, enthält die Gestenerkennungsvorrichtung 5 ein Gesicht/Fingerspitzenpositionerfassungsmittel 41 zum Erfassen der Gesichtsposition und der Handfingerspitzenposition der Zielperson C im dreidimensionalen Raum (realen Raum), und ein Haltungsgestenerkennungsmittel 52 zum Erkennen einer Haltung oder einer Geste der Zielperson basierend auf der vom Gesicht/Fingerspitzenpositionerfassungsmittel 41 erfassten Gesichtsposition und Handfingerspitzenposition.
Gesicht/Fingerspitzenpositionerfassungsmittel 41
Das Gesicht/Fingerspitzenpositionerfassungsmittel 41 enthält einen Kopfpositionerfassungsabschnitt 41A zum Erfassen einer Kopfscheitelposition der Zielperson im dreidimensionalen Raum, ein Gesichtspositionerfassungsabschnitt 41B zum Erfassen einer Gesichtsposition der Zielperson, einen Arm/Handpositionerfassungsabschnitt 41C zum Erfassen einer Arm/Handposition der Zielperson sowie einen Fingerspitzen positionserfassungsabschnitt 41D zum Erfassen einer Handfingerspitzenposition der Zielperson. Hierin bezeichnet der Begriff "Arm/Hand" einen einen Arm und eine Hand enthaltenden Teil, und der Begriff "Handfingerspitze" bezeichnet die Fingerspitzen einer Hand.
Das Gesicht/Fingerspitzenpositionerfassungsmittel 41 ist das gleiche wie das Gesicht/Fingerspitzenpositionerfassungsmittel 41 in dem Gestenerkennungssystem A1 gemäß der ersten Ausführung, und eine detaillierte Beschreibung davon wird weggelassen.
Haltungs/Gestenerkennungsmittel 52
Das Haltungs/Gestenerkennungsmittel 52 enthält einen Haltungsgestendatenspeicherabschnitt 52A zum Speichern von Haltungsdaten und Gestendaten sowie einen Haltung/Gestenerkennungsabschnitt 52B zum Erkennen einer Haltung oder einer Geste der Zielperson basierend auf der vom Gesicht/Fingerspitzenpositionerfassungsmittel 41 erfassten "Gesichtsposition m2t im dreidimensionalen Raum" und "der Handfingerspitzenposition m4t im dreidimensionalen Raum" (siehe 23).
Haltungs/Gestendatenspeicherabschnitt 52A
Der Haltungs/Gestendatenspeicherabschnitt 52A speichert Haltungsdaten P1–P2, P5–P6 (9) und Gestendaten J1–J4 (10). Die Haltungsdaten P1–P2, P5–P6 und die Gestendaten J1–J4 sind Daten, die Haltungen oder Gesten entsprechend "der Handfingerspitzenposition relativ zur Gesichtsposition, und Änderungen der Handfingerspitzenposition" anzeigen. Die Haltungsdaten P1–P2, P5–P6 und die Gestendaten J1–J4 werden verwendet, wenn der Haltungs/Gestenerkennungsabschnitt 52B eine Haltung oder eine Geste der Zielperson erkennt.
Wie in 9 gezeigt, werden die Haltungsdaten P1–P2, P5–P6 beschrieben. In 9 zeigt (a) "GESICHTSSEITE" (Haltung P1), was "Hallo" bedeutet, (b) zeigt "HOHE HAND" (Haltung P2), was "Folgen Sie mir" bedeutet, (e) zeigt "HAND SEITLICH" (Haltung P5), was "Blicke in Handrichtung" bedeutet und (f) zeigt "HAND UNTEN" (Haltung P5), was "Wenden zur Handrichtung" bedeutet.
Wie in 10 gezeigt, werden die Gesten J1–J4 beschrieben. In 10 zeigt (a) "HANDSCHWENKEN" (Geste J1), was "Aufpassen" bedeutet, (b) zeigt "AUF WIEDERSEHEN" (Geste J2), was "Auf Wiedersehen" bedeutet, (c) zeigt "KOMM HER" (Geste J3), was "Kommen Sie her" bedeutet, und (d) zeigt "HANDKREISEN" (Geste J4), was "Drehen Sie sich um" bedeutet.
In dieser bevorzugten Ausführung speichert der Haltungs/Gestendatenspeicherabschnitt 52A (23) die Haltungsdaten P1–P2, P5–P6 (9) und die Gestendaten J1–J4 (10). Jedoch können die Haltungsdaten und Gestendaten, die in dem Haltungs/Gestendatenspeicherabschnitt 52A gespeichert sind, beliebig eingestellt werden. Die Bedeutung jeder Haltung und Geste kann auch beliebig eingestellt werden.
Der Haltungs/Gestenerkennungsabschnitt 52B erkennt Haltungen oder Gesten der Zielperson mittels der "Bayes-Methode", einem statistischen Verfahren. Genauer gesagt, aus "der Gesichtsposition m2t im dreidimensionalen Raum" und "der Handfingerspitzenposition m4t im dreidimensionalen Raum", die von dem Gesicht/Fingerspitzenpositionerfassungsmittel 41 erfasst sind, werden ein Mittelwert und eine Varianz einer vorbestimmten Anzahl von Frames (z.B. 5 Frames) für die Handfingerspitzenposition relativ zur Gesichtsposition m2t als Merkmalsvektor x erhalten. Basierend auf dem erhaltenen Merkmalsvektor x und mittels der Bayes-Methode berechnet der Haltungs/Gestenerkennungsabschnitt 52B für alle Haltungen und Gesten i eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariablen ω und bestimmt eine Haltung oder eine Geste mit der maximalen Wahrscheinlichkeitsdichte für jeden Frame, sodass die Haltung oder die Geste mit der maximalen Wahrscheinlichkeitsdichte als die Haltung oder Geste des entsprechenden Frames erkannt wird.
In Bezug auf die in den 24 und 25 gezeigten Flussdiagramme wird das Haltungs/Gestenerkennungsverfahren im Haltungs/Gestenerkennungsabschnitt 52B im Detail beschrieben. Der Umriss des Prozess am Haltungs/Gestenerkennungsabschnitt 52B wird zuerst in Bezug auf das in 24 gezeigte Flussdiagramm beschrieben, und der im Flussdiagramm von 24 gezeigte Haltungs/Gestenerkennungsprozess (Schritt S101) wird in Bezug auf das Flussdiagramm von 25 beschrieben.
Umriss des Prozesses am Haltungs/Gestenerkennungsabschnitt 52B
Wie im Flussdiagramm von 24 ersichtlich, werden im Schritt S101 Haltungen oder Gesten erkannt. Dann wird in Schritt S102 eine Bestimmung durchgeführt, ob eine Haltung oder eine Geste in Schritt S101 erkannt wurde. Wenn bestimmt wird, dass eine Haltung oder Geste erkannt wurde, geht der Vorgang zu Schritt S103 weiter. Falls nicht bestimmt wird, dass eine Haltung oder Geste erkannt wurde, dann geht der Vorgang zu Schritt S105 weiter.
In Schritt S103 wird eine Bestimmung durchgeführt, ob die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen (z.B. 5 mal oder mehr) in vorbestimmten vergangenen Frames (z.B. 10 Frames) erkannt wurde. Wenn bestimmt wird, dass die gleiche Haltung doer Geste für eine bestimmte Anzahl von Malen oder mehr erkannt wurde, geht der Vorgang zu Schritt S104 weiter. Wenn nicth bestimmt wird, dass die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen oder mehr erkannt wurde, dann geht der Vorgang zu Schritt S105 weiter.
In Schritt S04 wird die in Schritt S101 erkannte Haltung oder Geste als Erkennungsergebnis ausgegeben, und der Prozess wird beendet. Auch wird in Schritt S105 "nicht erkennbar" ausgegeben, was anzeigt, dass eine Haltung oder eine Geste nicht erkannt wurde, und der Prozess wird beendet.
Schritt 101: Haltungs/Gestenerkennungsprozess
Wie im Flussdiagramm von 25 ersichtlich, wird in Schritt S111 aus "der Gesichtsposition m2t (Xft, Yft, Zft) im dreidimensionalen Raum" und "der Handfingerspitzenposition m4t (Xht, Xht, Zht) im dreidimensionalen Raum", die durch das Gesicht/Fingerspitzenpositionerfassungsmittel 41 erfasst wurden, im Haltungs/Gestenerkennungsabschnitt 52B "der Mittelwert und die Varianz einer vorbestimmten Anzahl von Frames (z.B. 5 Frames) für die Handfingerspitzenposition relativ zur Gesichtsposition m2t" als Merkmalsvektor erhalten. x (X, Y, Z), (SX, SY, SZ).
Im nächsten Schritt S112 berechnet, basierend auf dem in Schritt S111 erhaltenen Merkmalsvektor x und mittels der Bayes-Methode, der Haltungs/Gestenerkennungsabschnitt 52B für alle Haltungen und Gesten i "eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen" jeder Zufallsvariable ωi.
Die Art der Berechnung "der Wahrscheinlichkeitsdichte von Posteriori-Verteilungen" in Schritt S112 wird nun beschrieben. Wenn ein Merkmalsvektor x gegeben ist, wird die Wahrscheinlichkeitsdichte P (ωi|x), worin der Merkmalsvektor x eine bestimmte Haltung oder Geste i ist, aus der folgenden Gleichung (1) erhalten, die das sogenannte "Bayes'sche Theorem" ist.
Die Zufallsvariable ωi wird vorab für jede Haltung oder Geste gesetzt.
In Gleichung (1) bezeichnet P(X|ωi) "eine bedingte Wahrscheinlichkeitsdichte", worin das Bild den Merkmalsvektor x unter der Bedingung enthält, dass eine Haltung oder Geste i gegeben ist. Dies wird durch die folgende Gleichung (2) angegeben. Der Merkmalsvektor x hat eine Kovarianzmatrix Σ und ihr folgt die Normalverteilung der Erwartung X.
In Gleichung (1) ist P(ωi) "die Wahrscheinlichkeitsdichte vorheriger Verteilungen" für die Zufallsvariable ωi und wird durch die folgende Gleichung (3) angegeben. P(ωi) ist die Normalverteilung bei der Erwartung ωio und die Varianz V[ωio].
Weil der Nenner am rechten Term in der Gleichung (1) nicht von ωi abhängig ist, wird aus den folgenden Gleichungen (2) und (3) "die Wahrscheinlichkeitsdichte von Posteriori-Verteilungen" für die Zufallsvariable ωi durch die folgende Gleichung (4) angegeben.
Zurück zum Flussdiagramm von 25, bestimmt in Schritt S113 der Haltungs/Gestenerkennungsabschnitt 52B eine Haltung oder eine Geste mit der maximalen "Wahrscheinlichkeitsdichte von Posteriori-Verteilungen" für jeden Frame. Im anschließenden Frame S114 wird das Erkennungsergebnis ausgegeben, sodass die in Schritt S113 erhaltene Haltung oder Geste die Haltung oder Geste für jeden Frame ist, und der Prozess wird beendet.
26 ist ein Graph, der für die Haltungen P1, P2, P5, P6 und die Gesten J1 bis J4 "die Wahrscheinlichkeitsdichte von Posteriori-Verteilungen" jeder Zufallsvariable ωi im Bereich von Frame 1 bis Frame 100 zeigt. Hier sind die Haltungen P1, P2, P5, P6 und die Gesten J1–J4 gegeben als "i (i = 1 bis 8)".
Weil, wie in 26 ersichtlich, die Wahrscheinlichkeitsdichte für "AUF WIEDERSEHEN" (Geste J2) den Frames 1 bis 26 maximal wird, wird in den Frames 1 bis 26 die Haltung oder Geste der Zielperson als "AUF WIEDERSEHEN" erkannt (Geste J2) (siehe 10(b)). Weil unterdessen in den Frames 27 bis 43 die Wahrscheinlichkeitsdichte für "GESICHTSSEITE" (Haltung P1) maximal wird, wird in den Frames 27 bis 43 die Haltung oder Geste der Zielperson als "GESICHTSSEITE" erkannt (Haltung P1) (siehe 9(a)).
Weil in den Frames 44 bis 76 die Wahrscheinlichkeitsdichte für "KOMM HER" (Geste J3) maximal wird, wird die Haltung oder Geste der Zielperson in den Frames 44 bis 76 als "KOMME HER" erkannt (Geste J3) (siehe 10(c)). Weil in den Frames 80 bis 100 die Wahrscheinlichkeitsdichte für "HANDSCHWENKEN" (Geste J1) maximal wird, wird die Haltung oder Geste der Zielperson in den Frames 80 bis 100 als "HANDSCHWENKEN" erkannt (Geste J1) (siehe 10(a)).
In den Frames 77 bis 79 wird die Wahrscheinlichkeitsdichte für "HANDKREISEN" (Geste J4) maximal. Weil jedoch das "HANDKREISEN" nur dreimal erkannt wird, wird die Haltung oder Geste der Zielperson nicht als "HANDKREISEN" erkannt (Geste J4). Dies ist so, weil der Haltungs/Gestenerkennungsabschnitt 52B die Haltung oder Geste nur dann erkennt, wenn die gleiche Haltung oder Geste für eine bestimmte Anzahl von Malen (z.B. 5 mal) oder mehr in vorbestimmten vergangenen Frames (z.B. 10 Frames) erkannt wird (siehe Schritte S103 bis S105) im Flussdiagramm von 24.
Wie oben beschrieben, berechnet, mittels der Bayes-Methode, der Haltungs/Gestenerkennungsabschnitt 52B für alle Haltungen oder Gesten i (i = 1 bis 8) "eine Wahrscheinlichkeitsdichte von Posteriori-Verteilung" von jeder Zufallsvariable ωi, und bestimmt eine Haltung oder eine Geste mit der maximalen "Wahrscheinlichkeitsdichte von Posteriori-Verteilungen "für jeden Frame, um eine Haltung oder Geste der Zielperson zu erkennen.
BETRIEB DES GESTENERKENNUNGSSYSTEMS A2
Nachfolgend wird der Betrieb des Gestenerkennungssystems A2 in Bezug auf das Blockdiagramm von 22 und die Flussdiagramme der 27 und 28 beschrieben.
AUFNAHMEBILDANALYSESCHRITT
Wenn, wie im Flussdiagramm von 27 ersichtlich, in der Aufnahmebildanalysevorrichtung 2 ein aufgenommenes Bild von den Kameras 1a, 1b zu der Aufnahmebildanalysevorrichtung 2 eingegeben wird (Schritt S181), erzeugt der Abstandsinformationerzeugungsabschnitt 21 aus dem aufgenommenen Bild ein Abstandsbild D1 (3(a)) als die Abstandsinformation (Schritt S182), und der Bewegungsinformationserzeugungsabschnitt 22 erzeugt aus dem aufgenommenen Bild ein Differenzbild D2 (3(b)) als die Bewegungsinformation (Schritt S183). Ferner erzeugt der Randinformationserzeugungsabschnitt 23 aus dem aufgenommenen Bild ein Randbild D3 (3(c)) als die Randinformation (Schritt S184), und der Menschenhautbereichsinformationserzeugungsabschnitt 24 extrahiert aus dem aufgenommenen Bild Menschenhautbereiche R1, R2 (3(d)) als die Menschenhautbereichsinformation (Schritt S185).
KONTUREXTRAKTIONSSCHRITT
Wie in 27 gezeigt, setzt ind er Konturextraktionsvorrichtung 3 der Objektabstandsetzabschnitt 31 einen Objektabstand, wo die Zielperson vorhanden ist (S186) basierend auf dem Abstandsbild D1 und dem Differenzbild D2, die in den Schritten S182 und S183 erzeugt wurden. Anschließend erzeugt der Objektabstandsbilderzeugungsabschnitt 32 ein Objektabstandsbild D4 (4(b)), das durch Extraktion von Pixeln, die auf dem in Schritt S186 gesetzten Objektabstand existieren, von dem in Schritt S184 erzeugten Randbild D3 hergestellt wird (Schritt S187).
Dann setzt der Objektbereichsetzabschnitt 33 einen Objektbereich T (5(b)) in das in Schritt S187 erzeugte Objektabstandsbild D4 hinein (Schritt S188), und der Konturextraktionsabschnitt 34 extrahiert eine Kontur O der Zielperson C (5(c)) innerhalb des in Schritt S188 gesetzten Objektbereichs T (Schritt S189).
GESICHTS/HANDFINGERSPITZENPOSITIONERFASSUNGSSCHRITT
Wie im Flussdiagramm von 28 ersichtlich, erfasst, in dem Gesichts/Fingerspitzenpositionerfassungsmittel 41 der Gestenerkennungsvorrichtung 5, der Handpositionerfassungsabschnitt 41A die Kopfscheiteiposition m1 (7(a)) der Zielperson C basierend auf der in Schritt S189 erzeugten Konturinformation (Schritt S190).
Der Gesichtpositionserfassungsabschnitt 41B erfasst "die Gesichtsposition m2 auf dem Bild" (7(b)) basierend auf der in Schritt S190 erfassten Kopfscheitelposition m1 und der in Schritt S185 erzeugten Menschenhautbereichsinformation, und erhält aus der erfassten "Gesichtsposition m2 (Xf, Yf) auf dem Bild" die "Gesichtsposition m2t (Xft, Yft, Zft) im dreidimensionalen Raum (realen Raum)" in Bezug auf die in Schritt S182 erzeugte Abstandsinformation (Schritt S191).
Dann erfasst der Arm/Handpositionerfassungsabschnitt 41C "die Arm/Handposition m3 auf dem Bild" (8(a)) aus der in Schritt S191 erfassten "Gesichtsposition m2 auf dem Bild" (Schritt S192). Dann erfasst der Fingerspitzenpositionerfassungsabschnitt 41D "die Handfingerspitzenposition m4 auf dem Bild" (8(b)) basierend auf "der vom Gesichtspositionerfassungsabschnitt 41B erfassten "Gesichtsposition m2" auf dem Bild und der vom Arm/Handpositionerfassungsabschnitt 41C erfassten Arm/Handposition m3, und erhält aus der erfassten "Handfingerspitzenposition m4 (Xh, Yh) auf dem Bild" die "Handfingerspitzenposition m4t (Xht, Yht, Zht) im dreidimensionalen Raum (realen Raum)" in Bezug auf die in Schritt S182 erzeugte Abstandsinformation (Schritt 193).
HALTUNG/GESTENERKENNUNGSSCHRITT
Wie im Flussdiagramm von 28 ersichtlich, erkennt der Haltungs/Gestenerkennungsabschnitt 52B der Gestenerkennungsvorrichtung 5 Haltungen oder Gesten der Zielperson mittels der "Bayes-Methode" als einem statistischen Verfahren. Weil die Art der Erkennung von Haltungen oder Gesten in dem Haltungs/Gestenerkennungsabschnitt 52B im Detail beschrieben worden ist, wird eine Erläuterung davon weggelassen.
Obwohl oben das Gestenerkennungssystem A2 beschrieben worden ist, kann die in dem Gestenerkennungssystem A2 enthaltene Gestenerkennungsvorrichtung A2 durch jedes Mittel auch als Funktionsprogramm des Computers realisiert werden, oder durch Betreiben eines Gestenerkennungsprogramms als Kombination dieser Funktionsprogramme.
Das Gestenerkennungssystem A2 kann z.B. auf einen autonomen Roboter angewendet werden. In diesem Fall kann der autonome Roboter eine Haltung als "HOHE HAND" (Haltung P2) erkennen (9(b)), wenn eine Person ihre Hand anhebt, oder eine Geste als "HANDSCHWENKEN" (Geste J1) (10(a)), wenn eine Person ihre Hand schwenkt.
Die Anweisung mit Haltungen oder Gesten ist vorteilhaft im Vergleich zu akustischen Anweisungen: Sie wird nicht durch Umgebungsgeräusche beeinträchtigt, sie kann den Roboter auch in dem Fall anweisen, wo ihn die Stimme nicht erreicht, sie kann den Roboter mit einer einfachen Anweisung auch in dem Fall anweisen, wo ein schwieriger Ausdruck (oder ein redundanter Ausdruck) erforderlich ist.
Weil es gemäß dieser bevorzugten Ausführung nicht notwendig ist, Merkmalspunkte zu berechnen (Punkte, die ein Merkmal der Bewegung der Zielperson repräsentieren), wenn immer eine Geste der Zielperson erkannt wird, kann der Rechenaufwand, der für den Haltungserkennungsprozess oder den Gestenerkennungsprozess erforderlich ist, im Vergleich zum herkömmlichen Gestenerkennungsverfahren verringert werden.
Während die vorliegende Erfindung im Detail in Bezug auf die bestimmten Ausführungen davon beschrieben worden ist, versteht es sich für einen Fachkundigen, dass verschiedene Änderungen und Modifikationen vorgenommen werden können, ohne vom Umfang der Ansprüche abzuweichen.

Claims

Gestenerkennungsvorrichtung (A1; A2) zum Erkennen von Haltungen oder Gesten einer Zielperson (C) basierend auf von Kameras (1a, 1b) aufgenommenen Bildern (D1–D4) der Zielperson, umfassend: ein Gesicht/Fingerspitzenposition-Erfassungsmittel (41), das eine Gesichtsposition (m2) und eine Fingerspitzenposition (m4) der Zielperson (C) im dreidimensionalen Raum basierend auf Konturinformation (O) und Menschenhautbereich-Information (R1, R2) der Zielperson (C) erfasst, die durch die aufgenommenen Bilder (D1–D4) zu erzeugen sind; und ein Haltungs/Gestenerkennungsmittel (42; 62), das arbeitet, um Änderungen der Fingerspitzenposition (m4) durch ein vorbestimmtes Verfahren zu erfassen, die erfassten Ergebnisse durch ein zuvor gespeichertes Verfahren zu bearbeiten und eine Haltung oder eine Geste der Zielperson (C) zu erkennen, dadurch gekennzeichnet, dass das Haltungs/Gestenerkennungsmittel (42, 52) einen Bestimmungsbereich (E) mit einer ausreichenden Größe für eine Hand der Zielperson (C) setzt, wobei der Bestimmungsbereich (E) ein Bestimmungskreis ist, dessen Größe derart bestimmt ist, dass er die Hand der Zielperson (C) vollständig überdeckt, und eine Fläche der Hand (R2) mit einer Fläche des Bestimmungsbereichs (E) vergleicht, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der relativen Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) ähnlich sind.
Gestenerkennungsvorrichtung nach Anspruch 1, worin das vorbestimmte Verfahren ist, eine relative Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) sowie Änderungen der Fingerspitzenposition (m4) relativ zur Gesichtsposition (m2) zu erfassen, und das zuvor gespeicherte Verfahren ist, die erfassten Ergebnisse mit zuvor gespeicherten Haltungsdaten (P1–P6) oder Gestendaten (J1–J4) zu vergleichen.
Gestenerkennungsvorrichtung nach Anspruch 2, worin die relative Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) durch Vergleich von deren Höhen und deren Abständen von den Kameras (1a, 1b) erfasst wird.
Gestenerkennungsvorrichtung nach einem von Anspruch 1 bis Anspruch 3, worin das Haltungs/Gestenerkennungsmittel (42; 52) Haltungen oder Gesten der Zielperson (C) mittels Musterabgleich erkennt.
Gestenerkennungsvorrichtung nach Anspruch 1, worin das vorbestimmte Verfahren ist, einen Merkmalsvektor aus einem Mittelwert und einer Varianz einer vorbestimmten Anzahl von Frames für eine Arm/Handposition (m3) oder eine Hand-Fingerspitzenposition (m4) zu berechnen, und das zuvor gespeicherte Verfahren ist, für alle Haltungen oder Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable auf der Basis des Merkmalsvektors und mittels eines statistischen Verfahrens berechnen, um eine Haltung oder eine Geste mit einer maximalen Wahrscheinlichkeitsdichte zu bestimmen.
Gestenerkennungsvorrichtung nach Anspruch 5, worin das Haltungs/Gestenerkennungsmittel (42; 52) eine Haltung oder eine Geste der Zielperson (C) erkennt, wenn die gleiche Haltung oder Geste für eine bestimmte Anzahl oder mehr in einer bestimmten Anzahl von Frames wiederholt erkannt wird.
Gestenerkennungsverfahren zum Erkennen von Haltungen oder Gesten einer Zielperson (C) basierend auf von Kameras (1a, 1b) aufgenommenen Bildern (D1–D4) der Zielperson (C), umfassend: einen Gesichts/Fingerspitzenpositions-Erfassungsschritt (S11, S190–S193) zum Erfassen einer Gesichtsposition (m2) und einer Fingerspitzenposition (m4) der Zielperson (C) im dreidimensionalen Raum basierend auf Konturinformation (O) und Menschenhautbereich-Information (R1, R2) der Zielperson (C), die durch die aufgenommenen Bilder (D1–D4) zu erzeugen sind; und einen Haltungs/Gestenerkennungsschritt zum Erfassen von Änderungen der Fingerspitzenposition (m4) durch ein vorbestimmtes Verfahren, Verarbeiten der erfassten Ergebnisse durch ein zuvor gespeichertes Verfahren und Erkennen einer Haltung oder Geste der Zielperson, dadurch gekennzeichnet, dass der Haltungs/Gestenerkennungsschritt einen Bestimmungsbereich (E) mit ausreichender Größe für eine Hand der Zielperson (C) setzt, wobei der Bestimmungsbereich (E) ein Bestimmungskreis ist, dessen Größe derart bestimmt ist, dass er die Hand der Zielperson (C) vollständig überdeckt, und eine Fläche der Hand (R2) mit einer Fläche des Bestimmungsbereichs (E) vergleicht, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der relativen Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) ähnlich sind.
Gestenerkennungsverfahren nach Anspruch 7, worin das vorbestimmte Verfahren ist, eine relative Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) sowie Änderungen der Fingerspitzenposition (m4) relativ zur Gesichtsposition (m2) zu erfassen, und das zuvor gespeicherte Verfahren ist, die erfassten Ergebnisse mit zuvor gespeicherten Haltungsdaten (P1–P6) oder Gestendaten (J1–J4) zu vergleichen.
Gestenerkennungsverfahren nach Anspruch 7, worin das vorbestimmte Verfahren ist, einen Merkmalsvektor aus einem Mittelwert und einer Varianz einer vorbestimmten Anzahl von Frames für eine Arm/Handposition (m3) oder eine Hand-Fingerspitzenposition (m4) zu berechnen, und das zuvor gespeicherte Verfahren ist, für alle Haltungen oder Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable auf der Basis des Merkmalsvektors und mittels eines statistischen Verfahrens berechnen, um eine Haltung oder eine Geste mit einer maximalen Wahrscheinlichkeitsdichte zu bestimmen.
Gestenerkennungsprogramm, das einen Computer Haltungen oder Gesten einer Zielperson (C) basierend auf von Kameras (1a, 1b) aufgenommenen Bildern (D1–D4) der Zielperson (C) erkennen lässt, wobei das Gestenerkennungsprogramm erlaubt, der Computer arbeitet als: ein Gesicht/Fingerspitzenposition-Erfassungsmittel (41), das eine Gesichtsposition (m2) und eine Fingerspitzenposition (m4) der Zielperson (C) im dreidimensionalen Raum basierend auf Konturinformation (O) und Menschenhautbereich-Information (R1, R2) der Zielperson (C) erfasst, die durch die aufgenommenen Bilder (D1–D4) zu erzeugen sind; und ein Haltungs/Gestenerkennungsmittel (42; 62), das arbeitet, um Änderungen der Fingerspitzenposition (m4) durch ein vorbestimmtes Verfahren zu erfassen, die erfassten Ergebnisse durch ein zuvor gespeichertes Verfahren zu bearbeiten und eine Haltung oder eine Geste der Zielperson (C) zu erkennen, dadurch gekennzeichnet, dass das Haltungs/Gestenerkennungsmittel (42, 52) einen Bestimmungsbereich (E) mit einer ausreichenden Größe für eine Hand der Zielperson (C) setzt, wobei der Bestimmungsbereich (E) ein Bestimmungskreis ist, dessen Größe derart bestimmt ist, dass er die Hand der Zielperson (C) vollständig überdeckt, und eine Fläche der Hand (R2) mit einer Fläche des Bestimmungsbereichs (E) vergleicht, um ähnliche Haltungen oder Gesten zu unterscheiden, die in der relativen Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) ähnlich sind.
Gestenerkennungsprogramm nach Anspruch 10, worin das vorbestimmte Verfahren ist, eine relative Position zwischen der Gesichtsposition (m2) und der Fingerspitzenposition (m4) sowie Änderungen der Fingerspitzenposition (m4) relativ zur Gesichtsposition (m2) zu erfassen, und das zuvor gespeicherte Verfahren ist, die erfassten Ergebnisse mit zuvor gespeicherten Haltungsdaten (P1–P6) oder Gestendaten (J1–J4) zu vergleichen.
Gestenerkennungsprogramm nach Anspruch 10, worin das vorbestimmte Verfahren ist, einen Merkmalsvektor aus einem Mittelwert und einer Varianz einer vorbestimmten Anzahl von Frames für eine Arm/Handposition (m3) oder eine Hand-Fingerspitzenposition (m4) zu berechnen, und das zuvor gespeicherte Verfahren ist, für alle Haltungen oder Gesten eine Wahrscheinlichkeitsdichte von Posteriori-Verteilungen jeder Zufallsvariable auf der Basis des Merkmalsvektors und mittels eines statistischen Verfahrens berechnen, um eine Haltung oder eine Geste mit einer maximalen Wahrscheinlichkeitsdichte zu bestimmen.
Gestenerkennungsvorrichtung nach Anspruch 1, worin dann, wenn die Fläche (Sh) des menschlichen Hautbereichs (R2) kleiner als eine Hälfte der Fläche (S) des Bestimmungskreises (E) ist, das Haltungs/Gestenerkennungsmittel (42; 52) die Haltung oder Geste als Handschütteln (P4) erkennt.
Gestenerkennungsvorrichtung nach Anspruch 1, worin dann, wenn die Fläche (Sh) des menschlichen Hautbereichs (R2) gleich oder größer als eine Hälfte der Fläche (S) des Bestimmungskreises (E) ist, das Haltungs/Gestenerkennungsmittel (42; 52) die Haltung oder Geste als Komm-her (J3) erkennt.