DE69823001T2 - Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen - Google Patents

Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen Download PDF

Info

Publication number
DE69823001T2
DE69823001T2 DE69823001T DE69823001T DE69823001T2 DE 69823001 T2 DE69823001 T2 DE 69823001T2 DE 69823001 T DE69823001 T DE 69823001T DE 69823001 T DE69823001 T DE 69823001T DE 69823001 T2 DE69823001 T2 DE 69823001T2
Authority
DE
Germany
Prior art keywords
motion
dimensional
segments
human
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69823001T
Other languages
English (en)
Other versions
DE69823001D1 (de
Inventor
William T. Freeman
Michael E. Leventon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of DE69823001D1 publication Critical patent/DE69823001D1/de
Publication of DE69823001T2 publication Critical patent/DE69823001T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Description

  • Gebiet der Erfindung
  • Diese Erfindung bezieht sich auf ein System zum Erkennen von Körperbewegung und insbesondere auf ein System zum Rekonstruieren einer Schätzung der dreidimensionalen Positionen eines menschlichen Körpers aus einer lebendigen oder voraufgezeichneten Folge von Bildern des Körpers.
  • Hintergrund der Erfindung
  • Wenn man einen Film oder ein Video einer sich bewegenden Person betrachtet, kann man leicht die dreidimensionalen Bewegungen der sich bewegenden Person anhand der Betrachtung der projizierten 2D-Bilder im Verlauf der Zeit schätzen. Ein Tänzer kann die in dem Film dargestellten Bewegungen wiederholen. Jedoch ist es für einen Computer schwierig, eine derartige 3D-Bewegung zu schätzen.
  • Viele Anwendungen können von einem Computer mit denselben Fähigkeiten folgen, um 3D-Bewegungen abzuleiten. Es gibt Anwendungen bei der öffentlichen Sicherheit für Fahrstühle und Rolltreppen sowie bei interaktiven Spielen und virtueller Realität. Bei der Computergrafik widmet sich eine wachsende Industrie dem "Bewegungseinfang", bei dem eine digitalisierte Bewegung einer menschlichen Figur Computergrafikzeichen treibt. Die 3D-Bewegungsinformationen von Menschen werden entweder durch magnetische Sensoren oder durch optische Techniken mit mehreren kalibrierten Kameras und einem speziellen Satz von Markierungen digitalisiert. Leider ist jede Technik kostenaufwendig und mühsam. Um eine 3D-Figurenbewegung zu erhalten, ermöglichen Informationen von einem Einzelkameravideo einen Bewegungseinfang, der durch gewöhnliche monokulare Videokameras getrieben wird, und können für Archivfilme oder Video angewendet werden.
  • Wie von L. Goncalves, E. D. Bernardoo, E. Ursella und P. Perona, Monocular tracking of the human arm in 3d., Proc. 5th Intl. Conf. on Computer Vision, Seiten 764–770, IEEE, 1995, beschrieben ist, haben Goncalves und Mitarbeiter unter beschränkten Betrachtungs- und Bewegungsbedingungen die Bewegung eines Arms in 3D verfolgt. In einem Artikel von J. M. Rehg und T. Kanade mit dem Titel Model-based tracking of selfoccluding articulated objects, Proc. 5th Conf. on Computer Vision, Seiten 612–617, IEEE, 1995, werden einige Handbewegungen über 3D verfolgt, wobei beträchtliche Oklusionen ermöglicht werden. Jedoch erfordert dies eine 3D-Modelinitialisierung und gesteuerte Betrachtungsbedingungen. Die Arbeit bei der Wiedergewinnung einer Körperpose mit mehr als einer Kamera hat größeren Erfolg gebracht, wie von D. M. Gavrila und L. S. Davis, 3-d model-based tracking of hu mans in action: a multi view approach, in Proc. IEEE CVPR, Seiten 73–80, 1996, diskutiert ist. [Das Papier von J. K. Aggarwal und Q. Cai, Human Motion Analysis: A Review, Nonrigid and articulated motion workshop, IEEE, 16. Juni 1997, San Juan, Puerto Rico, USA, gibt eine Übersicht über die verschiedenen Aufgaben, die bei der Bewegungsanalyse des menschlichen Körpers auftreten, enthaltend die Verfolgung durch eine einzelne Kamera und die Erkennung von menschlichen Aktivitäten anhand von Bildsequenzen.] Trotz der Beachtung durch die Forschung, wie in einem von I. Essa herausgegebenen Buch mit dem Titel "International Workshop on Automatic Face- and Gesture-Recognition", IEEE Computer Society, Killington, Vermont, 1997, illustriert ist, wurde das Problem der Wiedergewinnung einer 3D-Figurenbewegung anhand eines Einzelkameravideos nicht zufrieden stellend gelöst.
  • Zusammenfassung der Erfindung
  • Um eine menschliche Bewegung ohne die Verwendung von Markierungen auf einem Individuum und ohne die Verwendungen von so vielen wie sechs Kameras zu erfassen, wird eine Optimierungsvorrichtung verwendet, die ein Videoeingangssignal und einen ursprünglichen Trainingssatz aufnimmt und optimierte 3D-Koordinaten von Körpermarkierungen entsprechend dem Videoeingang, den Trainingsdaten und manuell eingegebenen Korrekturen ausgibt. Um die Optimierung zu erzielen, findet die Optimierungsvorrichtung die wahrscheinlichste lineare Kombination von Trainingsdaten, um das eingegebene Video zu erläutern, Benutzerkorrekturen aufzunehmen und ein wahrscheinliches 3D-Bewegungssegment zu sein. Nachdem optimale 3D-Koordinaten abgeleitet wurden, können bei einem Ausführungsbeispiel realistische Trickzeichen erzeugt werden, alle ohne die Verwendung von körperlichen Markierungen auf dem Körper des Handelnden, und alle von einer einzelnen, den Handelnden betrachtenden Kamera. Es kann nicht nur die Bewegung des Handelnden charakterisiert werden, sondern ein Archivfilm kann hinsichtlich der Bewegungen von Handelnden darin analysiert werden. Das Ergebnis ist die Fähigkeit, eine Animation für jedweden Zweck in einer einfachen und mühelosen Weise zu schaffen.
  • Bei einem Ausführungsbeispiel führt die Optimierungsvorrichtung ihre Funktion gemäß der folgenden Formel durch:
    Figure 00040001
    worin E(
    Figure 00040002
    ) die durch die zu findenden optimalen Koeffizienten
    Figure 00040003
    zu minimierende Energiefunktion ist,
    Figure 00040004
    der Vektor von Sensorantworten über den Zeitverlauf von den Bilddaten ist. Die Funktion
    Figure 00040005
    wandelt
    Figure 00040006
    -Körperbewegungskoeffizienten in vorhergesagte Sensorantworten um.
    Figure 00040007
    i ist die von dem Benutzer spezifizierte Position des i-ten Punktes, und Pi projizierte die α-Koeffizienten auf die entsprechende 2D-Position des i-ten Stabfigurenteils. Λ1 und Λ2 sind Konstanten, die die Gewichte der Bilddaten reflektieren, die Wertigkeit über menschliche Bewegungen und die interaktiv bestimmten 2D-Punktanpassungen.
  • Bei der vorliegenden Erfindung wird ein starkes früheres Wissen darüber, wie Menschen sich bewegen, in der Form von Trainingsdaten verwendet. Dieses frühere Wissen verbessert dramatisch die 3D-Rekonstruktionen, wobei das vorliegende frühere Wissen von Beispielen der menschlichen 3D-Bewegung erhalten ist.
  • Bei der vorliegenden Erfindung verwendet die 3D-Rekonstruktion in einer vereinfachten Bilddarstellungsdomäne eine Bayesianische Analyse, um analytische Lösungen für grundsätzliche Fragen über die Schätzung einer figürlichen Bewegung anhand von Bilddaten zu erhalten. Die Anwendung des Bayesianischen Verfahrens auf reelle Bilder erlaubt die Rekonstruktion von menschlichen Figurenbewegungen aus Archivvideos, wobei das vorliegende System interaktive Korrekturen von automatisierten 2D-Verfolgungsfehlern durchführt, die eine Rekonstruktion selbst anhand schwieriger Filmsequenzen ermöglicht. Bei einem Ausführungsbeispiel wird eine Stabfigur einem Bild eines sich bewegenden Menschen überlagert, um dem Benutzer zu ermöglichen, 2D-Bewegungsschätzfehler festzustellen und zu korrigieren.
  • Zusammengefasst ist ein System zum Rekonstruieren der dreidimensionalen Bewegungen einer menschlichen Figur anhand einer monokular betrachteten Bildsequenz vorgesehen, bei dem eine statistische Annäherung verwendet wird, gekoppelt mit der Verwendung eines Satzes von Bewegungseinfangbeispielen, um ein Gaussches Wahrscheinlichkeitsmodel für kurze menschliche Bewegungssequenzen aufzubauen. In einer vereinfachten Darstellungsdomäne ergibt dies eine optimale 3D-Schätzung einer menschlichen Bewegung, die verwendet wird zum Schaffen realistischer Animationen, die in einer zeitlichen 2D-Sequenz gegeben sind. Das vorliegende System ist auch nützlich zum Identifizieren, welche Bewegungsarten schwierig zu schätzen sind. Bei einem Ausführungsbeispiel wird eine Stabfigur dem eingegebenen Videobild überlagert, um eine manuelle Korrektur von nicht richtig verfolgten Körperteilen zu ermöglichen. Die Anwendung der Stabfigurkorrektur ermöglicht eine manuelle Korrektur für eine genauere 3D-Rekonstruktion der in der eingegebenen Videosequenz dargestellten Bewegung. Ein interaktives Verfolgungssystem verarbeitet reelle Videosequenzen und erzielt gute 3D-Rekonstruktionen der Bewegungen von menschlichen Figuren.
  • Kurzbeschreibung der Zeichnungen
  • Diese und andere Merkmale der vorliegenden Erfindungen werden besser verständlich in Verbindung mit der detaillierten Beschreibung, die in Verbindung mit den Zeichnungen gegeben wird, in denen:
  • 1 ist ein Blockschaltbild eines Systems mit einem Video- oder Archivfilmeingang zum Vorsehen von 3D-Bewegungsschätzungen, die für eine realistische Animation verwendet werden.
  • 2a, b und c sind schematische Darstellungen, die beispielhafte Bewegungssequenzen aus einem Trainingssatz von 10 Sequenzen zeigen.
  • 3a und b sind schematische Darstellungen, die eine Annäherung des menschlichen Bewegungssignals als eine lineare Kombination von Basisfunktionen zeigen, wobei 3a eine 40-Basisfunktionen-Annäherung zeigt und 3b die ursprüngliche menschliche Bewegungssequenz zeigt.
  • 4 ist ein Diagram, das vorhergehende und nachfolgende Kovarianzmatrix-Diagonalelemente zeigt, aufgezeichnet auf einer halblogarithmischen Skala, mit Messung der Markierungspositionen in der Bildebene, wobei die frühere Ungewissheit der menschlichen Bewegung dramatisch reduziert wird.
  • 5a, b und c sind schematische Darstellungen, die drei Zufallsauszüge aus der früheren Gausschen Verteilung über die 37 3D-Markierungspositionen zeigen, mit dem Ergebnis, dass alle menschlich aussehen und entsprechend grob menschlichen Bewegungen.
  • 6ad sind schematische Darstellungen, die die ursprüngliche 3D-Sequenz zeigen, das orthografisch projizierte Bild mit aus Gründen der Klarheit durch Linien verbundenen Markierungen, eine 3D-Rekonstruktion, die frühere Informationen weglässt, wobei die Darstellung die 3D-Figur in dem Eigenraum der menschlichen Bewegungen mit besten Berechnungen für die Bilddaten und eine vollständige Bayesianische Rekonstruktion ist, unter der Feststellung, dass die Hinzufügung von früheren Informationen eine dem Original ähnlichere Rekonstruktion schafft, und mit den hohen nachfolgenden Kovarianzarten, die die verbleibenden Differenzen gegenüber der ursprünglichen Sequenz erklären.
  • 7ac sind schematische Darstellungen, die die drei Arten mit der höchsten nachfolgenden Ungewissheit zeigen.
  • 8ac sind jeweils: Abtastungen einer 100-Bild-Sequenz eines Tanzes von Barishnikov mit verfolgter 2D-Stabfigur, abgeleiteten 3D-Markierungspositionen, die das frühere Gaussche Modell für 3D-Figurbewegungen verwenden, und die wieder gewonnene bewegte 3D-Zylinderfigur, die die 3D-Bewegungen des Tänzers einfängt.
  • Detaillierte Beschreibung
  • Es wird nun auf 1 Bezug genommen, in der ein System 10 zum Vorsehen einer dreidimensionalen Schätzung der Körperbewegung eines Individuums verwendet wird in einem Ausführungsbeispiel zum Liefern von Trickzeichen, deren Bewegungen den Bewegungen eines Handelnden ähneln. Wie vorstehend diskutiert ist, ist es schwierig, sich realistisch bewegende Trickzeichen auf der Grundlage von menschlichen Bewegungen zu erzeugen.
  • Bei dem illustrierten Ausführungsbeispiel hat eine handelnde Person 12 ihre Bewegungen von einer Videokamera 14 gefilmt, die bei 16 digitalisiert werden und mit einer Optimierungsvorrichtung 20 gekoppelt werden, deren Zweck darin besteht, die optimalen 3D-Körperkoordinaten zu finden, mit einem gegebenen 3D-Bewegungstrainings-Datensatz 22.
  • Bei einem Ausführungsbeispiel sind die Trainingsdaten in Segmente geteilt, die so genannte Basisvektoren für menschliche Bewegung reflektieren. Die Multiplikation dieser Werte mit Koeffizienten und Addieren der Ergebnisse ergibt die neuen Bewegungen. Der Basisvektor ist ein Vektor mit den folgenden Komponenten: eine Bildnummer, die Nummer jeder Markierung in diesem Bild, und die x-, y- und z-Positionen jeder Markierung. Es ist festzustellen, dass die Markierungen aus dem Trainingsdatensatz erhalten wurden. Die Markierungen in dem Trainingssatz zeigen die Positionen von verschiedenen Positionen auf dem Körper, die die Körperteilpositionen beschreiben, an. Diese sind ähnlich dem Anordnen körperlicher Markierungen auf der Kleidung des Individuums und dem Messen der 3D-Position solcher körperlicher Markierungen durch Dreieckbildung von mehreren Kameras. Trainingsdaten für eine Animation sind kommerziell erhältlich von Adaptive Optics Associates, Cambridge, Massachusetts, in denen Datensätze mit Bezug auf beispielsweise einen Tänzer vorgesehen sind, die die Körperteilpositionen durch Markierungen darstellen. Diese beispielhaften Bewegungssequenzen in der Form eines Trainingssatzes liefern die in dem vorliegenden System verwendeten vorherigen Daten.
  • Es ist festzustellen, dass ein Segment eine vorbestimmte Anzahl von Bildern hat. Darüber hinaus besteht bei einem Ausführungsbeispiel eine Versetzung, die beschreibt, wie viele Bilder zwischen dem Start des Segments und dem nächsten übersprungen werden.
  • Es ist der Zweck der Optimierungsvorrichtung 22, den Satz von Koeffizienten des 3D-Bewegungstrainings-Datensatzes zu finden, der (1) am besten die eingegebenen Videodaten erläutert und (2) verantwortlich ist für Benutzerkorrekturen, die nachfolgend erläutert werden. Es ist festzustellen, dass das vorliegende System mit 2D-Daten arbeitet, die normalerweise unzureichend sind, um die 3D-Daten zu erhalten, die notwendig sind zum Beschreiben der einem Trickzeichen zu verleihenden Körperbewegung.
  • Die 3D-Schätzungen sind abgeleitet von den 2D-Videodaten durch finden der wahrscheinlichsten linearen Kombination der 3D-Trainingsdaten, die die 2D-Bildinformationen und die 2D-Benutzerkorrekturen erläutern.
  • Um die 3D-Beschreibung der Körperbewegung zu beenden, ist es erforderlich, die dritte Dimension zu schätzen. Wie dies im Allgemeinen erreicht wird, besteht im Beginnen mit den Informationen über die dritte Dimension aus den Trainingsdaten. Insbesondere wird eine frühere Präferenz für besondere lineare Kombinati onen der Trainingsdaten gebildet. Dies wird aus den Trainingsdaten erhalten. Dann gibt die Optimierungsvorrichtung 20 die Stärke der früheren Präferenz für eine gegebene lineare Kombination dafür auf, wie gut die lineare Kombination die eingegebenen Videodaten erläutert und für die Benutzerkorrekturen verantwortlich ist.
  • Die Optimierungsvorrichtung 20 sucht iterativ nach einer optimalen linearen Kombination der Trainingsbewegungssegmente und gibt den optimalen Satz von Koeffizienten für die untersuchte Bewegung aus. Wie bei 24 illustriert ist, wird dieses Ausgangssignal hier als die geschätzten 3D-Koordinaten der vorgenannten Körpermarkierungen bezeichnet.
  • Während dies nicht gefordert ist, wird bei einem Ausführungsbeispiel durch den Benutzer festgestellt, wie genau die Schätzung ist, bei dem eine 3D-zu-2D-Projektion der wieder gewonnenen Markierungspositionen, wie bei 26 illustriert ist, in eine Stabfigur transformiert wird, die dem entsprechenden Video überlagert wird, wie bei 28 illustriert ist, wo ein visueller Vergleich auf dem Monitor 30 durchgeführt wird. Der Benutzer vergleicht die Position der Stabfigur mit der der handelnden Person in dem Video, um festzustellen, welche Einstellungen bei der Stabfigur durchgeführt werden müssen, um sie in eine Linie mit den entsprechenden Körperpositionen der handelnden Person zu bringen. Dies wird durch die Einheit 32 erreicht. Eine Maus 34 wird bei einem Ausführungsbeispiel verwendet, um zu bezeichnen, welcher Körperteil der Stabfigur ausgewählt wird und wohin dieser Stabfiguren-Körperteil gehen sollte. Dies wird erzielt durch die Auswahl der einzustellenden Markierung durch die Maus und durch Bezeichnung mittels eines zweiten Mausklicks, wohin diese Markierung auf dem Videokörperbild bewegt werden sollte.
  • Aufgrund der Operation der Optimierungsvorrichtung 20 ist es nicht erforderlich oder wünschenswert, jede Markierung manuell einzustellen. Vielmehr gibt durch einen iterativen Prozess zum Spezifizieren ausgewählter Markierungen für die Einstellung die Optimierungsvorrichtung 20 eine revidierte Schätzung der Stabfigur aus. Da es nur bestimmte Dinge gibt, die ein menschlicher Körper ausführen kann, gibt es einen begrenzten Bereich von Möglichkeiten für die Stabfiguren. Dies ergibt sich daraus, dass eine gewisse Menge eines a priori Wissens, das implizit in den Trainingsdaten enthalten ist, zu den sich ergebenden 3D-Koordinaten der Stabfigur herunterrieselt.
  • Anstatt sich auf die Anordnung von Markierungen über den gesamten Körper der handelnden Person zu verlassen, gewinnt das vorliegende System die selben 3D-Information der gerade aus der Videosequenz der unbehinderten handelten Person wieder. Nicht länger muss die handelnde Person durch sechs Kameras betrachtet werden und mit einer Vorrichtung auf ihrer Kleidung versehen sein, um in der Lage zu sein ihre Bewegungen zu erfassen. Statt dessen wird ein digitalisiertes Video analysiert, um ihre Bewegungen zu erfassen und eine dreidimensionale Darstellung einer Stabfigur enthaltend Markierungen zu erhalten, die bei der Erzeugung von entsprechenden Trickzeichen verwendet wird, um die Bewegung der handelnden Person nachzumachen.
  • Die geschätzten 3D-Koordinaten werden bei einem Ausführungsbeispiel verwendet, um ein Zeichenmodell durch die Anpassung eines vorbestimmten Zeichenmo dells an diese 3D-Koordinaten zu erzeugen, wie bei 40 illustriert ist. Nachdem das Zeichenmodell an die 3D-Koordinaten angepasst ist, wird das Zeichenmodell bei 42 dargestellt. Es ist festzustellen, dass die Darstellung des Zeichens für gewünschte Kleidung, Betrachtungspunkt der Kamera geändert werden kann, um die Figur zu drehen, oder um eine Interaktion der Figur mit anderen Zeichen oder Szenenelementen wie bei einem Spiel zu erhalten. Das Ergebnis besteht darin, dass die Videospielerzeugung vereinfacht und realistischer gemacht wird ohne eine aufwendige Vorrichtung bei der handelnden Person und ohne eine kostenaufwendige Ausrüstung für das Einfangen der Bewegung.
  • Es ist darauf hinzuweisen, dass nicht nur die Bewegung eines Schauspielers oder Sportlers durch eine Videokamera eingefangen werden kann, Archivfilme oder Videos können so analysiert werden, dass Zeichen, die dem Zeichen auf dem Film oder Video ähneln, gemacht werden können, um sich in derselben Weise wie das Zeichen auf dem Film oder Video zu bewegen. Somit kann das Zeichen in einer neuen Einstellung oder unter einem neuen Kamerawinkel wieder dargestellt werden. Darüber hinaus können Zeichen, die ursprünglich auf Film gefangen sind, miteinander agieren, ohne dass Erfordernis der körperlichen Anordnung von Markierungen auf diesen, was unmöglich wäre. Man kann daher verstorbene handelnde Personen wieder aufleben lassen in einer realistischen Weise mit Zeichen in einer virtuellen Welt agieren lassen, wenn die vorliegende Technik angewendet wird.
  • Dieselbe Technik kann angewendet werden, um in einer gegebenen Umgebung festzustellen, welche Bewegungen anormales Verhalten darstellen. Beispielsweise können auf einer Rolltreppe herunterfahrende Personen in Echtzeit betrachtet werden, und sollte ein Individuum fallen, kann dieser Umstand durch die vorliegende Vorrichtung erfasst werden. Darüber hinaus können Zeit- und Bewegungsstudien mit den vorliegenden Techniken erzeugt werden.
  • Wie nachfolgend beschrieben wird, kann die Funktion, mit der die Optimierungsvorrichtung 20 optimiert, interpretiert werden als die Bayesianische nachfolgende Wahrscheinlichkeit einer gegebenen 3D-Körperbewegung. Dies wird erreicht durch die Verwendung einer früheren Wahrscheinlichkeit für einen Satz von Segmentkoeffizienten. Es ist darauf hinzuweisen, dass einer Bewegungen als lineare Kombinationen von Segmenten darstellt. Die frühere Wahrscheinlichkeit ist somit ein mathematischer Ausdruck für die Wahrscheinlichkeit, dass ein Mensch die durch einen gegebenen Satz von Segmentkoeffizienten beschriebene Bewegung ausführt. Es ist weiterhin darauf hinzuweisen, dass die frühere Wahrscheinlichkeit von den in dem neuen Video nicht vorhandenen Trainingsdaten kommt, z. B. vor dem Betrachten des Videos. Die nachfolgende Wahrscheinlichkeit bezieht sich auf die Wahrscheinlichkeit des Satzes nach dem Prüfen der Videodaten und enthält wahlweise die Korrekturen durch den Benutzer.
  • Die Optimierungsvorrichtung 20 verwendet somit Bayesianische mathematische Wahrscheinlichkeitstechniken, um sicherzustellen, dass die 3D-Schätzungen, die zum Beschreiben der Körperbewegung verwendet werden, optimal sind. Dies gibt einen optimalen Kompromiss zwischen dem Erläutern der Videodaten, die für die Korrektur des Benutzers verantwortlich sind, und dem Schätzen wahrscheinlicher menschlicher 3D-Bewegungen.
  • Genauer gesagt, bei einem Beispiel sind die hier ver wendeten Trainingsbeispiele 10 3D-Bewegungseinfangsequenzen von jeweils 5–10 Sekunden, die kommerziell erhältlich sind. Die Daten sind Positionsinformationen von 37 Markierungen über 120–240 zeitliche Bilder für jede Sequenz, abgetastet bei grob 20 Bildern pro Sekunde. Die Bewegungen sind ein eklektischer Satz von kurzen Aktivitäten, vermutlich entworfen zum Illustrieren des Bereichs und der Genauigkeit der Bewegungseinfangausrüstung.
  • 2 zeigt Sub-Sätze von 3 der 10 Bewegungssequenzen. Wie in anderen Bewegungsdarstellungen zeigen diese Figuren eine "stroboskopische" Darstellung einer animierten Sequenz, mit zeitlicher Unterabtastung und manchmal zur Klarheit räumlich versetzt. Linien sind zwischen Markierungen oder Kreisen gezogen, um eine Stabperson zu schaffen, die leichte zu interpretieren ist.
  • Es ist der Zweck der vorliegenden Erfindung, ein einfaches und lenksames, jedoch nützliches Wahrscheinlichkeitsmodell für die 3D-Bewegungen zu suchen, gelernt von diesen Beispielen. Bei diesem Ausführungsbeispiel sind die Bewegungssignale in "Segmente" einer festen, kurzen zeitlichen Länge geteilt. Das frühere Modell ist eine Wahrscheinlichkeitsverteilung über diese zeitlichen Segmente von Markierungspositionen über wenige Bilder.
  • Wenn man zu viele Bilder für Einheiten der menschlichen Bewegung wählt, sind die Trainingsdaten nicht lang genug, um ein ausreichend zuverlässiges Modell eines derartigen komplexen Vektors zu geben. Wenn man zu wenige Bilder wählt, kann man nicht ausreichend Bewegungsregelmäßigkeiten mit dem vorliegenden Modell einfangen. Es wurde gefunden, dass 10 eine gute An zahl von Bildern für jedes Segment ist. Bei der Abtastung der ursprünglichen Daten mit einer überlappten Versetzung von 10 Bildern werden 257 10-Bildsegmente erhalten, dargestellt jeweils durch 1110 Zahlen, z. B. 37 Körpermarkierungen mal 3 Dimensionen mal 10 Bilder.
  • Um ein Wahrscheinlichkeitsmodell zu erhalten, das diese Vektoren beschreibt, und motiviert durch den Erfolg der Prinzipkomponentenanalyse (PCA) bei der dimensionsmäßigen Reduktion, wie von R. O. Duda und P. E. Hart in "Pattern classification and scene analysis", Wiley-Interscience, 1973 und M. Turk und A. Pentland "Eigenfaces for recognition" in J. of Cognitive Neuroscience, 3(1), 1991, beschrieben ist, stellt man zuerst fest, ob man diese Bewegungssegmente als lineare Kombinationen von Basisfunktionen beschreiben kann. Dies wird erreicht durch Bilden einer Trainingsmatrix M, in dem die 1110 dimensionalen Trainingsvektoren zusammen in Spalten gestapelt werden, nachdem zuerst der Mittelvektor
    Figure 00150001
    subtrahiert wird. Eine singuläre Wertzersetzung (SVD) ergibt M = USV', wobei die Spalten von U die Basisfunktionen sind und die diagonalen Elemente von S die entsprechenden Singularwerten sind. Die ausgezogene Linie in 4 zeigt das Singularwertspektrum. Dieses Spektrum fällt schnell, was eine gute Zusammenfassung der Daten, z. B. 91% der Varianz, von gerade 50 Eigenvektoren ermöglicht.
  • Die 3 zeigen eine typische Bewegungssequenz, die unter Verwendung von 40 Eigenvektoren zusammengesetzt ist, wobei sie eine unvollkommene, aber gute Rekonstruktion zeigen. Somit kann man die 1110 dimensionalen Bewegungssegmentvektoren durch ihre Koordinaten in einem 50-dimensionalen Subraum des 1110-dimensionelen Raums zusammenfassen.
  • Selbstverständlich liefern die Singularwerte selbst zusätzliche Informationen über die Bewegungssegmentdaten. Man kann die Daten modellieren als sich aus einer Gausschen Wahrscheinlichkeitsverteilung der Kovarianz Λ = US resultierend, wie in dem vorstehend genannten Buch von Duda beschrieben ist. Dieses Wahrscheinlichkeitsmodell ist viel stärker als gerade die Subrauminformationen selbst, wie von B. Moghaddam und A. Pentland, Probabilistic visual learning for object detection, Proc. 5th Intl. Conf. Computer Vision, Seiten 786–793, IEEE, 1995, beschrieben ist.
  • 5 zeigt drei Zufallsauszüge aus dem sich ergebenden Wahrscheinlichkeitsmodell für menschliche 10-Bildbewegungssegmente. Die Bewegungen sehen wie plausible menschliche Bewegungen aus, obgleich sie selbstverständlich zufällig sind. Diese Gaussche Verteilung liefert ein nützliches früheres Modell dafür, wie sich ein Mensch im Zeitverlauf bewegt. Jedoch ist es, wie ersichtlich wird, einfach genug, um leicht damit zu arbeiten und um einige analytische Schätzergebnisse zu erhalten.
  • Das Ziel besteht darin, eine dreidimensionale menschliche Bewegung aus einer Bildsequenz abzuleiten. Um dies zu tun, verwendet man vereinfachte Darstellungsbedingungen, wobei die vereinfachten Darstellungsbedingungen wie folgt sind: der Körper ist transparent und jede Markierung wird orthografisch zu der Bildebene dargestellt. Für eine figürliche Bewegung, die durch menschliche Bewegungsbasiskoeffizienten
    Figure 00160001
    beschrieben wird, ist die dargestellte Bildfolge
    Figure 00160002
    :
    Figure 00160003
    worin P der Projektionsoperator ist, der die y-Dimension der Bildsequenz U
    Figure 00170001
    zusammenfallen lässt. Es ist darauf hinzuweisen, dass unter diesen Darstellungsbedingungen die Markierungen voneinander unterscheidbar sind.
  • Um die 3D-Bewegung der Figur zu schätzen, wünscht man die wahrscheinlichste 3D-Erläuterung zu finden, spezifiziert durch
    Figure 00170002
    , für eine gegebene 2D-Beobachtung von Markierungen im Zeitverlauf,
    Figure 00170003
    . Durch das Bayes-Theorem erhält man
    Figure 00170004
    worin k1 eine Normierungskonstante unabhängig von den Parametern
    Figure 00170005
    , die man zu optimieren sucht, ist. Wie vorstehend entwickelt ist, ist für die frühere Wahrscheinlichkeit P(
    Figure 00170006
    ), die multidimensionale Gaussche
    Figure 00170007
    worin k2 eine andere Normierungskonstante ist. Wenn man das Beobachtungsrauschen als i. i. d. Gaussches mit der Varianz σ modelliert, erhält man für den Wahrscheinlichkeitsausdruck des Bayes-Theorems
    Figure 00170008
    mit der Normierungskonstanten k3.
  • Die nachfolgende Verteilung ist das Produkt dieser beiden Gausschen Verteilungen. Dies ergibt eine andere Gaussche Verteilung, mit Mittelwert und Kovarianz, gefunden durch eine Matrixverallgemeinerung von "Beenden des Quadrats" wie von A. Gelb, Herausgeber, Ap plied optimal estimation, MIT Press, 1974 beschrieben ist. Die optimale Schätzung des quadrierten Fehlers für α ist dann
  • Figure 00180001
  • Die 6ad illustrieren die Anwendung dieser Schätzung auf eine überlappte Sequenz von drei Bewegungssegmenten von 20 Bildern, wobei jedes 10-Bildsegment um 5 Bilder versetzt ist. Bei einem Experiment wurde eine der zehn Sequenzen in diesen Trainingsdaten weggelassen und ein Sub-Satz hiervon wurde für diese Prüfung verwendet. 6a zeigt die ursprüngliche Sequenz und 6b die orthografische Projektion. 6c ist die 3D-Rekonstruktion, die sich allein aus dem Wahrscheinlichkeitsausdruck ergibt, wobei die früheren Gausschen Informationen weggelassen sind. Dies findet die Koeffizienten der menschlichen Bewegungsbasisfunktionen mit bester Erläuterung der visuellen Daten. Es ist zu beachten, dass die 3D-Rekonstruktion schlecht ist. 6d ist die vollständige Bayesian-Lösung von Gleichung 6. es ist darauf hinzuweisen, dass der Einbezug der früheren Informationen eine viel bessere 3D-Rekonstruktion ergibt. Das vorliegende Gaussche Wahrscheinlichkeitsmodell und die vereinfachten Darstellungsbedingungen ermöglichen diese analytische Lösung für die optimale 3D-Bewegungsschätzung.
  • Man kennt auch die Kovarianzmatrix Q, beschrieben die Ungewissheit in der geschätzten 3D-Konfiguration nach der Betrachtung der 2D-Sequenz Q = S – SU'P'(PUSU'P' + σI)–1PUS (7)worin I die Identitätsmatrix ist und die Reihen und Spalten die Dimensionalität der Beobachtungen haben.
  • Natürlich wäre ohne ein menschliches Bewegungsmodell die Tiefe jeder Markierung vollständig unbekannt. Das frühere Modell für menschliche Bewegung des vorliegenden Systems beseitigt die meisten solcher Mehrdeutigkeiten. Die Struktur der nachfolgenden Kovarianz Q offenbart, welche Mehrdeutigkeiten in der 3D-Struktur nach dem Betrachten der Bildsequenz verbleiben. 4 zeigt einen Vergleich, der diagonal Ausdrücke der früheren Kovarianz, z. B. die ausgezogene Linie, mit solchen der nachfolgenden Kovarianz, z. B. der strichlierten Linie. Ein Modus, der Modus 2, zeigt praktisch keine Verringerung der Ungewissheit. Dies entspricht einem starren Übersetzungsmodus, der sich nahe entlang der Sichtlinie der Kamera bewegt, wie in 7a gezeigt ist. Der Modus mit der zweithöchsten Ungewissheit, der Modus 1, ist ein anderer starrer Übersetzungsmodus, wie in 7b gezeigt ist. Der nicht starre Modus mit der höchsten nachfolgenden Ungewissheit, der Modus 10, ist in 7c gezeigt. Dieser Modus spreizt die Arme des Individuums entlang der Sichtlinie der Kamera. Es ist festzustellen, dass dieser Modus mit hoher Ungewissheit die in der Rekonstruktion nach 6d beobachteten Fehler reflektiert.
  • Bei dem gegenwärtigen früheren Gausschen Modell kann man quantifizieren, wie viele 3D-Bewegungsinformationen man gewinnt, wenn man die orthografischen Projektionen der Markierungspositionen im Verlauf der Zeit sieht. Für das Beispiel nach den 6ad nimmt die frühere Wahrscheinlichkeitsverteilung ein gewisses Volumen in dem 50-dimensionalen-Parameterraum ein. Das Verhältnis dieses Volumens zu dem Volumen der nachfolgenden Wahrscheinlichkeitsverteilung beträgt 10–14. Während es schwierig ist hochdimensionale Volumen intuitiv zu messen, ist das Verhältnis klein und die nachfolgende Ungewissheit ist beträchtlich herabgesetzt. Bei der Nachverarbeitung kann man erwarten, dass auch die Mehrdeutigkeiten des starren Modus entfernt werden, entweder durch Interaktion des Benutzers oder durch anwenden starrer Grundkontaktbeschränkungen.
  • Die folgenden Schlüsse können aus dem Studium des Problems bei dieser vereinfachten Darstellungsdomäne gezogen werden. Die Verwendung früheren Wissens über die menschliche Bewegung verbessert tatsächlich die 3D-Rekonstruktionen, die anhand monokularer Bildsequenzdaten möglich sind. Für den vorliegenden Trainingssatz von menschlichen Bewegungen liegt die verbleibende Ungewissheit nach den Beobachtungen in der starren Übersetzung weg von der Kamera und in einem Modus, der die Arme entlang des Kamerastrahls spreizt. Die Rekonstruktionen sind im Allgemeinen gut. Die verwendeten Bildinformationen sind die 2D-Projektionen von Markierungspositionen einer Stabfigur. Die Schlussfolgerung ist die, dass, wenn man in der Lage wäre, eine 2D-Stabfigur der menschlichen Figur in einer Videosequenz genau zu überlagern, angenähert orthografisch dargestellt, man in der Lage sein sollte, eine vergleichbare 3D-Rekonstruktionsgenauigkeit von reellen Bildern zu erhalten.
  • Um die 3D-Körperbewegung zu schätzen, wünscht man zuerst, eine Stabfigurenzusammenfassung des 2D-Bewegungsbildes einer menschlichen Figur zu finden. Dies ist ein Problem, dessen sich verschiedene Forschergruppen angenommen haben und zu einem großen Teil gelöst haben, wie von Hager und Belheumer sowie Black beschrieben ist. Darüber hinaus haben Mitarbeiter pa rametrisierte Bewebungsmodelle zur Verfolgung besonderer menschlicher Aktionen entwickelt, wie von G. D. Hager und P. N. Belheumer, Real-time tracking of image regions with changes in geometry and illumination, Proc. IEEE CVPR, Seiten 403–410, 1996, und M. J. Black, Y. Yacoob, A. D. Jepson und D. J. Fleet, Learning parameterized models of image motion, Proc. IEEE CVPR, Seiten 561–567, 1997, beschrieben ist. In einem Artikel von A. Blake und M. Isard mit dem Titel "3D positions, attitude and shape input using video tracking of hands and lips, Proc. SIGGRAPH 94, Seiten 185–192, 1994, In Computer Graphics, Annual Conference Series, haben diese Forscher eine auf Konturen basierende Verfolgung von nicht starren Objekten entwickelt. Es ist auch darauf hinzuweisen, dass Pfinder durch C. Wren, A. Azarbayejani, T. Darrell und A. Pentland, Pfinder: real-time tracking of the human body, Intl. Conf. on Automatic Face and Gesture Recognition, Seiten 51–56, Killington, Vermont, 1996, IEEE Computer Society, die menschliche Figur über stationäre Umgebungen nachverfolgt.
  • Im folgenden wird das Gegenwärtige Verfolgungsverfahren beschrieben. Da es wichtig war, 3D-Figuren selbst aus schwierigen Filmsequenzen zu rekonstruieren, wurde eine interaktive Korrektur der Fehler der automatischen Verfolgung zugelassen. Dies erfolgt zusätzlich zu den anderen Interaktionen, die für das Problem benötigt werden: zu Spezifizieren, welcher Mensch verfolgt werden soll, und über welche Zeitperiode.
  • Das Ziel war, zu demonstrieren, dass das Rekonstruktionsverfahren, das für die vereinfachte Darstellung entwickelt wurde, auf natürliche Szenen übertragen wird. Die Bilddarstellung über die interessierenden Zeitrahmen, wurde als grob orthografisch angenommen, mit der Wirkung, dass ein sich bewegender Hintergrund ignoriert wurde. Die Bewegung der Figur relativ zu dem Kamerarahmen wurde rekonstruiert, nicht der Hintergrund.
  • Um einige Unabhängigkeit von Kleidungsmustern der menschlichen Figur zu erzielen, wurde der Gradient der Bildintensitäten genommen, und die Gradientenstärken wurden normiert durch einen verschwommenen Durchschnitt der lokalen Kontraststärke. Diese normierten Kantenstärken waren dann ausreichend verschwommen, um eine Niedrigauflösungsabtastung von 10 mal 8 Sensoren durchzuführen.
  • Auf der Grundlage des Ortes der Stäbe der Stabfigur wurde eine Vorhersage dafür, was die Sensoren sehen sollten, gebildet, wobei jedem Stab eine feste Kantenstärke zugewiesen wurde. Die quadrierte Differenz zwischen den beobachteten Sensorantworten und den Vorhersagen wurde bestraft.
  • Der Benutzer kann interaktiv den richtigen Ort jedes Stabfigurenteils zu jedem Zeitrahmen spezifizieren. Dies ordnet wirksam eine Feder zwischen der Bildposition und dem Stabfigurenteil zu der besonderen Zeit an.
  • Diese zwei Eingänge werden integriert mit den früheren Informationen in einem Funktionsoptimierungsschema. Das gesuchte
    Figure 00220001
    ist dasjenige, das eine Energie, E(
    Figure 00220002
    ) minimiert.
  • Figure 00220003
  • Figure 00220004
    ist der Vektor von Sensorantworten über der Zeit der Bilddaten. Die Funktion
    Figure 00220005
    wandelt
    Figure 00220006
    -Körperbe wegungskoeffizienten in vorhergesagte Sensorantworten um.
    Figure 00230001
    i ist die von dem Benutzer spezifizierte Position des i-ten Punktes, und Pi projiziert die α-Koeffizienten auf die entsprechende 2D-Position des i-ten Stabfigurenteils. λ1 und λ2 sind Konstanten, die die Gewichte der Bilddaten, der Wertigkeiten über menschliche Bewegungen und der interaktiv bestimmten 2D-Punktanpassungen reflektieren.
  • In dem Bayesianischen Rahmenwerk wird E interpretiert als der negative Logarithmus der nachfolgenden Wahrscheinlichkeit. λ1 und λ2 stellen dann "Rauschstärken" der Beobachtung und des Benutzers dar. Die quadratische Strafe für Sensorantwortdifferenzen ist der Logarithmus des Wahrscheinlichkeitsausdrucks, und sowohl die interaktiv angeordneten Federn als auch das frühere Gaussche Bewegungsmodell stellen frühere Informationen über die Parameter dar. Auch ist eine um 90° gedrehte Version aller Trainingsdaten in der Berechnung der früheren Wahrscheinlichkeit enthalten. Die 3D-Körperbewegungsparamter werden gefunden, die die nachfolgende Wahrscheinlichkeit maximieren.
  • Das wieder gewonnene optimale
    Figure 00230002
    ergibt die wieder gewonnenen Markierungspositionen über die Zeit. Solche Markierungspositionen werden dann in einem einfachen Figurenmodell unter Verwendung von Techniken der geringsten Quadrate an Zylinderpositionen angepasst.
  • Die 8ac zeigen die sich ergebenden Schätzungen für die 3D-Figurenpositionen von einer 100-Bildsequenz des Tanzes von Barishnikov. Um den 3D-Rekonstruktionsalgorithmus zu prüfen, anstelle des 2D-Verfolgungsalgorithmus, wurde angenähert eine interaktive Ortsspezifikation pro Bild verwendet, um das genaue Überlagern einer Stabfigur über die Bewe gungssequenz sicherzustellen. 8a zeigt die eingegebene Sequenz und die überlagerte Stabfigur.
  • E in Gleichung 1 wird minimiert, um die
    Figure 00240001
    -Schätzung über jedes überlappte 10-Bildsegment zu finden. Positionen von den überlappten Segmenten wurden linear miteinander vermischt. Die Versetzung von der Kamera weg für jedes Segment wurde gesetzt, um eine Kontinuität zu dem nächsten Segment sicherzustellen.
  • 8b zeigt die wieder gewonnenen 3D-Markierungspositionen, betrachtet von 30° weg von der Kameraposition. 8c zeigt das 3D-Zylindermodell, betrachtet aus derselben, von der Kamera entfernten Position. Unter Berücksichtigung des einfachen früheren Gausschen Modells für menschliche Bewegung sind die Ergebnisse bemerkenswert stark. Der 3D-Tanz wird dargestellt als eine lineare Kombination von Basisbewegungen, die anhand des Bewegungseinfang-Trainingssatzes gelernt wurden. Der tanzende Zylinder fängt im Allgemeinen die 3D-Bewegungen des Tänzers ein. Der Zylindertänzer zeigt nicht zu seinen Zehenspitzen, wie es Barishnikov tut, aber das Zeigen auf die Zehenspitzen war nicht in dem Trainingssatz.
  • Ein statistisches Modell wurde verwendet, um die 3D-Positionen einer menschlichen Figur aus einer Bildsequenz der menschlichen Bewegung abzuleiten. Das Modell der menschlichen Bewegung wurde anhand eines Trainingssatzes von 3D-Bewegungseinfangdaten gelernt, erhalten von einem kalibrierten Verfolgungssystem.
  • Solche Ergebnisse zeigen wenig zum Schätzen der 3D-Figurenbewegung, wenn man eine 2D-Stabfigur über dem Bild der sich bewegenden Person anordnen kann. Eine derartige Verfolgungsvorrichtung wurde entwi ckelt, die eine interaktive Korrektur von Verfolgungsfehlern zulässt, um das 3D-Wiedergewinnungsverfahren zu prüfen. Eine gute Wiedergewinnung der 3D-Bewegung für eine schwierige Tanzsequenz, betrachtet von einer einzelnen Kamera, wurde erhalten. Diese Ergebnisse zeigen die Leistung des Hinzufügens von früherem Wissen über menschliche Bewegungen in einem Bayesianischen Rahmenwerk zu dem Problem der Interpretation von Bildern von Menschen.
  • Es ist darauf hinzuweisen, dass es drei Verbesserungen gibt, die die 3D-Schätzung robuster machen. Gemäß einer ersten Verbesserung kann der erste Ausdruck in der Summe der Gleichung 8 ersetzt werden durch
    Figure 00250001
    worin t ein Index der Bildzeit jedes Bildes des Bewe gungssegments ist.
    Figure 00250002
    t ist ein Vektor der Bildintensitäten zur Zeit t an der 2D-Position eines Vektorarguments.
    Figure 00250003
    (α) sind die 2D-Positionen jeder Markierung mehr die menschliche Bewegung, dargestellt durch die lineare Kombination von Trainingssegmenten, die durch die Kombinationskoeffizienten α gegeben sind. Somit ist ersichtlich, dass die Koeffizienten α, die diesen Ausdruck minimieren, einer Figurenbewegung entsprechen, in der die Bildintensitäten an den Markierungspositionen in dem Bild sich von Bild zu Bild am wenigsten ändern. Dies ermutigt das Figurenmodell, die menschliche Figur in dem Video zu verfolgen.
  • Zweitens können die Bewegungssegmente aufeinander folgend geschätzt werden und werden häufig zeitlich überlappt. Beispielsweise kann das Bewegungssegment 1 den Videobildern 1–10 entsprechen; das Bewegungselement 2 kann den Videobildern 2–11 entsprechen usw. Für jedes Segment wird eine 3D-Schätzung gebildet. Die 3D-Rekonstruktion für eine besondere Videobildnummer wird berechnet als der Durchschnitt von Schätzungen aller überlappender Bewegungssegmente.
  • Somit ist ersichtlich, dass vor dem Finden des optimalen α für Gleichung 8 eine anfängliche Schätzung der Markierungspositionen für verschiedene Zeitrahmen anhand der Bewegungsschätzungen von den vorhergehenden Bewegungssegmenten berechnet werden kann.
  • Es ist augenscheinlich, dass ein angemessener Sub-Satz der Trainingssegmente bei der zu optimierenden linearen Kombination verwendet werden kann. Die Verwendung aller Trainingssegmente zu allen Zeiten kann zu zu vielen Freiheitsgraden für das Modell und zu schlechten Rekonstruktionen führen. Die Rekonstruktionen können verbessert werden durch Beschränken der bei der Optimierung verwendeten Segmente auf eine kleine Anzahl, z. B. 5 oder 10, die nahe der gegenwärtigen besten Schätzung des gegenwärtigen Segments sind.
  • Der zweite Ausdruck kann ersetzt werden durch
    Figure 00260001
    worin α der frühere Mittelwert der Koeffizienten
    Figure 00260002
    ist. Bei einem bevorzugten Ausführungsbeispiel wird
    Figure 00260003
    gesetzt auf den Durchschnittswert der kleinen Anzahl von ausgewählten Trainingssegmenten,
    Figure 00260004
    für jedes der N gewählten Trainingssegmente.
  • Indem vorstehend ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung dargestellt ist, ist es für den Fachmann offensichtlich, dass Modifikationen und Alternativen durchgeführt werden können, und es ist beabsichtigt, den Umfang der Erfindung nur wie in den folgenden Ansprüchen angezeigt zu definieren.

Claims (6)

  1. System zum Rekonstruieren der 3-dimensionalen Bewegung eines menschlichen Körpers aus einer monokular betrachteten Eingangsbildsequenz einer Person, aufweisend: Mittel zum Digitalisieren der Eingangsbildsequenz; Mittel zum Vorsehen repräsentativer 3-dimensionaler Bewegungstrainingsdaten eines menschlichen Körpers enthaltend entsprechende Körpermarkierer; Mittel zum Gruppieren der Trainingsdaten und digitalisierten Eingangsbildsequenz in Segmente; Optimierungsmittel zum Finden der wahrscheinlichsten linearen Kombination der Segmente von Trainingsdaten derart, dass die Segmente der Eingangsbildsequenz als ein wahrscheinliches 3-dimensionales Bewegungssegment erklärt werden, wobei die Optimierungsmittel Mittel zur Ausgabe geschätzter 3-dimensionaler Koordinaten der entsprechenden Körpermarkierer enthalten; und Mittel zum Anpassen eines Zeichenmodells an die geschätzten 3-dimensionalen Koordinaten und zum Darstellen des sich ergebenden Zeichens und der Bewegung von diesem, wodurch das dargestellte Zeichen eine Bewegung hat, die eng an die Bewegung der Person in der Bildsequenz angepasst ist.
  2. System nach Anspruch 1, und weiter enthaltend Mittel zum Erzeugen einer 2-dimensionalen Stab figur entsprechend den geschätzten 3-dimensionalen Koordinaten, Mittel zum Überlagern der Stabfigur mit dem Ausgangssignal der Digitalisierungsmittel und zum Darstellen des Ergebnisses hiervon, eine Benutzereingabevorrichtung und Mittel, die auf die Benutzereingabevorrichtung ansprechen, zum Korrigieren 2-dimensionaler Positionen der Stabfigur zum Überlappen entsprechender Positionen auf der dargestellten Videodarstellung der Person, und worin die Optimierungsmittel Mittel enthalten, die mit den Korrekturmitteln zur Aufnahme der Korrektur in die wahrscheinlichste lineare Kombination der Trainingsdaten gekoppelt sind, um so die geschätzten 3-dimensionalen Koordinaten gemäß manuell eingegebenen Korrekturen zu korrigieren.
  3. System nach Anspruch 1, worin die Optimierungsmittel Mittel zum Implementieren von
    Figure 00290001
    enthalten, worin E(
    Figure 00290002
    ) die durch die zu findenden optimalen Koeffizienten
    Figure 00290003
    zu minimierende Energiefunktion ist,
    Figure 00290004
    der Vektor von Sensorantworten über die Zeit von den Bilddaten ist, worin die Funktion
    Figure 00290005
    die
    Figure 00290006
    -Körperbewegungskoeffizienten in vorhergesagte Sensorantworten umwandelt, worin
    Figure 00290007
    i die von dem Benutzer bestimmte Position des i-ten Punktes ist, und Pi die α-Koeffizienten auf die entsprechende 2-dimensionale Position des i-ten Stabfigurenteils projiziert, und worin λ1 und λ2 Konstanten sind, die die Gewichte der Bilddaten, die Wertigkeit über menschliche Bewegungen und die interaktiv bestimmten 2-dimensionalen Punktanpassungen reflektieren.
  4. System nach Anspruch 3, worin jedes Bewegungssegment eine Anzahl von Rahmen hat und weiterhin Mittel enthält zum Einsetzen von
    Figure 00300001
    für
    Figure 00300002
    worin t ein Index der Rahmenzeit jedes Rahmens des Bewegungssegments ist,
    Figure 00300003
    t ein Vektor der Bildintensitäten zur Zeit t an der 2-dimensionalen Position seines Vektorarguments ist, und
    Figure 00300004
    (α) die 2-dimensionale Position jedes Markierers mehr die menschliche Bewegung ist, dargestellt durch die lineare Kombination von Trainingssegmenten, die durch die Kombinationskoeffizienten α gegeben ist, wodurch Bildintensitäten an den Markiererpositionen in dem Bild sich am wenigsten von Rahmen zu Rahmen ändern, um das Zeichenmodell zu ermutigen, die Bewegung der Person zu verfolgen.
  5. System nach Anspruch 1, worin jedes Bewegungssegment eine Anzahl von Rahmen hat, und weiterhin enthaltend Mittel zum aufeinander folgenden Schätzen von Bewegungssegmenten durch Überlappen ausgewählter Segmente, um mehrfache Schätzungen für eine gegebene Zeit zu erhalten, um so eine 3-dimensionale Rekonstruktion für einen vorbestimmten Videorahmen vorzusehen durch Berechnung des Durchschnitts von Schätzungen über alle überlappenden Bewegungssegmente.
  6. System nach Anspruch 1, worin der Trainingssatz in Subsätze geteilt ist, die Optimierungsmittel Mittel enthalten zum Auswählen solcher Subsätze des Trainingssatzes, die der gegenwärtigen besten Schätzung des durch die Optimierungsmittel zu schätzenden Segments am nächsten sind, um hierdurch eine Überanpassung zu vermeiden und somit die Schätzung der geschätzten 3-dimensionalen Koordinaten zu verbessern.
DE69823001T 1998-02-12 1998-09-18 Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen Expired - Lifetime DE69823001T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US23148 1998-02-12
US09/023,148 US6115052A (en) 1998-02-12 1998-02-12 System for reconstructing the 3-dimensional motions of a human figure from a monocularly-viewed image sequence

Publications (2)

Publication Number Publication Date
DE69823001D1 DE69823001D1 (de) 2004-05-13
DE69823001T2 true DE69823001T2 (de) 2005-05-04

Family

ID=21813398

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69823001T Expired - Lifetime DE69823001T2 (de) 1998-02-12 1998-09-18 Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen

Country Status (4)

Country Link
US (1) US6115052A (de)
EP (1) EP0936576B1 (de)
JP (1) JP4202479B2 (de)
DE (1) DE69823001T2 (de)

Families Citing this family (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
USRE46310E1 (en) 1991-12-23 2017-02-14 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
USRE47908E1 (en) 1991-12-23 2020-03-17 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
USRE48056E1 (en) 1991-12-23 2020-06-16 Blanding Hovenweep, Llc Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US6272231B1 (en) * 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
US6442293B1 (en) * 1998-06-11 2002-08-27 Kabushiki Kaisha Topcon Image forming apparatus, image forming method and computer-readable storage medium having an image forming program
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US7016539B1 (en) 1998-07-13 2006-03-21 Cognex Corporation Method for fast, robust, multi-dimensional pattern recognition
US6738065B1 (en) 1999-08-10 2004-05-18 Oshri Even-Zohar Customizable animation system
AU6770300A (en) * 1999-08-10 2001-03-05 Motek Motion Technology, Inc. Customizable animation system
US6674877B1 (en) * 2000-02-03 2004-01-06 Microsoft Corporation System and method for visually tracking occluded objects in real time
US7262778B1 (en) 2000-02-11 2007-08-28 Sony Corporation Automatic color adjustment of a template design
US7404147B2 (en) * 2000-04-24 2008-07-22 The Trustees Of Columbia University In The City Of New York System and method for dynamic space management of a display space
US7091975B1 (en) * 2000-07-21 2006-08-15 Microsoft Corporation Shape and animation methods and systems using examples
US7006683B2 (en) 2001-02-22 2006-02-28 Mitsubishi Electric Research Labs., Inc. Modeling shape, motion, and flexion of non-rigid 3D objects in a sequence of images
KR20020081661A (ko) * 2001-04-19 2002-10-30 주식회사 오픈비주얼 네트워크 환경에서 3차원 물체의 시각화와 조작을 위한방법 및 장치
US7643024B2 (en) * 2001-05-17 2010-01-05 The Trustees Of Columbia University In The City Of New York System and method for view management in three dimensional space
WO2003025842A1 (en) * 2001-09-19 2003-03-27 Barry George Blundell An image recognition method and system
US6831603B2 (en) 2002-03-12 2004-12-14 Menache, Llc Motion tracking system and method
EP1370075B1 (de) * 2002-06-06 2012-10-03 Accenture Global Services Limited Dynamisches Ersetzen eines Schauspielergesichts in einem Videofilm
KR100483806B1 (ko) * 2002-07-18 2005-04-20 한국과학기술원 예제동작을 이용한 영상기반 동작복원방법
US7161579B2 (en) 2002-07-18 2007-01-09 Sony Computer Entertainment Inc. Hand-held computer interactive device
US7883415B2 (en) 2003-09-15 2011-02-08 Sony Computer Entertainment Inc. Method and apparatus for adjusting a view of a scene being displayed according to tracked head motion
US7646372B2 (en) 2003-09-15 2010-01-12 Sony Computer Entertainment Inc. Methods and systems for enabling direction detection when interfacing with a computer program
US8797260B2 (en) 2002-07-27 2014-08-05 Sony Computer Entertainment Inc. Inertially trackable hand-held controller
US7623115B2 (en) 2002-07-27 2009-11-24 Sony Computer Entertainment Inc. Method and apparatus for light input device
US8313380B2 (en) 2002-07-27 2012-11-20 Sony Computer Entertainment America Llc Scheme for translating movements of a hand-held controller into inputs for a system
US7760248B2 (en) 2002-07-27 2010-07-20 Sony Computer Entertainment Inc. Selective sound source listening in conjunction with computer interactive processing
US9393487B2 (en) 2002-07-27 2016-07-19 Sony Interactive Entertainment Inc. Method for mapping movements of a hand-held controller to game commands
US9474968B2 (en) 2002-07-27 2016-10-25 Sony Interactive Entertainment America Llc Method and system for applying gearing effects to visual tracking
US8686939B2 (en) 2002-07-27 2014-04-01 Sony Computer Entertainment Inc. System, method, and apparatus for three-dimensional input control
US7627139B2 (en) 2002-07-27 2009-12-01 Sony Computer Entertainment Inc. Computer image and audio processing of intensity and input devices for interfacing with a computer program
US8570378B2 (en) 2002-07-27 2013-10-29 Sony Computer Entertainment Inc. Method and apparatus for tracking three-dimensional movements of an object using a depth sensing camera
US9682319B2 (en) 2002-07-31 2017-06-20 Sony Interactive Entertainment Inc. Combiner method for altering game gearing
DE10242262A1 (de) * 2002-09-12 2004-03-25 Daimlerchrysler Ag Stereo-Nachtsichtsystem für Fahrzeuge
US7321854B2 (en) * 2002-09-19 2008-01-22 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
US9177387B2 (en) * 2003-02-11 2015-11-03 Sony Computer Entertainment Inc. Method and apparatus for real time motion capture
US7009561B2 (en) * 2003-03-11 2006-03-07 Menache, Llp Radio frequency motion tracking system and method
JP4855930B2 (ja) * 2003-05-02 2012-01-18 アラン ロバート ステイカー、 ビデオ合成のための対話型システムおよび方法
US6882959B2 (en) * 2003-05-02 2005-04-19 Microsoft Corporation System and process for tracking an object state using a particle filter sensor fusion technique
US8072470B2 (en) 2003-05-29 2011-12-06 Sony Computer Entertainment Inc. System and method for providing a real-time three-dimensional interactive environment
US7440593B1 (en) 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7616233B2 (en) 2003-06-26 2009-11-10 Fotonation Vision Limited Perfecting of digital image capture parameters within acquisition devices using face detection
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US8456475B2 (en) * 2003-06-30 2013-06-04 Microsoft Corporation Motion line switching in a virtual environment
US7358973B2 (en) * 2003-06-30 2008-04-15 Microsoft Corporation Mixture model for motion lines in a virtual reality environment
US8081820B2 (en) 2003-07-22 2011-12-20 Cognex Technology And Investment Corporation Method for partitioning a pattern into optimized sub-patterns
US7190834B2 (en) 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
US7874917B2 (en) 2003-09-15 2011-01-25 Sony Computer Entertainment Inc. Methods and systems for enabling depth and direction detection when interfacing with a computer program
US10279254B2 (en) 2005-10-26 2019-05-07 Sony Interactive Entertainment Inc. Controller having visually trackable object for interfacing with a gaming system
US9573056B2 (en) 2005-10-26 2017-02-21 Sony Interactive Entertainment Inc. Expandable control device via hardware attachment
US8323106B2 (en) 2008-05-30 2012-12-04 Sony Computer Entertainment America Llc Determination of controller three-dimensional location using image analysis and ultrasonic communication
US8287373B2 (en) 2008-12-05 2012-10-16 Sony Computer Entertainment Inc. Control device for communicating visual information
US7831087B2 (en) * 2003-10-31 2010-11-09 Hewlett-Packard Development Company, L.P. Method for visual-based recognition of an object
US7663689B2 (en) 2004-01-16 2010-02-16 Sony Computer Entertainment Inc. Method and apparatus for optimizing capture device settings through depth information
WO2005125210A1 (en) * 2004-06-14 2005-12-29 Arizona Board Of Regents For And On Behalf Of Arizona State University Methods and apparatus for motion capture
US8547401B2 (en) 2004-08-19 2013-10-01 Sony Computer Entertainment Inc. Portable augmented reality device and method
US8437502B1 (en) 2004-09-25 2013-05-07 Cognex Technology And Investment Corporation General pose refinement and tracking tool
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
CN100361070C (zh) * 2004-10-29 2008-01-09 中国科学院计算技术研究所 一种基于光学的运动捕获数据的骨骼运动提取方法
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US20060187193A1 (en) * 2005-02-22 2006-08-24 Esquilin Eileen C System and method for generating a virtual reality presentation
AU2006225115B2 (en) 2005-03-16 2011-10-06 Lucasfilm Entertainment Company Ltd. Three- dimensional motion capture
US7466842B2 (en) * 2005-05-20 2008-12-16 Mitsubishi Electric Research Laboratories, Inc. Modeling low frame rate videos with bayesian estimation
US8780119B2 (en) * 2005-08-26 2014-07-15 Sony Corporation Reconstruction render farm used in motion capture
US7450736B2 (en) * 2005-10-28 2008-11-11 Honda Motor Co., Ltd. Monocular tracking of 3D human motion with a coordinated mixture of factor analyzers
AU2006252146B2 (en) * 2005-12-23 2010-12-16 Northern Sydney And Central Coast Area Health Service Behaviour modification through personal identification
EP2033142B1 (de) 2006-06-12 2011-01-26 Tessera Technologies Ireland Limited Fortschritte bei der erweiterung der aam-techniken aus grauskalen- zu farbbildern
WO2008011353A2 (en) * 2006-07-16 2008-01-24 The Jim Henson Company System and method of producing an animated performance utilizing multiple cameras
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
USRE48417E1 (en) 2006-09-28 2021-02-02 Sony Interactive Entertainment Inc. Object direction using video input combined with tilt angle information
US8310656B2 (en) 2006-09-28 2012-11-13 Sony Computer Entertainment America Llc Mapping movements of a hand-held controller to the two-dimensional image plane of a display screen
US8781151B2 (en) 2006-09-28 2014-07-15 Sony Computer Entertainment Inc. Object detection using video input combined with tilt angle information
ES2320826B1 (es) * 2006-12-27 2010-02-25 Universidad Nacional De Educacion A Distancia (Uned) Procedimiento para describir el comportamiento geometrico de humanos en una escena captada por un sistema de vision artificial, basado en un modelo de bloques y, especial, orientado a la tarea de video-vigilancia.
US8130225B2 (en) * 2007-01-16 2012-03-06 Lucasfilm Entertainment Company Ltd. Using animation libraries for object identification
US8542236B2 (en) * 2007-01-16 2013-09-24 Lucasfilm Entertainment Company Ltd. Generating animation libraries
US8199152B2 (en) * 2007-01-16 2012-06-12 Lucasfilm Entertainment Company Ltd. Combining multiple session content for animation libraries
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
FR2916069B1 (fr) * 2007-05-11 2009-07-31 Commissariat Energie Atomique Procede de traitement pour la capture de mouvement d'une structure articulee
KR100856824B1 (ko) * 2007-07-23 2008-09-05 재단법인서울대학교산학협력재단 캐릭터 시뮬레이션 방법 및 시스템
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
GB2454681A (en) * 2007-11-14 2009-05-20 Cybersports Ltd Selection of animation for virtual entity based on behaviour of the entity
US8144153B1 (en) 2007-11-20 2012-03-27 Lucasfilm Entertainment Company Ltd. Model production for animation libraries
US8542907B2 (en) 2007-12-17 2013-09-24 Sony Computer Entertainment America Llc Dynamic three-dimensional object mapping for user-defined control device
CN103258184B (zh) 2008-02-27 2017-04-12 索尼计算机娱乐美国有限责任公司 用于捕获场景的深度数据并且应用计算机动作的方法
US8368753B2 (en) 2008-03-17 2013-02-05 Sony Computer Entertainment America Llc Controller with an integrated depth camera
CN102027505A (zh) 2008-07-30 2011-04-20 泰塞拉技术爱尔兰公司 使用脸部检测的自动脸部和皮肤修饰
JP4591576B2 (ja) * 2008-08-18 2010-12-01 ソニー株式会社 画像処理装置、画像処理方法、プログラム
US8961313B2 (en) 2009-05-29 2015-02-24 Sony Computer Entertainment America Llc Multi-positional three-dimensional controller
US9142024B2 (en) * 2008-12-31 2015-09-22 Lucasfilm Entertainment Company Ltd. Visual and physical motion sensing for three-dimensional motion capture
US8527657B2 (en) 2009-03-20 2013-09-03 Sony Computer Entertainment America Llc Methods and systems for dynamically adjusting update rates in multi-player network gaming
US8988437B2 (en) * 2009-03-20 2015-03-24 Microsoft Technology Licensing, Llc Chaining animations
CN101609552B (zh) * 2009-03-30 2012-12-19 浙江工商大学 有限复杂背景下视频目标的特征检测方法
US8342963B2 (en) 2009-04-10 2013-01-01 Sony Computer Entertainment America Inc. Methods and systems for enabling control of artificial intelligence game characters
US8393964B2 (en) 2009-05-08 2013-03-12 Sony Computer Entertainment America Llc Base station for position location
US8142288B2 (en) 2009-05-08 2012-03-27 Sony Computer Entertainment America Llc Base station movement detection and compensation
US20100306685A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation User movement feedback via on-screen avatars
US9182814B2 (en) * 2009-05-29 2015-11-10 Microsoft Technology Licensing, Llc Systems and methods for estimating a non-visible or occluded body part
US8803889B2 (en) 2009-05-29 2014-08-12 Microsoft Corporation Systems and methods for applying animations or motions to a character
US20110172550A1 (en) 2009-07-21 2011-07-14 Michael Scott Martin Uspa: systems and methods for ems device communication interface
US7974475B1 (en) * 2009-08-20 2011-07-05 Thomas Cecil Minter Adaptive bayes image correlation
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
US8520975B2 (en) 2009-10-30 2013-08-27 Adobe Systems Incorporated Methods and apparatus for chatter reduction in video object segmentation using optical flow assisted gaussholding
US8611670B2 (en) * 2010-02-25 2013-12-17 The Board Of Trustees Of The Leland Stanford Junior University Intelligent part identification for use with scene characterization or motion capture
US20110208685A1 (en) * 2010-02-25 2011-08-25 Hariraam Varun Ganapathi Motion Capture Using Intelligent Part Identification
US8994790B2 (en) * 2010-02-25 2015-03-31 The Board Of Trustees Of The Leland Stanford Junior University Motion capture with low input data constraints
RU2534892C2 (ru) * 2010-04-08 2014-12-10 Самсунг Электроникс Ко., Лтд. Устройство и способ для захвата безмаркерных движений человека
EP2395478A1 (de) * 2010-06-12 2011-12-14 Toyota Motor Europe NV/SA Monokulare 3D-Poseneinschätzung und deren Verfolgung durch Erkennung
US8532367B2 (en) * 2010-08-17 2013-09-10 Raytheon Company System and method for 3D wireframe reconstruction from video
US8948447B2 (en) 2011-07-12 2015-02-03 Lucasfilm Entertainment Companyy, Ltd. Scale independent tracking pattern
US9508176B2 (en) 2011-11-18 2016-11-29 Lucasfilm Entertainment Company Ltd. Path and speed based character control
EP2901368A4 (de) 2012-09-28 2016-05-25 Zoll Medical Corp Systeme und verfahren zur dreidimensionalen interaktionsüberwachung einer ems-umgebung
US20140185945A1 (en) * 2012-12-31 2014-07-03 Caterpillar Inc. Modified dp search for 2d/3d map compression
US20140185944A1 (en) * 2012-12-31 2014-07-03 Caterpillar Inc. Gradient Search For 2D/3D Map Compression
US9679224B2 (en) 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
WO2015023278A1 (en) 2013-08-15 2015-02-19 Otis Elevator Company Sensors for conveyance control
US9830703B2 (en) * 2015-08-12 2017-11-28 Nvidia Corporation Model-based three-dimensional head pose estimation
CN105403143B (zh) * 2015-10-28 2017-10-13 苏州西博三维科技有限公司 一种获取模拟地震振动台的位移变化的测量方法及其系统
US9747668B2 (en) 2016-01-21 2017-08-29 Disney Enterprises, Inc. Reconstruction of articulated objects from a moving camera
US10121103B2 (en) * 2016-12-09 2018-11-06 Cisco Technologies, Inc. Scalable deep learning video analytics
JP2022028091A (ja) * 2018-12-19 2022-02-15 ソニーグループ株式会社 画像処理装置、画像処理方法、及び、プログラム
US10964058B2 (en) * 2019-06-21 2021-03-30 Nortek Security & Control Llc Camera auto-calibration system
CN111694429B (zh) * 2020-06-08 2023-06-02 北京百度网讯科技有限公司 虚拟对象驱动方法、装置、电子设备及可读存储
CN112308952B (zh) * 2020-10-15 2022-11-18 复旦大学 模仿给定视频中人物动作的3d角色动作生成系统和方法
WO2023015409A1 (zh) * 2021-08-09 2023-02-16 百果园技术(新加坡)有限公司 物体姿态的检测方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3179474B2 (ja) * 1990-11-28 2001-06-25 株式会社日立製作所 コンピュータグラフィックの表示方法及び情報処理装置
US5623428A (en) * 1990-12-25 1997-04-22 Shukyohoji, Kongo Zen Sohozan Shoriji Method for developing computer animation
US5767861A (en) * 1994-08-11 1998-06-16 Kabushiki Kaisha Sega Enterprises Processing apparatus and method for displaying a moving figure constrained to provide appearance of fluid motion
EP1012791A1 (de) * 1996-04-04 2000-06-28 Katrix Inc. Gliedkoordinationssystem zur interaktiven rechneranimation von gliederkaraktern mit gemischten bewegungsdaten
US5930379A (en) * 1997-06-16 1999-07-27 Digital Equipment Corporation Method for detecting human body motion in frames of a video sequence

Also Published As

Publication number Publication date
JPH11259660A (ja) 1999-09-24
DE69823001D1 (de) 2004-05-13
EP0936576A2 (de) 1999-08-18
US6115052A (en) 2000-09-05
EP0936576B1 (de) 2004-04-07
JP4202479B2 (ja) 2008-12-24
EP0936576A3 (de) 2003-01-02

Similar Documents

Publication Publication Date Title
DE69823001T2 (de) Verfahren und Vorrichtung zur Rekonstruktion der dreidimensionalen Bewegung eines menschlichen Körpers aus Monokularbildsequenzen
Li et al. Cliff: Carrying location information in full frames into human pose and shape estimation
Zhang et al. Eth-xgaze: A large scale dataset for gaze estimation under extreme head pose and gaze variation
EP2791903B1 (de) Verfahren und vorrichtung zur schätzung einer pose
Zhang et al. Unsupervised discovery of object landmarks as structural representations
DE69910757T2 (de) Wavelet-basierte gesichtsbewegungserfassung für avataranimation
DE112012001984B4 (de) Integrieren von Video-Metadaten in 3D-Modelle
Rikert et al. Gaze estimation using morphable models
EP3657440B1 (de) Verfahren und system zur dreidimensionalen rekonstruktion eines menschlichen kopfes aus mehreren bildern
DE112017002799B4 (de) Verfahren und system zum generieren multimodaler digitaler bilder
DE69816789T2 (de) Verfahren und system zur gestengesteuerten optionsauswahl
EP2430614B1 (de) Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz
US11727596B1 (en) Controllable video characters with natural motions extracted from real-world videos
DE60209989T2 (de) Robuste Ansichtsmodelle zur visuellen Bewegungsanalyse und Nachführung
DE69934478T2 (de) Verfahren und Gerät zur Bildverarbeitung auf Basis von Metamorphosemodellen
WO2018220203A2 (de) Verfahren, vorrichtung und computerprogramm zum virtuellen anpassen einer brillenfassung
Chen et al. End-to-end learning of object motion estimation from retinal events for event-based object tracking
Nagel Image sequence evaluation: 30 years and still going strong
Gavrilescu Proposed architecture of a fully integrated modular neural network-based automatic facial emotion recognition system based on Facial Action Coding System
Zhang et al. Remote-sensing image superresolution based on visual saliency analysis and unequal reconstruction networks
Jaeckel et al. Facial behaviour mapping—From video footage to a robot head
DE112021005070T5 (de) Multi-hop-transformer für räumlich-zeitliches denken und lokalisierung
Gu et al. Generating sequence of eye fixations using decision-theoretic attention model
Faubel et al. A neuro-dynamic architecture for one shot learning of objects that uses both bottom-up recognition and top-down prediction
Ronchi et al. A rotation invariant latent factor model for moveme discovery from static poses

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication of lapse of patent is to be deleted
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)