DE69832663T2 - Verfahren zum Erstellen von photo-realistischen beweglichen Figuren - Google Patents

Verfahren zum Erstellen von photo-realistischen beweglichen Figuren Download PDF

Info

Publication number
DE69832663T2
DE69832663T2 DE69832663T DE69832663T DE69832663T2 DE 69832663 T2 DE69832663 T2 DE 69832663T2 DE 69832663 T DE69832663 T DE 69832663T DE 69832663 T DE69832663 T DE 69832663T DE 69832663 T2 DE69832663 T2 DE 69832663T2
Authority
DE
Germany
Prior art keywords
animation
parameterized
parts
parameters
viseme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69832663T
Other languages
English (en)
Other versions
DE69832663D1 (de
Inventor
Eric Highlands Cosatto
Hans Peter Lincroft Graf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69832663D1 publication Critical patent/DE69832663D1/de
Publication of DE69832663T2 publication Critical patent/DE69832663T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft das Gebiet der Animation und insbesondere Techniken zur Erzeugung von fotorealistischen animierten beziehungsweise beweglichen Gesichtern in Computer- und Kommunikationsanwendungen und anderen hochtechnisierten Betriebsabläufen.
  • HINTERGRUND DER ERFINDUNG
  • In einem modernen technologischen Zeitalter, das durch komplexe Computerschnittstellen und durch hochentwickelte Video- und Kommunikationsvorrichtungen gekennzeichnet ist, treten Techniken, die ein Konsumenteninteresse an hochtechnologischer Ausrüstung fördern, verstärkt in den Vordergrund. Die Computerindustrie sucht in dem Bemühen, Konsumenten in den Strom ihrer technischen Neuerungen zu ziehen, regelmäßig neue Verfahren, mit denen Konsumenten mit Vorrichtungen, die anwenderfreundlichere oder menschenähnlichere Eigenschaften aufweisen, kommunizieren können. Neben der Erhöhung der Attraktivität der Technologie für den durchschnittlichen nichttechnisch ausgerichteten Konsumenten, erhöhen solche Verfahren das Potential für eine Erzeugung einer Unmenge neuer und nützlicher Computer- und Videoanwendungen.
  • In den letzten Jahren sind die Aussichten für eine Verwendung von animierten, sprechenden Gesichtern in verschiedenen hochtechnologischen Betriebsabläufen besonders verlockend geworden. Animierte Techniken können für verschiedene Felder von Anwendungen verwendet werden. Das Hinzufügen von sprechenden Gesichtern zu Computeranwenderschnittstellen kann beispielsweise die Anwenderfreundlichkeit von Computern verbessern, den Vertrautheitsgrad von Anwendern mit Computern fördern und den Unterhaltungswert des Computers erhöhen. Die Erzeugung von animierten Vermittlern beziehungsweise Vertretern in Computeranwenderschnittstellen wären neben anderen Anwendungsmöglichkeiten zur Durchführung beispielsweise folgender Aufgaben gut geeignet: Vorlesen von E-Mail, Ansagenmachen oder einen Anwender durch eine Anwendung führen. Die Verwendung von naturgetreuen, synthetisierten Personen wäre außerdem in einer Anwendung wertvoll, wo Avatars (visuelle Darstellung von Personen) verwendet werden. Solche Anwendungen könnten virtuelle Sitzungsräume, Videospiele für mehrere Anwender, Vorlesungen, Seminare, Sicherheits- oder Zugangsvorrichtungen, Szenarios, die menschliche Anweisungen erfordern, oder eine Unmenge weiterer Betriebsabläufe sein.
  • Praktiker in der Industrie denken über modellgestützte Codierung von Videotelefonie über Verbindungen mit niedriger Datenrate nach. Diese Anwendung würde die Erzeugung synthetisierter Gesichter oder Figuren in der Empfängerstation nach sich ziehen, wobei die Form und Struktur der Bilder durch Parameter bestimmt werden, die in der Sendestation ihren Ursprung haben.
  • Unabhängig von der bestimmten Anwendung handelt es sich bei der Synthese von menschlichen Gesichtern im Idealfall um die Verwendung von naturgetreuen, natürlich aussehenden ("fotorealistischen") Figuren. Die Verwendung von fotorealistischen Figuren hat viele Vorteile. Sie haben einen größeren Unterhaltungswert gegenüber einfachen animierten Figuren. Ferner erweitert die Verwendung von fotorealistischen Figuren als Teil einer menschlichen Schnittstelle einen Computer um ein realistisches Element. Konsumenten, die durch die Computertechnologie ansonsten eingeschüchtert sind, könnten sich behaglicher fühlen, wenn ein Computer verwendet wird, der eine menschenähnliche Schnittstelle hat. Als weitere Veranschaulichung kann die Verwendung einer fotorealistischen Figur, die eine Präsentation in einem Büro abhält, einen günstigeren Eindruck auf die Teilnehmer der Präsentation machen, als wenn einfache animierte Figuren verwendet würden – mit einfacher Animation können die Figuren nicht gleichzeitig sprechen, wogegen realistische Gesichts- und Mundbewegungen hervorgerufen werden können, die typisch sind für eine Figur, die spricht. Fotorealistische Figuren können bedeutsame und realistische Gesichtszüge zum Ausdruck bringen. Einfache Animation dagegen ist trickfilmhaft und nicht beeindruckend, insbesondere an einem Schauplatz wie etwa eine Beratung in einer Firma.
  • Fotorealistische Figuren können auch als Ikone in einer virtuellen Realitätsanwendung verwendet werden. Solche Figuren können ferner über solche Medien wie das Internet verwendet werden, wobei die Bandbreite des Mediums im übrigen zu klein ist, um Hochfrequenz-Videosignale unterzubringen. Unter Verwendung von fotorealistischen Techniken können menschliche Figuren mit realistischen Bewegungen über das Internet anstelle eines Videos überfragen werden.
  • Die Praktiker haben zahlreiche Bemühungen unternommen, um fotorealistische Figuren zu synthetisieren. Ein Problem, das den meisten dieser Verfahren gemeinsam ist, ist ihre Unfähigkeit, die Figuren ausreichend menschenähnlich erscheinen zu lassen. Die übrigen Verfahren, die zumindest theoretisch realistisch aussehende Figuren erzeugen können, erfordern unmäßig große Computerspeicherplatzzuweisungen und Verarbeitungszeiten, um dieses Ziel zu erreichen. Die Brauchbarkeit solcher Verfahren ist folglich auf Medien mit hoher Kapazität beschränkt.
  • Ein wichtiges, aber bisher nicht realisiertes Ziel von Praktikern besteht also darin, eine Technik zur Erzeugung von fotorealistischen Gesichtern zu erzeugen, die einen minimalen Umfang einer Rechenleistung für die Synthese von animierten Sequenzen erfordert. Naturgemäß wäre die geringste Rechenleistung in dem Fall erforderlich, wo alle Teile und ihre entsprechenden Pixelmuster vorher erzeugt und in einer Bibliothek gespeichert werden. Die Synthese eines Gesichts würde dann lediglich eine Überlagerung der Teile bedeuten. Moderne Grafikprozessoren sind jedoch so leistungsfähig geworden, daß eine Verzerrung von Bildern zur Erzeugung animierter Formen in Echtzeit duchgeführt werden kann. In diesem Fall müssen nur die Bezugspunkte in der Bibliothek gespeichert werden, was den Speicher, der zur Speicherung des Modells erforderlich ist, wesentlich reduziert.
  • Die Lösungsansätze, die von Praktikern verwendet werden, zerfallen im allgemeinen in vier Kategorien: (1) Dreidimensionale-("3D"-)Modellierungstechniken; (2) Verzerrungs- und Morphing-Techniken; (3) Interpolation zwischen Ansichten; und (4) Fingerkinotechniken. Diese Lösungsansätze sind nachstehend beschrieben.
  • (1) DREIDIMENSIONALE MODELLIERUNG
  • Die Praktiker haben 3D-Modelle zur Erzeugung von sprechenden Köpfen und Gesichtern entwickelt. Viele 3D-Modellierungstechniken verwenden generische Maschenmodelle, auf denen Bilder von Personen mittels Oberflächenstruktur-Pixeldarstellung angeordnet werden. Im allgemeinen ist die physische Struktur, zum Beispiel die Knochen- und Muskelstruktur, mit großer Präzision und gutem Detail ausgeführt, um die Form des Gesichts abzuleiten. Obwohl 3D-Modellierung für bestimmte Anwendungen geeignet ist, ist diese Technik mit Nachteilen befrachtet, wenn sie im Rahmen einer Figur, die spricht, eingesetzt wird. Solche Verfahren erfordern extensiven Computereinsatz und verbrauchen erheblichen Speicherplatz; folglich sind sie nicht für Echtzeitanwendungen auf einem Personalcomputer geeignet. Außerdem scheinen Gesichtszüge, die von standardisierten 3D-Modellen erzeugt werden, normalerweise "roboterähnlich" und erscheinen nicht natürlich.
  • (2) VERZERRUNG ODER MORPHING
  • Andere Techniken zur Erzeugung von animierten Personen beruhen auf der Verzerrung oder dem Morphing von zweidimensionalen ("2D")-Bildern von Gesichtern. Die Verzerrung kann im allgemeinen als absichtliche Verzerrung eines Bildes auf eine vorher definierte Weise definiert sein. Die Verzerrung kann unter anderem verwendet werden, um Gesichtsausdrücke durch Verzerrung eines Gesichts mit einem neutralen Ausdruck zu erzeugen (zum Beispiel um ein Stirnrunzeln zu erzeugen).
  • Morphing ist die Transformation eines Bildes in ein anderes Bild unter Verwendung von Interpolation und/oder Verzerrung. Anders als bei der Verzerrung, die lediglich ein Bild auf eine vorher definierte Weise verzerrt, verwendet Morphing normalerweise zwei Gruppen von festen Parametern, die ein Ausgangsbild und ein Zielbild umfassen. Verschiedene kommerzielle Produkte nutzen Verzerrungs- oder Morphing-Techniken, einschließlich bestimmte Spielzeuge, die es Kindern erlauben, lustige, animierte Folgen von Gesichtern zu erzeugen.
  • Ein Nachteil der isolierten Verwendung von Verzerrung oder Morphing ist die Unfähigkeit dieser Techniken, realistische, natürlich aussehende Gesichtsbewegungen bereitzustellen. Ein weiterer Nachteil besteht darin, daß der Morphing-Prozeß nur zwischen vorher definierten Paaren von Bildern möglich ist. Somit ist diese Technik nicht zur Erzeugung von Modellen geeignet, die unvorhergesehene Bewegungen erzeugen müssen, zum Beispiel wenn ein bisher unbekannter Text gesprochen werden soll.
  • (3) INTERPOLATION ZWISCHEN REFERENZANSICHTEN
  • Forscher haben demzufolge versucht, die Nachteile bestehender Morphing-Verfahren zu beseitigen. Um die Möglichkeit der extemporären Erzeugung von bisher unbekannten Gesichtsbewegungen einzubeziehen, haben Forscher Techniken entwickelt, um Morphing-Parameter automatisch zu bestimmen. Diese Techniken beginnen mit einer Gruppe von Referenzansichten, wobei neue Ansichten automatisch erzeugt werden, indem eine Interpolation zwischen den Referenzwerten durchgeführt wird. Forscher haben Sequenzen von sich drehenden und neigenden Köpfen unter Verwendung dieser Interpolationsmethode demonstriert. Keine Sequenzen eines sprechenden Kopfes sind bisher jedoch synthetisiert worden, teilweise weil der Akt des Sprechens vorübergehende Gesichtszüge erzeugt, zum Beispiel Falten und Runzeln, die lediglich unter Verwendung von Interpolation nicht dupliziert werden können. Beim Sprechen werden außerdem Bereiche freigelegt, die in den Referenz-Einzelbildern im allgemeinen nicht zu sehen sind, zum Beispiel Zähne. Elemente wie Zähne, die in den Referenz-Einzelbildern nicht vorhanden sind, können unter Verwendung von Interpolation erzeugt werden.
  • (4) FINGERKINOTECHNIKEN
  • Die Fingerkinotechniken, wahrscheinlich die ältesten aller Animationstechniken, erfordern den Prozeß des Speicherns aller möglichen Ausdrücke eines Gesichts in einem Speicher. Einzelne Ausdrücke werden später aus dem Speicher abgerufen, um eine Sequenz von Ausdrücken zu erzeugen. Die Verwendung dieser Technik hat ernsthafte praktische Beschränkungen. Beispielsweise wenn eine angemessene Anzahl von Ausdrücken oder Mundformen verfügbar gemacht werden soll, ist es erforderlich, eine erhebliche Anzahl von Einzelbildern zu erzeugen und im Speicher zu speichern. Daher wird die Flexibilität des Fingerkino-Lösungsansatzes erheblich beschnitten, da nur Gesichtszüge, die vorher erzeugt worden sind, für eine Animation verfügbar sind. Unter anderen Problemen ist der Finigerkino- Lösungsansatz nicht zur Verwendung auf einem Personalcomputer geeignet, der normalerweise nichttriviale Beschränkungen in bezug auf die Speichergröße und die Verarbeitungsleistung aufweist.
  • In der Summe weisen die vorliegenden Techniken zur Synthetisierung animierter Gesichter zumindest die folgenden Nachteile auf: (1) Figuren, die porträtiert werden, sind nicht ausreichend naturgetreu oder natürlich aussehend, besonders wenn sie sprechen; (2) die Verfahren erfordern eine beträchtliche, häufig nicht realisierbare Computerspeicherplatzzuweisung und Verarbeitungszeit; (3) die Figuren sind häufig unfähig, spontan bisher nicht bekannte Wörtern zu äußern; (4) die Verfahren weisen keine Vielfalt in den möglichen verfügbaren Gesichtszügen auf; (5) viele der Verfahren haben nicht die Fähigkeit, verschiedene wichtige Figurenmerkmale, Gesichtszüge oder sonstiges darzustellen; und (6) viele dieser Verfahren haben keine Koartikulations- oder Konfliktlösüngstechniken.
  • Demzufolge ist es eine Aufgabe der Erfindung, eine Technik zur Erzeugung von naturgetreuen, natürlich aussehenden, fotorealistischen Gesichtern und Figuren zu erzeugen, die die Komplexitäten einer 3D-Modellierung vermeiden und die weniger Speicher und Computerrechenleistung erfordern als herkömmliche Verfahren.
  • Eine weitere Aufgabe der Erfindung besteht darin, ein solches Verfahren zu offenbaren, das in der Lage ist, naturgetreue Gesichtsbewegungen zu erzeugen, um zeitgleiches Sprechen einzubeziehen, einschließlich Sprechen von bisher unbekanntem Text.
  • Eine weitere Aufgabe der Erfindung besteht darin, ein Verfahren zu offenbaren, das in der Lage ist, in einer Echtzeitanwendung ausgeführt zu werden, einschließlich einer Anwendung auf einem Personalcomputer.
  • Eine weitere Aufgabe der Erfindung besteht darin, ein Verfahren bereitzustellen, das eine große Vielfalt verschiedener möglicher Gesichtszüge und -ausdrücke ermöglicht.
  • US 4841575 offenbart eine Bildcodier- und -synthesetechnik. Verschiedene Bilder eines Mundes werden verwendet, um ein bewegtes Bild eines Sprechers zu erzeugen.
  • WO 96/17323 offenbart eine Technik zur Synthetisierung von Animationen eines menschlichen Sprechvorgangs.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die Erfindung stellt ein Verfahren zur Behandlung von synthetisierten Bildern bereit, wie in den beigefügten Ansprüchen ausgeführt. Es wird hierin ein Verfahren zur Erzeugung von fotorealistischen, animierten Gesichtern und Figuren, zum Beispiel Menschen und menschlichen Gesichtern, und Figuren, die in der Lage sind, zu sprechen und Emotionen auszudrücken, offenbart. Das Modell, auf das sich das Verfahren stützt, beruht auf einem oder mehreren Bildern eines Individuums. Diese Bilder werden in eine Hierarchie von parametrierten Strukturen zerlegt und in einer Modellbibliothek gespeichert. Für die Synthese von Gesichtern werden entsprechende Teile aus der Modellbibliothek geladen und auf ein Basisgesicht gelegt, um das ganze Gesicht mit dem erwünschten Ausdruck zu bilden.
  • Um eine große Auswahl von Gesichtsausdrücken zu synthetisieren, wird jeder Gesichtsteil unter Verwendung von Bezugspunkten, die im Speicher gespeichert sind, parametriert. Diese parametrierten Gesichtsteile umfassen Formen, die mögliche Verformungen einschließen, denen ein Gesichtsteil unterzogen werden kann, wenn verschiedene Handlungen, zum Beispiel Lächeln, Stirnrunzeln, Artikulieren eines Phonems und so weiter, ausgeübt werden.
  • In einer bevorzugten Ausführungsform ist das Kopfmodell mit einem Sprachsynthesizer kombiniert, aus dem das Modell die Sequenzen und die Dauer von zu sprechenden Phonemen ableitet.
  • Außerdem werden in einer bevorzugten Ausführungsform Koartikulationseffekte als Teil der Berechnungen für einen oder mehrere Gesichtsteile berechnet. Konflikte werden vorzugsweise zwischen den Anforderungen zum Ausdrücken von Emotionen und zum Aussprechen eines Phonems gelöst. Eine Version jedes Gesichtsteils, das zu den gewünschten Werten paßt, wird daraufhin aus der Bibliothek für die Synthese des gesamten Gesichts erzeugt.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt die Zerlegung eines Gesichts in parametrierte Teile gemäß dem Verfahren der vorliegenden Erfindung.
  • 2a und 2b, insgesamt 2, zeigen ein Verfahren zur Parametrierung von Gesichtsteilen entsprechend einer bevorzugten Ausführungsform der Erfindung.
  • 3 zeigt drei aus Fotografien erzeugte Viseme entsprechend einer bevorzugten Ausführungsform der Erfindung.
  • 4 zeigt drei durch Verzerrung erzeugte Viseme entsprechend einer bevorzugten Ausführungsform der Erfindung.
  • 5 zeigt einen Prozeß des Übergangs von einem neutralen Ausdruck zu einem Lächeln entsprechend einer bevorzugten Ausführungsform der Erfindung.
  • 6 zeigt ein exemplarisches Floßdiagramm, das eine Synthese der Animationssequenz entsprechend einer bevorzugten Ausführungsform der Erfindung zeigt.
  • KURZBESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Das Verfahren gemäß der vorliegenden Erfindung ist neben anderen Operationen gut geeignet für praktisch jede Anwendung, die das Lesen von Text oder das Sprechen zu einem Anwender oder einer anderen Person betrifft. Obwohl die Erfindung vollständig anhand der folgenden Beschreibung ihrer Anwendungen im Kontext menschlicher Gesichter und Figuren verständlich ist, soll die Erfindung gleichermaßen auf die Verwendung von Tiergesichtern und -figuren anwendbar sein. In einer bevorzugten Ausführungsform umfaßt die Technik gemäß der Erfindung vier Gruppen von Elementen:
    • (1) BASISGESICHT: ein Bild eines Gesichts, das als Hintergrund für eine animierte Sequenz verwendet wird. Obwohl nicht notwendig, enthält das Basisgesicht normalerweise einen neutralen Ausdruck und einen geschlossenen Mund.
    • (2) PARAMETRIERTE GESICHTSTEILE ("PFPs"): einzelne Gesichtsteile, die im Verlaufe einer Animationssequenz auf das Basisgesicht gelegt werden. Vorzugsweise umfassen PFPs den Mund, die Augen, die Nase, die Wangen, das Kinn, die Stirn, die Zähne, die Zunge und die Mundhöhle.
    • (3) PARAMETRIERTE GESICHTSTEILE MIT HAAR ("PFPHs"): einzelne Gesichtsteile mit Haar, die im Verlaufe der Animationssequenz auf das Basisgesicht gelegt werden. Vorzugsweise umfassen PFPHs das Haar, die Augenbrauen, den Lippenbart, den Bart und die Koteletten.
    • (4) SEKUNDÄRE EFFEKTE: zusätzliche Merkmale, die während der Animationssequenz verwendet werden. Diese können beispielsweise sein: Falten, Runzeln und Hervorhebungen.
  • Diese vier Gruppen von Elementen sind nachstehend im Kontext verschiedener bevorzugter Ausführungsformen der Erfindung ausführlicher beschrieben.
  • (1) BASISGESICHT
  • Das Basisgesicht ist ein Bild des gesamten Gesichts, auf das Teile für die Animationssequenz gelegt werden. Die Verwendung eines Basisgesichts in einer Animationssequenz kann Computerrechenzeit sparen und Speicherplatzanforderungen reduzieren. Der Grund dafür ist, daß für viele Ausdrücke nur ein bestimmter Teil des Basisgesichts verändert werden muß; alle anderen Teile können unverändert bleiben.
  • Wenn ein Gesichtsbild ausgeprägte Falten und Runzeln enthält, dann werden diese vorzugsweise vor Verwendung des Bildes als Basisgesicht entfernt. Ein solcher Entfernungsvorgang kann notwendig sein, um eine Beeinträchtigung durch Hinzufügung von Falten und Runzeln im Verlaufe der Animationssequenz zu vermeiden.
  • (2) PARAMETRIERTE GESICHTSTEILE ("PFP")
  • Die PFPs sind einzelne Elemente, die auf das Basisgesicht gelegt werden, um das Bild des gesamten Gesichts für ein animiertes Einzelbild zu umfassen. Die Merkmale der PFPs sind durch einen oder mehrere Parameter definiert. Darstellungen von Parametern eisen unter anderem Form und Tiefe auf. Die Parameter jedes PFPs sind als Bezugspunkte in einem Speicher gespeichert. In einer bevorzugten Ausführungsform wird ein PFP durch ein oder mehrere rechteckige Pixelmuster dargestellt, wobei jedes Pixelmuster eine Gruppe von Parametern und eine Maske umfaßt. In dieser Ausführungsform werden die Bezugspunkte auf dem Pixelmuster positioniert. Ein Pixelmuster kann beispielsweise verwendet werden, um einen PFP mit einer deutlich unterschiedlichen Form darzustellen. Das entsprechende Basismuster kann die tatsächlichen Pixel des darzustellenden Bildes enthalten.
  • Die Maske definiert die Transparenz jedes Pixels, das das Bild umfaßt. Die Maske kann also beschreiben, welcher Teil innerhalb des begrenzenden Rechtecks sichtbar ist und wie die Transparenz allmählich an den Grenzen erhöht wird, um den PFP mit dem Hintergrund zu vermischen.
  • Beispiele für PFPs und wie sie sich auf das Gesamtgesicht beziehen, sind in 1 dargestellt. (Der Vorgang, mit dem die PFPs parametriert werden, wird nachstehend ausführlicher in 3 beschrieben.). 1 zeigt ein Gesicht, das in PFPs zerlegt worden ist. In dieser Darstellung ist das Bild 100 des gesamten Gesichts in die folgenden Teile geteilt: Stirn 110, Augen 120, Nase 130, Mund 140, Haar 150, Wangen 160, Zähne 170 und Kinn 180. Die Stirn 110 ist retuschiert worden, um die Haare zu entfernen. Alle anderen Teile sind in ihrem Originalzustand geblieben.
  • In einer bevorzugten Ausführungsform weisen Parameter, die in jedem PFP gespeichert sind, zumindest ihre Breite und Höhe auf, wobei zusätzliche Parameter definieren, wie das Teil auf dem Bild zu plazieren ist. Als Darstellung für einen Mund können Punkte, die den Rändern der oberen und unteren Zähne entsprechen, verwendet werden, um die Plazierung des Mundes zu definieren (siehe 2).
  • Weitere Parameter können verwendet werden, um die Umrißlinie eines Gesichtsteils und die Umrißlinie anderer hervorragender Merkmale zu definieren. Die Erfinder bevorzugen gegenwärtig, daß die Umrißlinien mit Splines codiert werden. Ein Spline verwendet im allgemeinen eine stückweise Funktionsannäherung an die Umrißlinie, zum Beispiel als Polynom dritter Ordnung. Diese Polynomfunktion beschreibt den Umriß zwischen zwei Bezugspunkten. Eine zweite Polynomfunktion beschreibt die Umrißlinie zwischen den nächsten beiden Punkten und so weiter. Für den Mund können die Konturen der Lippe auf diese Weise codiert werden. Für die Augen kann die Umrißlinie ihrer Form, die Kontur der Augenöffnung und der obere Rand des Augenlides codiert werden.
  • Ein weiterer Parameter, der geeignet sein kann, ist die Tiefe des PFPs, das heißt, die Position des PFPs auf der Achse senkrecht zur Pixelmatrix relativ zu den anderen PFPs. Mittels dieses Parameters kann der PFP die 3D-Struktur des Gesichts berücksichtigen. Die vorliegende Erfindung kann also verschiedene Vorzüge der 3D-Modellierung ohne die dazugehörigen Nachteile der erhöhten Speicherplatzzuweisung und Verarbeitungszeit einbringen.
  • Für jeden PFP können verschiedene Pixelmuster gespeichert werden, wobei jedes Pixelmuster eine Darstellung des PFP in verschiedener Form umfaßt. Die verschiedenen Formen der PFP können wiederum durch Zerlegung getrennter Bilder des Gesichts in einem Prozeß erreicht werden, der fotografische Extraktion genannt wird. Jedes dieser Bilder kann einen anderen Ausdruck haben, und die einzelnen PFPs, die für diesen Ausdruck einmalig sind, können extrahiert und im Speicher als ein oder mehrere Pixelmuster gespeichert werden. Als Alternative oder zusätzlich zu diesem Verfahren können die Formen der PFPs durch andere Verfahren der Zerlegung erzeugt werden: Verzerrung und/oder Morphing aus Schlüsselformen. Die bevorzugten Verfahren zum Zerlegen von Bildern zur Erreichung von PFPs sind nachstehend ausführlicher beschrieben.
  • Ein Beispiel der Parametrierung eines Gesichtsteils ist in 2 gezeigt. Das Bild 200, das 2a umfaßt, stellt die Parameter des Mundes dar, die dazu verwendet werden, diesen zu plazieren und seine Erscheinung zu definieren. Diese Parameter sind Innenhöhe (H-m1), Außenhöhe (H-m2) und Breite (W-m). Der Punkt c umfaßt den unteren Rand der oberen Zähne, und der Punkt d umfaßt den oberen Rand der unteren Zähne. Die Punkte c und d werden verwendet, um die Position des Mundes auf dem Bild zu positionieren. Die Plazierung des Mundes wird relativ zu den Punkten a (Mitte zwischen den Augen) und b (Mitte zwischen den Nasenlöchern) durchgeführt. Bei dieser Darstellung sind alle Entfernungen auf den Augenabstand (W-e) normiert. Auge-Nase-(H-en-) und Auge-Mund-(H-em-)Abstand werden verwendet, um die Kopfneigung zu schätzen. 2b zeigt die Lippenkonturen 210, die die Kurven umfassen, die die Innenkonturen der Lippen (ic), die Außenkontur (oc) und die Form oder Grenze des Teils beschreiben. Auf den Lippenkonturen 210 sind Bezugspunkte 220 markiert, die die Verformung in einer Verzerrungs- oder Morphing-Operation definieren. Wie in diesem Beispiel kann Verzerrung oder Morphing verwendet werden, um einzelne PFPs zu manipulieren.
  • Wie oben beschrieben, können PFPs dadurch erzeugt werden, daß Bilder eines Gesichts zerlegt werden. Eine Ausführungsform dieses Zerlegungsverfahrens wird als fotografische Extraktion bezeichnet. Fotografierte Teile stellen eine gute Grundlage für die Erzeugung von animierten Sequenzen dar, die der fotografierten Person stark gleichen. Um die Formen zu erzeugen, können Figuren gebeten werden, ein Phonem auszusprechen oder eine Emotion auszudrücken. Aus solchen Bildern werden die Formen einfach ausgeschnitten und abgetastet oder anderweitig in den Speicher verbracht.
  • Zwei zusätzliche Überlegungen sind in Bezug auf den Prozeß der fotografischen Extraktion wichtig. Erstens kann die Gesamtzahl der Einzelbilder, die erforderlich ist, um alle möglichen Formen für eine gegebene Animationssequenz zu erfassen, sehr groß sein. Obwohl die Qualität der einzelnen Einzelbilder, die unter Verwendung dieses fotografischen Extraktionsverfahrens synthetisiert werden, häufig sehr hoch ist, muß zweitens der Praktiker sicherstellen, daß die einzelnen Merkmale im Kontext des Gesamtgesichtsausdrucks natürlich aussehen. Diese letztere Überlegung bezieht sich auf die Tätigkeit der zu fotografierenden Person. Wenn eine Person absichtlich eine Emotion ausdrückt oder ein Phonem isoliert ausspricht, übertreibt sie insbesondere häufig die Artikulation. Daher ist eine fotografierte Form häufig nicht unmittelbar für eine Animation geeignet.
  • Aus diesen Gründen sind Bilder, die durch fotografische Extraktion erzeugt werden, normalerweise unzureichend für eine Erzeugung einer kompletten Menge von Formen für eine bestimmte Anwendung (das heißt eine Menge, wo alle möglichen Formen, die in einer Animationsfolge auftreten sollen, erzeugt worden sind). Diese Bilder sind dennoch ein wichtiger Teil des Prozesses zur Erzeugung einer kompletten Menge von Formen. Zusätzliche Formen können unter Verwendung von Morphing, Verzerrung und/oder Interpolationstechniken hergestellt werden. Unter Verwendung von Morphing und/oder Interpolation können alle Formen, die zwischen einem neutralen Ausdruck und einem übertriebenen Ausdruck liegen, erzeugt werden. Von diesen dazwischenliegenden Bildern können mehrere für eine Animation geeignet sein.
  • In einer weiteren Ausführungsform kann Verzerrung allein als Zerlegungsverfahren verwendet werden, um eine Bibliothek von PFPs zu erzeugen. Hier werden animierte Einzelbilder erzeugt, indem alle notwendigen Formen aus einer einzelnen Form erzeugt werden. Die Erzeugung von Gesichtsteilen durch Verzerrung erfordert folgendes: (1) Bezugnehmen auf die Bezugspunkte im Speicher, die eine usprüngliche Gesichtsform definieren; (2) Ändern dieser Bezugspunkte in neue Bezugspunkte, die die neue deformierte Form definieren; und (3) Aufzeichnen der neuen Bezugspunkte im Speicher für die neue Form. Was nicht überraschend ist, dieses Verfahren erfordert im allgemeinen ein ausführliches Verständnis dafür, wie sich ein Gesichtsteil verformt.
  • Wenn eine Bibliothek einzelner Formen durch Verzerrung erzeugt wird, kann sie vorteilhafterweise in einer beliebigen Anzahl von Bildern von fotorealistischen Personen verwendet werden, da Gesichtsteile einzeln parametriert werden. Dadurch Festlegung der neuen Bezugspunkte können die Splines, die die Merkmalsformen beschreiben, ohne weiteres angepaßt werden, um die charakteristischen Merkmale einer anderen Person (zum Beispiel die Breite des Gesichts, die Dicke der Lippen und so weiter) zu berücksichtigen.
  • Obwohl die endgültige fotorealistische Person, die unter Verwendung von durch Verzerrung abgeleiteten Gesichtsteilen erzeugt ist, möglicherweise nicht ganz genau so ist, wie die Person tatsächlich aussieht, reicht die Verzerrung aus, um eine vernünftige realistische Darstellung zu erzeugen. Außerdem ist das Verzerren schnell und bequem, da ein einzelnes Bild einer Person verwendet werden kann, um alle animierten Einzelbilder zu erzeugen.
  • Der Prozeß der Erzeugung von Bildern des Mundes ist wahrscheinlich der komplexeste von allen Gesichtsmerkmalen. Dies gilt besonders dort, wo die fotorealistische Person spricht. Tatsächlich zeigt der Mund die größten Variationen aller PFPs. Ein sprechendes Gesicht ist auch das Merkmal, das die Aufmerksamkeit des Beobachters am meisten auf sich zieht. Menschen sind empfindlich gegenüber geringfügigen Unregelmäßigkeiten in der Form oder Bewegung des Mundes. Daher sollte der Praktiker im Normalfalle der Animation des Mundes seine besondere Aufmerksamkeit widmen.
  • Eine Mundform, die ein Phonem artikuliert, wird häufig als ein Visem bezeichnet. Während über 50 gesprochene Viseme in der englischen Sprache unterschieden werden, gehen die meisten Forscher davon aus, daß zwischen 10 und 20 verschiedenen Visemen ausreichend sind, um eine animierte Sequenz zu verwenden. Die Anzahl der Viseme ändert sich natürlich in Abhängigkeit von der Anwendung. In einer bevorzugten Ausführungsform der Erfindung werden 12 prinzipielle Viseme verwendet, nämlich a, e, ee, o, u, f, k, 1, m, t, w, geschlossener Mund. Alle anderen möglichen Phoneme werden dieser Menge von 12 zugeordnet.
  • 3 und 4 zeigen Beispiele von Visemen, die unter Verwendung der oben beschriebenen zwei Techniken erzeugt werden. Die Viseme in 3 sind aus zwei getrennten Bildern ausgeschnitten. In 3 wurde die Mundfläche 300 aus einer Fotografie einer Person ausgeschnitten, die das Phonem "u" ausspricht. Ebenso wurden die Bereiche 310 und 320 aus Fotografien einer Person ausgeschnitten, die die Phoneme "m" beziehungsweise "a" ausspricht. Die untere Reihe zeigt die drei Viseme, die auf das Basisgesicht aufgelegt sind. Das resultierende Gesicht wurde dann auf einen Hintergrund plaziert, um Einzelbilder 330, 340 und 350 zu bilden. Die Dame in 3 sprach die Phoneme isoliert; daher erscheinen sie stark artikuliert.
  • Die Viseme in 4 sind durch Verzerrung aus einem einzigen Bild erzeugt. Ein Bild der Person wurde also fotografiert, und aus diesem Bild wurden alle Viseme und andere Ausdrücke durch Verzerrung erzeugt. Die Viseme 410, 420 und 430 wurden unter Verwendung der Phoneme "u", "m" beziehungsweise "a" erzeugt. Die untere Reihe zeigt drei Einzelbilder 440, 450 und 460 mit den Visemen 410, 420 und 430, die zusammen mit Variationen der Augen und Augenbrauen auf das Basisgesicht gelegt sind.
  • Bei der Beurteilung dieser einzelnen Einzelbilder würden die meisten Menschen das Aussehen der Gesichter in 3 als natürlicher als die in 4 erachten. Wenn die Viseme in 3 zur Animation verwendet werden, ist das Ergebnis dennoch eine ruckartige, übertriebene Bewegung des Mundes, die unnatürlich aussieht. Die viel weniger ausgeprägte Artikulation, die durch die Viseme in 4 erzeugt wird, wird als einer echten Person ähnlicher wahrgenommen. Durch diese Beobachtungen wird deutlich, wie wichtig die Bewegung zu gestalten, anstatt sich lediglich auf das Aussehen der einzelnen Einzelbilder zu konzentrieren. Aus diesem Grund wird bevorzugt, zwei oder drei Versionen jedes Visems zu erzeugen, wobei jede Version eine andere Artikulationsstärke darstellt.
  • In der Praxis ist es möglich, eine wirklich natürlich erscheinende Mundbewegung nur zu erreichen, wenn Koartikulationseffekte berücksichtig werden. Koartikulation bedeutet, daß das Erscheinungsbild einer Mundform nicht nur von dem Phonem abhängt, das in diesem Moment erzeugt wird, sondern auch von den Phonemen, die diesem Phonem vorausgehen und nachfolgen. Wenn beispielsweise eine Einzelperson die Lautfolge "boo" artikuliert, spiegelt die Mundform für "b" schon die Absicht der Person, "oo" auszusprechen, wider. Kurz gesagt, die Berücksichtigung der Artikulation erzeugt eine gleichmäßigere Mundanimation, die wiederum unnatürliche Übertreibung der Lippenbewegung während der Animationssequenz vermeidet.
  • Demzufolge verwendet eine bevorzugte Ausführungsform der Erfindung Koartikulation. Das bevorzugte Koartikulationsverfahren erfordert die Zuordnung einer mathematischen Zeitkonstante zu den Parametern des Mundes. Unter Verwendung dieser Zeitkonstante kann die gegenwärtige Form des Mundes dazu gebracht werden, die Art und Weise und das Ausmaß zu beeinflussen, in der der Mund in dem ablaufenden Zeitintervall verformt werden kann.
  • (3) PARAMETRIERTE GESICHTSTEILE MIT HAAR ("PFPH")
  • Das PFPH ist eine Gruppe, die alle Teile des Gesichts umfaßt, die mit Haar bedeckt sind. In einer bevorzugten Ausführungsform der Erfindung sind die PFPHs von den PFPs getrennt gruppiert, da ihre Verformungen normalerweise anders verarbeitet werden. Standardisierte Morphing- und Verzerrungstechniken verwischen häufig die charakteristischen Oberflächenstrukturen des Haars, oder sie verformen die Oberflächenstrukturen derartig, daß es künstlich aussieht. Wenn Konturen mit kopierten Oberflächenstrukturen gefüllt werden, entstehen normalerweise bessere Ergebnisse für Bärte und Lippenbärte.
  • In bestimmten Ausführungsformen wird das Haar nur begrenzt animiert. Wenn die interne Oberflächenstruktur des Haars nicht erkennbar ist, kann Haar einfach wie eine glatte Fläche behandelt werden. Bei Bildern mit sehr niedriger Auflösung kann diese grobe Modellierung angemessen sein. Wenn jedoch einzelne Haarsträhnen oder sogar einzelne Haare sichtbar sind, wird ein höher entwickelter Lösungsansatz bevorzugt. Beispielsweise kann ganzen Haarsträhnen eine Bewegung verliehen werden, indem Teile des Haars gedreht oder verzerrt werden. In Wirklichkeit hat die Bewegung des Haars eine begrenzte Bedeutung für einen sprechenden Kopf. Daher müssen dem Haar nur bestimmte Zufallsbewegungen verliehen werden.
  • Die expliziteste und deterministischste Bewegung eines Haarteils in einem sprechenden Gesicht ist die eines Lippenbartes. Ein Lippenbart kann durch Verzerrungs- und/oder Cut-und-Paste-Operationen verformt werden. Wenn sich beispielsweise der Mund von einem neutralen Ausdruck hin zum Aussprechen eines 'o' ändert, können die Umrisse des Lippenbartes anhand der Form der Oberlippe geschätzt werden. Daraufhin wird der ursprüngliche Lippenbart so verbogen, daß er unter Verwendung einer örtlich begrenzten Verzerrungsoperationen der oberen Kontur folgt. In dem Maße, wie Teile dieser Kontur freigelassen sind, können Nachbarbereiche kopiert und in die freien Bereiche eingefügt werden.
  • (4) SEKUNDÄRE EFFEKTE
  • Die Erzeugung von realistisch aussehenden Bildern bringt zusätzliche Komplikationen mit sich. Solche Komplikationen sind Falten, Runzeln und Hervorhebungen. Extreme Verformungen, zum Beispiel ein breites Lächeln, sind ohne die Hinzufügung von Falten schwer zu erzeugen. 5 stellt den Effekt der Hinzufügung von Falten zu einem Lächeln dar. Anstatt PFPs mit Falten zu erzeugen, werden die Falten auf das PFP gelegt.
  • 5 zeigt ein Einzelbild 510, das eine Hintergrundfläche und einen neutralen Ausdruck hat. Das Einzelbild 520 hat die gleiche Hintergrundfläche, hat aber statt dessen Augen 515 und einen Mund 518, der auf die Hintergrundfläche aufgelegt ist. Das Ergebnis des Einzelbildes 520 ist ein unnatürlicher Ausdruck. Das Einzelbild 530 ist das gleiche Einzelbild wie das Einzelbild 520, außer daß das Einzelbild 530 Falten 535 hat, die auf seine Basisfläche aufgelegt sind. Das Lächeln der Figur im Einzelbild 530 sieht durch die Falten natürlicher aus.
  • Falten und Runzeln sind vorzugsweise als eine gesonderte Gruppe des Kopfmodells kategorisiert, da sowohl ihre Synthesen als auch ihre Verformungen anders behandelt werden als diejenigen der PFPs. Durch Verzerrung und Morphing, die verwendet werden, um die verschiedenen Formen des PFP zu erzeugen, werden die Falten auf unnormale Weise verzerrt. Somit werden in einer bevorzugten Ausführungsform Falten und Runzeln statt dessen durch Splines dargestellt. Splines definieren die Positionen der Falten. Die Hinzufügung von Falten zu einer Pixelmatrix kann durch Modulation der Farbe der Pixel mit einem Luminanzfaktor erreicht werden. Die Falte bestimmt das Ausmaß dieser Modulation sowie die Gradienten in der Richtung senkrecht zur Faltenrichtung.
  • Für die Synthese eines natürlich aussehenden sprechenden Kopfes müssen die Bewegungen aller Gesichtsteile und des Kopfes gewissenhaft geplant werden. Konversationssignale umfassen feine Bewegungen von Gesichtsteilen des Kopfes, die Sprache hervorheben, betonen oder anderweitig regulieren. Beispielsweise kann eine hochgezogene Augenbraue verwendet werden, um einen Vokal zu akzentuieren oder eine Frage anzuzeigen. Augenzwinkern tritt auch häufig auf und wird normalerweise mit dem Sprachfluß synchronisiert. Geringfügige Kopfbewegungen begleiten im allgemeinen auch die Sprache. Wenn solche Bewegungen aufhören, bedeutet dies häufig, daß der Sprecher fertig ist und erwartet, daß der Zuhörer Maßnahmen ergreift. Der emotionale Zustand des Sprechenden wird auch durch Änderungen des Aussehens der Gesichtsteile reflektiert. Beispielsweise können hochgezogene oder zusammengezogene Augenbrauen Spannung oder Furcht anzeigen.
  • Eine Darstellung des Syntheseprozesses ist in 6 gezeigt. Als Antwort auf eine ASCII-Eingabe, die Wörter umfaßt, die ausgesprochen werden sollen (Oval 600), erzeugt ein Sprache-aus-Text-Synthesizer (Kästchen 610) eine Sequenz von Phonemen 620, deren Dauer und Betonung. Jedes Phonem wird einem Mund-Visem zugeordnet (Kästchen 630). In bestimmten Ausführungsformen kann diese Zuordnung eine einfache Nachschlagoperation, zum Beispiel in einer Tabelle im Speicher, umfassen. Wenn ein Visem gewählt worden ist, sind die Parameter des Visems 640 für dieses Visem verfügbar. Diese Parameter können beispielsweise die Breite und Höhe des Mundes aufweisen.
  • Die Parameter des Visems können daraufhin in ein Koartikulationsmodul eingegeben werden, um die Koartikulationseffekte darzustellen (Kästchen 660). Das Koartikulationsmodul kann auch Information berücksichtigen, die sich auf den gewünschten Gesichtsausdruck bezieht (Oval 650). Wenn, um dies zu veranschaulichen, ein Lächeln gefordert ist und das Visem einen geschlossenen Mund erfordert, erhöht das Koartikulationsmodul die Mundbreite. Die Ausgabe des Koartikulationsmoduls ist eine neue Gruppe von Mundparametern 670. Diese modifizierten Parameter werden als nächstes bei der Suche in einer PFP-Bibliothek nach der Form mit der größten Übereinstimmung verwendet. Der am besten übereinstimmende PFP wird gewählt (Kästchen 680).
  • Die anderen PFPs werden vorzugsweise unter Verwendung des gleichen Prozesses gewählt. Für diese PFPs, die von der Mundbewegung beeinflußt werden, werden Phoneminformation und Gesichtsausdrucksinformation berücksichtigt. Für die Augen und alles oberhalb der Augen müssen nur Gesichtsausdrücke berücksichtigt werden, da die Mundbewegung diese Teile normalerweise nicht beeinflußt.
  • Nachdem die richtigen Viseme ausgewählt worden sind, können sie zwecks endgültiger Erzeugung eines Einzelbildes der animierten Sequenz (Kästchen 690) in die Basisfläche eingemischt werden. Das Einzelbild wird mit der entsprechenden gesprochenen Sprache synchronisiert. Wenn die Viseme unter Verwendung von Verzerrungstechniken erzeugt werden, vermischen sie sich nicht mehr nahtlos mit dem Basiskopf. Aus diesem Grund muß der Praktiker eine sorgfältige Ausschmückung der Alpha-Überblendungsmaske durchführen. In einer bevorzugten Ausführungsform wird das Überblenden zuerst mit Teilen durchgeführt, die am tiefsten liegen, zum Beispiel die Augen und Zähne. Als nächstes werden Teile, die darüberliegen, und schließlich das Haar und die Runzeln hinzugefügt.
  • Wenn der Kopf alle Gesichtsteile enthält, kann er auf das Hintergrundbild gelegt werden. Die Bewegung des gesamten Kopfes kann dann hinzugefügt werden. Bewegungsvektoren werden nach einem semistochastischen Prinzip berechnet, zum Beispiel reguliert Sprache eine beliebige Mischung vorher definierter Bewegungen. Ein Modell gemäß einer bevorzugten Ausführungsform weist Verschiebung, Drehung und Neigung des Kopfes auf. Die Drehung des Kopfes um die Achse senkrecht zur Bildebene wird ohne weiteres erreicht. Kleine Drehungen um die anderen beiden Achsen können durch einfache und schnelle Bildverzerrungstechniken angenähert werden. Die Dynamik der Bewegungen kann sorgfältig konstruiert werden – übertriebene Bewegungen erscheinen als hektisch und unnatürlich.
  • Das Einzelbild wird dann an eine Datei oder einen Bildschirm (Kästchen 695) ausgegeben. In bestimmten Ausführungsformen können diese Pixeloperationen entweder in einem Bildpuffer im Computerspeicher oder direkt in einem Bildpuffer auf dem Bildschirm durchgeführt werden. Zur Zeit der Einreichnung dieser Anmeldung haben die Erfinder mindestens zwei Versionen der Erfindung implementiert. Eine Version, die von Microsoft AVI API verwendet wird und AVI-Dateien aus einer ASCII-Texteingabe erzeugt. Die andere Version, die Animation unter Verwendung von OpenGL-Grafik-Bibliothek direkt auf dem Bildschirm ausgibt.
  • Außerdem führten die Erfinder zur Zeit der Einreichung dieser Anmeldung eine experimentelle Implementierung des Kopfmodells auf einem Personalcomputer (PentiumPro 150 MHz) durch. Bei dieser Implementierung betrug die Synthetisierungsgeschwindigkeit annähernd 1 Einzelbilder/100 ms. Die Größe der PFP-Bibliothek war 500 KB. Die PFP-Bibliothek enthielt alle Viseme zum Sprechen und alle PFPs zum Stirnrunzeln und Lächeln, glückliche und neutrale Ausdrücke. Die Größe der Einzelbilder war 360 × 240 Pixel. Es versteht sich, daß sich Parameter in Abhängigkeit von der bestimmten Ausführungsform der Erfindung stark verändern. Das Experiment der Erfinder wurde für maximale Flexibilität und nicht für höchste Geschwindigkeit oder maximale Kompaktheit konstruiert. Während ferner die vorliegende Erfindung von einer breiten Vielfalt der numerischen Bereiche in Abhängigkeit vom Zustand der Technologie und von einer bestimmten Anwendung und so weiter ausgeht, schätzen die Erfinder, daß eine Optimierung zugunsten der Geschwindigkeit eine Synthese bei nahezu 30 Einzelbilder/Sekunde erlauben würde und daß eine Bibliotheksgröße durch mehr als einen Faktor zwei reduziert werden kann. Bei Nichtnutzung des Verfahrens gemäß der vorliegenden Erfindung schätzen die Erfinder, daß eine Bibliothek von Gesichtern, die den gesamten Bereich der Ausdrücke einbezieht, mehr als eine Größenordnung größer wäre.
  • Es versteht sich, daß die vorstehende Beschreibung für die Prinzipien der Erfindung lediglich darstellenden Charakter hat und daß verschiedene Modifikationen und Variationen für den Fachmann möglich sind, ohne den Schutzbereich der Erfindung, wie er in den Ansprüchen definiert ist, zu verlassen.

Claims (16)

  1. Verfahren zum Synthetisieren einer mit einer Phonemsequenz verknüpften Animation, mit den Schritten: Zuordnen jedes Phonems in einer Phonemsequenz zu einem Visem (630); Wählen eines oder mehrerer parametrierter Animationsteile aus einer Bibliothek von parametrierten Animationsteilen auf der Grundlage von zugeordneten Visem-Parametern (640); und Anordnen des einen oder der mehreren parametrierten Animationsteile auf einer Basisanimation, um eine Animation (690) zu synthetisieren, dadurch gekennzeichnet, daß die Bibliothek von parametrierten Animationsteilen dadurch bestückt wird, daß zumindest ein Bild in eine Hierarchie von parametrierten Animationsteilen zerlegt wird, und daß die mit jedem parametrierten Animationsteil verknüpften Parameter eine Verformung des Animationsteils ermöglichen, wenn die Animation synthetisiert wird.
  2. Verfahren nach Anspruch 1, ferner mit dem Schritt: Modifizieren der Visem-Parameter vor dem Wählen des einen oder der mehreren parametrierten Animationsteile, wobei die Wahl der parametrierten Animationsteile auf den modifizierten Visem-Parametern (680) beruht.
  3. Verfahren nach Anspruch 2, wobei der Schritt des Modifizierens der Visem-Parameter ferner gekennzeichnet ist durch Berechnen von Koartikulationseffekten (660).
  4. Verfahren nach Anspruch 3, wobei der Schritt des Modifizierens der Visem-Parameter ferner unter Verwendung von Information durchgeführt wird, die über einen gewünschten Ausdruck (650) gewonnen wird.
  5. Verfahren nach Anspruch 1, wobei die Parameter, die dem zugeordneten Visem entsprechen, Mundbreite und Mundhöhe sind.
  6. Verfahren nach Anspruch 3, wobei ein Koartikulationsmodul den Schritt des Berechnens von Koartikulationseffekten (660) und des Empfangens von Information, die sich auf den gewünschten Ausdruck (650) bezieht durchführt und auf Basis der berechneten und empfangenen Daten das Koartikulationsmodul die zugeordneten Visem-Parameter zum Wählen des einen oder der mehreren parametrierten Animationsteile modifiziert.
  7. Verfahren nach Anspruch 2, wobei die modifizierten Visem-Parameter verwendet werden, um verformte parametrierte Animationsteile zur Speicherung in einer Bibliothek zu erzeugen.
  8. Verfahren nach Anspruch 7, wobei die verformten parametrierten Animationsteile aus Bildern einer Person erzeugt werden.
  9. Verfahren nach Anspruch 2, wobei die verformten Visem-Parameter verwendet werden, um verformte parametrierte Animationsteile dynamisch zu erzeugen, wenn die Animation synthetisiert wird.
  10. Verfahren nach Anspruch 9, wobei eine dynamische Synthetisierung der Animation unter Verwendung verformter parametrierter Animationsteile ferner den Schritt umfaßt: Verformen von Formen, die mit den parametrierten Animationsteilen verknüpft sind.
  11. Verfahren nach Anspruch 1, wobei die Animation eine Gesichtsanimation ist.
  12. Verfahren nach Anspruch 1, wobei die Bibliothek von parametrierten Animationsteilen eine Zerlegung von Bildern eines Individuums oder Objekts in eine Hierarchie von parametrierten Animationsteilen umfaßt.
  13. Verfahren nach Anspruch l2, wobei die Zerlegung der Bilder ferner einen oder mehrere Prozesse aus einer Menge von Prozessen umfaßt, die fotografische Extraktion, Verzerrung, Morphing und Interpolation umfaßt.
  14. Verfahren nach Anspruch 13, wobei der fotografische Extraktionsschritt ferner eine Interpolation zwischen Referenzansichten umfaßt.
  15. Verfahren nach Anspruch 11, wobei die Gesichtsanimation einen Mund, Augen, eine Nase, Wangen, ein Kinn, eine Stirn, Zähne, eine Zunge und eine Mundhöhle umfaßt.
  16. Verfahren nach Anspruch 1, wobei die Phonemsequenz von dem von der Animation zu sprechenden Text abgeleitet wird.
DE69832663T 1997-06-06 1998-05-21 Verfahren zum Erstellen von photo-realistischen beweglichen Figuren Expired - Lifetime DE69832663T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US869531 1997-06-06
US08/869,531 US5995119A (en) 1997-06-06 1997-06-06 Method for generating photo-realistic animated characters

Publications (2)

Publication Number Publication Date
DE69832663D1 DE69832663D1 (de) 2006-01-12
DE69832663T2 true DE69832663T2 (de) 2006-08-31

Family

ID=25353732

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69832663T Expired - Lifetime DE69832663T2 (de) 1997-06-06 1998-05-21 Verfahren zum Erstellen von photo-realistischen beweglichen Figuren

Country Status (4)

Country Link
US (1) US5995119A (de)
EP (1) EP0883090B1 (de)
CA (1) CA2239402C (de)
DE (1) DE69832663T2 (de)

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2346525B (en) * 1997-07-25 2001-02-14 Motorola Inc Neural network providing spatial parameters when stimulated by linguistic parameters of speech
GB9722766D0 (en) 1997-10-28 1997-12-24 British Telecomm Portable computers
US7392190B1 (en) 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7117155B2 (en) * 1999-09-07 2006-10-03 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6301370B1 (en) 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US6272231B1 (en) 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
DE69910757T2 (de) * 1998-04-13 2004-06-17 Eyematic Interfaces, Inc., Santa Monica Wavelet-basierte gesichtsbewegungserfassung für avataranimation
US6250928B1 (en) 1998-06-22 2001-06-26 Massachusetts Institute Of Technology Talking facial display method and apparatus
IT1314671B1 (it) * 1998-10-07 2002-12-31 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio.
US7050655B2 (en) * 1998-11-06 2006-05-23 Nevengineering, Inc. Method for generating an animated three-dimensional video head
US6714661B2 (en) 1998-11-06 2004-03-30 Nevengineering, Inc. Method and system for customizing facial feature tracking using precise landmark finding on a neutral face image
US7071949B1 (en) * 1998-11-18 2006-07-04 Microsoft Corporation View dependent tiled textures
US7050624B2 (en) 1998-12-04 2006-05-23 Nevengineering, Inc. System and method for feature location and tracking in multiple dimensions including depth
US6947044B1 (en) * 1999-05-21 2005-09-20 Kulas Charles J Creation and playback of computer-generated productions using script-controlled rendering engines
JP2000357221A (ja) * 1999-06-15 2000-12-26 Minolta Co Ltd 画像処理装置および画像処理方法、ならびに画像処理プログラムを記録した記録媒体
WO2001001353A1 (en) * 1999-06-24 2001-01-04 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US6826540B1 (en) * 1999-12-29 2004-11-30 Virtual Personalities, Inc. Virtual human interface for conducting surveys
US6813607B1 (en) * 2000-01-31 2004-11-02 International Business Machines Corporation Translingual visual speech synthesis
GB0004165D0 (en) * 2000-02-22 2000-04-12 Digimask Limited System for virtual three-dimensional object creation and use
US6807290B2 (en) * 2000-03-09 2004-10-19 Microsoft Corporation Rapid computer modeling of faces for animation
US7106887B2 (en) * 2000-04-13 2006-09-12 Fuji Photo Film Co., Ltd. Image processing method using conditions corresponding to an identified person
US6847940B1 (en) * 2000-06-16 2005-01-25 John S. Shelton System and methods for providing a health care industry trade show via internet
US6967658B2 (en) 2000-06-22 2005-11-22 Auckland Uniservices Limited Non-linear morphing of faces and their dynamics
TW517210B (en) * 2000-08-31 2003-01-11 Bextech Inc A method for generating speaking expression variation without distortion in 2D picture using polygon computation
WO2002025595A1 (en) * 2000-09-21 2002-03-28 The Regents Of The University Of California Visual display methods for use in computer-animated speech production models
US20080040227A1 (en) 2000-11-03 2008-02-14 At&T Corp. System and method of marketing using a multi-media communication system
US7203648B1 (en) 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
US7091976B1 (en) 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US7035803B1 (en) 2000-11-03 2006-04-25 At&T Corp. Method for sending multi-media messages using customizable background images
US6963839B1 (en) 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US6990452B1 (en) 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
JP4310916B2 (ja) * 2000-11-08 2009-08-12 コニカミノルタホールディングス株式会社 映像表示装置
US7020305B2 (en) * 2000-12-06 2006-03-28 Microsoft Corporation System and method providing improved head motion estimations for animation
GB0030148D0 (en) * 2000-12-11 2001-01-24 20 20 Speech Ltd Audio and video synthesis method and system
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US6917703B1 (en) 2001-02-28 2005-07-12 Nevengineering, Inc. Method and apparatus for image analysis of a gabor-wavelet transformed image using a neural network
US20030033149A1 (en) * 2001-03-15 2003-02-13 Stephen Milligan Methods and systems of simulating movement accompanying speech
US7392287B2 (en) 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
US20020194006A1 (en) * 2001-03-29 2002-12-19 Koninklijke Philips Electronics N.V. Text to visual speech system and method incorporating facial emotions
US20020143622A1 (en) * 2001-04-02 2002-10-03 Taliercio Andr?Eacute; Method for licensing three-dimensional avatars
US6876364B2 (en) 2001-08-13 2005-04-05 Vidiator Enterprises Inc. Method for mapping facial animation values to head mesh positions
US6834115B2 (en) 2001-08-13 2004-12-21 Nevengineering, Inc. Method for optimizing off-line facial feature tracking
US6853379B2 (en) * 2001-08-13 2005-02-08 Vidiator Enterprises Inc. Method for mapping facial animation values to head mesh positions
US20030046160A1 (en) * 2001-09-06 2003-03-06 Paz-Pujalt Gustavo R. Animated electronic message and method of producing
US7671861B1 (en) 2001-11-02 2010-03-02 At&T Intellectual Property Ii, L.P. Apparatus and method of customizing animated entities for use in a multi-media communication application
US7221654B2 (en) * 2001-11-13 2007-05-22 Nokia Corporation Apparatus, and associated method, for selecting radio communication system parameters utilizing learning controllers
US6816159B2 (en) 2001-12-10 2004-11-09 Christine M. Solazzi Incorporating a personalized wireframe image in a computer software application
JP2003296713A (ja) * 2002-04-04 2003-10-17 Mitsubishi Electric Corp 顔画像合成装置、顔画像合成方法およびその方法を実行するプログラムならびに顔画像合成装置を備えた通信用端末およびその通信用端末による通信方法
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20040162637A1 (en) 2002-07-25 2004-08-19 Yulun Wang Medical tele-robotic system with a master remote station with an arbitrator
US20120072024A1 (en) * 2002-07-25 2012-03-22 Yulun Wang Telerobotic system with dual application screen presentation
TW587389B (en) * 2002-08-23 2004-05-11 Bextech Inc Method and apparatus of capturing images
US20040085259A1 (en) * 2002-11-04 2004-05-06 Mark Tarlton Avatar control using a communication device
JP3950802B2 (ja) * 2003-01-31 2007-08-01 株式会社エヌ・ティ・ティ・ドコモ 顔情報送信システム、顔情報送信方法、顔情報送信プログラム、及びコンピュータ読取可能な記録媒体
JP2005064939A (ja) * 2003-08-14 2005-03-10 Nec Corp アニメーション機能を有する携帯電話端末およびその制御方法
TWI220234B (en) * 2003-10-21 2004-08-11 Ind Tech Res Inst A method to simulate animated images for an object
US7813836B2 (en) 2003-12-09 2010-10-12 Intouch Technologies, Inc. Protocol for a remotely controlled videoconferencing robot
US8077963B2 (en) 2004-07-13 2011-12-13 Yulun Wang Mobile robot with a head-based movement mapping scheme
US20060244395A1 (en) * 2005-05-02 2006-11-02 Taipale Mark S Electronic ballast having missing lamp detection
CN101268507A (zh) * 2005-07-11 2008-09-17 皇家飞利浦电子股份有限公司 用于通信的方法以及通信设备
US8139068B2 (en) * 2005-07-29 2012-03-20 Autodesk, Inc. Three-dimensional animation of soft tissue of characters using controls associated with a surface mesh
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7634409B2 (en) 2005-08-31 2009-12-15 Voicebox Technologies, Inc. Dynamic speech sharpening
US9198728B2 (en) 2005-09-30 2015-12-01 Intouch Technologies, Inc. Multi-camera mobile teleconferencing platform
JP4760349B2 (ja) * 2005-12-07 2011-08-31 ソニー株式会社 画像処理装置および画像処理方法、並びに、プログラム
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
EP2030171A1 (de) 2006-04-10 2009-03-04 Avaworks Incorporated Fotorealistisches selbstbau-sprechkopferzeugungssystem und verfahren
US20070291128A1 (en) * 2006-06-15 2007-12-20 Yulun Wang Mobile teleconferencing system that projects an image provided by a mobile robot
US8849679B2 (en) 2006-06-15 2014-09-30 Intouch Technologies, Inc. Remote controlled robot system that provides medical images
US8115774B2 (en) * 2006-07-28 2012-02-14 Sony Computer Entertainment America Llc Application of selective regions of a normal map based on joint position in a three-dimensional model
JP4986279B2 (ja) * 2006-09-08 2012-07-25 任天堂株式会社 ゲームプログラムおよびゲーム装置
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US9160783B2 (en) 2007-05-09 2015-10-13 Intouch Technologies, Inc. Robot system that operates through a network firewall
US8391639B2 (en) 2007-07-23 2013-03-05 The Procter & Gamble Company Method and apparatus for realistic simulation of wrinkle aging and de-aging
US8437514B2 (en) 2007-10-02 2013-05-07 Microsoft Corporation Cartoon face generation
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10875182B2 (en) 2008-03-20 2020-12-29 Teladoc Health, Inc. Remote presence system mounted to operating room hardware
US8831379B2 (en) * 2008-04-04 2014-09-09 Microsoft Corporation Cartoon personalization
US8179418B2 (en) 2008-04-14 2012-05-15 Intouch Technologies, Inc. Robotic based health care system
US8170241B2 (en) 2008-04-17 2012-05-01 Intouch Technologies, Inc. Mobile tele-presence system with a microphone system
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9193065B2 (en) 2008-07-10 2015-11-24 Intouch Technologies, Inc. Docking system for a tele-presence robot
US9842192B2 (en) 2008-07-11 2017-12-12 Intouch Technologies, Inc. Tele-presence robot system with multi-cast features
US9223469B2 (en) * 2008-08-22 2015-12-29 Intellectual Ventures Fund 83 Llc Configuring a virtual world user-interface
US8340819B2 (en) 2008-09-18 2012-12-25 Intouch Technologies, Inc. Mobile videoconferencing robot system with network adaptive driving
US8996165B2 (en) 2008-10-21 2015-03-31 Intouch Technologies, Inc. Telepresence robot with a camera boom
US8584031B2 (en) 2008-11-19 2013-11-12 Apple Inc. Portable touch screen device, method, and graphical user interface for using emoji characters
US9138891B2 (en) 2008-11-25 2015-09-22 Intouch Technologies, Inc. Server connectivity control for tele-presence robot
US8463435B2 (en) 2008-11-25 2013-06-11 Intouch Technologies, Inc. Server connectivity control for tele-presence robot
WO2010074786A2 (en) * 2008-12-04 2010-07-01 Total Immersion Software, Inc. System and methods for dynamically injecting expression information into an animated facial mesh
US8207971B1 (en) * 2008-12-31 2012-06-26 Lucasfilm Entertainment Company Ltd. Controlling animated character expressions
US8849680B2 (en) * 2009-01-29 2014-09-30 Intouch Technologies, Inc. Documentation through a remote presence robot
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8897920B2 (en) 2009-04-17 2014-11-25 Intouch Technologies, Inc. Tele-presence robot system with software modularity, projector and laser pointer
CA2760289A1 (en) * 2009-04-27 2010-11-11 Sonoma Data Solutions Llc A method and apparatus for character animation
US11399153B2 (en) 2009-08-26 2022-07-26 Teladoc Health, Inc. Portable telepresence apparatus
US8384755B2 (en) 2009-08-26 2013-02-26 Intouch Technologies, Inc. Portable remote presence robot
WO2011059997A1 (en) 2009-11-10 2011-05-19 Voicebox Technologies, Inc. System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8614714B1 (en) * 2009-12-21 2013-12-24 Lucasfilm Entertainment Company Ltd. Combining shapes for animation
US11154981B2 (en) 2010-02-04 2021-10-26 Teladoc Health, Inc. Robot user interface for telepresence robot system
US8670017B2 (en) 2010-03-04 2014-03-11 Intouch Technologies, Inc. Remote presence system including a cart that supports a robot face and an overhead camera
US10343283B2 (en) 2010-05-24 2019-07-09 Intouch Technologies, Inc. Telepresence robot system that can be accessed by a cellular phone
US10808882B2 (en) 2010-05-26 2020-10-20 Intouch Technologies, Inc. Tele-robotic system with a robot face placed on a chair
CN102289339B (zh) * 2010-06-21 2013-10-30 腾讯科技(深圳)有限公司 一种显示表情信息的方法及装置
US9264664B2 (en) 2010-12-03 2016-02-16 Intouch Technologies, Inc. Systems and methods for dynamic bandwidth allocation
US9323250B2 (en) 2011-01-28 2016-04-26 Intouch Technologies, Inc. Time-dependent navigation of telepresence robots
KR20140040094A (ko) 2011-01-28 2014-04-02 인터치 테크놀로지스 인코퍼레이티드 이동형 원격현전 로봇과의 인터페이싱
JP2012181704A (ja) * 2011-03-01 2012-09-20 Sony Computer Entertainment Inc 情報処理装置および情報処理方法
US10769739B2 (en) 2011-04-25 2020-09-08 Intouch Technologies, Inc. Systems and methods for management of information among medical providers and facilities
US9098611B2 (en) 2012-11-26 2015-08-04 Intouch Technologies, Inc. Enhanced video interaction for a user interface of a telepresence network
US20140139616A1 (en) 2012-01-27 2014-05-22 Intouch Technologies, Inc. Enhanced Diagnostics for a Telepresence Robot
US8836751B2 (en) 2011-11-08 2014-09-16 Intouch Technologies, Inc. Tele-presence system with a user interface that displays different communication links
US9088426B2 (en) * 2011-12-13 2015-07-21 Google Inc. Processing media streams during a multi-user video conference
US9088697B2 (en) 2011-12-13 2015-07-21 Google Inc. Processing media streams during a multi-user video conference
US9251313B2 (en) 2012-04-11 2016-02-02 Intouch Technologies, Inc. Systems and methods for visualizing and managing telepresence devices in healthcare networks
US8902278B2 (en) 2012-04-11 2014-12-02 Intouch Technologies, Inc. Systems and methods for visualizing and managing telepresence devices in healthcare networks
US20130307855A1 (en) * 2012-05-16 2013-11-21 Mathew J. Lamb Holographic story telling
EP2852881A4 (de) 2012-05-22 2016-03-23 Intouch Technologies Inc Grafische benutzerschnittstellen mit touchpad -ansteuerungsschnittstellen für telemedizinische vorrichtungen
US9361021B2 (en) 2012-05-22 2016-06-07 Irobot Corporation Graphical user interfaces including touchpad driving interfaces for telemedicine devices
JP6111723B2 (ja) * 2013-02-18 2017-04-12 カシオ計算機株式会社 画像生成装置、画像生成方法及びプログラム
EP3070681A4 (de) * 2013-11-13 2017-07-12 Sony Corporation Anzeigesteuerungsvorrichtung, anzeigesteuerungsverfahren und programm
CN104217455A (zh) * 2014-09-05 2014-12-17 南京偶酷软件有限公司 人脸表情动作的动画制作方法
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9940637B2 (en) 2015-06-05 2018-04-10 Apple Inc. User interface for loyalty accounts and private label accounts
US10445425B2 (en) 2015-09-15 2019-10-15 Apple Inc. Emoji and canned responses
US11580608B2 (en) 2016-06-12 2023-02-14 Apple Inc. Managing contact information for communication applications
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10600226B2 (en) * 2016-09-07 2020-03-24 The University Of Hong Kong System and method for manipulating a facial image and a system for animating a facial image
RU2653233C1 (ru) * 2016-11-29 2018-05-07 Бейдзин Сяоми Мобайл Софтвэр Ко., Лтд. Способ и устройство для синтезирования фотографий
US10636175B2 (en) * 2016-12-22 2020-04-28 Facebook, Inc. Dynamic mask application
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
US11862302B2 (en) 2017-04-24 2024-01-02 Teladoc Health, Inc. Automated transcription and documentation of tele-health encounters
DK180007B1 (en) 2017-05-16 2020-01-16 Apple Inc. RECORDING AND SENDING EMOJI
US10483007B2 (en) 2017-07-25 2019-11-19 Intouch Technologies, Inc. Modular telehealth cart with thermal imaging and touch screen user interface
US11636944B2 (en) 2017-08-25 2023-04-25 Teladoc Health, Inc. Connectivity infrastructure for a telehealth platform
CN108305309B (zh) * 2018-04-13 2021-07-20 腾讯科技(成都)有限公司 基于立体动画的人脸表情生成方法和装置
US10617299B2 (en) 2018-04-27 2020-04-14 Intouch Technologies, Inc. Telehealth cart that supports a removable tablet with seamless audio/video switching
US10607065B2 (en) * 2018-05-03 2020-03-31 Adobe Inc. Generation of parameterized avatars
DK201870374A1 (en) 2018-05-07 2019-12-04 Apple Inc. AVATAR CREATION USER INTERFACE
US10650563B2 (en) 2018-07-26 2020-05-12 BinaryVR, Inc. Tongue position tracking for facial animation
US10817365B2 (en) 2018-11-09 2020-10-27 Adobe Inc. Anomaly detection for incremental application deployments
US11361760B2 (en) 2018-12-13 2022-06-14 Learning Squared, Inc. Variable-speed phonetic pronunciation machine
US11107261B2 (en) 2019-01-18 2021-08-31 Apple Inc. Virtual avatar animation based on facial feature movement
CN111275057B (zh) * 2020-02-13 2023-06-20 腾讯科技(深圳)有限公司 图像处理方法、装置及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US4888713B1 (en) * 1986-09-05 1993-10-12 Cdi Technologies, Inc. Surface detail mapping system
US5613056A (en) * 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JPH0612401A (ja) * 1992-06-26 1994-01-21 Fuji Xerox Co Ltd 感情模擬装置
US5375195A (en) * 1992-06-29 1994-12-20 Johnston; Victor S. Method and apparatus for generating composites of human faces
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer

Also Published As

Publication number Publication date
US5995119A (en) 1999-11-30
EP0883090A3 (de) 1999-12-15
DE69832663D1 (de) 2006-01-12
EP0883090B1 (de) 2005-12-07
CA2239402A1 (en) 1998-12-06
CA2239402C (en) 2002-08-06
EP0883090A2 (de) 1998-12-09

Similar Documents

Publication Publication Date Title
DE69832663T2 (de) Verfahren zum Erstellen von photo-realistischen beweglichen Figuren
DE69934478T2 (de) Verfahren und Gerät zur Bildverarbeitung auf Basis von Metamorphosemodellen
DE69815687T2 (de) Verfahren und vorrichtung zur texturabbildung und andere anwendungen von skalarfeldern auf unterteilungsoberflächen in rechnergraphik und animation
DE69636695T2 (de) Bildverarbeitungsvorrichtung
DE69922898T2 (de) Verfahren zur dreidimensionalen Gesichtsmodellerzeugung aus Gesichtsbildern
US11915133B2 (en) Techniques for smooth region merging in image editing
Pasquariello et al. Greta: A simple facial animation engine
DE102006032484B4 (de) Auf Gesichtsmerkmale örtlich begrenztes und umfassendes Echtzeit-Video-Morphing
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
US20100189357A1 (en) Method and device for the virtual simulation of a sequence of video images
WO1998059321A2 (en) Methods and apparatuses for controlling transformation of two and three-dimensional images
CN107797959A (zh) 处理脸部图像的系统和方法以及用于使脸部图像动画化的系统
DE212020000467U1 (de) Vorrichtung, um ein Video mit einer computermodifizierten Abbildung eines erwünschten Gesichts einer Person bereitzustellen
CN113850169B (zh) 一种基于图像分割和生成对抗网络的人脸属性迁移方法
DE102021109050A1 (de) Durch ein neuronales generative adversarial netzwerk unterstützte videokompression und -übertragung
EP1670165B1 (de) Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur
Parke Control parameterization for facial animation
Liu et al. Translate the facial regions you like using self-adaptive region translation
DE60020234T2 (de) Verfahren und vorrichtung zur bildwiedergabe
Brooks Mixed media painting and portraiture
DE10250602A1 (de) System zum Erzeugen einer synthetischen Szene
DE212020000466U1 (de) System, um eine computermodifizierte Visualisierung des erwünschten Gesichts einer Person bereitzustellen
JP2009294958A (ja) 顔画像の合成方法
MXPA98004381A (es) Metodo para generar caracteres animados fotorrealistas
Derouet-Jourdan et al. Flexible eye design for japanese animation

Legal Events

Date Code Title Description
8364 No opposition during term of opposition