DE69832663T2

DE69832663T2 - Verfahren zum Erstellen von photo-realistischen beweglichen Figuren

Info

Publication number: DE69832663T2
Application number: DE69832663T
Authority: DE
Inventors: Eric Highlands Cosatto; Hans Peter Lincroft Graf
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-06-06
Filing date: 1998-05-21
Publication date: 2006-08-31
Anticipated expiration: 2018-05-22
Also published as: US5995119A; EP0883090A3; DE69832663D1; EP0883090B1; CA2239402A1; CA2239402C; EP0883090A2

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft das Gebiet der Animation und insbesondere Techniken zur Erzeugung von fotorealistischen animierten beziehungsweise beweglichen Gesichtern in Computer- und Kommunikationsanwendungen und anderen hochtechnisierten Betriebsabläufen.
HINTERGRUND DER ERFINDUNG
In einem modernen technologischen Zeitalter, das durch komplexe Computerschnittstellen und durch hochentwickelte Video- und Kommunikationsvorrichtungen gekennzeichnet ist, treten Techniken, die ein Konsumenteninteresse an hochtechnologischer Ausrüstung fördern, verstärkt in den Vordergrund. Die Computerindustrie sucht in dem Bemühen, Konsumenten in den Strom ihrer technischen Neuerungen zu ziehen, regelmäßig neue Verfahren, mit denen Konsumenten mit Vorrichtungen, die anwenderfreundlichere oder menschenähnlichere Eigenschaften aufweisen, kommunizieren können. Neben der Erhöhung der Attraktivität der Technologie für den durchschnittlichen nichttechnisch ausgerichteten Konsumenten, erhöhen solche Verfahren das Potential für eine Erzeugung einer Unmenge neuer und nützlicher Computer- und Videoanwendungen.
In den letzten Jahren sind die Aussichten für eine Verwendung von animierten, sprechenden Gesichtern in verschiedenen hochtechnologischen Betriebsabläufen besonders verlockend geworden. Animierte Techniken können für verschiedene Felder von Anwendungen verwendet werden. Das Hinzufügen von sprechenden Gesichtern zu Computeranwenderschnittstellen kann beispielsweise die Anwenderfreundlichkeit von Computern verbessern, den Vertrautheitsgrad von Anwendern mit Computern fördern und den Unterhaltungswert des Computers erhöhen. Die Erzeugung von animierten Vermittlern beziehungsweise Vertretern in Computeranwenderschnittstellen wären neben anderen Anwendungsmöglichkeiten zur Durchführung beispielsweise folgender Aufgaben gut geeignet: Vorlesen von E-Mail, Ansagenmachen oder einen Anwender durch eine Anwendung führen. Die Verwendung von naturgetreuen, synthetisierten Personen wäre außerdem in einer Anwendung wertvoll, wo Avatars (visuelle Darstellung von Personen) verwendet werden. Solche Anwendungen könnten virtuelle Sitzungsräume, Videospiele für mehrere Anwender, Vorlesungen, Seminare, Sicherheits- oder Zugangsvorrichtungen, Szenarios, die menschliche Anweisungen erfordern, oder eine Unmenge weiterer Betriebsabläufe sein.
Praktiker in der Industrie denken über modellgestützte Codierung von Videotelefonie über Verbindungen mit niedriger Datenrate nach. Diese Anwendung würde die Erzeugung synthetisierter Gesichter oder Figuren in der Empfängerstation nach sich ziehen, wobei die Form und Struktur der Bilder durch Parameter bestimmt werden, die in der Sendestation ihren Ursprung haben.
Unabhängig von der bestimmten Anwendung handelt es sich bei der Synthese von menschlichen Gesichtern im Idealfall um die Verwendung von naturgetreuen, natürlich aussehenden ("fotorealistischen") Figuren. Die Verwendung von fotorealistischen Figuren hat viele Vorteile. Sie haben einen größeren Unterhaltungswert gegenüber einfachen animierten Figuren. Ferner erweitert die Verwendung von fotorealistischen Figuren als Teil einer menschlichen Schnittstelle einen Computer um ein realistisches Element. Konsumenten, die durch die Computertechnologie ansonsten eingeschüchtert sind, könnten sich behaglicher fühlen, wenn ein Computer verwendet wird, der eine menschenähnliche Schnittstelle hat. Als weitere Veranschaulichung kann die Verwendung einer fotorealistischen Figur, die eine Präsentation in einem Büro abhält, einen günstigeren Eindruck auf die Teilnehmer der Präsentation machen, als wenn einfache animierte Figuren verwendet würden – mit einfacher Animation können die Figuren nicht gleichzeitig sprechen, wogegen realistische Gesichts- und Mundbewegungen hervorgerufen werden können, die typisch sind für eine Figur, die spricht. Fotorealistische Figuren können bedeutsame und realistische Gesichtszüge zum Ausdruck bringen. Einfache Animation dagegen ist trickfilmhaft und nicht beeindruckend, insbesondere an einem Schauplatz wie etwa eine Beratung in einer Firma.
Fotorealistische Figuren können auch als Ikone in einer virtuellen Realitätsanwendung verwendet werden. Solche Figuren können ferner über solche Medien wie das Internet verwendet werden, wobei die Bandbreite des Mediums im übrigen zu klein ist, um Hochfrequenz-Videosignale unterzubringen. Unter Verwendung von fotorealistischen Techniken können menschliche Figuren mit realistischen Bewegungen über das Internet anstelle eines Videos überfragen werden.
Die Praktiker haben zahlreiche Bemühungen unternommen, um fotorealistische Figuren zu synthetisieren. Ein Problem, das den meisten dieser Verfahren gemeinsam ist, ist ihre Unfähigkeit, die Figuren ausreichend menschenähnlich erscheinen zu lassen. Die übrigen Verfahren, die zumindest theoretisch realistisch aussehende Figuren erzeugen können, erfordern unmäßig große Computerspeicherplatzzuweisungen und Verarbeitungszeiten, um dieses Ziel zu erreichen. Die Brauchbarkeit solcher Verfahren ist folglich auf Medien mit hoher Kapazität beschränkt.
Ein wichtiges, aber bisher nicht realisiertes Ziel von Praktikern besteht also darin, eine Technik zur Erzeugung von fotorealistischen Gesichtern zu erzeugen, die einen minimalen Umfang einer Rechenleistung für die Synthese von animierten Sequenzen erfordert. Naturgemäß wäre die geringste Rechenleistung in dem Fall erforderlich, wo alle Teile und ihre entsprechenden Pixelmuster vorher erzeugt und in einer Bibliothek gespeichert werden. Die Synthese eines Gesichts würde dann lediglich eine Überlagerung der Teile bedeuten. Moderne Grafikprozessoren sind jedoch so leistungsfähig geworden, daß eine Verzerrung von Bildern zur Erzeugung animierter Formen in Echtzeit duchgeführt werden kann. In diesem Fall müssen nur die Bezugspunkte in der Bibliothek gespeichert werden, was den Speicher, der zur Speicherung des Modells erforderlich ist, wesentlich reduziert.
Die Lösungsansätze, die von Praktikern verwendet werden, zerfallen im allgemeinen in vier Kategorien: (1) Dreidimensionale-("3D"-)Modellierungstechniken; (2) Verzerrungs- und Morphing-Techniken; (3) Interpolation zwischen Ansichten; und (4) Fingerkinotechniken. Diese Lösungsansätze sind nachstehend beschrieben.
(1) DREIDIMENSIONALE MODELLIERUNG
Die Praktiker haben 3D-Modelle zur Erzeugung von sprechenden Köpfen und Gesichtern entwickelt. Viele 3D-Modellierungstechniken verwenden generische Maschenmodelle, auf denen Bilder von Personen mittels Oberflächenstruktur-Pixeldarstellung angeordnet werden. Im allgemeinen ist die physische Struktur, zum Beispiel die Knochen- und Muskelstruktur, mit großer Präzision und gutem Detail ausgeführt, um die Form des Gesichts abzuleiten. Obwohl 3D-Modellierung für bestimmte Anwendungen geeignet ist, ist diese Technik mit Nachteilen befrachtet, wenn sie im Rahmen einer Figur, die spricht, eingesetzt wird. Solche Verfahren erfordern extensiven Computereinsatz und verbrauchen erheblichen Speicherplatz; folglich sind sie nicht für Echtzeitanwendungen auf einem Personalcomputer geeignet. Außerdem scheinen Gesichtszüge, die von standardisierten 3D-Modellen erzeugt werden, normalerweise "roboterähnlich" und erscheinen nicht natürlich.
(2) VERZERRUNG ODER MORPHING
Andere Techniken zur Erzeugung von animierten Personen beruhen auf der Verzerrung oder dem Morphing von zweidimensionalen ("2D")-Bildern von Gesichtern. Die Verzerrung kann im allgemeinen als absichtliche Verzerrung eines Bildes auf eine vorher definierte Weise definiert sein. Die Verzerrung kann unter anderem verwendet werden, um Gesichtsausdrücke durch Verzerrung eines Gesichts mit einem neutralen Ausdruck zu erzeugen (zum Beispiel um ein Stirnrunzeln zu erzeugen).
Morphing ist die Transformation eines Bildes in ein anderes Bild unter Verwendung von Interpolation und/oder Verzerrung. Anders als bei der Verzerrung, die lediglich ein Bild auf eine vorher definierte Weise verzerrt, verwendet Morphing normalerweise zwei Gruppen von festen Parametern, die ein Ausgangsbild und ein Zielbild umfassen. Verschiedene kommerzielle Produkte nutzen Verzerrungs- oder Morphing-Techniken, einschließlich bestimmte Spielzeuge, die es Kindern erlauben, lustige, animierte Folgen von Gesichtern zu erzeugen.
Ein Nachteil der isolierten Verwendung von Verzerrung oder Morphing ist die Unfähigkeit dieser Techniken, realistische, natürlich aussehende Gesichtsbewegungen bereitzustellen. Ein weiterer Nachteil besteht darin, daß der Morphing-Prozeß nur zwischen vorher definierten Paaren von Bildern möglich ist. Somit ist diese Technik nicht zur Erzeugung von Modellen geeignet, die unvorhergesehene Bewegungen erzeugen müssen, zum Beispiel wenn ein bisher unbekannter Text gesprochen werden soll.
(3) INTERPOLATION ZWISCHEN REFERENZANSICHTEN
Forscher haben demzufolge versucht, die Nachteile bestehender Morphing-Verfahren zu beseitigen. Um die Möglichkeit der extemporären Erzeugung von bisher unbekannten Gesichtsbewegungen einzubeziehen, haben Forscher Techniken entwickelt, um Morphing-Parameter automatisch zu bestimmen. Diese Techniken beginnen mit einer Gruppe von Referenzansichten, wobei neue Ansichten automatisch erzeugt werden, indem eine Interpolation zwischen den Referenzwerten durchgeführt wird. Forscher haben Sequenzen von sich drehenden und neigenden Köpfen unter Verwendung dieser Interpolationsmethode demonstriert. Keine Sequenzen eines sprechenden Kopfes sind bisher jedoch synthetisiert worden, teilweise weil der Akt des Sprechens vorübergehende Gesichtszüge erzeugt, zum Beispiel Falten und Runzeln, die lediglich unter Verwendung von Interpolation nicht dupliziert werden können. Beim Sprechen werden außerdem Bereiche freigelegt, die in den Referenz-Einzelbildern im allgemeinen nicht zu sehen sind, zum Beispiel Zähne. Elemente wie Zähne, die in den Referenz-Einzelbildern nicht vorhanden sind, können unter Verwendung von Interpolation erzeugt werden.
(4) FINGERKINOTECHNIKEN
Die Fingerkinotechniken, wahrscheinlich die ältesten aller Animationstechniken, erfordern den Prozeß des Speicherns aller möglichen Ausdrücke eines Gesichts in einem Speicher. Einzelne Ausdrücke werden später aus dem Speicher abgerufen, um eine Sequenz von Ausdrücken zu erzeugen. Die Verwendung dieser Technik hat ernsthafte praktische Beschränkungen. Beispielsweise wenn eine angemessene Anzahl von Ausdrücken oder Mundformen verfügbar gemacht werden soll, ist es erforderlich, eine erhebliche Anzahl von Einzelbildern zu erzeugen und im Speicher zu speichern. Daher wird die Flexibilität des Fingerkino-Lösungsansatzes erheblich beschnitten, da nur Gesichtszüge, die vorher erzeugt worden sind, für eine Animation verfügbar sind. Unter anderen Problemen ist der Finigerkino- Lösungsansatz nicht zur Verwendung auf einem Personalcomputer geeignet, der normalerweise nichttriviale Beschränkungen in bezug auf die Speichergröße und die Verarbeitungsleistung aufweist.
In der Summe weisen die vorliegenden Techniken zur Synthetisierung animierter Gesichter zumindest die folgenden Nachteile auf: (1) Figuren, die porträtiert werden, sind nicht ausreichend naturgetreu oder natürlich aussehend, besonders wenn sie sprechen; (2) die Verfahren erfordern eine beträchtliche, häufig nicht realisierbare Computerspeicherplatzzuweisung und Verarbeitungszeit; (3) die Figuren sind häufig unfähig, spontan bisher nicht bekannte Wörtern zu äußern; (4) die Verfahren weisen keine Vielfalt in den möglichen verfügbaren Gesichtszügen auf; (5) viele der Verfahren haben nicht die Fähigkeit, verschiedene wichtige Figurenmerkmale, Gesichtszüge oder sonstiges darzustellen; und (6) viele dieser Verfahren haben keine Koartikulations- oder Konfliktlösüngstechniken.
Demzufolge ist es eine Aufgabe der Erfindung, eine Technik zur Erzeugung von naturgetreuen, natürlich aussehenden, fotorealistischen Gesichtern und Figuren zu erzeugen, die die Komplexitäten einer 3D-Modellierung vermeiden und die weniger Speicher und Computerrechenleistung erfordern als herkömmliche Verfahren.
Eine weitere Aufgabe der Erfindung besteht darin, ein solches Verfahren zu offenbaren, das in der Lage ist, naturgetreue Gesichtsbewegungen zu erzeugen, um zeitgleiches Sprechen einzubeziehen, einschließlich Sprechen von bisher unbekanntem Text.
Eine weitere Aufgabe der Erfindung besteht darin, ein Verfahren zu offenbaren, das in der Lage ist, in einer Echtzeitanwendung ausgeführt zu werden, einschließlich einer Anwendung auf einem Personalcomputer.
Eine weitere Aufgabe der Erfindung besteht darin, ein Verfahren bereitzustellen, das eine große Vielfalt verschiedener möglicher Gesichtszüge und -ausdrücke ermöglicht.
US 4841575 offenbart eine Bildcodier- und -synthesetechnik. Verschiedene Bilder eines Mundes werden verwendet, um ein bewegtes Bild eines Sprechers zu erzeugen.
WO 96/17323 offenbart eine Technik zur Synthetisierung von Animationen eines menschlichen Sprechvorgangs.
ZUSAMMENFASSUNG DER ERFINDUNG
Die Erfindung stellt ein Verfahren zur Behandlung von synthetisierten Bildern bereit, wie in den beigefügten Ansprüchen ausgeführt. Es wird hierin ein Verfahren zur Erzeugung von fotorealistischen, animierten Gesichtern und Figuren, zum Beispiel Menschen und menschlichen Gesichtern, und Figuren, die in der Lage sind, zu sprechen und Emotionen auszudrücken, offenbart. Das Modell, auf das sich das Verfahren stützt, beruht auf einem oder mehreren Bildern eines Individuums. Diese Bilder werden in eine Hierarchie von parametrierten Strukturen zerlegt und in einer Modellbibliothek gespeichert. Für die Synthese von Gesichtern werden entsprechende Teile aus der Modellbibliothek geladen und auf ein Basisgesicht gelegt, um das ganze Gesicht mit dem erwünschten Ausdruck zu bilden.
Um eine große Auswahl von Gesichtsausdrücken zu synthetisieren, wird jeder Gesichtsteil unter Verwendung von Bezugspunkten, die im Speicher gespeichert sind, parametriert. Diese parametrierten Gesichtsteile umfassen Formen, die mögliche Verformungen einschließen, denen ein Gesichtsteil unterzogen werden kann, wenn verschiedene Handlungen, zum Beispiel Lächeln, Stirnrunzeln, Artikulieren eines Phonems und so weiter, ausgeübt werden.
In einer bevorzugten Ausführungsform ist das Kopfmodell mit einem Sprachsynthesizer kombiniert, aus dem das Modell die Sequenzen und die Dauer von zu sprechenden Phonemen ableitet.
Außerdem werden in einer bevorzugten Ausführungsform Koartikulationseffekte als Teil der Berechnungen für einen oder mehrere Gesichtsteile berechnet. Konflikte werden vorzugsweise zwischen den Anforderungen zum Ausdrücken von Emotionen und zum Aussprechen eines Phonems gelöst. Eine Version jedes Gesichtsteils, das zu den gewünschten Werten paßt, wird daraufhin aus der Bibliothek für die Synthese des gesamten Gesichts erzeugt.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 zeigt die Zerlegung eines Gesichts in parametrierte Teile gemäß dem Verfahren der vorliegenden Erfindung.
2a und 2b, insgesamt 2, zeigen ein Verfahren zur Parametrierung von Gesichtsteilen entsprechend einer bevorzugten Ausführungsform der Erfindung.
3 zeigt drei aus Fotografien erzeugte Viseme entsprechend einer bevorzugten Ausführungsform der Erfindung.
4 zeigt drei durch Verzerrung erzeugte Viseme entsprechend einer bevorzugten Ausführungsform der Erfindung.
5 zeigt einen Prozeß des Übergangs von einem neutralen Ausdruck zu einem Lächeln entsprechend einer bevorzugten Ausführungsform der Erfindung.
6 zeigt ein exemplarisches Floßdiagramm, das eine Synthese der Animationssequenz entsprechend einer bevorzugten Ausführungsform der Erfindung zeigt.
KURZBESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Das Verfahren gemäß der vorliegenden Erfindung ist neben anderen Operationen gut geeignet für praktisch jede Anwendung, die das Lesen von Text oder das Sprechen zu einem Anwender oder einer anderen Person betrifft. Obwohl die Erfindung vollständig anhand der folgenden Beschreibung ihrer Anwendungen im Kontext menschlicher Gesichter und Figuren verständlich ist, soll die Erfindung gleichermaßen auf die Verwendung von Tiergesichtern und -figuren anwendbar sein. In einer bevorzugten Ausführungsform umfaßt die Technik gemäß der Erfindung vier Gruppen von Elementen:

(1) BASISGESICHT: ein Bild eines Gesichts, das als Hintergrund für eine animierte Sequenz verwendet wird. Obwohl nicht notwendig, enthält das Basisgesicht normalerweise einen neutralen Ausdruck und einen geschlossenen Mund.
(2) PARAMETRIERTE GESICHTSTEILE ("PFPs"): einzelne Gesichtsteile, die im Verlaufe einer Animationssequenz auf das Basisgesicht gelegt werden. Vorzugsweise umfassen PFPs den Mund, die Augen, die Nase, die Wangen, das Kinn, die Stirn, die Zähne, die Zunge und die Mundhöhle.
(3) PARAMETRIERTE GESICHTSTEILE MIT HAAR ("PFPHs"): einzelne Gesichtsteile mit Haar, die im Verlaufe der Animationssequenz auf das Basisgesicht gelegt werden. Vorzugsweise umfassen PFPHs das Haar, die Augenbrauen, den Lippenbart, den Bart und die Koteletten.
(4) SEKUNDÄRE EFFEKTE: zusätzliche Merkmale, die während der Animationssequenz verwendet werden. Diese können beispielsweise sein: Falten, Runzeln und Hervorhebungen.

Diese vier Gruppen von Elementen sind nachstehend im Kontext verschiedener bevorzugter Ausführungsformen der Erfindung ausführlicher beschrieben.
(1) BASISGESICHT
Das Basisgesicht ist ein Bild des gesamten Gesichts, auf das Teile für die Animationssequenz gelegt werden. Die Verwendung eines Basisgesichts in einer Animationssequenz kann Computerrechenzeit sparen und Speicherplatzanforderungen reduzieren. Der Grund dafür ist, daß für viele Ausdrücke nur ein bestimmter Teil des Basisgesichts verändert werden muß; alle anderen Teile können unverändert bleiben.
Wenn ein Gesichtsbild ausgeprägte Falten und Runzeln enthält, dann werden diese vorzugsweise vor Verwendung des Bildes als Basisgesicht entfernt. Ein solcher Entfernungsvorgang kann notwendig sein, um eine Beeinträchtigung durch Hinzufügung von Falten und Runzeln im Verlaufe der Animationssequenz zu vermeiden.
(2) PARAMETRIERTE GESICHTSTEILE ("PFP")
Die PFPs sind einzelne Elemente, die auf das Basisgesicht gelegt werden, um das Bild des gesamten Gesichts für ein animiertes Einzelbild zu umfassen. Die Merkmale der PFPs sind durch einen oder mehrere Parameter definiert. Darstellungen von Parametern eisen unter anderem Form und Tiefe auf. Die Parameter jedes PFPs sind als Bezugspunkte in einem Speicher gespeichert. In einer bevorzugten Ausführungsform wird ein PFP durch ein oder mehrere rechteckige Pixelmuster dargestellt, wobei jedes Pixelmuster eine Gruppe von Parametern und eine Maske umfaßt. In dieser Ausführungsform werden die Bezugspunkte auf dem Pixelmuster positioniert. Ein Pixelmuster kann beispielsweise verwendet werden, um einen PFP mit einer deutlich unterschiedlichen Form darzustellen. Das entsprechende Basismuster kann die tatsächlichen Pixel des darzustellenden Bildes enthalten.
Die Maske definiert die Transparenz jedes Pixels, das das Bild umfaßt. Die Maske kann also beschreiben, welcher Teil innerhalb des begrenzenden Rechtecks sichtbar ist und wie die Transparenz allmählich an den Grenzen erhöht wird, um den PFP mit dem Hintergrund zu vermischen.
Beispiele für PFPs und wie sie sich auf das Gesamtgesicht beziehen, sind in 1 dargestellt. (Der Vorgang, mit dem die PFPs parametriert werden, wird nachstehend ausführlicher in 3 beschrieben.). 1 zeigt ein Gesicht, das in PFPs zerlegt worden ist. In dieser Darstellung ist das Bild 100 des gesamten Gesichts in die folgenden Teile geteilt: Stirn 110, Augen 120, Nase 130, Mund 140, Haar 150, Wangen 160, Zähne 170 und Kinn 180. Die Stirn 110 ist retuschiert worden, um die Haare zu entfernen. Alle anderen Teile sind in ihrem Originalzustand geblieben.
In einer bevorzugten Ausführungsform weisen Parameter, die in jedem PFP gespeichert sind, zumindest ihre Breite und Höhe auf, wobei zusätzliche Parameter definieren, wie das Teil auf dem Bild zu plazieren ist. Als Darstellung für einen Mund können Punkte, die den Rändern der oberen und unteren Zähne entsprechen, verwendet werden, um die Plazierung des Mundes zu definieren (siehe 2).
Weitere Parameter können verwendet werden, um die Umrißlinie eines Gesichtsteils und die Umrißlinie anderer hervorragender Merkmale zu definieren. Die Erfinder bevorzugen gegenwärtig, daß die Umrißlinien mit Splines codiert werden. Ein Spline verwendet im allgemeinen eine stückweise Funktionsannäherung an die Umrißlinie, zum Beispiel als Polynom dritter Ordnung. Diese Polynomfunktion beschreibt den Umriß zwischen zwei Bezugspunkten. Eine zweite Polynomfunktion beschreibt die Umrißlinie zwischen den nächsten beiden Punkten und so weiter. Für den Mund können die Konturen der Lippe auf diese Weise codiert werden. Für die Augen kann die Umrißlinie ihrer Form, die Kontur der Augenöffnung und der obere Rand des Augenlides codiert werden.
Ein weiterer Parameter, der geeignet sein kann, ist die Tiefe des PFPs, das heißt, die Position des PFPs auf der Achse senkrecht zur Pixelmatrix relativ zu den anderen PFPs. Mittels dieses Parameters kann der PFP die 3D-Struktur des Gesichts berücksichtigen. Die vorliegende Erfindung kann also verschiedene Vorzüge der 3D-Modellierung ohne die dazugehörigen Nachteile der erhöhten Speicherplatzzuweisung und Verarbeitungszeit einbringen.
Für jeden PFP können verschiedene Pixelmuster gespeichert werden, wobei jedes Pixelmuster eine Darstellung des PFP in verschiedener Form umfaßt. Die verschiedenen Formen der PFP können wiederum durch Zerlegung getrennter Bilder des Gesichts in einem Prozeß erreicht werden, der fotografische Extraktion genannt wird. Jedes dieser Bilder kann einen anderen Ausdruck haben, und die einzelnen PFPs, die für diesen Ausdruck einmalig sind, können extrahiert und im Speicher als ein oder mehrere Pixelmuster gespeichert werden. Als Alternative oder zusätzlich zu diesem Verfahren können die Formen der PFPs durch andere Verfahren der Zerlegung erzeugt werden: Verzerrung und/oder Morphing aus Schlüsselformen. Die bevorzugten Verfahren zum Zerlegen von Bildern zur Erreichung von PFPs sind nachstehend ausführlicher beschrieben.
Ein Beispiel der Parametrierung eines Gesichtsteils ist in 2 gezeigt. Das Bild 200, das 2a umfaßt, stellt die Parameter des Mundes dar, die dazu verwendet werden, diesen zu plazieren und seine Erscheinung zu definieren. Diese Parameter sind Innenhöhe (H-m1), Außenhöhe (H-m2) und Breite (W-m). Der Punkt c umfaßt den unteren Rand der oberen Zähne, und der Punkt d umfaßt den oberen Rand der unteren Zähne. Die Punkte c und d werden verwendet, um die Position des Mundes auf dem Bild zu positionieren. Die Plazierung des Mundes wird relativ zu den Punkten a (Mitte zwischen den Augen) und b (Mitte zwischen den Nasenlöchern) durchgeführt. Bei dieser Darstellung sind alle Entfernungen auf den Augenabstand (W-e) normiert. Auge-Nase-(H-en-) und Auge-Mund-(H-em-)Abstand werden verwendet, um die Kopfneigung zu schätzen. 2b zeigt die Lippenkonturen 210, die die Kurven umfassen, die die Innenkonturen der Lippen (ic), die Außenkontur (oc) und die Form oder Grenze des Teils beschreiben. Auf den Lippenkonturen 210 sind Bezugspunkte 220 markiert, die die Verformung in einer Verzerrungs- oder Morphing-Operation definieren. Wie in diesem Beispiel kann Verzerrung oder Morphing verwendet werden, um einzelne PFPs zu manipulieren.
Wie oben beschrieben, können PFPs dadurch erzeugt werden, daß Bilder eines Gesichts zerlegt werden. Eine Ausführungsform dieses Zerlegungsverfahrens wird als fotografische Extraktion bezeichnet. Fotografierte Teile stellen eine gute Grundlage für die Erzeugung von animierten Sequenzen dar, die der fotografierten Person stark gleichen. Um die Formen zu erzeugen, können Figuren gebeten werden, ein Phonem auszusprechen oder eine Emotion auszudrücken. Aus solchen Bildern werden die Formen einfach ausgeschnitten und abgetastet oder anderweitig in den Speicher verbracht.
Zwei zusätzliche Überlegungen sind in Bezug auf den Prozeß der fotografischen Extraktion wichtig. Erstens kann die Gesamtzahl der Einzelbilder, die erforderlich ist, um alle möglichen Formen für eine gegebene Animationssequenz zu erfassen, sehr groß sein. Obwohl die Qualität der einzelnen Einzelbilder, die unter Verwendung dieses fotografischen Extraktionsverfahrens synthetisiert werden, häufig sehr hoch ist, muß zweitens der Praktiker sicherstellen, daß die einzelnen Merkmale im Kontext des Gesamtgesichtsausdrucks natürlich aussehen. Diese letztere Überlegung bezieht sich auf die Tätigkeit der zu fotografierenden Person. Wenn eine Person absichtlich eine Emotion ausdrückt oder ein Phonem isoliert ausspricht, übertreibt sie insbesondere häufig die Artikulation. Daher ist eine fotografierte Form häufig nicht unmittelbar für eine Animation geeignet.
Aus diesen Gründen sind Bilder, die durch fotografische Extraktion erzeugt werden, normalerweise unzureichend für eine Erzeugung einer kompletten Menge von Formen für eine bestimmte Anwendung (das heißt eine Menge, wo alle möglichen Formen, die in einer Animationsfolge auftreten sollen, erzeugt worden sind). Diese Bilder sind dennoch ein wichtiger Teil des Prozesses zur Erzeugung einer kompletten Menge von Formen. Zusätzliche Formen können unter Verwendung von Morphing, Verzerrung und/oder Interpolationstechniken hergestellt werden. Unter Verwendung von Morphing und/oder Interpolation können alle Formen, die zwischen einem neutralen Ausdruck und einem übertriebenen Ausdruck liegen, erzeugt werden. Von diesen dazwischenliegenden Bildern können mehrere für eine Animation geeignet sein.
In einer weiteren Ausführungsform kann Verzerrung allein als Zerlegungsverfahren verwendet werden, um eine Bibliothek von PFPs zu erzeugen. Hier werden animierte Einzelbilder erzeugt, indem alle notwendigen Formen aus einer einzelnen Form erzeugt werden. Die Erzeugung von Gesichtsteilen durch Verzerrung erfordert folgendes: (1) Bezugnehmen auf die Bezugspunkte im Speicher, die eine usprüngliche Gesichtsform definieren; (2) Ändern dieser Bezugspunkte in neue Bezugspunkte, die die neue deformierte Form definieren; und (3) Aufzeichnen der neuen Bezugspunkte im Speicher für die neue Form. Was nicht überraschend ist, dieses Verfahren erfordert im allgemeinen ein ausführliches Verständnis dafür, wie sich ein Gesichtsteil verformt.
Wenn eine Bibliothek einzelner Formen durch Verzerrung erzeugt wird, kann sie vorteilhafterweise in einer beliebigen Anzahl von Bildern von fotorealistischen Personen verwendet werden, da Gesichtsteile einzeln parametriert werden. Dadurch Festlegung der neuen Bezugspunkte können die Splines, die die Merkmalsformen beschreiben, ohne weiteres angepaßt werden, um die charakteristischen Merkmale einer anderen Person (zum Beispiel die Breite des Gesichts, die Dicke der Lippen und so weiter) zu berücksichtigen.
Obwohl die endgültige fotorealistische Person, die unter Verwendung von durch Verzerrung abgeleiteten Gesichtsteilen erzeugt ist, möglicherweise nicht ganz genau so ist, wie die Person tatsächlich aussieht, reicht die Verzerrung aus, um eine vernünftige realistische Darstellung zu erzeugen. Außerdem ist das Verzerren schnell und bequem, da ein einzelnes Bild einer Person verwendet werden kann, um alle animierten Einzelbilder zu erzeugen.
Der Prozeß der Erzeugung von Bildern des Mundes ist wahrscheinlich der komplexeste von allen Gesichtsmerkmalen. Dies gilt besonders dort, wo die fotorealistische Person spricht. Tatsächlich zeigt der Mund die größten Variationen aller PFPs. Ein sprechendes Gesicht ist auch das Merkmal, das die Aufmerksamkeit des Beobachters am meisten auf sich zieht. Menschen sind empfindlich gegenüber geringfügigen Unregelmäßigkeiten in der Form oder Bewegung des Mundes. Daher sollte der Praktiker im Normalfalle der Animation des Mundes seine besondere Aufmerksamkeit widmen.
Eine Mundform, die ein Phonem artikuliert, wird häufig als ein Visem bezeichnet. Während über 50 gesprochene Viseme in der englischen Sprache unterschieden werden, gehen die meisten Forscher davon aus, daß zwischen 10 und 20 verschiedenen Visemen ausreichend sind, um eine animierte Sequenz zu verwenden. Die Anzahl der Viseme ändert sich natürlich in Abhängigkeit von der Anwendung. In einer bevorzugten Ausführungsform der Erfindung werden 12 prinzipielle Viseme verwendet, nämlich a, e, ee, o, u, f, k, 1, m, t, w, geschlossener Mund. Alle anderen möglichen Phoneme werden dieser Menge von 12 zugeordnet.
3 und 4 zeigen Beispiele von Visemen, die unter Verwendung der oben beschriebenen zwei Techniken erzeugt werden. Die Viseme in 3 sind aus zwei getrennten Bildern ausgeschnitten. In 3 wurde die Mundfläche 300 aus einer Fotografie einer Person ausgeschnitten, die das Phonem "u" ausspricht. Ebenso wurden die Bereiche 310 und 320 aus Fotografien einer Person ausgeschnitten, die die Phoneme "m" beziehungsweise "a" ausspricht. Die untere Reihe zeigt die drei Viseme, die auf das Basisgesicht aufgelegt sind. Das resultierende Gesicht wurde dann auf einen Hintergrund plaziert, um Einzelbilder 330, 340 und 350 zu bilden. Die Dame in 3 sprach die Phoneme isoliert; daher erscheinen sie stark artikuliert.
Die Viseme in 4 sind durch Verzerrung aus einem einzigen Bild erzeugt. Ein Bild der Person wurde also fotografiert, und aus diesem Bild wurden alle Viseme und andere Ausdrücke durch Verzerrung erzeugt. Die Viseme 410, 420 und 430 wurden unter Verwendung der Phoneme "u", "m" beziehungsweise "a" erzeugt. Die untere Reihe zeigt drei Einzelbilder 440, 450 und 460 mit den Visemen 410, 420 und 430, die zusammen mit Variationen der Augen und Augenbrauen auf das Basisgesicht gelegt sind.
Bei der Beurteilung dieser einzelnen Einzelbilder würden die meisten Menschen das Aussehen der Gesichter in 3 als natürlicher als die in 4 erachten. Wenn die Viseme in 3 zur Animation verwendet werden, ist das Ergebnis dennoch eine ruckartige, übertriebene Bewegung des Mundes, die unnatürlich aussieht. Die viel weniger ausgeprägte Artikulation, die durch die Viseme in 4 erzeugt wird, wird als einer echten Person ähnlicher wahrgenommen. Durch diese Beobachtungen wird deutlich, wie wichtig die Bewegung zu gestalten, anstatt sich lediglich auf das Aussehen der einzelnen Einzelbilder zu konzentrieren. Aus diesem Grund wird bevorzugt, zwei oder drei Versionen jedes Visems zu erzeugen, wobei jede Version eine andere Artikulationsstärke darstellt.
In der Praxis ist es möglich, eine wirklich natürlich erscheinende Mundbewegung nur zu erreichen, wenn Koartikulationseffekte berücksichtig werden. Koartikulation bedeutet, daß das Erscheinungsbild einer Mundform nicht nur von dem Phonem abhängt, das in diesem Moment erzeugt wird, sondern auch von den Phonemen, die diesem Phonem vorausgehen und nachfolgen. Wenn beispielsweise eine Einzelperson die Lautfolge "boo" artikuliert, spiegelt die Mundform für "b" schon die Absicht der Person, "oo" auszusprechen, wider. Kurz gesagt, die Berücksichtigung der Artikulation erzeugt eine gleichmäßigere Mundanimation, die wiederum unnatürliche Übertreibung der Lippenbewegung während der Animationssequenz vermeidet.
Demzufolge verwendet eine bevorzugte Ausführungsform der Erfindung Koartikulation. Das bevorzugte Koartikulationsverfahren erfordert die Zuordnung einer mathematischen Zeitkonstante zu den Parametern des Mundes. Unter Verwendung dieser Zeitkonstante kann die gegenwärtige Form des Mundes dazu gebracht werden, die Art und Weise und das Ausmaß zu beeinflussen, in der der Mund in dem ablaufenden Zeitintervall verformt werden kann.
(3) PARAMETRIERTE GESICHTSTEILE MIT HAAR ("PFPH")
Das PFPH ist eine Gruppe, die alle Teile des Gesichts umfaßt, die mit Haar bedeckt sind. In einer bevorzugten Ausführungsform der Erfindung sind die PFPHs von den PFPs getrennt gruppiert, da ihre Verformungen normalerweise anders verarbeitet werden. Standardisierte Morphing- und Verzerrungstechniken verwischen häufig die charakteristischen Oberflächenstrukturen des Haars, oder sie verformen die Oberflächenstrukturen derartig, daß es künstlich aussieht. Wenn Konturen mit kopierten Oberflächenstrukturen gefüllt werden, entstehen normalerweise bessere Ergebnisse für Bärte und Lippenbärte.
In bestimmten Ausführungsformen wird das Haar nur begrenzt animiert. Wenn die interne Oberflächenstruktur des Haars nicht erkennbar ist, kann Haar einfach wie eine glatte Fläche behandelt werden. Bei Bildern mit sehr niedriger Auflösung kann diese grobe Modellierung angemessen sein. Wenn jedoch einzelne Haarsträhnen oder sogar einzelne Haare sichtbar sind, wird ein höher entwickelter Lösungsansatz bevorzugt. Beispielsweise kann ganzen Haarsträhnen eine Bewegung verliehen werden, indem Teile des Haars gedreht oder verzerrt werden. In Wirklichkeit hat die Bewegung des Haars eine begrenzte Bedeutung für einen sprechenden Kopf. Daher müssen dem Haar nur bestimmte Zufallsbewegungen verliehen werden.
Die expliziteste und deterministischste Bewegung eines Haarteils in einem sprechenden Gesicht ist die eines Lippenbartes. Ein Lippenbart kann durch Verzerrungs- und/oder Cut-und-Paste-Operationen verformt werden. Wenn sich beispielsweise der Mund von einem neutralen Ausdruck hin zum Aussprechen eines 'o' ändert, können die Umrisse des Lippenbartes anhand der Form der Oberlippe geschätzt werden. Daraufhin wird der ursprüngliche Lippenbart so verbogen, daß er unter Verwendung einer örtlich begrenzten Verzerrungsoperationen der oberen Kontur folgt. In dem Maße, wie Teile dieser Kontur freigelassen sind, können Nachbarbereiche kopiert und in die freien Bereiche eingefügt werden.
(4) SEKUNDÄRE EFFEKTE
Die Erzeugung von realistisch aussehenden Bildern bringt zusätzliche Komplikationen mit sich. Solche Komplikationen sind Falten, Runzeln und Hervorhebungen. Extreme Verformungen, zum Beispiel ein breites Lächeln, sind ohne die Hinzufügung von Falten schwer zu erzeugen. 5 stellt den Effekt der Hinzufügung von Falten zu einem Lächeln dar. Anstatt PFPs mit Falten zu erzeugen, werden die Falten auf das PFP gelegt.
5 zeigt ein Einzelbild 510, das eine Hintergrundfläche und einen neutralen Ausdruck hat. Das Einzelbild 520 hat die gleiche Hintergrundfläche, hat aber statt dessen Augen 515 und einen Mund 518, der auf die Hintergrundfläche aufgelegt ist. Das Ergebnis des Einzelbildes 520 ist ein unnatürlicher Ausdruck. Das Einzelbild 530 ist das gleiche Einzelbild wie das Einzelbild 520, außer daß das Einzelbild 530 Falten 535 hat, die auf seine Basisfläche aufgelegt sind. Das Lächeln der Figur im Einzelbild 530 sieht durch die Falten natürlicher aus.
Falten und Runzeln sind vorzugsweise als eine gesonderte Gruppe des Kopfmodells kategorisiert, da sowohl ihre Synthesen als auch ihre Verformungen anders behandelt werden als diejenigen der PFPs. Durch Verzerrung und Morphing, die verwendet werden, um die verschiedenen Formen des PFP zu erzeugen, werden die Falten auf unnormale Weise verzerrt. Somit werden in einer bevorzugten Ausführungsform Falten und Runzeln statt dessen durch Splines dargestellt. Splines definieren die Positionen der Falten. Die Hinzufügung von Falten zu einer Pixelmatrix kann durch Modulation der Farbe der Pixel mit einem Luminanzfaktor erreicht werden. Die Falte bestimmt das Ausmaß dieser Modulation sowie die Gradienten in der Richtung senkrecht zur Faltenrichtung.
Für die Synthese eines natürlich aussehenden sprechenden Kopfes müssen die Bewegungen aller Gesichtsteile und des Kopfes gewissenhaft geplant werden. Konversationssignale umfassen feine Bewegungen von Gesichtsteilen des Kopfes, die Sprache hervorheben, betonen oder anderweitig regulieren. Beispielsweise kann eine hochgezogene Augenbraue verwendet werden, um einen Vokal zu akzentuieren oder eine Frage anzuzeigen. Augenzwinkern tritt auch häufig auf und wird normalerweise mit dem Sprachfluß synchronisiert. Geringfügige Kopfbewegungen begleiten im allgemeinen auch die Sprache. Wenn solche Bewegungen aufhören, bedeutet dies häufig, daß der Sprecher fertig ist und erwartet, daß der Zuhörer Maßnahmen ergreift. Der emotionale Zustand des Sprechenden wird auch durch Änderungen des Aussehens der Gesichtsteile reflektiert. Beispielsweise können hochgezogene oder zusammengezogene Augenbrauen Spannung oder Furcht anzeigen.
Eine Darstellung des Syntheseprozesses ist in 6 gezeigt. Als Antwort auf eine ASCII-Eingabe, die Wörter umfaßt, die ausgesprochen werden sollen (Oval 600), erzeugt ein Sprache-aus-Text-Synthesizer (Kästchen 610) eine Sequenz von Phonemen 620, deren Dauer und Betonung. Jedes Phonem wird einem Mund-Visem zugeordnet (Kästchen 630). In bestimmten Ausführungsformen kann diese Zuordnung eine einfache Nachschlagoperation, zum Beispiel in einer Tabelle im Speicher, umfassen. Wenn ein Visem gewählt worden ist, sind die Parameter des Visems 640 für dieses Visem verfügbar. Diese Parameter können beispielsweise die Breite und Höhe des Mundes aufweisen.
Die Parameter des Visems können daraufhin in ein Koartikulationsmodul eingegeben werden, um die Koartikulationseffekte darzustellen (Kästchen 660). Das Koartikulationsmodul kann auch Information berücksichtigen, die sich auf den gewünschten Gesichtsausdruck bezieht (Oval 650). Wenn, um dies zu veranschaulichen, ein Lächeln gefordert ist und das Visem einen geschlossenen Mund erfordert, erhöht das Koartikulationsmodul die Mundbreite. Die Ausgabe des Koartikulationsmoduls ist eine neue Gruppe von Mundparametern 670. Diese modifizierten Parameter werden als nächstes bei der Suche in einer PFP-Bibliothek nach der Form mit der größten Übereinstimmung verwendet. Der am besten übereinstimmende PFP wird gewählt (Kästchen 680).
Die anderen PFPs werden vorzugsweise unter Verwendung des gleichen Prozesses gewählt. Für diese PFPs, die von der Mundbewegung beeinflußt werden, werden Phoneminformation und Gesichtsausdrucksinformation berücksichtigt. Für die Augen und alles oberhalb der Augen müssen nur Gesichtsausdrücke berücksichtigt werden, da die Mundbewegung diese Teile normalerweise nicht beeinflußt.
Nachdem die richtigen Viseme ausgewählt worden sind, können sie zwecks endgültiger Erzeugung eines Einzelbildes der animierten Sequenz (Kästchen 690) in die Basisfläche eingemischt werden. Das Einzelbild wird mit der entsprechenden gesprochenen Sprache synchronisiert. Wenn die Viseme unter Verwendung von Verzerrungstechniken erzeugt werden, vermischen sie sich nicht mehr nahtlos mit dem Basiskopf. Aus diesem Grund muß der Praktiker eine sorgfältige Ausschmückung der Alpha-Überblendungsmaske durchführen. In einer bevorzugten Ausführungsform wird das Überblenden zuerst mit Teilen durchgeführt, die am tiefsten liegen, zum Beispiel die Augen und Zähne. Als nächstes werden Teile, die darüberliegen, und schließlich das Haar und die Runzeln hinzugefügt.
Wenn der Kopf alle Gesichtsteile enthält, kann er auf das Hintergrundbild gelegt werden. Die Bewegung des gesamten Kopfes kann dann hinzugefügt werden. Bewegungsvektoren werden nach einem semistochastischen Prinzip berechnet, zum Beispiel reguliert Sprache eine beliebige Mischung vorher definierter Bewegungen. Ein Modell gemäß einer bevorzugten Ausführungsform weist Verschiebung, Drehung und Neigung des Kopfes auf. Die Drehung des Kopfes um die Achse senkrecht zur Bildebene wird ohne weiteres erreicht. Kleine Drehungen um die anderen beiden Achsen können durch einfache und schnelle Bildverzerrungstechniken angenähert werden. Die Dynamik der Bewegungen kann sorgfältig konstruiert werden – übertriebene Bewegungen erscheinen als hektisch und unnatürlich.
Das Einzelbild wird dann an eine Datei oder einen Bildschirm (Kästchen 695) ausgegeben. In bestimmten Ausführungsformen können diese Pixeloperationen entweder in einem Bildpuffer im Computerspeicher oder direkt in einem Bildpuffer auf dem Bildschirm durchgeführt werden. Zur Zeit der Einreichnung dieser Anmeldung haben die Erfinder mindestens zwei Versionen der Erfindung implementiert. Eine Version, die von Microsoft AVI API verwendet wird und AVI-Dateien aus einer ASCII-Texteingabe erzeugt. Die andere Version, die Animation unter Verwendung von OpenGL-Grafik-Bibliothek direkt auf dem Bildschirm ausgibt.
Außerdem führten die Erfinder zur Zeit der Einreichung dieser Anmeldung eine experimentelle Implementierung des Kopfmodells auf einem Personalcomputer (PentiumPro 150 MHz) durch. Bei dieser Implementierung betrug die Synthetisierungsgeschwindigkeit annähernd 1 Einzelbilder/100 ms. Die Größe der PFP-Bibliothek war 500 KB. Die PFP-Bibliothek enthielt alle Viseme zum Sprechen und alle PFPs zum Stirnrunzeln und Lächeln, glückliche und neutrale Ausdrücke. Die Größe der Einzelbilder war 360 × 240 Pixel. Es versteht sich, daß sich Parameter in Abhängigkeit von der bestimmten Ausführungsform der Erfindung stark verändern. Das Experiment der Erfinder wurde für maximale Flexibilität und nicht für höchste Geschwindigkeit oder maximale Kompaktheit konstruiert. Während ferner die vorliegende Erfindung von einer breiten Vielfalt der numerischen Bereiche in Abhängigkeit vom Zustand der Technologie und von einer bestimmten Anwendung und so weiter ausgeht, schätzen die Erfinder, daß eine Optimierung zugunsten der Geschwindigkeit eine Synthese bei nahezu 30 Einzelbilder/Sekunde erlauben würde und daß eine Bibliotheksgröße durch mehr als einen Faktor zwei reduziert werden kann. Bei Nichtnutzung des Verfahrens gemäß der vorliegenden Erfindung schätzen die Erfinder, daß eine Bibliothek von Gesichtern, die den gesamten Bereich der Ausdrücke einbezieht, mehr als eine Größenordnung größer wäre.
Es versteht sich, daß die vorstehende Beschreibung für die Prinzipien der Erfindung lediglich darstellenden Charakter hat und daß verschiedene Modifikationen und Variationen für den Fachmann möglich sind, ohne den Schutzbereich der Erfindung, wie er in den Ansprüchen definiert ist, zu verlassen.

Claims

Verfahren zum Synthetisieren einer mit einer Phonemsequenz verknüpften Animation, mit den Schritten: Zuordnen jedes Phonems in einer Phonemsequenz zu einem Visem (630); Wählen eines oder mehrerer parametrierter Animationsteile aus einer Bibliothek von parametrierten Animationsteilen auf der Grundlage von zugeordneten Visem-Parametern (640); und Anordnen des einen oder der mehreren parametrierten Animationsteile auf einer Basisanimation, um eine Animation (690) zu synthetisieren, dadurch gekennzeichnet, daß die Bibliothek von parametrierten Animationsteilen dadurch bestückt wird, daß zumindest ein Bild in eine Hierarchie von parametrierten Animationsteilen zerlegt wird, und daß die mit jedem parametrierten Animationsteil verknüpften Parameter eine Verformung des Animationsteils ermöglichen, wenn die Animation synthetisiert wird.
Verfahren nach Anspruch 1, ferner mit dem Schritt: Modifizieren der Visem-Parameter vor dem Wählen des einen oder der mehreren parametrierten Animationsteile, wobei die Wahl der parametrierten Animationsteile auf den modifizierten Visem-Parametern (680) beruht.
Verfahren nach Anspruch 2, wobei der Schritt des Modifizierens der Visem-Parameter ferner gekennzeichnet ist durch Berechnen von Koartikulationseffekten (660).
Verfahren nach Anspruch 3, wobei der Schritt des Modifizierens der Visem-Parameter ferner unter Verwendung von Information durchgeführt wird, die über einen gewünschten Ausdruck (650) gewonnen wird.
Verfahren nach Anspruch 1, wobei die Parameter, die dem zugeordneten Visem entsprechen, Mundbreite und Mundhöhe sind.
Verfahren nach Anspruch 3, wobei ein Koartikulationsmodul den Schritt des Berechnens von Koartikulationseffekten (660) und des Empfangens von Information, die sich auf den gewünschten Ausdruck (650) bezieht durchführt und auf Basis der berechneten und empfangenen Daten das Koartikulationsmodul die zugeordneten Visem-Parameter zum Wählen des einen oder der mehreren parametrierten Animationsteile modifiziert.
Verfahren nach Anspruch 2, wobei die modifizierten Visem-Parameter verwendet werden, um verformte parametrierte Animationsteile zur Speicherung in einer Bibliothek zu erzeugen.
Verfahren nach Anspruch 7, wobei die verformten parametrierten Animationsteile aus Bildern einer Person erzeugt werden.
Verfahren nach Anspruch 2, wobei die verformten Visem-Parameter verwendet werden, um verformte parametrierte Animationsteile dynamisch zu erzeugen, wenn die Animation synthetisiert wird.
Verfahren nach Anspruch 9, wobei eine dynamische Synthetisierung der Animation unter Verwendung verformter parametrierter Animationsteile ferner den Schritt umfaßt: Verformen von Formen, die mit den parametrierten Animationsteilen verknüpft sind.
Verfahren nach Anspruch 1, wobei die Animation eine Gesichtsanimation ist.
Verfahren nach Anspruch 1, wobei die Bibliothek von parametrierten Animationsteilen eine Zerlegung von Bildern eines Individuums oder Objekts in eine Hierarchie von parametrierten Animationsteilen umfaßt.
Verfahren nach Anspruch l2, wobei die Zerlegung der Bilder ferner einen oder mehrere Prozesse aus einer Menge von Prozessen umfaßt, die fotografische Extraktion, Verzerrung, Morphing und Interpolation umfaßt.
Verfahren nach Anspruch 13, wobei der fotografische Extraktionsschritt ferner eine Interpolation zwischen Referenzansichten umfaßt.
Verfahren nach Anspruch 11, wobei die Gesichtsanimation einen Mund, Augen, eine Nase, Wangen, ein Kinn, eine Stirn, Zähne, eine Zunge und eine Mundhöhle umfaßt.
Verfahren nach Anspruch 1, wobei die Phonemsequenz von dem von der Animation zu sprechenden Text abgeleitet wird.