-
GEBIET DER
ERFINDUNG
-
Die
Erfindung betrifft das Gebiet der Animation und insbesondere Techniken
zur Erzeugung von fotorealistischen animierten beziehungsweise beweglichen
Gesichtern in Computer- und Kommunikationsanwendungen und anderen
hochtechnisierten Betriebsabläufen.
-
HINTERGRUND
DER ERFINDUNG
-
In
einem modernen technologischen Zeitalter, das durch komplexe Computerschnittstellen
und durch hochentwickelte Video- und Kommunikationsvorrichtungen
gekennzeichnet ist, treten Techniken, die ein Konsumenteninteresse
an hochtechnologischer Ausrüstung
fördern,
verstärkt
in den Vordergrund. Die Computerindustrie sucht in dem Bemühen, Konsumenten
in den Strom ihrer technischen Neuerungen zu ziehen, regelmäßig neue
Verfahren, mit denen Konsumenten mit Vorrichtungen, die anwenderfreundlichere
oder menschenähnlichere
Eigenschaften aufweisen, kommunizieren können. Neben der Erhöhung der
Attraktivität
der Technologie für den
durchschnittlichen nichttechnisch ausgerichteten Konsumenten, erhöhen solche
Verfahren das Potential für
eine Erzeugung einer Unmenge neuer und nützlicher Computer- und Videoanwendungen.
-
In
den letzten Jahren sind die Aussichten für eine Verwendung von animierten,
sprechenden Gesichtern in verschiedenen hochtechnologischen Betriebsabläufen besonders
verlockend geworden. Animierte Techniken können für verschiedene Felder von Anwendungen
verwendet werden. Das Hinzufügen
von sprechenden Gesichtern zu Computeranwenderschnittstellen kann
beispielsweise die Anwenderfreundlichkeit von Computern verbessern,
den Vertrautheitsgrad von Anwendern mit Computern fördern und
den Unterhaltungswert des Computers erhöhen. Die Erzeugung von animierten
Vermittlern beziehungsweise Vertretern in Computeranwenderschnittstellen
wären neben
anderen Anwendungsmöglichkeiten
zur Durchführung
beispielsweise folgender Aufgaben gut geeignet: Vorlesen von E-Mail, Ansagenmachen
oder einen Anwender durch eine Anwendung führen. Die Verwendung von naturgetreuen,
synthetisierten Personen wäre
außerdem
in einer Anwendung wertvoll, wo Avatars (visuelle Darstellung von
Personen) verwendet werden. Solche Anwendungen könnten virtuelle Sitzungsräume, Videospiele
für mehrere
Anwender, Vorlesungen, Seminare, Sicherheits- oder Zugangsvorrichtungen, Szenarios,
die menschliche Anweisungen erfordern, oder eine Unmenge weiterer
Betriebsabläufe
sein.
-
Praktiker
in der Industrie denken über
modellgestützte
Codierung von Videotelefonie über
Verbindungen mit niedriger Datenrate nach. Diese Anwendung würde die
Erzeugung synthetisierter Gesichter oder Figuren in der Empfängerstation
nach sich ziehen, wobei die Form und Struktur der Bilder durch Parameter
bestimmt werden, die in der Sendestation ihren Ursprung haben.
-
Unabhängig von
der bestimmten Anwendung handelt es sich bei der Synthese von menschlichen
Gesichtern im Idealfall um die Verwendung von naturgetreuen, natürlich aussehenden
("fotorealistischen") Figuren. Die Verwendung
von fotorealistischen Figuren hat viele Vorteile. Sie haben einen
größeren Unterhaltungswert
gegenüber
einfachen animierten Figuren. Ferner erweitert die Verwendung von
fotorealistischen Figuren als Teil einer menschlichen Schnittstelle
einen Computer um ein realistisches Element. Konsumenten, die durch
die Computertechnologie ansonsten eingeschüchtert sind, könnten sich
behaglicher fühlen,
wenn ein Computer verwendet wird, der eine menschenähnliche
Schnittstelle hat. Als weitere Veranschaulichung kann die Verwendung
einer fotorealistischen Figur, die eine Präsentation in einem Büro abhält, einen
günstigeren Eindruck
auf die Teilnehmer der Präsentation machen,
als wenn einfache animierte Figuren verwendet würden – mit einfacher Animation können die
Figuren nicht gleichzeitig sprechen, wogegen realistische Gesichts-
und Mundbewegungen hervorgerufen werden können, die typisch sind für eine Figur, die
spricht. Fotorealistische Figuren können bedeutsame und realistische
Gesichtszüge
zum Ausdruck bringen. Einfache Animation dagegen ist trickfilmhaft und
nicht beeindruckend, insbesondere an einem Schauplatz wie etwa eine
Beratung in einer Firma.
-
Fotorealistische
Figuren können
auch als Ikone in einer virtuellen Realitätsanwendung verwendet werden.
Solche Figuren können
ferner über
solche Medien wie das Internet verwendet werden, wobei die Bandbreite
des Mediums im übrigen
zu klein ist, um Hochfrequenz-Videosignale unterzubringen. Unter
Verwendung von fotorealistischen Techniken können menschliche Figuren mit
realistischen Bewegungen über
das Internet anstelle eines Videos überfragen werden.
-
Die
Praktiker haben zahlreiche Bemühungen unternommen,
um fotorealistische Figuren zu synthetisieren. Ein Problem, das
den meisten dieser Verfahren gemeinsam ist, ist ihre Unfähigkeit,
die Figuren ausreichend menschenähnlich
erscheinen zu lassen. Die übrigen
Verfahren, die zumindest theoretisch realistisch aussehende Figuren
erzeugen können,
erfordern unmäßig große Computerspeicherplatzzuweisungen
und Verarbeitungszeiten, um dieses Ziel zu erreichen. Die Brauchbarkeit
solcher Verfahren ist folglich auf Medien mit hoher Kapazität beschränkt.
-
Ein
wichtiges, aber bisher nicht realisiertes Ziel von Praktikern besteht
also darin, eine Technik zur Erzeugung von fotorealistischen Gesichtern
zu erzeugen, die einen minimalen Umfang einer Rechenleistung für die Synthese
von animierten Sequenzen erfordert. Naturgemäß wäre die geringste Rechenleistung
in dem Fall erforderlich, wo alle Teile und ihre entsprechenden
Pixelmuster vorher erzeugt und in einer Bibliothek gespeichert werden.
Die Synthese eines Gesichts würde
dann lediglich eine Überlagerung
der Teile bedeuten. Moderne Grafikprozessoren sind jedoch so leistungsfähig geworden,
daß eine
Verzerrung von Bildern zur Erzeugung animierter Formen in Echtzeit
duchgeführt
werden kann. In diesem Fall müssen
nur die Bezugspunkte in der Bibliothek gespeichert werden, was den
Speicher, der zur Speicherung des Modells erforderlich ist, wesentlich
reduziert.
-
Die
Lösungsansätze, die
von Praktikern verwendet werden, zerfallen im allgemeinen in vier
Kategorien: (1) Dreidimensionale-("3D"-)Modellierungstechniken;
(2) Verzerrungs- und Morphing-Techniken;
(3) Interpolation zwischen Ansichten; und (4) Fingerkinotechniken.
Diese Lösungsansätze sind nachstehend
beschrieben.
-
(1) DREIDIMENSIONALE MODELLIERUNG
-
Die
Praktiker haben 3D-Modelle zur Erzeugung von sprechenden Köpfen und
Gesichtern entwickelt. Viele 3D-Modellierungstechniken verwenden generische
Maschenmodelle, auf denen Bilder von Personen mittels Oberflächenstruktur-Pixeldarstellung
angeordnet werden. Im allgemeinen ist die physische Struktur, zum
Beispiel die Knochen- und Muskelstruktur, mit großer Präzision und
gutem Detail ausgeführt,
um die Form des Gesichts abzuleiten. Obwohl 3D-Modellierung für bestimmte
Anwendungen geeignet ist, ist diese Technik mit Nachteilen befrachtet,
wenn sie im Rahmen einer Figur, die spricht, eingesetzt wird. Solche
Verfahren erfordern extensiven Computereinsatz und verbrauchen erheblichen Speicherplatz;
folglich sind sie nicht für
Echtzeitanwendungen auf einem Personalcomputer geeignet. Außerdem scheinen
Gesichtszüge,
die von standardisierten 3D-Modellen erzeugt werden, normalerweise "roboterähnlich" und erscheinen nicht
natürlich.
-
(2) VERZERRUNG ODER MORPHING
-
Andere
Techniken zur Erzeugung von animierten Personen beruhen auf der
Verzerrung oder dem Morphing von zweidimensionalen ("2D")-Bildern von Gesichtern.
Die Verzerrung kann im allgemeinen als absichtliche Verzerrung eines
Bildes auf eine vorher definierte Weise definiert sein. Die Verzerrung kann
unter anderem verwendet werden, um Gesichtsausdrücke durch Verzerrung eines
Gesichts mit einem neutralen Ausdruck zu erzeugen (zum Beispiel
um ein Stirnrunzeln zu erzeugen).
-
Morphing
ist die Transformation eines Bildes in ein anderes Bild unter Verwendung
von Interpolation und/oder Verzerrung. Anders als bei der Verzerrung,
die lediglich ein Bild auf eine vorher definierte Weise verzerrt,
verwendet Morphing normalerweise zwei Gruppen von festen Parametern,
die ein Ausgangsbild und ein Zielbild umfassen. Verschiedene kommerzielle
Produkte nutzen Verzerrungs- oder Morphing-Techniken, einschließlich bestimmte
Spielzeuge, die es Kindern erlauben, lustige, animierte Folgen von
Gesichtern zu erzeugen.
-
Ein
Nachteil der isolierten Verwendung von Verzerrung oder Morphing
ist die Unfähigkeit
dieser Techniken, realistische, natürlich aussehende Gesichtsbewegungen
bereitzustellen. Ein weiterer Nachteil besteht darin, daß der Morphing-Prozeß nur zwischen
vorher definierten Paaren von Bildern möglich ist. Somit ist diese
Technik nicht zur Erzeugung von Modellen geeignet, die unvorhergesehene
Bewegungen erzeugen müssen,
zum Beispiel wenn ein bisher unbekannter Text gesprochen werden
soll.
-
(3) INTERPOLATION ZWISCHEN
REFERENZANSICHTEN
-
Forscher
haben demzufolge versucht, die Nachteile bestehender Morphing-Verfahren
zu beseitigen. Um die Möglichkeit
der extemporären
Erzeugung von bisher unbekannten Gesichtsbewegungen einzubeziehen,
haben Forscher Techniken entwickelt, um Morphing-Parameter automatisch
zu bestimmen. Diese Techniken beginnen mit einer Gruppe von Referenzansichten,
wobei neue Ansichten automatisch erzeugt werden, indem eine Interpolation
zwischen den Referenzwerten durchgeführt wird. Forscher haben Sequenzen
von sich drehenden und neigenden Köpfen unter Verwendung dieser
Interpolationsmethode demonstriert. Keine Sequenzen eines sprechenden
Kopfes sind bisher jedoch synthetisiert worden, teilweise weil der
Akt des Sprechens vorübergehende
Gesichtszüge
erzeugt, zum Beispiel Falten und Runzeln, die lediglich unter Verwendung von
Interpolation nicht dupliziert werden können. Beim Sprechen werden
außerdem
Bereiche freigelegt, die in den Referenz-Einzelbildern im allgemeinen
nicht zu sehen sind, zum Beispiel Zähne. Elemente wie Zähne, die
in den Referenz-Einzelbildern nicht vorhanden sind, können unter
Verwendung von Interpolation erzeugt werden.
-
(4) FINGERKINOTECHNIKEN
-
Die
Fingerkinotechniken, wahrscheinlich die ältesten aller Animationstechniken,
erfordern den Prozeß des
Speicherns aller möglichen
Ausdrücke eines
Gesichts in einem Speicher. Einzelne Ausdrücke werden später aus
dem Speicher abgerufen, um eine Sequenz von Ausdrücken zu
erzeugen. Die Verwendung dieser Technik hat ernsthafte praktische Beschränkungen.
Beispielsweise wenn eine angemessene Anzahl von Ausdrücken oder
Mundformen verfügbar
gemacht werden soll, ist es erforderlich, eine erhebliche Anzahl
von Einzelbildern zu erzeugen und im Speicher zu speichern. Daher
wird die Flexibilität
des Fingerkino-Lösungsansatzes
erheblich beschnitten, da nur Gesichtszüge, die vorher erzeugt worden
sind, für
eine Animation verfügbar
sind. Unter anderen Problemen ist der Finigerkino- Lösungsansatz nicht zur Verwendung
auf einem Personalcomputer geeignet, der normalerweise nichttriviale
Beschränkungen
in bezug auf die Speichergröße und die
Verarbeitungsleistung aufweist.
-
In
der Summe weisen die vorliegenden Techniken zur Synthetisierung
animierter Gesichter zumindest die folgenden Nachteile auf: (1)
Figuren, die porträtiert
werden, sind nicht ausreichend naturgetreu oder natürlich aussehend,
besonders wenn sie sprechen; (2) die Verfahren erfordern eine beträchtliche,
häufig
nicht realisierbare Computerspeicherplatzzuweisung und Verarbeitungszeit;
(3) die Figuren sind häufig
unfähig,
spontan bisher nicht bekannte Wörtern
zu äußern; (4)
die Verfahren weisen keine Vielfalt in den möglichen verfügbaren Gesichtszügen auf;
(5) viele der Verfahren haben nicht die Fähigkeit, verschiedene wichtige
Figurenmerkmale, Gesichtszüge
oder sonstiges darzustellen; und (6) viele dieser Verfahren haben
keine Koartikulations- oder Konfliktlösüngstechniken.
-
Demzufolge
ist es eine Aufgabe der Erfindung, eine Technik zur Erzeugung von
naturgetreuen, natürlich
aussehenden, fotorealistischen Gesichtern und Figuren zu erzeugen,
die die Komplexitäten einer
3D-Modellierung vermeiden und die weniger Speicher und Computerrechenleistung
erfordern als herkömmliche
Verfahren.
-
Eine
weitere Aufgabe der Erfindung besteht darin, ein solches Verfahren
zu offenbaren, das in der Lage ist, naturgetreue Gesichtsbewegungen
zu erzeugen, um zeitgleiches Sprechen einzubeziehen, einschließlich Sprechen
von bisher unbekanntem Text.
-
Eine
weitere Aufgabe der Erfindung besteht darin, ein Verfahren zu offenbaren,
das in der Lage ist, in einer Echtzeitanwendung ausgeführt zu werden,
einschließlich
einer Anwendung auf einem Personalcomputer.
-
Eine
weitere Aufgabe der Erfindung besteht darin, ein Verfahren bereitzustellen,
das eine große Vielfalt
verschiedener möglicher
Gesichtszüge
und -ausdrücke
ermöglicht.
-
US 4841575 offenbart eine
Bildcodier- und -synthesetechnik. Verschiedene Bilder eines Mundes werden
verwendet, um ein bewegtes Bild eines Sprechers zu erzeugen.
-
WO
96/17323 offenbart eine Technik zur Synthetisierung von Animationen
eines menschlichen Sprechvorgangs.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
Erfindung stellt ein Verfahren zur Behandlung von synthetisierten
Bildern bereit, wie in den beigefügten Ansprüchen ausgeführt. Es wird hierin ein Verfahren
zur Erzeugung von fotorealistischen, animierten Gesichtern und Figuren,
zum Beispiel Menschen und menschlichen Gesichtern, und Figuren,
die in der Lage sind, zu sprechen und Emotionen auszudrücken, offenbart.
Das Modell, auf das sich das Verfahren stützt, beruht auf einem oder mehreren
Bildern eines Individuums. Diese Bilder werden in eine Hierarchie
von parametrierten Strukturen zerlegt und in einer Modellbibliothek
gespeichert. Für
die Synthese von Gesichtern werden entsprechende Teile aus der Modellbibliothek
geladen und auf ein Basisgesicht gelegt, um das ganze Gesicht mit
dem erwünschten
Ausdruck zu bilden.
-
Um
eine große
Auswahl von Gesichtsausdrücken
zu synthetisieren, wird jeder Gesichtsteil unter Verwendung von
Bezugspunkten, die im Speicher gespeichert sind, parametriert. Diese
parametrierten Gesichtsteile umfassen Formen, die mögliche Verformungen
einschließen,
denen ein Gesichtsteil unterzogen werden kann, wenn verschiedene
Handlungen, zum Beispiel Lächeln,
Stirnrunzeln, Artikulieren eines Phonems und so weiter, ausgeübt werden.
-
In
einer bevorzugten Ausführungsform
ist das Kopfmodell mit einem Sprachsynthesizer kombiniert, aus dem
das Modell die Sequenzen und die Dauer von zu sprechenden Phonemen
ableitet.
-
Außerdem werden
in einer bevorzugten Ausführungsform
Koartikulationseffekte als Teil der Berechnungen für einen
oder mehrere Gesichtsteile berechnet. Konflikte werden vorzugsweise
zwischen den Anforderungen zum Ausdrücken von Emotionen und zum
Aussprechen eines Phonems gelöst.
Eine Version jedes Gesichtsteils, das zu den gewünschten Werten paßt, wird
daraufhin aus der Bibliothek für
die Synthese des gesamten Gesichts erzeugt.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 zeigt
die Zerlegung eines Gesichts in parametrierte Teile gemäß dem Verfahren
der vorliegenden Erfindung.
-
2a und 2b,
insgesamt 2, zeigen ein Verfahren
zur Parametrierung von Gesichtsteilen entsprechend einer bevorzugten
Ausführungsform
der Erfindung.
-
3 zeigt
drei aus Fotografien erzeugte Viseme entsprechend einer bevorzugten
Ausführungsform
der Erfindung.
-
4 zeigt
drei durch Verzerrung erzeugte Viseme entsprechend einer bevorzugten
Ausführungsform
der Erfindung.
-
5 zeigt
einen Prozeß des Übergangs von
einem neutralen Ausdruck zu einem Lächeln entsprechend einer bevorzugten
Ausführungsform
der Erfindung.
-
6 zeigt
ein exemplarisches Floßdiagramm,
das eine Synthese der Animationssequenz entsprechend einer bevorzugten
Ausführungsform der
Erfindung zeigt.
-
KURZBESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Das
Verfahren gemäß der vorliegenden
Erfindung ist neben anderen Operationen gut geeignet für praktisch
jede Anwendung, die das Lesen von Text oder das Sprechen zu einem
Anwender oder einer anderen Person betrifft. Obwohl die Erfindung vollständig anhand
der folgenden Beschreibung ihrer Anwendungen im Kontext menschlicher
Gesichter und Figuren verständlich
ist, soll die Erfindung gleichermaßen auf die Verwendung von
Tiergesichtern und -figuren anwendbar sein. In einer bevorzugten Ausführungsform
umfaßt
die Technik gemäß der Erfindung
vier Gruppen von Elementen:
- (1) BASISGESICHT:
ein Bild eines Gesichts, das als Hintergrund für eine animierte Sequenz verwendet
wird. Obwohl nicht notwendig, enthält das Basisgesicht normalerweise
einen neutralen Ausdruck und einen geschlossenen Mund.
- (2) PARAMETRIERTE GESICHTSTEILE ("PFPs"):
einzelne Gesichtsteile, die im Verlaufe einer Animationssequenz
auf das Basisgesicht gelegt werden. Vorzugsweise umfassen PFPs den
Mund, die Augen, die Nase, die Wangen, das Kinn, die Stirn, die
Zähne,
die Zunge und die Mundhöhle.
- (3) PARAMETRIERTE GESICHTSTEILE MIT HAAR ("PFPHs"): einzelne Gesichtsteile mit Haar, die
im Verlaufe der Animationssequenz auf das Basisgesicht gelegt werden.
Vorzugsweise umfassen PFPHs das Haar, die Augenbrauen, den Lippenbart,
den Bart und die Koteletten.
- (4) SEKUNDÄRE
EFFEKTE: zusätzliche
Merkmale, die während
der Animationssequenz verwendet werden. Diese können beispielsweise sein: Falten,
Runzeln und Hervorhebungen.
-
Diese
vier Gruppen von Elementen sind nachstehend im Kontext verschiedener
bevorzugter Ausführungsformen
der Erfindung ausführlicher
beschrieben.
-
(1) BASISGESICHT
-
Das
Basisgesicht ist ein Bild des gesamten Gesichts, auf das Teile für die Animationssequenz gelegt
werden. Die Verwendung eines Basisgesichts in einer Animationssequenz
kann Computerrechenzeit sparen und Speicherplatzanforderungen reduzieren.
Der Grund dafür
ist, daß für viele
Ausdrücke nur
ein bestimmter Teil des Basisgesichts verändert werden muß; alle
anderen Teile können
unverändert bleiben.
-
Wenn
ein Gesichtsbild ausgeprägte
Falten und Runzeln enthält,
dann werden diese vorzugsweise vor Verwendung des Bildes als Basisgesicht
entfernt. Ein solcher Entfernungsvorgang kann notwendig sein, um
eine Beeinträchtigung
durch Hinzufügung
von Falten und Runzeln im Verlaufe der Animationssequenz zu vermeiden.
-
(2) PARAMETRIERTE GESICHTSTEILE
("PFP")
-
Die
PFPs sind einzelne Elemente, die auf das Basisgesicht gelegt werden,
um das Bild des gesamten Gesichts für ein animiertes Einzelbild
zu umfassen. Die Merkmale der PFPs sind durch einen oder mehrere
Parameter definiert. Darstellungen von Parametern eisen unter anderem
Form und Tiefe auf. Die Parameter jedes PFPs sind als Bezugspunkte
in einem Speicher gespeichert. In einer bevorzugten Ausführungsform
wird ein PFP durch ein oder mehrere rechteckige Pixelmuster dargestellt,
wobei jedes Pixelmuster eine Gruppe von Parametern und eine Maske
umfaßt.
In dieser Ausführungsform
werden die Bezugspunkte auf dem Pixelmuster positioniert. Ein Pixelmuster
kann beispielsweise verwendet werden, um einen PFP mit einer deutlich
unterschiedlichen Form darzustellen. Das entsprechende Basismuster
kann die tatsächlichen
Pixel des darzustellenden Bildes enthalten.
-
Die
Maske definiert die Transparenz jedes Pixels, das das Bild umfaßt. Die
Maske kann also beschreiben, welcher Teil innerhalb des begrenzenden Rechtecks
sichtbar ist und wie die Transparenz allmählich an den Grenzen erhöht wird,
um den PFP mit dem Hintergrund zu vermischen.
-
Beispiele
für PFPs
und wie sie sich auf das Gesamtgesicht beziehen, sind in 1 dargestellt. (Der
Vorgang, mit dem die PFPs parametriert werden, wird nachstehend
ausführlicher
in 3 beschrieben.). 1 zeigt
ein Gesicht, das in PFPs zerlegt worden ist. In dieser Darstellung
ist das Bild 100 des gesamten Gesichts in die folgenden
Teile geteilt: Stirn 110, Augen 120, Nase 130,
Mund 140, Haar 150, Wangen 160, Zähne 170 und
Kinn 180. Die Stirn 110 ist retuschiert worden,
um die Haare zu entfernen. Alle anderen Teile sind in ihrem Originalzustand geblieben.
-
In
einer bevorzugten Ausführungsform
weisen Parameter, die in jedem PFP gespeichert sind, zumindest ihre
Breite und Höhe
auf, wobei zusätzliche
Parameter definieren, wie das Teil auf dem Bild zu plazieren ist.
Als Darstellung für
einen Mund können
Punkte, die den Rändern
der oberen und unteren Zähne
entsprechen, verwendet werden, um die Plazierung des Mundes zu definieren
(siehe 2).
-
Weitere
Parameter können
verwendet werden, um die Umrißlinie
eines Gesichtsteils und die Umrißlinie anderer hervorragender
Merkmale zu definieren. Die Erfinder bevorzugen gegenwärtig, daß die Umrißlinien
mit Splines codiert werden. Ein Spline verwendet im allgemeinen
eine stückweise Funktionsannäherung an
die Umrißlinie,
zum Beispiel als Polynom dritter Ordnung. Diese Polynomfunktion
beschreibt den Umriß zwischen
zwei Bezugspunkten. Eine zweite Polynomfunktion beschreibt die Umrißlinie zwischen
den nächsten
beiden Punkten und so weiter. Für
den Mund können
die Konturen der Lippe auf diese Weise codiert werden. Für die Augen
kann die Umrißlinie
ihrer Form, die Kontur der Augenöffnung
und der obere Rand des Augenlides codiert werden.
-
Ein
weiterer Parameter, der geeignet sein kann, ist die Tiefe des PFPs,
das heißt,
die Position des PFPs auf der Achse senkrecht zur Pixelmatrix relativ
zu den anderen PFPs. Mittels dieses Parameters kann der PFP die
3D-Struktur des Gesichts berücksichtigen.
Die vorliegende Erfindung kann also verschiedene Vorzüge der 3D-Modellierung
ohne die dazugehörigen
Nachteile der erhöhten
Speicherplatzzuweisung und Verarbeitungszeit einbringen.
-
Für jeden
PFP können
verschiedene Pixelmuster gespeichert werden, wobei jedes Pixelmuster eine
Darstellung des PFP in verschiedener Form umfaßt. Die verschiedenen Formen
der PFP können wiederum
durch Zerlegung getrennter Bilder des Gesichts in einem Prozeß erreicht
werden, der fotografische Extraktion genannt wird. Jedes dieser
Bilder kann einen anderen Ausdruck haben, und die einzelnen PFPs,
die für
diesen Ausdruck einmalig sind, können
extrahiert und im Speicher als ein oder mehrere Pixelmuster gespeichert
werden. Als Alternative oder zusätzlich
zu diesem Verfahren können
die Formen der PFPs durch andere Verfahren der Zerlegung erzeugt
werden: Verzerrung und/oder Morphing aus Schlüsselformen. Die bevorzugten
Verfahren zum Zerlegen von Bildern zur Erreichung von PFPs sind nachstehend
ausführlicher
beschrieben.
-
Ein
Beispiel der Parametrierung eines Gesichtsteils ist in 2 gezeigt. Das Bild 200, das 2a umfaßt, stellt
die Parameter des Mundes dar, die dazu verwendet werden, diesen
zu plazieren und seine Erscheinung zu definieren. Diese Parameter sind
Innenhöhe
(H-m1), Außenhöhe (H-m2)
und Breite (W-m). Der Punkt c umfaßt den unteren Rand der oberen
Zähne,
und der Punkt d umfaßt
den oberen Rand der unteren Zähne.
Die Punkte c und d werden verwendet, um die Position des Mundes
auf dem Bild zu positionieren. Die Plazierung des Mundes wird relativ
zu den Punkten a (Mitte zwischen den Augen) und b (Mitte zwischen
den Nasenlöchern) durchgeführt. Bei
dieser Darstellung sind alle Entfernungen auf den Augenabstand (W-e)
normiert. Auge-Nase-(H-en-) und Auge-Mund-(H-em-)Abstand werden
verwendet, um die Kopfneigung zu schätzen. 2b zeigt
die Lippenkonturen 210, die die Kurven umfassen, die die
Innenkonturen der Lippen (ic), die Außenkontur (oc) und die Form
oder Grenze des Teils beschreiben. Auf den Lippenkonturen 210 sind Bezugspunkte 220 markiert,
die die Verformung in einer Verzerrungs- oder Morphing-Operation definieren.
Wie in diesem Beispiel kann Verzerrung oder Morphing verwendet werden,
um einzelne PFPs zu manipulieren.
-
Wie
oben beschrieben, können
PFPs dadurch erzeugt werden, daß Bilder
eines Gesichts zerlegt werden. Eine Ausführungsform dieses Zerlegungsverfahrens
wird als fotografische Extraktion bezeichnet. Fotografierte Teile
stellen eine gute Grundlage für
die Erzeugung von animierten Sequenzen dar, die der fotografierten
Person stark gleichen. Um die Formen zu erzeugen, können Figuren
gebeten werden, ein Phonem auszusprechen oder eine Emotion auszudrücken. Aus
solchen Bildern werden die Formen einfach ausgeschnitten und abgetastet
oder anderweitig in den Speicher verbracht.
-
Zwei
zusätzliche Überlegungen
sind in Bezug auf den Prozeß der
fotografischen Extraktion wichtig. Erstens kann die Gesamtzahl der
Einzelbilder, die erforderlich ist, um alle möglichen Formen für eine gegebene
Animationssequenz zu erfassen, sehr groß sein. Obwohl die Qualität der einzelnen
Einzelbilder, die unter Verwendung dieses fotografischen Extraktionsverfahrens
synthetisiert werden, häufig sehr
hoch ist, muß zweitens
der Praktiker sicherstellen, daß die
einzelnen Merkmale im Kontext des Gesamtgesichtsausdrucks natürlich aussehen.
Diese letztere Überlegung
bezieht sich auf die Tätigkeit
der zu fotografierenden Person. Wenn eine Person absichtlich eine
Emotion ausdrückt
oder ein Phonem isoliert ausspricht, übertreibt sie insbesondere
häufig die
Artikulation. Daher ist eine fotografierte Form häufig nicht
unmittelbar für
eine Animation geeignet.
-
Aus
diesen Gründen
sind Bilder, die durch fotografische Extraktion erzeugt werden,
normalerweise unzureichend für
eine Erzeugung einer kompletten Menge von Formen für eine bestimmte
Anwendung (das heißt
eine Menge, wo alle möglichen
Formen, die in einer Animationsfolge auftreten sollen, erzeugt worden
sind). Diese Bilder sind dennoch ein wichtiger Teil des Prozesses
zur Erzeugung einer kompletten Menge von Formen. Zusätzliche
Formen können
unter Verwendung von Morphing, Verzerrung und/oder Interpolationstechniken
hergestellt werden. Unter Verwendung von Morphing und/oder Interpolation
können
alle Formen, die zwischen einem neutralen Ausdruck und einem übertriebenen
Ausdruck liegen, erzeugt werden. Von diesen dazwischenliegenden
Bildern können
mehrere für
eine Animation geeignet sein.
-
In
einer weiteren Ausführungsform
kann Verzerrung allein als Zerlegungsverfahren verwendet werden,
um eine Bibliothek von PFPs zu erzeugen. Hier werden animierte Einzelbilder
erzeugt, indem alle notwendigen Formen aus einer einzelnen Form erzeugt
werden. Die Erzeugung von Gesichtsteilen durch Verzerrung erfordert
folgendes: (1) Bezugnehmen auf die Bezugspunkte im Speicher, die
eine usprüngliche
Gesichtsform definieren; (2) Ändern dieser
Bezugspunkte in neue Bezugspunkte, die die neue deformierte Form
definieren; und (3) Aufzeichnen der neuen Bezugspunkte im Speicher
für die neue
Form. Was nicht überraschend
ist, dieses Verfahren erfordert im allgemeinen ein ausführliches Verständnis dafür, wie sich
ein Gesichtsteil verformt.
-
Wenn
eine Bibliothek einzelner Formen durch Verzerrung erzeugt wird,
kann sie vorteilhafterweise in einer beliebigen Anzahl von Bildern
von fotorealistischen Personen verwendet werden, da Gesichtsteile
einzeln parametriert werden. Dadurch Festlegung der neuen Bezugspunkte
können
die Splines, die die Merkmalsformen beschreiben, ohne weiteres angepaßt werden,
um die charakteristischen Merkmale einer anderen Person (zum Beispiel die
Breite des Gesichts, die Dicke der Lippen und so weiter) zu berücksichtigen.
-
Obwohl
die endgültige
fotorealistische Person, die unter Verwendung von durch Verzerrung
abgeleiteten Gesichtsteilen erzeugt ist, möglicherweise nicht ganz genau
so ist, wie die Person tatsächlich aussieht,
reicht die Verzerrung aus, um eine vernünftige realistische Darstellung
zu erzeugen. Außerdem ist
das Verzerren schnell und bequem, da ein einzelnes Bild einer Person
verwendet werden kann, um alle animierten Einzelbilder zu erzeugen.
-
Der
Prozeß der
Erzeugung von Bildern des Mundes ist wahrscheinlich der komplexeste
von allen Gesichtsmerkmalen. Dies gilt besonders dort, wo die fotorealistische
Person spricht. Tatsächlich
zeigt der Mund die größten Variationen
aller PFPs. Ein sprechendes Gesicht ist auch das Merkmal, das die
Aufmerksamkeit des Beobachters am meisten auf sich zieht. Menschen
sind empfindlich gegenüber geringfügigen Unregelmäßigkeiten
in der Form oder Bewegung des Mundes. Daher sollte der Praktiker
im Normalfalle der Animation des Mundes seine besondere Aufmerksamkeit
widmen.
-
Eine
Mundform, die ein Phonem artikuliert, wird häufig als ein Visem bezeichnet.
Während über 50 gesprochene
Viseme in der englischen Sprache unterschieden werden, gehen die
meisten Forscher davon aus, daß zwischen
10 und 20 verschiedenen Visemen ausreichend sind, um eine animierte
Sequenz zu verwenden. Die Anzahl der Viseme ändert sich natürlich in
Abhängigkeit
von der Anwendung. In einer bevorzugten Ausführungsform der Erfindung werden
12 prinzipielle Viseme verwendet, nämlich a, e, ee, o, u, f, k,
1, m, t, w, geschlossener Mund. Alle anderen möglichen Phoneme werden dieser
Menge von 12 zugeordnet.
-
3 und 4 zeigen
Beispiele von Visemen, die unter Verwendung der oben beschriebenen zwei
Techniken erzeugt werden. Die Viseme in 3 sind aus
zwei getrennten Bildern ausgeschnitten. In 3 wurde
die Mundfläche 300 aus
einer Fotografie einer Person ausgeschnitten, die das Phonem "u" ausspricht. Ebenso wurden die Bereiche 310 und 320 aus
Fotografien einer Person ausgeschnitten, die die Phoneme "m" beziehungsweise "a" ausspricht.
Die untere Reihe zeigt die drei Viseme, die auf das Basisgesicht
aufgelegt sind. Das resultierende Gesicht wurde dann auf einen Hintergrund
plaziert, um Einzelbilder 330, 340 und 350 zu
bilden. Die Dame in 3 sprach die Phoneme isoliert;
daher erscheinen sie stark artikuliert.
-
Die
Viseme in 4 sind durch Verzerrung aus
einem einzigen Bild erzeugt. Ein Bild der Person wurde also fotografiert,
und aus diesem Bild wurden alle Viseme und andere Ausdrücke durch
Verzerrung erzeugt. Die Viseme 410, 420 und 430 wurden
unter Verwendung der Phoneme "u", "m" beziehungsweise "a" erzeugt.
Die untere Reihe zeigt drei Einzelbilder 440, 450 und 460 mit
den Visemen 410, 420 und 430, die zusammen
mit Variationen der Augen und Augenbrauen auf das Basisgesicht gelegt
sind.
-
Bei
der Beurteilung dieser einzelnen Einzelbilder würden die meisten Menschen das
Aussehen der Gesichter in 3 als natürlicher
als die in 4 erachten. Wenn die Viseme
in 3 zur Animation verwendet werden, ist das Ergebnis
dennoch eine ruckartige, übertriebene
Bewegung des Mundes, die unnatürlich
aussieht. Die viel weniger ausgeprägte Artikulation, die durch
die Viseme in 4 erzeugt wird, wird als einer
echten Person ähnlicher
wahrgenommen. Durch diese Beobachtungen wird deutlich, wie wichtig
die Bewegung zu gestalten, anstatt sich lediglich auf das Aussehen
der einzelnen Einzelbilder zu konzentrieren. Aus diesem Grund wird
bevorzugt, zwei oder drei Versionen jedes Visems zu erzeugen, wobei
jede Version eine andere Artikulationsstärke darstellt.
-
In
der Praxis ist es möglich,
eine wirklich natürlich
erscheinende Mundbewegung nur zu erreichen, wenn Koartikulationseffekte
berücksichtig
werden. Koartikulation bedeutet, daß das Erscheinungsbild einer
Mundform nicht nur von dem Phonem abhängt, das in diesem Moment erzeugt
wird, sondern auch von den Phonemen, die diesem Phonem vorausgehen
und nachfolgen. Wenn beispielsweise eine Einzelperson die Lautfolge "boo" artikuliert, spiegelt die
Mundform für "b" schon die Absicht der Person, "oo" auszusprechen, wider.
Kurz gesagt, die Berücksichtigung
der Artikulation erzeugt eine gleichmäßigere Mundanimation, die wiederum
unnatürliche Übertreibung
der Lippenbewegung während
der Animationssequenz vermeidet.
-
Demzufolge
verwendet eine bevorzugte Ausführungsform
der Erfindung Koartikulation. Das bevorzugte Koartikulationsverfahren
erfordert die Zuordnung einer mathematischen Zeitkonstante zu den Parametern
des Mundes. Unter Verwendung dieser Zeitkonstante kann die gegenwärtige Form
des Mundes dazu gebracht werden, die Art und Weise und das Ausmaß zu beeinflussen,
in der der Mund in dem ablaufenden Zeitintervall verformt werden
kann.
-
(3) PARAMETRIERTE GESICHTSTEILE
MIT HAAR ("PFPH")
-
Das
PFPH ist eine Gruppe, die alle Teile des Gesichts umfaßt, die
mit Haar bedeckt sind. In einer bevorzugten Ausführungsform der Erfindung sind
die PFPHs von den PFPs getrennt gruppiert, da ihre Verformungen
normalerweise anders verarbeitet werden. Standardisierte Morphing-
und Verzerrungstechniken verwischen häufig die charakteristischen Oberflächenstrukturen
des Haars, oder sie verformen die Oberflächenstrukturen derartig, daß es künstlich
aussieht. Wenn Konturen mit kopierten Oberflächenstrukturen gefüllt werden,
entstehen normalerweise bessere Ergebnisse für Bärte und Lippenbärte.
-
In
bestimmten Ausführungsformen
wird das Haar nur begrenzt animiert. Wenn die interne Oberflächenstruktur
des Haars nicht erkennbar ist, kann Haar einfach wie eine glatte
Fläche
behandelt werden. Bei Bildern mit sehr niedriger Auflösung kann diese
grobe Modellierung angemessen sein. Wenn jedoch einzelne Haarsträhnen oder
sogar einzelne Haare sichtbar sind, wird ein höher entwickelter Lösungsansatz
bevorzugt. Beispielsweise kann ganzen Haarsträhnen eine Bewegung verliehen
werden, indem Teile des Haars gedreht oder verzerrt werden. In Wirklichkeit
hat die Bewegung des Haars eine begrenzte Bedeutung für einen
sprechenden Kopf. Daher müssen
dem Haar nur bestimmte Zufallsbewegungen verliehen werden.
-
Die
expliziteste und deterministischste Bewegung eines Haarteils in
einem sprechenden Gesicht ist die eines Lippenbartes. Ein Lippenbart
kann durch Verzerrungs- und/oder Cut-und-Paste-Operationen verformt werden. Wenn sich
beispielsweise der Mund von einem neutralen Ausdruck hin zum Aussprechen
eines 'o' ändert, können die Umrisse des Lippenbartes
anhand der Form der Oberlippe geschätzt werden. Daraufhin wird
der ursprüngliche Lippenbart
so verbogen, daß er
unter Verwendung einer örtlich
begrenzten Verzerrungsoperationen der oberen Kontur folgt. In dem
Maße,
wie Teile dieser Kontur freigelassen sind, können Nachbarbereiche kopiert
und in die freien Bereiche eingefügt werden.
-
(4) SEKUNDÄRE EFFEKTE
-
Die
Erzeugung von realistisch aussehenden Bildern bringt zusätzliche
Komplikationen mit sich. Solche Komplikationen sind Falten, Runzeln
und Hervorhebungen. Extreme Verformungen, zum Beispiel ein breites
Lächeln,
sind ohne die Hinzufügung von
Falten schwer zu erzeugen. 5 stellt
den Effekt der Hinzufügung
von Falten zu einem Lächeln dar.
Anstatt PFPs mit Falten zu erzeugen, werden die Falten auf das PFP
gelegt.
-
5 zeigt
ein Einzelbild 510, das eine Hintergrundfläche und
einen neutralen Ausdruck hat. Das Einzelbild 520 hat die
gleiche Hintergrundfläche, hat
aber statt dessen Augen 515 und einen Mund 518,
der auf die Hintergrundfläche
aufgelegt ist. Das Ergebnis des Einzelbildes 520 ist ein
unnatürlicher Ausdruck.
Das Einzelbild 530 ist das gleiche Einzelbild wie das Einzelbild 520,
außer
daß das
Einzelbild 530 Falten 535 hat, die auf seine Basisfläche aufgelegt
sind. Das Lächeln
der Figur im Einzelbild 530 sieht durch die Falten natürlicher
aus.
-
Falten
und Runzeln sind vorzugsweise als eine gesonderte Gruppe des Kopfmodells
kategorisiert, da sowohl ihre Synthesen als auch ihre Verformungen
anders behandelt werden als diejenigen der PFPs. Durch Verzerrung
und Morphing, die verwendet werden, um die verschiedenen Formen
des PFP zu erzeugen, werden die Falten auf unnormale Weise verzerrt.
Somit werden in einer bevorzugten Ausführungsform Falten und Runzeln
statt dessen durch Splines dargestellt. Splines definieren die Positionen der
Falten. Die Hinzufügung
von Falten zu einer Pixelmatrix kann durch Modulation der Farbe
der Pixel mit einem Luminanzfaktor erreicht werden. Die Falte bestimmt
das Ausmaß dieser
Modulation sowie die Gradienten in der Richtung senkrecht zur Faltenrichtung.
-
Für die Synthese
eines natürlich
aussehenden sprechenden Kopfes müssen
die Bewegungen aller Gesichtsteile und des Kopfes gewissenhaft geplant
werden. Konversationssignale umfassen feine Bewegungen von Gesichtsteilen
des Kopfes, die Sprache hervorheben, betonen oder anderweitig regulieren.
Beispielsweise kann eine hochgezogene Augenbraue verwendet werden,
um einen Vokal zu akzentuieren oder eine Frage anzuzeigen. Augenzwinkern
tritt auch häufig
auf und wird normalerweise mit dem Sprachfluß synchronisiert. Geringfügige Kopfbewegungen
begleiten im allgemeinen auch die Sprache. Wenn solche Bewegungen
aufhören,
bedeutet dies häufig,
daß der
Sprecher fertig ist und erwartet, daß der Zuhörer Maßnahmen ergreift. Der emotionale
Zustand des Sprechenden wird auch durch Änderungen des Aussehens der
Gesichtsteile reflektiert. Beispielsweise können hochgezogene oder zusammengezogene
Augenbrauen Spannung oder Furcht anzeigen.
-
Eine
Darstellung des Syntheseprozesses ist in 6 gezeigt.
Als Antwort auf eine ASCII-Eingabe,
die Wörter
umfaßt,
die ausgesprochen werden sollen (Oval 600), erzeugt ein
Sprache-aus-Text-Synthesizer
(Kästchen 610)
eine Sequenz von Phonemen 620, deren Dauer und Betonung.
Jedes Phonem wird einem Mund-Visem zugeordnet (Kästchen 630). In bestimmten
Ausführungsformen
kann diese Zuordnung eine einfache Nachschlagoperation, zum Beispiel
in einer Tabelle im Speicher, umfassen. Wenn ein Visem gewählt worden
ist, sind die Parameter des Visems 640 für dieses
Visem verfügbar. Diese
Parameter können
beispielsweise die Breite und Höhe
des Mundes aufweisen.
-
Die
Parameter des Visems können
daraufhin in ein Koartikulationsmodul eingegeben werden, um die
Koartikulationseffekte darzustellen (Kästchen 660). Das Koartikulationsmodul
kann auch Information berücksichtigen,
die sich auf den gewünschten Gesichtsausdruck
bezieht (Oval 650). Wenn, um dies zu veranschaulichen,
ein Lächeln
gefordert ist und das Visem einen geschlossenen Mund erfordert,
erhöht
das Koartikulationsmodul die Mundbreite. Die Ausgabe des Koartikulationsmoduls
ist eine neue Gruppe von Mundparametern 670. Diese modifizierten
Parameter werden als nächstes
bei der Suche in einer PFP-Bibliothek nach der Form mit der größten Übereinstimmung
verwendet. Der am besten übereinstimmende
PFP wird gewählt
(Kästchen 680).
-
Die
anderen PFPs werden vorzugsweise unter Verwendung des gleichen Prozesses
gewählt.
Für diese
PFPs, die von der Mundbewegung beeinflußt werden, werden Phoneminformation
und Gesichtsausdrucksinformation berücksichtigt. Für die Augen und
alles oberhalb der Augen müssen
nur Gesichtsausdrücke
berücksichtigt
werden, da die Mundbewegung diese Teile normalerweise nicht beeinflußt.
-
Nachdem
die richtigen Viseme ausgewählt worden
sind, können
sie zwecks endgültiger
Erzeugung eines Einzelbildes der animierten Sequenz (Kästchen 690)
in die Basisfläche
eingemischt werden. Das Einzelbild wird mit der entsprechenden gesprochenen
Sprache synchronisiert. Wenn die Viseme unter Verwendung von Verzerrungstechniken
erzeugt werden, vermischen sie sich nicht mehr nahtlos mit dem Basiskopf.
Aus diesem Grund muß der
Praktiker eine sorgfältige
Ausschmückung
der Alpha-Überblendungsmaske
durchführen.
In einer bevorzugten Ausführungsform
wird das Überblenden zuerst
mit Teilen durchgeführt,
die am tiefsten liegen, zum Beispiel die Augen und Zähne. Als
nächstes werden
Teile, die darüberliegen,
und schließlich
das Haar und die Runzeln hinzugefügt.
-
Wenn
der Kopf alle Gesichtsteile enthält, kann
er auf das Hintergrundbild gelegt werden. Die Bewegung des gesamten
Kopfes kann dann hinzugefügt
werden. Bewegungsvektoren werden nach einem semistochastischen Prinzip
berechnet, zum Beispiel reguliert Sprache eine beliebige Mischung
vorher definierter Bewegungen. Ein Modell gemäß einer bevorzugten Ausführungsform
weist Verschiebung, Drehung und Neigung des Kopfes auf. Die Drehung des
Kopfes um die Achse senkrecht zur Bildebene wird ohne weiteres erreicht.
Kleine Drehungen um die anderen beiden Achsen können durch einfache und schnelle
Bildverzerrungstechniken angenähert werden.
Die Dynamik der Bewegungen kann sorgfältig konstruiert werden – übertriebene
Bewegungen erscheinen als hektisch und unnatürlich.
-
Das
Einzelbild wird dann an eine Datei oder einen Bildschirm (Kästchen 695)
ausgegeben. In bestimmten Ausführungsformen
können
diese Pixeloperationen entweder in einem Bildpuffer im Computerspeicher
oder direkt in einem Bildpuffer auf dem Bildschirm durchgeführt werden.
Zur Zeit der Einreichnung dieser Anmeldung haben die Erfinder mindestens
zwei Versionen der Erfindung implementiert. Eine Version, die von
Microsoft AVI API verwendet wird und AVI-Dateien aus einer ASCII-Texteingabe erzeugt.
Die andere Version, die Animation unter Verwendung von OpenGL-Grafik-Bibliothek direkt
auf dem Bildschirm ausgibt.
-
Außerdem führten die
Erfinder zur Zeit der Einreichung dieser Anmeldung eine experimentelle Implementierung
des Kopfmodells auf einem Personalcomputer (PentiumPro 150 MHz)
durch. Bei dieser Implementierung betrug die Synthetisierungsgeschwindigkeit
annähernd
1 Einzelbilder/100 ms. Die Größe der PFP-Bibliothek
war 500 KB. Die PFP-Bibliothek enthielt alle Viseme zum Sprechen
und alle PFPs zum Stirnrunzeln und Lächeln, glückliche und neutrale Ausdrücke. Die
Größe der Einzelbilder
war 360 × 240
Pixel. Es versteht sich, daß sich
Parameter in Abhängigkeit
von der bestimmten Ausführungsform
der Erfindung stark verändern.
Das Experiment der Erfinder wurde für maximale Flexibilität und nicht für höchste Geschwindigkeit
oder maximale Kompaktheit konstruiert. Während ferner die vorliegende Erfindung
von einer breiten Vielfalt der numerischen Bereiche in Abhängigkeit
vom Zustand der Technologie und von einer bestimmten Anwendung und
so weiter ausgeht, schätzen
die Erfinder, daß eine
Optimierung zugunsten der Geschwindigkeit eine Synthese bei nahezu
30 Einzelbilder/Sekunde erlauben würde und daß eine Bibliotheksgröße durch
mehr als einen Faktor zwei reduziert werden kann. Bei Nichtnutzung
des Verfahrens gemäß der vorliegenden
Erfindung schätzen
die Erfinder, daß eine
Bibliothek von Gesichtern, die den gesamten Bereich der Ausdrücke einbezieht,
mehr als eine Größenordnung größer wäre.
-
Es
versteht sich, daß die
vorstehende Beschreibung für
die Prinzipien der Erfindung lediglich darstellenden Charakter hat
und daß verschiedene Modifikationen
und Variationen für
den Fachmann möglich
sind, ohne den Schutzbereich der Erfindung, wie er in den Ansprüchen definiert
ist, zu verlassen.