Puppenspiel der Gesichter

Jemandem Worte in den Mund legen – ist das mittlerweile möglich?

Eine Gruppe von Wissenschaftlern aus Erlangen, Stanford und Saarbrücken kann Mimik und Lippenbewegungen einer Person in Echtzeit auf das Video-Signal einer anderen Person übertragen; Gestik und Kopfbewegungen der Ursprungsperson bleiben dabei unverändert. Die entwickelten Algorithmen sind dabei so effizient, dass die Rechenleistung von Standard-Hardware ausreichend ist.

Beide Personen werden von einer Kamera gefilmt, die zusätzlich zu normalen Bildinformationen auch Tiefendaten aufnimmt. Solche Kameras (z.B. Microsoft Kinect TM) vermessen also zusätzlich die Entfernung jedes Bildpunktes zur Szene. Basierend auf diesen Daten, werden in einem Vorverarbeitungsschritt, für beide Personen die Parameter eines Gesichtsmodells geschätzt, so dass Kopfgeometrie und Reflektanz in einer mathematischen Beschreibung vorliegen. Danach wird die Mimik und Lippenbewegung beider Personen analysiert und von einem Gesichtsmodell auf das andere übertragen, und im Zielvideo fotorealistisch dargestellt. Dank jahrelanger erfolgreicher Forschung sind die Algorithmen zur Berechnung mittlerweile so effizient, dass sie auf gut ausgestatteten Standardrechnern in Echtzeit ablaufen können. Dies ist durch eine geschickte Verlagerung der teils aufwändigen Rekonstruktionsschritte auf moderne Graphikhardware möglich. Mögliche Anwendungen sehen Justus Thies (Universität Erlangen-Nürnberg) und Dr. Michael Zollhöfer (MPI für Informatik) in der visuellen Verbesserung von Nachvertonungen, also wenn der Protagonist in einer Sprache spricht, aber der Zuschauer eine andere Sprache hört, wie z.B. bei fremdsprachigen Spielfilmen. Dazu werden die Lippenbewegungen mit der Synchronsprache abgeglichen.

Offiziell wird das Verfahren, welches die Mimik und Lippenbewegungen einer Person in Echtzeit auf das Video-Signal einer anderen Person überträgt, im November auf der Computergraphik-Konferenz „SIGGRAPH ASIA“ in Kobe (Japan) vorgestellt. Das Verfahren ist das Resultat einer fruchtbaren Zusammenarbeit von zwei deutschen Informatik-Forschungsgruppen, die eine von Prof. Marc Stamminger an der Universität Erlangen-Nürnberg, die andere von Prof. Christian Theobalt am MPI für Informatik in Saarbrücken. Dritter Partner im Bund ist die Forschungsgruppe um Prof. Matthias Nießner an der Universität von Stanford. Das zugehörige Video, das die Übertragung in Echtzeit demonstriert, wurde nach dem Hochladen auf der Videoplattform Youtube (https://youtu.be/eXVspNUeiWw) aktuell mehr als 210.000 mal angesehen.

Die Forscher arbeiten seit langem an Fragen der Grundlagenforschung im Bereich Bildverstehen, insbesondere an neuen Methoden um dynamische Szenenmodelle (Geometrie, Reflektanz von Objekten) aus Videos zu schätzen. Dazu führt Professor Theobalt aus: „Insbesondere geht es darum, Modelle aus Videodaten von nur wenigen, oder gar nur einer Kamera zu berechnen, um eine mathematisch, möglichst realitätsgetreue Beschreibung von starren, beweglichen aber auch deformierbaren Körpern innerhalb einer Szene zu schätzen. Dies ist ein sehr schwieriges und sehr rechenaufwändiges Problem, und die entwickelten Methoden sind auch anderweitig einsetzbar. Grundsätzlich sind die Arbeiten als ein Baustein für Techniken zu verstehen, die es Computern ermöglichen die bewegte Welt um sich herum zu erfassen, und mit vielen Anwendungen in der Robotik oder Augmented/Virtual Reality zu interagieren”.

Die Arbeit zeigt aber auch, dass mittlerweile selbst die täuschend echte Manipulation von Live-Video-Streams in den Bereich des Möglichen kommt. So, wie jeder heute weiß, dass Bilder und Filme für Werbe- oder auch Propagandazwecke verfälscht werden können, müssen auch bei vermeintlichen Live-Videos Manipulationsmöglichkeiten beachtet werden.

Weitere Informationen:

Webseite des Projekts mit allen Kontakten

http://people.mpi-inf.mpg.de/~mzollhoef/Papers/SGASIA2015_RR/page.html

Video

https://www.youtube.com/watch?v=eXVspNUeiWw