Deepfakes – das Teufelszeug und seine positiven Seiten

Sie sind bekannt wie ein bunter Hund, werden verteufelt und als Gefahr angesehen: Deepfakes. Wir wollen für sie eine Lanze brechen und einmal ergründen, welchen positiven Beitrag sie als Technologie leisten könnten. Wie Deepfakes funktionieren und welche technischen Möglichkeiten sie Kreativen zukünftig bieten könnten, erfährst du in diesem Blogbeitrag

„Machine Learning“ und „Deepfakes“ sind Schlagworte, die seit über einem Jahr Fuß gefasst haben und derzeit in aller Munde sind. Nicht zuletzt, weil Deepfakes auf politischer und medialer Seite bereits dämonisiert wurden, bevor sie überhaupt einen Status als sinnvoll anwendbare Technologie erreicht haben. Nichtsdestotrotz sind Deepfakes vielleicht sogar ein Blick in die Zukunft – zumindest ein Blick in die Zukunft der visuellen Effekte und Bewegtbilder.

Doch was sind Deepfakes?

Deepfake ist der Begriff für eine spezielle Art von Face Replacements, die in Bewegtbild-Medien angewandt werden kann. Eine optische Spielerei, die in Standbildern via Photoshop durch weniger als 5 Klicks erreicht werden kann – in Bewegtbildmedien aber sehr viel komplexer wird. In der Praxis gibt es viele Beispiele für notwendige Face Replacements.

Deepfakes: Beispiele für technische Möglichkeiten

Besonders bei amerikanischen Spielfilmen sind Face Replacements und ähnliche Tricks quasi an der Tagesordnung. Zum Beispiel, um verstorbene Schauspieler wie Brandon Lee („The Crow“, 1994), Peter Cushing („Rogue One“, 2016) oder Paul Walker („The Fast and the Furious 74“, 2013) in ihren Paraderollen zu präsentieren und die einzelnen Filme fertig zu stellen, bzw. im Falle von Peter Cushing & Carrie Fisher in „Rogue One“, ihre jüngeren Ichs ein letztes Mal auf die Leinwand zu bringen. 

Das Uncanny Valley lässt grüßen

Anmerkung des Autors: Das Uncanny Valley ist Synonym für eine Akzeptanzlücke bei künstlichen Figuren. Je menschenähnlicher eine (digitale) Figur ist, desto realistischer muss ihre Darstellung sein, um Akzeptanz zu schaffen. Bei künstlichen Menschen müssen also auch Gesichtszüge, Mimik und Bewegung stimmen. Sonst kommt so was bei raus:

Aber wie funktionieren Deepfakes denn nun?

  1. Zunächst wählen wir eine Sequenz aus, in der das Gesicht des Schauspielers gut erkennbar ist.
  2. Im Anschluss wird das Gesicht des Schauspielers (Rami Malek) komplett freigestellt und als Einzelbilder exportiert.
  3. Jedes Einzelbild wird nun als Basis in eine speziell hierfür vorgesehene Software importiert. 
  4. Als nächstes kommt der größte Teil des Aufwandes. Hierfür durchforsten wir das Internet, alte VHS-Kassetten und jede andere mögliche Quelle nach Videoaufnahmen von Freddie Mercury. Jede Aufnahme hilft. Denn jedes einzelne Bild von Freddie Mercury muss ebenfalls freigestellt und in unsere Software geladen werden. Diese Aufnahmen bilden unsere Mercury-Gesichts-Datenbank. Je mehr Bilder, desto besser! Dieser Prozess nennt sich „Machine Learning“. Denn wir bringen unserer Software damit bei, wie das Gesicht von Freddie Mercury aussieht. Und je mehr Pixel der Software zur Verfügung stehen, desto besser ist der Lerneffekt.
  5. Wenn alle Aufnahmen fertig sind, kann die Software mit der eigentlichen Arbeit beginnen. Es werden nun alle Aufnahmen von Rami Malek mit dem Gesicht von Freddie Mercury verglichen und die bestmögliche Entsprechung hierfür gesucht. Inzwischen sind die Programme so gut geworden, dass das Programm auch leichte Farb- und Lichtanpassungen vornimmt – was nicht bedeutet, dass nicht noch einiges manuell passieren muss.


Und das war es auch schon. Klingt simpel, ist natürlich aber trotzdem ein erheblicher Aufwand. Denn allein die Recherchearbeit hierfür ist enorm. Wenn auch dieser Aufwand zu groß ist, gibt es noch eine simple Version von „Deepfakes“. Mit dieser Methode kann man einem Schauspieler auch einfach ein Standbild eines Gesichts als digitale Maske aufziehen. Mit dieser Methode haben wir 2020 bereits in unserer Agentur experimentiert. Dabei haben wir herausgefunden, dass diese Methode zwar funktioniert, bei Personen, die sich nicht besonders ähnlichsehen aber schnell in Wohlgefallen zerfällt.

Gefahren und Konsequenzen durch Deepfakes – ein Gedankenspiel 

Aber warum nun die 800+ Wörter zum Thema Deepfakes und Face Replacements?
Nun. Zum einen ist das Ganze ein spannendes Thema. Nicht nur technologisch, sondern auch moralisch und philosophisch. Adolf Hitler Popsongs aus den 70ern singen zu lassen ist irgendwas zwischen schräg und makaber. Zu sehen, wie Sylvester Stallone im Kinderkörper Fallen für Einbrecher stellt ist ganz unterhaltsam… 

Deepfakes und Machine Learning: technische Entwicklungsmöglichkeiten

Genauso spannend sind aber die technischen Möglichkeiten, die uns bevorstehen. Aktuell können wir mit Machine Learning recht gute Ergebnisse erzielen, weil das menschliche Auge auf so gut wie nichts anderes getrimmt ist, Gesichter zu erkennen. Auch wenn wir es nur unterbewusst wahrnehmen, ist unser Verstand messerscharf darauf eingestellt, minimale Veränderungen der Augenbrauen, Mimik oder Kopfneigung zu erkennen und zu deuten. Wir erkennen sogar Gesichter in Autos, Gullideckeln und den alten, braunen Schlieren-Fließen in Omas Badezimmer.
Aufgrund dieser evolutionären Umstände fällt es uns leicht, einem Computer beizubringen, was die definierenden Merkmale eines Gesichts sind. Augen, Augenbrauen, Mund, Nase, Punkt, Punkt, Komma, Strich – fertig ist das Mondgesicht.

Schwieriger wird es mit menschlichen Körpern, Bäumen, Landschaften oder abstrakten Konzepten wie „Gerüche“. Aber genau das könnte vielleicht das Ziel dieser Entwicklung sein.
Denn mal angenommen, wir können unsere Maschine mit tausenden Darstellungen von Straßen, Autos und Landschaften füllen, würde sich der nächste Audi-Werbespot quasi von selbst schreiben. Hierzu müssten wir lediglich eine Modelleisenbahn filmen, die wir mit der Hand über einen alten Pappkarton bewegen. Danach sagen wir unserer Software nur noch, dass sie die alte Spielzeuglock bitte gegen den neuen Audi, den Karton gegen eine Küstenstraße und die Hand durch die untergehende Sonne ersetzen soll. Fertig ist der Spot. 

Oder warum überhaupt noch eine Kamera benutzen? Vielleicht würde es schon reichen, eine kurze Szenenbeschreibung an eine KI zu füttern und zu warten, was diese ausspuckt.
Und für wen das alles noch zu sehr nach fantastischer Zukunftsmusik klingt, für den habe ich an dieser Stelle noch eine schöne Überraschung: Denn dieses fantastische Hirngespinst ist bereits Realität!

Aus Text wurde Bild 

KI-Entwickler haben unter deepai.org eine künstliche Intelligenz veröffentlicht, mit deren Hilfe man Text in Bilder umwandeln kann. Ja, richtig verstanden. Mit diesem Tool lassen sich echte Bilder aus einer Bildbeschreibung erzeugen! An dieser Stelle muss erwähnt werden, dass diese Bilder komplett neu erzeugt werden. Es funktioniert also nicht wie eine Suchmaschine, die anhand der Schlagworte ein Bild sucht, das zur Beschreibung passt. Stattdessen versucht die KI aus der eingegebenen Beschreibung ein passendes Bild zu generieren, indem es sich sozusagen alle passenden Beispielbilder ansieht und aus den Durchschnittswerten ein komplett neues Bild generiert. 

Zur Veranschaulichung dieses Beispiels habe ich die AI mit der folgenden Beschreibung gefüttert: „Sports car on a beach with beautiful sunset in the background“. Keine vier Sekunden später gab mir die KI dann dieses wunderbare Bild von: einem Vogel ohne Gesicht, der auf trockenem Gras sitzt.

Tja. Ich kann an dieser Stelle nicht behaupten, dass das Ganze schon besonders gut funktioniert. Aber die Kollegen von OpenAI sind dafür schon auf einem ziemlich guten Weg. Das AI-Tool ist zum Zeitpunkt dieses Blogbeitrags noch nicht veröffentlicht, aber die „illustrations of a pikachu in a cape serving ice cream“ sehen schon jetzt vielversprechend aus.

Blick in die Zukunft: visuelle Effekte und Bewegtbilder

Aber: Abgesehen von der erhöhten Aufmerksamkeit, die wir jedem Videoclip in Bezug auf potenzielle „Fake News“ schenken müssen, welches Fazit ziehen wir nun? Dass der Beruf des Filmemachers und Fotografs in den nächsten 80 Jahren aussterben wird?

Nun. Das ist vielleicht die endgültige Konsequenz der Entwicklung. Spannender sind jedoch die mittelfristigen Möglichkeiten, die sich daraus ergeben. Facetracking-Technologien werden täglich einfacher; das „Ausschneiden“ und Einfügen von Bildelementen aus Bewegtbildern ist schon lange keine Hollywood-Magie mehr. Und das Austauschen von Bildelementen ist schon lange kein Grund mehr, um Projekttage in die Höhe zu treiben. Wir sind inzwischen an einem Punkt, an dem sich bereits mit wenig Aufwand Effekte erzielen lassen, die vor 20 Jahren noch ein Millionen-Budget erfordert hätten.

Es ist also DIE Zeit, um zu experimentieren! Produktdarstellungen vor Green Screen? 
Kein Problem mit dedizierten Keying-Programmen, die das Freistellen einfach machen!
Personen freistellen und Motion Graphics im Hintergrund einfügen?
Kein Problem mit einer neuen KI, die das Freistellen von Personen in Bewegung zur Spazierfahrt macht!

Die Filmindustrie befindet sich im digitalen Frühling. Und die Blüten dieser Entwicklung machen sich bei Filmemachern jeden Kalibers bemerkbar. Hochwertige Werbespots, Imagevideos und Produktfilme müssen heute kein Vermögen mehr kosten, wenn man mit cleveren Lösungen und künstlicher Intelligenz arbeitet.

Mehr Beiträge