A gauche, un extrait vidéo où l'ancien président des Etats-Unis dit quelque chose qui est en fait prononcé en temps réel par quelqu'un d'autre (à droite). Les mouvements des lèvres sont manipulés pour être synchronisés.
University of Washington
Initialement spécialiste de réalité virtuelle et de reconstitution 3D, Vincent Nozick mène depuis trois ans des recherches sur la détection de falsification d’images. Notamment les "deepfakes", ces images générées par des algorithmes de deep learning en vogue depuis quelques années, les réseaux génératifs antagonistes (GAN). Ils permettent, sur des vidéos, de placer le visage d’une célébrité sur le corps de quelqu’un d’autre, de faire dire à un homme politique ce qu’il n’a jamais dit, de combiner les postures et les mouvements de deux personnes différentes, le tout avec un réalisme assez efficace. Un procédé au potentiel inquiétant, même si les parades commencent à apparaître.
Sciences et Avenir : En quoi les deepfakes posent un défi nouveau ?
Vincent Nozick : Il faut préciser que ce genre de manipulation vidéo existe sans deep learning. C’était le cas du projet Face2Face, qui permet de faire dire en temps réel à quelqu’un, un texte que l’on est soi-même en train de prononcer, y compris en lui prêtant ses mouvements de lèvres. C’était déjà très impressionnant.
Pour faire simple, les deepfakes sont des falsifications utilisant un auto-encodeur, il s'agit d'une technique de deep learning de la famille des GAN. Un auto-encodeur, c'est comme deux entonnoirs l'un en face de l'autre : le premier, l'encodeur, compresse la donnée et le second, le décodeur, restitue l'image originale. Dans le cas d'un deepfake, le réseau va prendre le visage d’une source A, et va apprendre à l’encoder. Mais au lieu de le décoder avec le decodeur de A, il va le décoder avec celui d'une cible B, ce qui en pratique va effectuer le transfert de visage avec l'expression faciale et l'illumination adéquate. C’est vraiment une très bonne idée.
Pour quels résultats ?