Vídeos de deepfake estão ficando inacreditavelmente bons; entenda

Notícias falsas são péssimas e, como aqueles vídeos misteriosamente precisos de um Barack Obama com sincronia labial mostraram no ano passado, logo vão ficar muito piores. Como mostra um sistema de manipulação de vídeo recentemente revelado, vídeos falsos super-realistas estão melhorando mais rápido do que achávamos ser possível.

A conferência de design e computação gráfica SIGGRAPH 2018 está programada para os dias 12 a 16 de agosto em Vancouver, na Colúmbia Britânica, mas já temos uma ideia das tecnologias de cair o queixo que devem ser exibidas no evento.

Um desses sistemas, chamado de Deep Video Portraits, mostra o quão drasticamente os vídeos deepfake estão melhorando. O vídeo manipulado de Obama do ano passado, desenvolvido na Universidade de Washington, era bem legal, mas só envolvia expressões faciais e parecia obviamente uma imitação. O exercício serviu como uma importante prova de conceito, mostrando o potencial assustador dos deepfakes — vídeos falsos altamente realistas, gerados por computador. Bem, esse futuro, como mostra a nova tecnologia Deep Video Portraits, está chegando aqui muito rápido.

O novo sistema foi desenvolvido por Michael Zollhöfer, professor assistente visitante da Universidade de Stanford, e seus colegas da Universidade Técnica de Munique, da Universidade de Bath, Technicolor e outras instituições. A nova abordagem da Zollhöfer utiliza vídeo de entrada para criar animações fotorrealistas de vídeos de retrato. Esses vídeos de entrada são criados por um ator fonte, cujos dados são usados para manipular o vídeo de retrato de um ator alvo. Assim, por exemplo, qualquer um pode atuar como o ator de origem e ter suas expressões faciais transferidas para o vídeo de, digamos, Barack Obama ou Vladimir Putin.

O novo sistema permite “controle total sobre o alvo, transferindo a pose de cabeça rígida, expressão facial e movimento dos olhos com um alto nível de fotorrealismo”. Aqui, um ator fonte (a entrada) é usado para manipular um vídeo retrato de um ator alvo (a saída). Imagem: H. Kim et al., 2018

Mas o sistema é mais do que apenas expressões faciais. A nova técnica permite uma série de movimentos, incluindo posições completas de cabeça em 3D, rotação da cabeça, contemplação e piscar dos olhos. O novo sistema usa inteligência artificial na forma de redes neurais generativas para fazer o truque, pegando dados dos modelos de sinal e calculando, ou prevendo, os quadros fotorrealistas para o ator alvo. Impressionantemente, os animadores não precisam alterar os gráficos para os pelos corporais existentes, o corpo do ator alvo ou o plano de fundo.

Algoritmos secundários são usados para corrigir falhas e outros artefatos, dando aos vídeos uma aparência moderna e super-realista. Eles não são perfeitos, mas, ainda assim, são impressionantes. O artigo descrevendo a tecnologia, além de ser aceito para apresentação na SIGGRAPH 2018, foi publicado na revista científica revisada por pares ACM Transactions on Graphics.

A Deep Video Portraits agora apresenta uma maneira altamente eficaz de se fazer animação por computador e conseguir movimentos fotorrealistas de performances de atuação pré-existentes. O sistema, por exemplo, poderia ser usado em dublagem de áudio ao criar versões de filmes em outros idiomas. Então, se um filme é filmado em inglês, essa tecnologia poderia ser usada para alterar os movimentos dos lábios para combinar com o áudio dublado em português ou espanhol, por exemplo.

Infelizmente, esse sistema provavelmente será utilizado maliciosamente — um problema que não foi ignorado pelos pesquisadores.

“Por exemplo, a combinação de síntese fotorreal de imagens faciais com um imitador de voz ou um sistema de síntese de voz permitiria a geração de conteúdo de vídeo inventado que poderia potencialmente ser usado para difamar pessoas ou difundir as chamadas ‘fake news’, escreve Zollhöfer em seu blog da Stanford. “Atualmente, os vídeos modificados ainda exibem muitos artefatos, o que torna a maioria das falsificações fácil de detectar. É difícil prever em que momento esses vídeos ‘falsos’ serão indistinguíveis do conteúdo real para nossos olhos humanos.”

Infelizmente, a tecnologia deepfake já está sendo usada na pornografia, com os primeiros esforços para reduzir ou eliminar esses vídeos invasivos provando ser, em grande parte, inúteis. Mas para o crescente mundo das notícias falsas, existem algumas soluções possíveis, como os algoritmos de marca d’água. No futuro, a IA poderia ser usada para detectar falsificações, farejando padrões invisíveis ao olho humano. Em última análise, porém, cabe a nós discernir os fatos da ficção.

“Na minha opinião, o mais importante é que o público em geral deve estar ciente das capacidades da tecnologia moderna para a geração e a edição de vídeo”, escreve Zollhöfer. “Isso permitirá que eles pensem mais criticamente sobre o conteúdo de vídeo que consomem todos os dias, especialmente se não houver prova de origem.”