Imagine o pior cenário possível. Cineastas maliciosos utilizam computadores com inteligência artificial, alimentam-nos com áudio bruto e então criam uma versão simulada de Barack Obama. O áudio é a voz real de Obama, e o rosto é realmente o rosto dele. E o movimento labial? Totalmente falso. Os cineastas publicam o vídeo na internet, e é praticamente impossível ver que se trata de algo falso, porque a tecnologia é muito boa. Essa não é uma situação hipotética daqui pra frente.
Pesquisadores da Universidade de Washington desenvolveram um método que utiliza aprendizado de máquina para estudar os movimentos faciais de Obama e então renderizaram um movimento que parece real para qualquer trecho de áudio. Isso significa que eles conseguem fazer vídeos de Obama falando praticamente o que eles quiserem, em qualquer configuração que desejarem. O efeito funciona muito bem quando eles utilizam um áudio aleatório da voz de Obama – digamos, uma gravação antiga de Obama de quando era estudante de direito – e faz parecer que Obama disse essas coisas ontem.
Esse novo desenvolvimento é apoiado em um corpo crescente de pesquisas que buscam criar vídeos realísticos de pessoas falando sem que precisem, de fato, gravá-las com uma câmera de vídeo. No passado, um efeito similar de sincronização labial foi conseguido ao gravar diversas pessoas falando a mesma sentença diversas vezes para capturar os movimentos específicos da boca necessários para fazer cada som. O time da Universidade de Washington aperfeiçoou esse processo, no entanto, ao alimentar uma rede neural com grandes quantidades de cenas mostrando uma pessoa (Obama) falando, então utilizando algoritmos para determinarem as diferenças no movimento da boca. Eles escolheram Obama porque existiam muitas horas do ex-presidente dos Estados Unidos falando em vídeo no domínio público.
O problema da sincronização labial é bem desafiador, dizem os pesquisadores, porque os humanos são incrivelmente bons em perceber pequenas imprecisões visuais na fala. “Se você não renderiza o dente corretamente ou deixa os movimentos do queixo no tempo errado, as pessoas conseguem perceber de cara, e isso fará com que o vídeo pareça falso”, disse o autor líder da pesquisa, Supasorn Suwajanakorn, em um comunicado. “Então você precisa renderizar a região da boca perfeitamente para ultrapassar essas barreiras.”
Para a demonstração final, os pesquisadores utilizaram áudios de anos atrás de Obama falando em um talk show e para uma equipe de notícias em Harvard e então criaram um novo vídeo do ex-presidente na Sala Oval, recitando essas mesmas frases. Não é perfeito, mas chega muito perto.
O novo avanço se baseia no trabalho anterior da mesma equipe de pesquisa da Universidade de Washington, que envolvia o treinamento de computadores para o reconhecimento de determinadas pessoas, como Tom Hanks. Ao identificar quais características determinam um rosto particular e suas expressões únicas, o time desenvolveu um método que lhes permitiria criar renderização 3D animada de uma face específica utilizando uma foto ou um pequeno clipe de vídeo. A partir daí, eles poderiam efetivamente transformar simulações em marionetes. Eles fizeram inclusive um Barack Obama simulado, com um discurso de George W. Bush.
Existem outros times trabalhando em problemas similares a esse ao redor do mundo. E quer saber de uma coisa? Todos eles estão ficando muito bons em criar vídeos falsos que se parecem incrivelmente reais, mesmo com equipamentos de baixo custo. No ano passado, por exemplo, uma equipe da Stanford criou um método de reencenação facial que poderia ser realizado com qualquer webcam barata disponível no mercado. É incrivelmente bizarro.
Embora você consiga imaginar as implicações conspiracionais de uma tecnologia como essa, as aplicações práticas são muito mais mundanas. Por exemplo, os pesquisadores acham que esse tipo de tecnologia poderia tornar o chat por vídeo melhor, uma vez que o computador poderia gerar uma imagem da sua fala se a transmissão estivesse cortando. De forma alternativa, museus e parques temáticos poderiam utilizar gravações antigas de figuras históricas para criar vídeos ou hologramas os mostrando dando discursos famosos, utilizando o verdadeiro áudio desses eventos.
Mas, ainda assim, a capacidade de utilizar tecnologia de fácil acesso para criar imagens e vídeos falsos está crescendo a cada dia. Na semana passada, o pesquisador de segurança Greg Allen publicou uma espécie de lembrete na Wired: “A inteligência artificial consegue forjar qualquer coisa com muita facilidade” (em tradução livre). Allen escreve:
Combinada, a trajetória de falsificações de mídias que são baratas de produzir e de alta qualidade é preocupante. No atual ritmo de progresso, talvez leve menos do que dois ou três anos antes que falsificações realistas de áudio sejam boas o bastante para enganar um ouvido não treinado, e apenas cinco ou dez antes antes que as falsificações consigam enganar pelo menos alguns tipos de perícias. Quando as ferramentas para produzir vídeos falsos atingirem performance com maior qualidade do que a computação gráfica atual e estiverem simultaneamente disponíveis para amadores não treinados, essas falsificações podem comprometer uma grande parte do ecossistema de informação. O crescimento nessa tecnologia transformará o significado de evidência e verdade em domínios como o jornalismo, comunicação governamental, testemunhas na justiça criminal e, é claro, segurança nacional.
Como mostra a pesquisa dessa semana, a velocidade desse progresso está aumentando rapidamente. A boa notícia é que uma tecnologia como essa sendo desenvolvida pela Universidade de Washington talvez também seja utilizada para identificar falsificações de mídia. A má notícia é que, bem, Allen sintetiza as más notícias muito bem quando ele diz que essa tecnologia “transformará o significado de evidência e verdade”. Se você pensou que sites de notícias falsas eram um problema, apenas imagine o que uma cena de vídeo falsa da polícia poderia fazer.