No mês passado, a jornalista Joanna Stern, do Wall Street Journal, resolveu testar até onde conseguiria enganar as pessoas com um clone virtual de sua voz e imagem, criado por sistemas de Inteligência Artificial (IA). Não teve muito sucesso com o vídeo, então usou a voz clonada em uma ligação para o pai, na qual pediu um documento sensível e foi prontamente atendida.
O pai do influenciador digital Dario Centurione, da página Almanaque SOS, também acreditou na voz clonada do filho. A diferença é que a ligação não se tratava apenas de brincadeira, mas de um golpe.
— Meu pai recebeu uma ligação onde uma pessoa, que ele acreditava ser eu, pedia R$ 600. Por conta da voz ser muito parecida, o meu pai nem se preocupou em perguntar o básico. A pessoa pediu a transferência para uma conta que não estava no meu nome, mas ele nem ligou porque a voz era minha — contou Centurione.
@almanaquesos Cuidado com o golpe que imita voz (Inteligência Artificial), crie agora uma PALAVRA CHAVE #AprendaNoTikTok #EuTeEnsino AgoraVoceSabe
A compatibilidade da voz clonada era tão parecida com a voz natural do influenciador que o seu pai não percebeu qualquer diferença, mesmo sendo músico e especialista em som. Entrando em um aplicativo, Centurione conseguiu facilmente criar uma cópia da sua própria voz e decidiu repetir o experimento da jornalista do Wall Street Journal.
Fui checar se eu enganava alguém e não só consegui enganar o meu pai de novo, como a minha mãe, que é superdesconfiada. O meu irmão mais novo percebeu que a voz não era minha. É um golpe que vai se sofisticar, em breve as ferramentas devem ser mais rápidas e eficientes, o que pode tornar as pessoas idosas vítimas com mais frequência. Os mais jovens, até por conhecimento do potencial da tecnologia, estão mais atentos.
Para evitar cair no golpe, veja as dicas de especialistas
-Fique atento à veracidade das informações: antes de agir com base em uma chamada telefônica, mensagem ou vídeo, verifique as informações em outras fontes. Por exemplo, chamar de volta, confirmar por e-mail ou checar com outras pessoas que possam garantir a autenticidade.
-Proteja seus dados: minimize a quantidade de informações pessoais que você compartilha online. Ao fornecer menos dados, você diminui o material disponível para os criminosos cibernéticos que desejam criar deepfakes ou imitarem sua voz.
-Eduque-se sobre a tecnologia: conhecer o funcionamento dessas tecnologias e estar ciente das últimas tendências e táticas de fraude pode ajudá-lo a se proteger melhor.
-Verifique a conta bancária: sempre confira os destinatários ao enviar dinheiro para um familia
Clones de voz gerados em poucos dias
Ferramentas como a VALL-E, da Microsoft, conseguem criar áudios longos com apenas três segundos de fala como referência. A tecnologia é capaz de sintetizar uma gravação de voz de alguém e transformar esse arquivo em outro, mantendo as características originais, como o tom da fala.
O novo software foi disponibilizado no último dia 20 de maio para quem tiver interesse, e será cobrada uma taxa para utilização. A empresa Synthesia oferece o mesmo serviço. É possível gravar um vídeo de 15 minutos e mandar para a ferramenta. Com base nesse vídeo, será criado um clone virtual em apenas alguns dias. O custo anual para uso é de US$ 1.000, mais uma assinatura mensal de US$ 30.
Segundo Lucas Cabral, analista de IA da Play9, ferramentas que criam áudios falsos sempre precisam de um “input” do usuário, ou seja, do envio de um áudio ou vídeo que será usado como base para a criação da cópia.
Então, se você quer que o Darth Vader leia um texto personalizado, é mais fácil do que se a pretensão for copiar a voz de alguém que não seja uma pessoa pública. Influenciadores, artistas e apresentadores — como Centurione — contam com horas e horas de falas publicadas na internet, então, são mais vulneráveis à criação dos clones de voz.
Pessoas públicas mais vulneráveis
A tecnologia é a mesma usada em aplicativos de localização, por exemplo, em que você ouve personalidades como Silvio Santos indicando o caminho. É difícil imaginar que o apresentador tenha se gravado dizendo “vire à direita”, explica Cabral, mas há grandes bancos de vídeos em que ele aparece falando.
Em resumo, você captura uma voz, coloca na ferramenta e ela identifica padrões para criar uma modificação. Realmente fica muito parecido com a original. Você pode escrever algo e a ferramenta reproduz o texto em áudio com base em uma referência já enviada, ou a ferramenta pode gerar um áudio simultaneamente, em que você fala e ela vai alterando com base em uma referência — explicou o especialista.
Essas tantas possibilidades maximizam as chances de golpes envolvendo informações pessoais. Pedro Diógenes, diretor técnico LATAM na empresa de segurança da informação CLM, conta que antigamente era necessário ter uma grande quantidade de dados para treinar os algoritmos, com horas e horas de áudio das pessoas chorando, gritando e falando palavras diferentes.
Agora, com pouquíssimos dados, é possível reproduzir fielmente a voz de alguém, imitando sotaque, choro e entonação.
— O golpista te estuda antes de dar o golpe, então, imagine-o com a voz da sua filha. As pessoas terão que se educar (para evitar cair no golpe), combinando senhas que só elas sabem para esses casos. A estratégia é fazer perguntas.
O advogado Matheus Puppe, sócio da área de TMT, Privacidade e Proteção de Dados do Maneira Advogados, explica que esse tipo de ferramenta abre margens para golpes ainda maiores.
A personificação de vozes já foi usada para cometer fraudes financeiras, levando indivíduos e empresas a realizarem transações com base em instruções dadas por um telefonema falso, porém convincente.
— Por isso a necessidade de uma legislação robusta e uma regulamentação sensível ao tema que possa equilibrar os avanços tecnológicos com a segurança e a privacidade necessárias. Precisamos de mecanismos de responsabilização mais efetivos para combater o uso indevido dessas tecnologias e, simultaneamente, promover a conscientização e a educação digital — disse o especialista.