A nova ferramenta de IA do Google usa prompts de imagem em vez de texto

1 ano atrás

Por CNN

A mais nova ferramenta de inteligência artificial do Google, “Whisk”, permite que as pessoas carreguem fotos para obter uma imagem combinada gerada por IA, mesmo sem que os usuários insiram qualquer texto para explicar o que desejam.

Os usuários podem inserir imagens que representem assuntos, cenários e estilos antes que o Whisk combine tudo em uma imagem.

O Whisk é uma “ferramenta criativa” para inspiração rápida, disse o Google em uma postagem de blog , em oposição a um “editor de imagens tradicional”. Em essência, o Whisk foi concebido como um recurso divertido de IA, em vez de algo que deveria ser um trabalho profissional refinado.

. Dan Kitwood/Getty Images

Grandes empresas de tecnologia, como Google e OpenAI, estão correndo para lançar produtos de consumo que possam demonstrar usos para essa nova tecnologia, mesmo com os pessimistas alertando que a falta de proteções em torno do desenvolvimento da IA representa perigos para a humanidade.

Desde que a OpenAI lançou inicialmente sua ferramenta de criação de texto para imagem, Dall-E, em 2021, o conceito de arte gerada por IA inundou as mídias sociais e se tornou um foco de produtos de consumo. O Whisk do Google é um gerador de imagem para imagem, baseado no conceito popular de geradores de texto para imagem.

Pessoas que usam o Whisk podem “remixar” a imagem final editando suas entradas e misturando as categorias para produzir imagens diferentes, como um brinquedo de pelúcia, um broche de esmalte ou um adesivo. Usuários podem adicionar texto se quiserem direcionar certos detalhes, mas não é necessário criar uma imagem.

“O Whisk foi projetado para permitir que os usuários remixem um assunto, cena e estilo de maneiras novas e criativas, oferecendo uma exploração visual rápida em vez de edições perfeitas em pixels”, disse Thomas Iljic, diretor de gerenciamento de produtos do Google Labs, em um comunicado.

O Whisk do Google é baseado na IA generativa desenvolvida pela DeepMind, o laboratório de IA que o Google adquiriu em 2014.

O Whisk funciona usando a principal oferta de IA do Google, o Gemini, que estreou em dezembro de 2023, e combinando-o com o Imagen 3, o mais recente gerador de texto para imagem lançado pela DeepMind em dezembro.

Quando os usuários carregam suas imagens, o Gemini gera uma legenda que é alimentada no Imagen 3. O processo captura a “essência” do assunto em oposição a uma réplica exata, o que permite remixar a imagem final, mas também significa que o produto final pode se desviar do prompt.

Por exemplo, a imagem gerada pode ter altura, penteado ou tom de pele diferentes das imagens do prompt, disse o Google em uma postagem de blog .

Quando o Google lançou o criador de texto para imagem do Gemini em fevereiro, a empresa enfrentou uma reação inicial porque a ferramenta produzia imagens historicamente imprecisas.

O Whisk está disponível inicialmente como um site no Google Labs para usuários nos EUA e está em estágios iniciais de desenvolvimento, disse a empresa.

A OpenAI também lançou recentemente um gerador de texto para vídeo chamado Sora, destacando a concorrência de produtos de consumo.

Dan Ives, diretor administrativo e analista sênior de ações da Wedbush Securities, disse à CNN que a Whisk é outro “momento de demonstração de força” para o Google na corrida de IA e tecnologia.

“O DeepMind é um recurso essencial para o Google”, disse Ives, observando que os produtos de IA fazem parte do “baú de tesouros” do Google de novos produtos para 2025, que também inclui um novo sistema operacional Android desenvolvido em colaboração com a Samsung e a Qualcomm.