Gemini 1.5 Pro é lançado em versão prévia e agora compreende áudios

 William Schendes
William Schendes

O Google disponibilizou uma versão prévia do Gemini 1.5 Pro (modelo de IA generativa) e o Imagen 2 (modelo de geração de imagens) em sua plataforma de desenvolvimento de inteligência artificial Vertex AI.

Durante a conferência anual Cloud Next, o Gemini 1.5 Pro será capaz de compreender imagens, vídeos, áudios e, obviamente, textos. O modelo de linguagem multimodal do Google será capaz de analisar o conteúdo de mídia de programas de TV, filmes, transmissões de rádio e gravações de reuniões em diversos idiomas, como explica o TechCrunch.

A IA também poderá gerar transcrições em texto de videoclipes.

Gemini 1.5 Pro agora processa áudios
(Imagem: Divulgação)

Atualmente, o modelo é capaz de processar cerca de um milhão de tokens (parâmetros utilizados por IAs), equivalente a uma hora de vídeo ou 11 horas de áudio. O Gemini 1.5 Pro tem muito mais tokens que o modelo mais avançado da OpenAI, o GPT-4 Turbo, que tem cerca de 128 mil tokens.

Anteriormente, o Google disse que o Pro 1.5, teve um desempenho semelhante ao Gemini 1.0 Ultra, o modelo de IA mais potente da empresa.

No vídeo abaixo, a equipe do Google pede que o modelo interprete um documento de 402 páginas sobre a missão Apollo 11.

Imagen 2 também foi disponibilizado no Vertex AI

Outra novidade apresentada pelo Google foi a adição do Imagen 2, modelo que transforma comandos de textos em imagens, no Vertex AI. A ferramenta foi anunciada pela primeira vez na conferência I/O em maio do ano passado, como um modelo capaz de criar e editar imagens a partir de comandos de textos, da mesma forma que o Dall-E.

Agora que o Imagen 3 está sendo disponibilizado no Vertex AI, a empresa está lançando os recursos de inpainting e outpainting, que permitem remover objetos indesejados de uma imagem ou adicionar novos componentes.

Além disso, o modelo de geração de imagens agora permite criar vídeos curtos de até quatro segundos (GIFs) a 24 quadros por segundo (fps) e resolução de 360 x 640 pixels.

Todas as imagens geradas pelo Imagen 2 utilizarão o SynthID, ferramenta do Google que usa marcas d´água criptográficas (e invisíveis) para identificar imagens produzidas por IA.

Como mencionado, o Imagen 2 e Gemini 1.5 Pro estão sendo lançados inicialmente para a plataforma de desenvolvedores de IA Vertex AI, mas no futuro elas devem ser lançadas para clientes empresariais do Google Workspace.

FIQUE POR DENTRO!

 William Schendes
William Schendes
Jornalista em formação pela Universidade Metodista de São Paulo (UMESP). Escreve sobre tecnologia, games e ciência desde 2022. Tem experiência com hard news, mas também produziu artigos, reportagens, reviews e tutoriais.
recomenda: