Gemini 1.5 Pro é lançado em versão prévia e agora compreende áudios

William Schendes

9 abril 2024, 12:04

O Google disponibilizou uma versão prévia do Gemini 1.5 Pro (modelo de IA generativa) e o Imagen 2 (modelo de geração de imagens) em sua plataforma de desenvolvimento de inteligência artificial Vertex AI.

Durante a conferência anual Cloud Next, o Gemini 1.5 Pro será capaz de compreender imagens, vídeos, áudios e, obviamente, textos. O modelo de linguagem multimodal do Google será capaz de analisar o conteúdo de mídia de programas de TV, filmes, transmissões de rádio e gravações de reuniões em diversos idiomas, como explica o TechCrunch.

A IA também poderá gerar transcrições em texto de videoclipes.

(Imagem: Divulgação)

Atualmente, o modelo é capaz de processar cerca de um milhão de tokens (parâmetros utilizados por IAs), equivalente a uma hora de vídeo ou 11 horas de áudio. O Gemini 1.5 Pro tem muito mais tokens que o modelo mais avançado da OpenAI, o GPT-4 Turbo, que tem cerca de 128 mil tokens.

Anteriormente, o Google disse que o Pro 1.5, teve um desempenho semelhante ao Gemini 1.0 Ultra, o modelo de IA mais potente da empresa.

No vídeo abaixo, a equipe do Google pede que o modelo interprete um documento de 402 páginas sobre a missão Apollo 11.

Imagen 2 também foi disponibilizado no Vertex AI

Outra novidade apresentada pelo Google foi a adição do Imagen 2, modelo que transforma comandos de textos em imagens, no Vertex AI. A ferramenta foi anunciada pela primeira vez na conferência I/O em maio do ano passado, como um modelo capaz de criar e editar imagens a partir de comandos de textos, da mesma forma que o Dall-E.

Agora que o Imagen 3 está sendo disponibilizado no Vertex AI, a empresa está lançando os recursos de inpainting e outpainting, que permitem remover objetos indesejados de uma imagem ou adicionar novos componentes.

Além disso, o modelo de geração de imagens agora permite criar vídeos curtos de até quatro segundos (GIFs) a 24 quadros por segundo (fps) e resolução de 360 x 640 pixels.

Todas as imagens geradas pelo Imagen 2 utilizarão o SynthID, ferramenta do Google que usa marcas d´água criptográficas (e invisíveis) para identificar imagens produzidas por IA.

Como mencionado, o Imagen 2 e Gemini 1.5 Pro estão sendo lançados inicialmente para a plataforma de desenvolvedores de IA Vertex AI, mas no futuro elas devem ser lançadas para clientes empresariais do Google Workspace.

FIQUE POR DENTRO!

Gemini AI nativo no Android? Google deverá atualizar aplicativo
Apple investirá US$ 50 milhões no Shutterstock para treinamento de IA
O Circle to Search do Google agora tem tradução instantânea de idiomas

William Schendes

Jornalista e redator de conteúdo. Cobre tecnologia, games e cibersegurança desde 2022. No TechShake, acompanha e escreve sobre notícias do mundo tech, mas também produz reportagens, reviews, artigos especiais e tutoriais. Tem uma sugestão de pauta ou release? Mande para williamschendesps@outlook.com

TECHSHAKE recomenda: