O Google disponibilizou uma versão prévia do Gemini 1.5 Pro (modelo de IA generativa) e o Imagen 2 (modelo de geração de imagens) em sua plataforma de desenvolvimento de inteligência artificial Vertex AI.
Durante a conferência anual Cloud Next, o Gemini 1.5 Pro será capaz de compreender imagens, vídeos, áudios e, obviamente, textos. O modelo de linguagem multimodal do Google será capaz de analisar o conteúdo de mídia de programas de TV, filmes, transmissões de rádio e gravações de reuniões em diversos idiomas, como explica o TechCrunch.
A IA também poderá gerar transcrições em texto de videoclipes.
Atualmente, o modelo é capaz de processar cerca de um milhão de tokens (parâmetros utilizados por IAs), equivalente a uma hora de vídeo ou 11 horas de áudio. O Gemini 1.5 Pro tem muito mais tokens que o modelo mais avançado da OpenAI, o GPT-4 Turbo, que tem cerca de 128 mil tokens.
Anteriormente, o Google disse que o Pro 1.5, teve um desempenho semelhante ao Gemini 1.0 Ultra, o modelo de IA mais potente da empresa.
No vídeo abaixo, a equipe do Google pede que o modelo interprete um documento de 402 páginas sobre a missão Apollo 11.
Imagen 2 também foi disponibilizado no Vertex AI
Outra novidade apresentada pelo Google foi a adição do Imagen 2, modelo que transforma comandos de textos em imagens, no Vertex AI. A ferramenta foi anunciada pela primeira vez na conferência I/O em maio do ano passado, como um modelo capaz de criar e editar imagens a partir de comandos de textos, da mesma forma que o Dall-E.
Agora que o Imagen 3 está sendo disponibilizado no Vertex AI, a empresa está lançando os recursos de inpainting e outpainting, que permitem remover objetos indesejados de uma imagem ou adicionar novos componentes.
Além disso, o modelo de geração de imagens agora permite criar vídeos curtos de até quatro segundos (GIFs) a 24 quadros por segundo (fps) e resolução de 360 x 640 pixels.
Todas as imagens geradas pelo Imagen 2 utilizarão o SynthID, ferramenta do Google que usa marcas d´água criptográficas (e invisíveis) para identificar imagens produzidas por IA.
Como mencionado, o Imagen 2 e Gemini 1.5 Pro estão sendo lançados inicialmente para a plataforma de desenvolvedores de IA Vertex AI, mas no futuro elas devem ser lançadas para clientes empresariais do Google Workspace.
FIQUE POR DENTRO!
-
Gemini AI nativo no Android? Google deverá atualizar aplicativo
-
Apple investirá US$ 50 milhões no Shutterstock para treinamento de IA
-
O Circle to Search do Google agora tem tradução instantânea de idiomas