IA generativa prevê características de variantes da COVID-19

Adriano Camargo
Adriano Camargo

Um LLM (grande modelo de linguagem) usado para dados genômicos demonstrou sua capacidade de gerar sequências genéticas que se assemelham muito às variantes do mundo real do SARS-CoV-2, o vírus por trás da COVID-19.

Chamado GenSLMs, o modelo, que no ano passado ganhou o prêmio especial Gordon Bell pela investigação da COVID-19 baseada em computação de alto desempenho, foi treinado em um conjunto de dados de sequências de nucleótidos – os blocos de construção do DNA e do RNA.

Ele foi desenvolvido por pesquisadores do Argonne National Laboratory, da NVIDIA, da Universidade de Chicago e de vários outros colaboradores acadêmicos e comerciais.

Pesquisa genética avança com o uso de IA (Imagem: freepik)

Quando os pesquisadores analisaram as sequências geradas pelos GenSLMs, eles descobriram que as características das sequências geradas por IA correspondiam às subvariantes Eris e Pirola do mundo real que prevaleceram este ano – embora a IA só tenha sido treinada em COVID-19 genomas de vírus do primeiro ano da pandemia.

Além de gerar suas próprias sequências, os GenSLMs também podem classificar e agrupar diferentes sequências do genoma da COVID, distinguindo entre variantes.

Em uma demonstração que será lançada em breve no NGC, o centro de software acelerado da NVIDIA, os usuários poderão explorar visualizações da análise dos GenSLMs dos padrões evolutivos de várias proteínas dentro do genoma viral da COVID-19.

Descobrindo padrões evolutivos

Uma característica fundamental dos GenSLMs é sua capacidade de interpretar longas sequências de nucleotídeos – representadas com sequências das letras A, T, G e C no DNA, ou A, U, G e C no RNA – da mesma forma que um LLM treinado em texto em inglês interpretaria uma frase.

Esta capacidade permite ao modelo compreender a relação entre diferentes áreas do genoma, que nos coronavírus consiste em cerca de 30.000 nucleótidos.

Na demonstração, os usuários poderão escolher entre oito variantes diferentes da COVID-19 para entender como o modelo de IA rastreia mutações em várias proteínas do genoma viral. A visualização mostra acoplamentos evolutivos entre as proteínas virais – destacando quais fragmentos do genoma provavelmente serão vistos em uma determinada variante.

O GenSLMs foi treinado em mais de 110 milhões de sequências de genoma e ajustado com um conjunto de dados global de cerca de 1,5 milhão de sequências virais de COVID usando dados de código aberto do Centro de Recursos de Bioinformática Bacteriana e Viral.

No futuro, o modelo poderá ser ajustado nos genomas de outros vírus ou bactérias, permitindo novas aplicações de investigação.

Para treinar o modelo, os pesquisadores usaram supercomputadores NVIDIA A100 Tensor Core alimentados por GPU, incluindo o sistema Polaris da Argonne, o Perlmutter do Departamento de Energia dos EUA e o Selene da NVIDIA.

Veja também:

  • Apple TV disponibiliza filmes 3D antes da estreia do Vision Pro
  • GTA 6: Rockstar prestes a anunciar o jogo mais esperado da década
  • PS5 "Slim": Conheça todas as mudanças (e similaridades) do novo console
  • A era dos clássicos de volta! Atari compra estúdio de jogos retrô
Adriano Camargo
Adriano Camargo
Jornalista especializado em tecnologia há cerca de 20 anos, escreve textos, matérias, artigos, colunas e reviews e tem experiência na cobertura de alguns dos maiores eventos de tech do mundo, como BGS, CES, Computex, E3 e IFA.
recomenda: