Um LLM (grande modelo de linguagem) usado para dados genômicos demonstrou sua capacidade de gerar sequências genéticas que se assemelham muito às variantes do mundo real do SARS-CoV-2, o vírus por trás da COVID-19.
Chamado GenSLMs, o modelo, que no ano passado ganhou o prêmio especial Gordon Bell pela investigação da COVID-19 baseada em computação de alto desempenho, foi treinado em um conjunto de dados de sequências de nucleótidos – os blocos de construção do DNA e do RNA.
Ele foi desenvolvido por pesquisadores do Argonne National Laboratory, da NVIDIA, da Universidade de Chicago e de vários outros colaboradores acadêmicos e comerciais.
Quando os pesquisadores analisaram as sequências geradas pelos GenSLMs, eles descobriram que as características das sequências geradas por IA correspondiam às subvariantes Eris e Pirola do mundo real que prevaleceram este ano – embora a IA só tenha sido treinada em COVID-19 genomas de vírus do primeiro ano da pandemia.
Além de gerar suas próprias sequências, os GenSLMs também podem classificar e agrupar diferentes sequências do genoma da COVID, distinguindo entre variantes.
Em uma demonstração que será lançada em breve no NGC, o centro de software acelerado da NVIDIA, os usuários poderão explorar visualizações da análise dos GenSLMs dos padrões evolutivos de várias proteínas dentro do genoma viral da COVID-19.
Descobrindo padrões evolutivos
Uma característica fundamental dos GenSLMs é sua capacidade de interpretar longas sequências de nucleotídeos – representadas com sequências das letras A, T, G e C no DNA, ou A, U, G e C no RNA – da mesma forma que um LLM treinado em texto em inglês interpretaria uma frase.
Esta capacidade permite ao modelo compreender a relação entre diferentes áreas do genoma, que nos coronavírus consiste em cerca de 30.000 nucleótidos.
Na demonstração, os usuários poderão escolher entre oito variantes diferentes da COVID-19 para entender como o modelo de IA rastreia mutações em várias proteínas do genoma viral. A visualização mostra acoplamentos evolutivos entre as proteínas virais – destacando quais fragmentos do genoma provavelmente serão vistos em uma determinada variante.
O GenSLMs foi treinado em mais de 110 milhões de sequências de genoma e ajustado com um conjunto de dados global de cerca de 1,5 milhão de sequências virais de COVID usando dados de código aberto do Centro de Recursos de Bioinformática Bacteriana e Viral.
No futuro, o modelo poderá ser ajustado nos genomas de outros vírus ou bactérias, permitindo novas aplicações de investigação.
Para treinar o modelo, os pesquisadores usaram supercomputadores NVIDIA A100 Tensor Core alimentados por GPU, incluindo o sistema Polaris da Argonne, o Perlmutter do Departamento de Energia dos EUA e o Selene da NVIDIA.
Veja também:
- Apple TV disponibiliza filmes 3D antes da estreia do Vision Pro
- GTA 6: Rockstar prestes a anunciar o jogo mais esperado da década
- PS5 "Slim": Conheça todas as mudanças (e similaridades) do novo console
- A era dos clássicos de volta! Atari compra estúdio de jogos retrô