Desenvolvimento de um framework para classificação de dados de metangenoma baseada em aprendizagem de máquina

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

28/01/2021 - 30/04/2023

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

FREDERICO SCHMITT KREMER

Área CNPq

Ciências Biológicas

Resumo

O sequenciamento de DNA de nova geração permitiu um aumento expressivo na velocidade para obtenção de grandes volumes de dados genômicos, bem como de outras áreas das ciências ômicas, como transcriptômica e metagenômica. A metagenômica, também chamada “genômica ambiental”, consiste na análise em larga de escala de dados derivados de sequenciamento de DNA de amostras complexas (metagenoma), que muitas vezes apresentam uma grande variedade de microorganismo. Após a obtenção dos dados em um estudo de metagenoma é necessário se atribuir cada sequência identificada à uma determinada unidade taxonômica operacional, que pode ser um gênero, espécie ou mesmo sub-espécie que compartilha um determinado grau de similaridade de sequência . Este processo é denominado binning, e muitas das abordagens utilizam métodos de de alinhamento ou mapeamento de leituras como base, como BLAST, USEARCH ou Diamond, sendo necessária a comparação de cada leitura produzido durante a etapa de sequenciamento contra um banco de dados de sequências de genes, proteínas ou genomas completos, o que torna o processo computacionalmente intensivo. Exemplo de abordagem que utilizam este tipo de metodologia incluem MEGAN e MG-RAST. De modo a reduzir o custo computacional, estratégias que não utilizam alinhamento de sequência (alignment-free) vem sendo desenvolvidas, tanto para o processo de binning quanto para a classificação de amostras completas. Mais recentemente, a utilização de métodos baseados em aprendizagem profunda (deep learning), muitas vezes baseados em redes neurais recorrentes ou com estruturas convolucionais, também bem sendo empregadas em comparações de sequências. A ferramenta Seeker, por exemplo, utilizada a arquitetura de memória de longo-curto prazo (long-short term memory, LSTM), uma variação de RNN, para classificação de leituras de metagenoma de modo a discriminar sequências derivadas de bacteriófagos. Por conta disso, avanços recentes na área de RNN, como as arquiteturas baseadas em “atenção”, cuja performance vem se demonstrando superior ao LSTM para classificação de texto, podem ser também possíveis candidatas no desenvolvimento de novas soluções alignment-free para dados metagenômicos. No contexto da pandemia de COVID19, quando Fongaro et al reportaram a presença de SARS-Cov2, agente etiológico da doença, em águas de esgoto coletadas no estado de Santa Catarina em Novembro de 2019, antes dos primeiros casos da doença serem oficialmente reportados na China, país onde a pandemia se iniciou. O monitoramento de água de esgoto para coronavirus, bem como outros doenças, vem sendo discutido em outros países, como os Estados Unidos, onde o Center for Disease Control (CDC) tem iniciado iniciativas como o National Wastewater Surveillance System (https://www.cdc.gov/coronavirus/2019-ncov/cases-updates/wastewater-surveillance.html). A utilização de técnicas de metagenômica para a análise em larga escala de microorganismos presentes em amostras de esgoto para fins de vigilância epidemiológica vem sendo discutida, sobretudo tendo em vista as possibilidades na detecção de vírus e genes de resistẽncia à antibióticos , possibilitando assim maior agilidade na detecção de surtos.

Objetivo Geral

Desenvolver um framework que permita o treinamento de modelos preditivos capazes de classificar, com uso de aprendizagem de máquina, dados derivados de análise metagenômica de modo a se identificar possíveis contaminações por microorganismos em amostras ambientais. Este framework será composto por duas ferramentas: DIVE (DIVE: In silico Virus Detection from Enviornmental samples), para classificação de amostras de metagenoma (de modo similar o DectICO), e Deep DIVE (Deep learning-based DIVE), para binning de leituras derivadas de análise de metagenoma com uso de aprendizagem profunda (de modo similar ao Seeker mas com maior flexibilidade o treinamento de modelos para novos organismos).

Justificativa

Deste modo, o presente projeto propõe o desenvolvimento de um framework que utilize abordagens alignment-free para classificação de dados derivados de análise metagenômica de modo a se identificar microorganismos de interesse em amostras de metagenoma e microbioma. Tendo em vista a necessidade de se garantir escalabilidade no processamento de múltiplas amostras e ser aplicável em cenários reais, como análise de dados de grandes centros urbanos, o mesmo será desenvolvido com uma arquitetura já nativa para a nuvem (cloud native).

Metodologia

Dados de sequenciamento de metagenoma e microbiomas serão derivados do Sequence Read Archive (SRA) (https://www.ncbi.nlm.nih.gov/sra) com uso da ferramenta SRA-Toolkit (https://github.com/ncbi/sra-tools) em formato FASTQ. Dados de genomas completos de vírus e bactérias serão derivados do GenBank em formato FASTA (https://www.ncbi.nlm.nih.gov/genbank/).

Dois cenários de teste serão utilizados para avaliar as metodologias propostas: detecção de coronavirus a partir de dados de viroma de esgoto e detecção de microorganismos deteriorantes a partir de análise de microbioma de amostras de frigoríficos.

Para treinamento e validação do Deep DIVE os datasets em formato FASTQ produzidos anteriormente serão convertidos para formato tabular (CSV), sendo adicionado um rótulo (label) para indicar se a leitura é derivada do organismo de interesse (1) ou não (0).

Diferentes abordagens de normalização (ex: zscore) e scalling (ex: min-max) dos dados serão avaliados. Nesta etapa, serão também testadas estratégias para redução da dimensionalidade no conjunto de dados, como PCA, espectral embedding, t-SNE e UMAP, e seleção de features, como o Boruta.

Modelos de aprendizagem de máquina serão implementados utilizando as bibliotecas sklearn, xgboost e nbgoost. Os hiper-parâmetros dos modelos serão selecionados ajustados utilizando a metodologia de busca em grade (grid search) com validação cruzada (cross-validation), dentre outras estratégias de otimização disponíveis na biblioteca sklearn-optimize.

Diferentes arquiteturas para redes neurais profundas serão testadas para a realização do processo de binning utilizando o framework Keras.

Os resultados dos modelos preditivos produzidos após a validação passarão por uma explicação local com uso da ferramenta SHAP
Os resultados produzidos pelos modelos preditivos derivados do framework serão comparados com os obtidos com as ferramentas MEGAN, Kraken, MG-RAST, dentre outras para análise de viromas.

Indicadores, Metas e Resultados

Resultados Esperados

- Validação de metodologias de aprendizagem de máquina aplicável na classificação de dados de metagenoma, tanto no nível de amostra quando de leitura (binning), com maior capacidade de detecção e performance que os métodos atualmente descritos.
- Disponibilização destas metodologias desenvolvidas em um framework capaz de ser provisionado de forma escalável na nuvem.

Impacto Esperado

- Disponibilização de uma ferramenta (software) e metodologia para classificação de dados de metagenoma com aplicações em pesquisa básica, aplicada e potencial exploração comercial pelo setor produtivo.
- O software e a metodologia serão descritos, após proteção de propriedade intelectual, em artigos as serem publicados em revistas científicas de relevância na área de bioinformática.
- Proteção da propriedade intelectual através do registro de programa de computador para o framework a ser desenvolvido e proteção através de patente de metodologias que apliquem este software em análise de dados ambientais para detecção de patógenos, genes de resistência a antibióticos, bem como outras abordagens com relevância para biotecnologia.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ALESSANDRA NEIS
AMANDA MUNARI GUIMARÃES
FREDERICO SCHMITT KREMER	2
GIULI ARGOU MARQUES
LUCIANO DA SILVA PINTO	1
LUIZ FERNANDO VALTER DE OLIVEIRA
RAFAEL DOS SANTOS WOLOSKI
RAFAEL DOS SANTOS WOLOSKI
RAFAEL RODRIGUES DE OLIVEIRA
WELLINGTON PINE OMORI

Fontes Financiadoras

Sigla / Nome	Valor	Administrador
NEOPROSPECTA S.A. / NEOPROSPECTA S.A.	R$ 15.000,00	Coordenador

Plano de Aplicação de Despesas

Descrição	Valor
449052 - Equipamentos e Material Permanente	R$ 15.000,00