Nome do Projeto
Desenvolvimento de uma pipeline de bioinformática para patologia molecular baseada em Oxford Nanopore
Ênfase
Pesquisa
Data inicial - Data final
12/02/2024 - 31/12/2025
Unidade de Origem
Coordenador Atual
Área CNPq
Multidisciplinar
Resumo
O surgimento do sequenciamento de nova geração (Next Generation Sequencing, NGS) tem impulsionado avanços significativos nos campos da medicina e biotecnologia, proporcionando insights não apenas para a pesquisa, mas também para o diagnóstico preciso de doenças com base em suas fundamentações moleculares. Essas inovadoras tecnologias permitem a identificação das sequências de bases presentes em fragmentos de DNA/RNA, demandando, posteriormente, uma abordagem eficaz para processar esses dados e detetar eventuais variações genéticas. Uma dessas notáveis tecnologias é o sequenciamento Oxford Nanopore, notório por suas vantagens como o tamanho dos fragmentos sequenciados, redução de custos em equipamentos e flexibilidade em aplicações até então inviáveis quando comparadas às plataformas antecessoras, como Illumina e Ion Torrent. No entanto, o uso de ferramentas de bioinformática nesse contexto muitas vezes requer adaptações, exigindo o desenvolvimento de software especializado para extrair as informações pertinentes, de modo que profissionais da área da saúde possam compreender devidamente os resultados dessas análises. Além disso, a combinação de diversas ferramentas de análise em um fluxo contínuo (pipeline) frequentemente é necessária, o que reforça a necessidade de automatização desse processo para a aplicação dessas análises em ambientes clínicos.
Este projeto tem como objetivo central a criação de uma pipeline dedicada à análise de dados provenientes do sequenciamento de DNA realizado com a tecnologia Oxford Nanopore. Paralelamente, será desenvolvida uma interface intuitiva que facilite a execução dessas análises, visando simplificar a interpretação dos resultados por laboratórios de análises clínicas. Com isso, busca-se atender à crescente demanda por abordagens práticas e acessíveis no contexto clínico, permitindo que os profissionais da saúde obtenham informações relevantes de maneira mais eficaz e eficiente.
Objetivo Geral
Desenvolver e otimizar uma abordagem integrada para análise abrangente de dados multidimensionais de patologia molecular, utilizando tecnologias de sequenciamento de terceira geração e dados de plataforma Oxford Nanopore, visando a identificação precisa de variantes, anotação, visualização e geração automatizada de laudos, além da detecção de anomalias em informações relevantes para a patologia molecular.
Justificativa
Apesar da disponibilidade de tecnologias de sequenciamento de DNA capazes de produzir um grande volume de dados, o processamento destas ainda não é trivial, sobretudo no contexto clínico. A partir do projeto proposto, novas ferramentas para análise de dados de sequenciamento de DNA serão desenvolvidas, permitindo assim a aplicação destas tecnologias posteriormente por empresas que atuam na área de diagnóstico e patologia molecular.
Metodologia
Revisão de Literatura e bibliotecas de código aberto
Será realizada uma revisão contínua da literatura em fontes como PubMed ScienceDirect e Scopus e das bibliotecas de código aberto disponíveis nos repositórios PyPI, Bioconductor, CRAN e no repositório GitHub para identificar ferramentas e algoritmos para:
- identificar ferramentas para anotação, visualização e análise de efeito de mutação identificadas em arquivos VCF, bem como bancos de dados relacionados à patologia molecular.
- identificar ferramentas para controle de qualidade, pré-processamento, mapeamento de leituras e análise de variantes de dados de Oxford Nanopore;
- análise de anomalias em dados de sequenciamento de nova geração combinados a meta-dados clínicos do paciente;
Implementação
Após a revisão, a ferramenta será desenvolvida em linguagem de programação Python e utilizará das bibliotecas BioPython, PySAM e PyVCF para manipulação dos dados de sequencias, alinhamentos e variantes genéticas, respectivamente. Além das ferramentas encontradas na busca de literatura, a ferramenta VEP (Variant Effect Predictor) será avaliada, bem como bibliotecas de análise visual para geração de gráficos como o OncoPlot. A ferramenta será desenvolvida de modo a rodar em ambiente Linux e em containers Docker, utilizando o conda como gerenciador de dependências.
Teste da ferramenta
A ferramenta será avaliada com conjuntos de dados disponíveis no banco de dados SRA (Short Read Archive) do NCBI, a partir de estudos derivados na literatura, bem como com dados fornecidos pela empresa iNova.
Será realizada uma revisão contínua da literatura em fontes como PubMed ScienceDirect e Scopus e das bibliotecas de código aberto disponíveis nos repositórios PyPI, Bioconductor, CRAN e no repositório GitHub para identificar ferramentas e algoritmos para:
- identificar ferramentas para anotação, visualização e análise de efeito de mutação identificadas em arquivos VCF, bem como bancos de dados relacionados à patologia molecular.
- identificar ferramentas para controle de qualidade, pré-processamento, mapeamento de leituras e análise de variantes de dados de Oxford Nanopore;
- análise de anomalias em dados de sequenciamento de nova geração combinados a meta-dados clínicos do paciente;
Implementação
Após a revisão, a ferramenta será desenvolvida em linguagem de programação Python e utilizará das bibliotecas BioPython, PySAM e PyVCF para manipulação dos dados de sequencias, alinhamentos e variantes genéticas, respectivamente. Além das ferramentas encontradas na busca de literatura, a ferramenta VEP (Variant Effect Predictor) será avaliada, bem como bibliotecas de análise visual para geração de gráficos como o OncoPlot. A ferramenta será desenvolvida de modo a rodar em ambiente Linux e em containers Docker, utilizando o conda como gerenciador de dependências.
Teste da ferramenta
A ferramenta será avaliada com conjuntos de dados disponíveis no banco de dados SRA (Short Read Archive) do NCBI, a partir de estudos derivados na literatura, bem como com dados fornecidos pela empresa iNova.
Indicadores, Metas e Resultados
Cada ação do presente projeto envolve a implementação de um programa utilitário, podendo estes ter suas propriedade intelectual protegida. Os indicadores de andamento do projeto serão, desta fora, a implementação dos requisitos funcionais de cada software a ser desenvolvido.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
ANDERSON CORRÊA MUSSI | |||
DARLING DE ANDRADE LOURENÇO | |||
FREDERICO SCHMITT KREMER | 8 | ||
Fábio Schmidt Grangeiro | |||
GABRIELA DE QUADROS DA LUZ | |||
ISADORA LEITZKE GUIDOTTI | |||
LUCAS MOCELLIN GOULART | |||
LUCIANO DA SILVA PINTO | 8 | ||
Pedro Bandeira Aleixo | |||
RAFAELLA SINNOTT DIAS | |||
VINICIUS FARIAS CAMPOS | 4 |