Desenvolvimento de uma pipeline de bioinformática para patologia molecular baseada em Oxford Nanopore

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

12/02/2024 - 31/12/2025

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

FREDERICO SCHMITT KREMER

Área CNPq

Multidisciplinar

Resumo

O surgimento do sequenciamento de nova geração (Next Generation Sequencing, NGS) tem impulsionado avanços significativos nos campos da medicina e biotecnologia, proporcionando insights não apenas para a pesquisa, mas também para o diagnóstico preciso de doenças com base em suas fundamentações moleculares. Essas inovadoras tecnologias permitem a identificação das sequências de bases presentes em fragmentos de DNA/RNA, demandando, posteriormente, uma abordagem eficaz para processar esses dados e detetar eventuais variações genéticas. Uma dessas notáveis tecnologias é o sequenciamento Oxford Nanopore, notório por suas vantagens como o tamanho dos fragmentos sequenciados, redução de custos em equipamentos e flexibilidade em aplicações até então inviáveis quando comparadas às plataformas antecessoras, como Illumina e Ion Torrent. No entanto, o uso de ferramentas de bioinformática nesse contexto muitas vezes requer adaptações, exigindo o desenvolvimento de software especializado para extrair as informações pertinentes, de modo que profissionais da área da saúde possam compreender devidamente os resultados dessas análises. Além disso, a combinação de diversas ferramentas de análise em um fluxo contínuo (pipeline) frequentemente é necessária, o que reforça a necessidade de automatização desse processo para a aplicação dessas análises em ambientes clínicos. Este projeto tem como objetivo central a criação de uma pipeline dedicada à análise de dados provenientes do sequenciamento de DNA realizado com a tecnologia Oxford Nanopore. Paralelamente, será desenvolvida uma interface intuitiva que facilite a execução dessas análises, visando simplificar a interpretação dos resultados por laboratórios de análises clínicas. Com isso, busca-se atender à crescente demanda por abordagens práticas e acessíveis no contexto clínico, permitindo que os profissionais da saúde obtenham informações relevantes de maneira mais eficaz e eficiente.

Objetivo Geral

Desenvolver e otimizar uma abordagem integrada para análise abrangente de dados multidimensionais de patologia molecular, utilizando tecnologias de sequenciamento de terceira geração e dados de plataforma Oxford Nanopore, visando a identificação precisa de variantes, anotação, visualização e geração automatizada de laudos, além da detecção de anomalias em informações relevantes para a patologia molecular.

Justificativa

Apesar da disponibilidade de tecnologias de sequenciamento de DNA capazes de produzir um grande volume de dados, o processamento destas ainda não é trivial, sobretudo no contexto clínico. A partir do projeto proposto, novas ferramentas para análise de dados de sequenciamento de DNA serão desenvolvidas, permitindo assim a aplicação destas tecnologias posteriormente por empresas que atuam na área de diagnóstico e patologia molecular.

Metodologia

Revisão de Literatura e bibliotecas de código aberto

Será realizada uma revisão contínua da literatura em fontes como PubMed ScienceDirect e Scopus e das bibliotecas de código aberto disponíveis nos repositórios PyPI, Bioconductor, CRAN e no repositório GitHub para identificar ferramentas e algoritmos para:

- identificar ferramentas para anotação, visualização e análise de efeito de mutação identificadas em arquivos VCF, bem como bancos de dados relacionados à patologia molecular.

- identificar ferramentas para controle de qualidade, pré-processamento, mapeamento de leituras e análise de variantes de dados de Oxford Nanopore;

- análise de anomalias em dados de sequenciamento de nova geração combinados a meta-dados clínicos do paciente;

Implementação

Após a revisão, a ferramenta será desenvolvida em linguagem de programação Python e utilizará das bibliotecas BioPython, PySAM e PyVCF para manipulação dos dados de sequencias, alinhamentos e variantes genéticas, respectivamente. Além das ferramentas encontradas na busca de literatura, a ferramenta VEP (Variant Effect Predictor) será avaliada, bem como bibliotecas de análise visual para geração de gráficos como o OncoPlot. A ferramenta será desenvolvida de modo a rodar em ambiente Linux e em containers Docker, utilizando o conda como gerenciador de dependências.

Teste da ferramenta

A ferramenta será avaliada com conjuntos de dados disponíveis no banco de dados SRA (Short Read Archive) do NCBI, a partir de estudos derivados na literatura, bem como com dados fornecidos pela empresa iNova.

Indicadores, Metas e Resultados

Cada ação do presente projeto envolve a implementação de um programa utilitário, podendo estes ter suas propriedade intelectual protegida. Os indicadores de andamento do projeto serão, desta fora, a implementação dos requisitos funcionais de cada software a ser desenvolvido.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ANDERSON CORRÊA MUSSI
DARLING DE ANDRADE LOURENCO
FREDERICO SCHMITT KREMER	8
Fábio Schmidt Grangeiro
GABRIELA DE QUADROS DA LUZ
ISADORA LEITZKE GUIDOTTI
LUCAS MOCELLIN GOULART
LUCIANO DA SILVA PINTO	8
Pedro Bandeira Aleixo
RAFAELLA SINNOTT DIAS
VINICIUS FARIAS CAMPOS	4