NESS: Uma ferramenta para busca alignment-free por similaridade de sequências usando word embeddings

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

01/10/2021 - 01/10/2023

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

FREDERICO SCHMITT KREMER

Área CNPq

Ciências Biológicas

Resumo

O monitoramento ambiental com uso de métodos de sequenciamento de DNA de nova geração vem se mostrando uma estratégia promissora para a detecção de patógenos de interesse em saúde humana, como o vírus SARS-Cov2, bem como de genes de resistência a antibióticos, possibilitando assim a detecção precoce de surtos. Neste tipo de análise, o DNA total de amostras ambientais é extraído e sequenciado, sendo os fragmentos gerados comparados com bancos de dados de sequências de DNA ou proteínas para se aferir a identificação taxonômica de cada organismo presente na amostra. Esta comparação é realizada geralmente através de métodos baseados em alinhamento de sequências (ex: BLAST), mas o seu custo computacional tem motivado o desenvolvimento de abordagens alternativas (alignment-free). O presente projeto visa a avaliação e desenvolvimento de metodologias baseadas em 'word embeddings' para a consulta em bancos de dados de sequência, que consistem em representações vetoriais de palavras e textos produzidas a partir de aprendizado de máquina que preservam a sua relação 'semântica'. Esta metodologia poderá ser empregada em diferentes cenários de utilização, como anotação de genomas microbianos e identificação de patógenos em amostras ambientais.

Objetivo Geral

Desenvolver uma ferramenta para busca de sequências por similaridade que utilize técnicas de word embeddings como heurística de busca alignment-free de modo a acelerar a consulta em bancos de dados de DNA e proteínas.

Justificativa

O monitoramento ambiental com uso de métodos de sequenciamento de DNA de nova geração (next generation sequencing, NGS) vem se mostrando uma estratégia promissora para a detecção de patógenos de interesse em saúde humana, como o vírus SARS-Cov2 (NIEUWENHUIJSE et al., 2020), bem como de genes de resistência a antibióticos (HENDRIKSEN et al., 2019), possibilitando assim a detecção precoce de surtos. Neste caso, o DNA total (metagenoma) de amostras ambientais (ex: esgoto de centros urbanos) é extraído e sequenciado, sendo posteriormente atribuído a cada fragmento uma possível identificação taxonômica (MANDE; MOHAMMED; GHOSH, 2012). Tradicionalmente, métodos de alinhamento de sequência são utilizados para realizar esta identificação, mas estratégias alternativas, denominadas “alignment-free”, tem ganhado destaque por conta da maior velocidade (REN et al., 2018).

O alinhamento de sequências é uma abordagem de bioinformática que visa a identificação e medida da similaridade entre duas sequências biológicas, sejam estas de nucleotídeos (DNA ou RNA) ou proteínas, permitindo a identificação de proteínas, inferência de funções biológicas e de suas relações filogenéticas (DURBIN et al., 1998). Tradicionalmente, a comparação entre duas sequências (pairwise) pode ser classificada como “global”, quando o alinhamento compreende toda a extensão de ambas sequências, ou “local”, quando apenas as regiões de máxima similaridade são alinhadas, tendo-se como exemplos de algoritmos para estas finalidades os descritos por Needleman-Wunsch (NEEDLEMAN; WUNSCH, 1970) e Smith-Waterman (SMITH; WATERMAN, 1981), respectivamente.

Os algoritmos para alinhamento de sequências podem ser utilizados por ferramentas de busca por similaridade, sendo uma das principais ferramentas para esta finalidade o BLAST (Basic Local Alignment Search Tool), descrito por ALTSCHUL et al (1990), que atualmente tem como implementação de referência o NCBI-BLAST+ (CAMACHO et al., 2009), disponibilizado pelo National Center for Biotechnology Information (NCBI). De forma similar ao seu antecessor FASTA (LIPMAN; PEARSON, 1985), o BLAST utiliza heurística para acelerar a comparação de sequências contra bancos de dados, reduzindo o número de alinhamentos locais necessários por conta do custo computacional envolvido no uso do algoritmo de Smith-Waterman, sobretudo para sequências grandes (ex: genomas completos). Outras ferramentas que utilizam estratégias parecidas incluem o USEARCH (EDGAR, 2010) e o DIAMOND (BUCHFINK; XIE; HUSON, 2015), cujas velocidades em muitos casos superam a observada com NCBI-BLAST+, mas mesmo com elas a busca por similaridade continua sendo considerada um ponto limitante em muitos projetos de análise de metagenomas.

Por conta das limitações e gargalos computacionais impostos pelas ferramentas de alinhamento tradicionais, técnicas de comparação que não utilizam alinhamento de sequências (alignment-free) passaram a ser avaliadas, como as baseadas em conteúdo de sub-palavras, teoria da informação e, mais recentemente, aprendizado de máquina (machine learning, ML) (ASGARI; MOFRAD, 2015; SHI et al., 2017; VINGA, 2014; VINGA; ALMEIDA, 2003). Para computarem a similaridade entre sequências estas técnicas utilizam medidas de distância (ex: euclidiana, por cosseno), variação de conteúdo de informação, similaridade por cosseno, dentre outras. Dentre as técnicas de ML empregadas para a comparação alignment-free, recentemente tem recebido destaque as baseadas word embeddings, que permitem uma representação vetorial de textos através de vetores numéricos preservando a sua relação “semântica”.

Algoritmos de uso geral para produção de word embeddings incluem o Word2Vec (MIKOLOV et al., 2013), GloVe (PENNINGTON; SOCHER; MANNING, 2014) e FastText (BOJANOWSKI et al., 2016; JOULIN et al., 2016a, 2016b), enquanto que os específicos para sequências biológicas (BioVecs) incluem prot2vec (ASGARI; MOFRAD, 2015), dna2vec (NG, 2017) e SuperVec (KIMOTHI et al., 2020), parcialmente baseados no Word2Vec, FastDNA (MENEGAUX; VERT, 2018), baseado no FastText, e SWeeP (DE PIERRI et al., 2020). Alguns destes métodos já apresentaram ganhos de performance expressivos quando comparados com métodos baseados em alinhamento, como demonstrado na comparação do FastDNA com o alinhador de leituras BWA (LI; DURBIN, 2009) onde se observou um aumento de velocidade de até 6 vezes no alinhamento de datasets de leituras de sequenciamento (MENEGAUX; VERT, 2018). No entanto, ainda não há implementações de métodos alignment-free que utilizem como base BioVecs e ofereçam uma interface de fácil utilização e integração a pipelines de análise de dados.

Deste modo, O presente projeto propõe o desenvolvimento de uma ferramenta, denominadas NESS, cujas funcionalidades sejam acessíveis tanto através de uma interface por linha de comando (command line interface, CLI), quanto através de uma interface de programação (application programming interface, API) disponível para a linguagem Python, que permita e execução de busca por similaridade de sequências biológicas (proteínas e nucleotídeos) usando algoritmos baseados em BioVecs.

De modo a se verificar previamente a aplicabilidade das metodologias proposta na solução do presente problema, uma prova de conceito (POC) foi desenvolvimento utilizando como base a metodologia FastText para geração de embeddings para as sequências. A POC, cujo código-fonte pode ser acessado através do endereço https://github.com/omixlab/ness, permite a construção de modelos a partir de bancos de sequências, formatação de bancos de dados e busca por similaridade. Entretanto, esta, apesar de promissora, ainda precisa ser aprimorada através da incorporação de novas metodologias para consulta, inclusive com suporte à aceleração por GPU, identificação dos melhores parâmetros para os modelos preditivos, testes com outros algoritmos para geração das representações de embeddings, além do benchmark nos cenários propostos, fazendo-se necessária, desta forma, uma melhor infraestrutura de processamento.

Metodologia

Serão avaliadas diferentes metodologias já descritas para a representação vetorial de sequências biológicas, incluindo Word2Vec (MIKOLOV et al., 2013), GloVe (PENNINGTON; SOCHER; MANNING, 2014), FastText, FastDNA (MENEGAUX; VERT, 2018), SuperVec (KIMOTHI et al., 2020) e SWeeP (DE PIERRI et al., 2020), otimização de hiper-parâmetros destes modelos, metodologias para a serialização das representações produzidas (ex: “.vec”, “.txt”, “.h5”) e posterior compara com sequências de interesse (ex: métricas de distância, uso de alinhamento no caso de hits significativos), bem como métodos para aceleração de da consulta em bancos de dados de vetores, como as ferramentas FAISS (https://ai.facebook.com/tools/faiss/) e Milvus (https://milvus.io/).

A ferramenta proposta será implementada com uso da linguagem de programação Python (https://www.python.org/), usando-se as bibliotecas NumPy (https://numpy.org/) e Pandas (https://pandas.pydata.org/) para manipulação de dados numéricos e tabulares, BioPython (https://biopython.org/) para manipulação de sequências biológicas, H5Py (https://www.h5py.org/) para serialização de dados, Tensorflow (https://www.tensorflow.org/) para implementação de modelos de aprendizado de máquina, e Gemsim (https://radimrehurek.com/gensim/) para o uso de modelos de representação de textos. Além das funcionalidades de busca alignment-free, será também adicionado suporte ao alinhamento usando o algoritmo de Smith-Waterman para os resultados mais significativos, usando-se a implementação single instruction multiple data (SIMD) disponibilizada por ZHAO et al (https://github.com/mengyao/Complete-Striped-Smith-Waterman-Library).

Dois cenários de uso serão considerados na validação da ferramenta proposta: anotação de genomas microbianos e detecção de patógenos em amostras ambientais a partir de dados de metagenoma.

Para avaliar a performance no contexto de anotação de genomas a implementação desenvolvida será comparada em com ferramentas para busca por similaridade baseadas em alinhamento, como o BLAST e USEARCH para consultas em bancos de nucleotídeos, e BLAST, USEARCH e DIAMOND para bancos de sequências de proteínas. Neste caso será avaliada a assertividade dos resultados encontrados nos top-k hits (considerando diferentes valores de “k” entre 1 e 10), bem como velocidade, consumo de memória, uso de disco e de CPU. Os genomas a serem anotados neste teste serão derivados do NCBI, sendo seus genes preditos com a ferramenta Prodigal (HYATT et al., 2010). Também será avaliada a correlação entre os valores de similaridade por cosseno computadas pela ferramenta para os pares de sequência e as métricas de similaridade, e-value e bitscore derivada de alinhamento.

Na avaliação da ferramenta com dados de metagenomas, o objetivo será verificar a capacidade da mesma de identificar hits no banco de dados que caracterizem corretamente leituras de patógenos de interesse. Para isso, como caso de estudo, serão utilizados dados de sequenciamento de viroma de esgoto (SRA: ERR2596695, ERR2596696, ERR2596697, ERR2596698, ERR2596699, ERR2596700) serão combinados com leituras sintéticas de coronavírus produzidas com a ferramenta InSilicoSeq (GOURLÉ et al., 2019) a partir do genoma do isolado Wuhan-Hu-1 (GenBank: NC_045512). A acurácia, f1 score e recall da ferramenta na identificação de leituras de SARS-Cov2 serão comparadas às das ferramentas BLAST, USEARCH, DIAMOND, baseadas em alinhamento, e também Kraken2 (WOOD; SALZBERG, 2014), específica para identificação taxonômica de dados metagenômicos.

Indicadores, Metas e Resultados

A disponibilidade de uma ferramenta de busca por similaridade para consulta em bancos de dados de sequências biológicas que ofereça uma performance superior às metodologias atualmente disponíveis poderá auxiliar na execução de projetos de pesquisa básica a aplicada na área da biologia molecular, genética, genômica, filogenia, dentre outras subáreas das ciências biológicas. Além disso, a ferramenta a ser desenvolvida será disponibilizada para a comunidade científica de forma gratuita, para fins não-comerciais, e com seu código fonte aberto após a proteção de sua propriedade intelectual através de Registro de Programa de Computador pelo Instituto Nacional de Propriedade Intelectual (INPI) e do Registro de Patente, também através do INPI, de processos biotecnológicos que possam ser baseados na sua utilização, como a detecção de micro-organismos de relevância em saúde pública. A tecnologia poderá ser então transferida, posteriormente, para o setor produtivo.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ALESSANDRA NEIS
AMANDA MUNARI GUIMARÃES
DEBORA D´ANGELO PAPAIZ
FREDERICO SCHMITT KREMER	4
GIULIANO NETTO FLORES CRUZ
GUILHERME LOSS DE MORAIS
LUCIANO DA SILVA PINTO	6
LUIZ FELIPE VALTER DE OLIVEIRA
MARILTON SANCHOTENE DE AGUIAR	6
RAFAEL DOS SANTOS WOLOSKI
RAFAEL DOS SANTOS WOLOSKI
RICARDO MATSUMURA DE ARAUJO	6

Fontes Financiadoras

Sigla / Nome	Valor	Administrador
FAPERGS / Fundação de Amparo a Pesquisa do Estado Rio Grande do Sul	R$ 22.751,00	Coordenador

Plano de Aplicação de Despesas

Descrição	Valor
449052 - Equipamentos e Material Permanente	R$ 21.000,00
339040 - Serviços de Tecnologia da Informação e Comunicação Pessoa Jurídica	R$ 1.751,00