Desenvolvimento de uma ferramenta para QSAR baseada em aprendizado de máquina para prospecção de drogas antitumorais

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

31/03/2021 - 31/03/2022

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

FREDERICO SCHMITT KREMER

Área CNPq

Ciências Biológicas

Resumo

O Câncer é uma das principais causas de morte no mundo, sendo um grupo de doenças caracterizada pela divisão desorientada de células que sofreram mutações genéticas, e possuem a capacidade de invadir diferentes grupos celulares. Estas mutações são ocasionadas por alguns fatores de risco, que incluem tabagismo, alcoolismo, má alimentação e estresses repetitivos. A identificação de moléculas com potencial farmacológico sempre foi realizada por meio de descobertas de compostos naturais. Os medicamentos descobertos, hoje auxiliam no tratamento de inúmeras doenças, inclusive câncer, mas isso sempre foi laborioso e custoso para os órgãos que financiam pesquisas para drug discovery. As grandes empresas farmacêuticas e centros de pesquisa costumam usar uma abordagem denominada High Throughput Screening (HTS), onde são testados milhares de moléculas para atividades biológicas de forma automatizada. Além disso, temos a abordagem quantitativa que é uma técnica que é comumente usada para avaliar agentes toxicológicos, ela permite que amostras sejam analisadas em diferentes quantidades, permitindo que o pesquisador identifique a dose ideal do medicamento ou as doses tóxicas do mesmo. A maior problemática envolvendo essa tecnologia é o custo de infraestrutura e das bibliotecas. Com o passar dos anos novas abordagens vêm sendo desenvolvidas, e graças aos dados produzidos por HTS, podemos desenvolver programas que conseguem filtrar informações relevantes no meio dos dados disponibilizados nesses bancos. Esse tipo de metodologia denominada in silico, permite o estudo de compostos para o desenvolvimento de novas terapias analisando estruturas tridimensionais de moléculas alvo e de seus ligantes. Outra abordagem usada para o desenvolvimento dessas ferramentas é o “aprendizado de máquina”, uma sub-área da inteligência artificial. ML visa desenvolver algoritmos capazes de solucionar problemas para os quais não foram explicitamente programados. Uma das metodologias empregadas no ML supervisionado no contexto de drug discovery é a Quantitative Structure-Activity Relationship (QSAR), um estudo quantitativo para ver interações entre moléculas orgânicas e estruturas químicas de forma tridimensional, o que ajuda na descoberta de possíveis ligantes e/ou receptores (LIN et al, 2020). QSAR é um método baseado em ligantes, isto quer dizer que o estudo é focado na relação entre a estrutura do ligante e sua atividade, independente do receptor, permitindo a predição da atividade de novas moléculas por meio das suas características estruturais. Pode ser usada para virtual screening (LEELANANDA; LINDERT, 2016), e ser usada na predição da atividade química, inibição enzimática, inibição de crescimento celular entre outros.

Objetivo Geral

Desenvolvimento de uma ferramenta de QSAR, baseada em machine learning, que permite a identificação de moléculas com possível atividade anti-tumoral.

Justificativa

O Câncer é uma das principais causas de morte no mundo, sendo um grupo de doenças caracterizada pela divisão desorientada de células que sofreram mutações genéticas, e possuem a capacidade de invadir diferentes grupos celulares. Estas mutações são ocasionadas por alguns fatores de risco, que incluem tabagismo, alcoolismo, má alimentação e estresses repetitivos. O tratamento de câncer pode ser realizado com quimioterapia que visa destruir as células cancerígenas por meio de medicamentos, e a radioterapia que usa radiações ionizantes para a destruição dessas células, muitas vezes ambos os tratamentos são recomendados para os pacientes com câncer, mas essas opções costumam serem danosas para a pessoa que o recebe. Por isso, as pesquisas para o desenvolvimento de novas terapias para o tratamento de câncer têm avançado de forma expressiva. .

A identificação de moléculas com potencial farmacológico sempre foi realizada por meio de descobertas de compostos naturais. Os medicamentos descobertos, hoje auxiliam no tratamento de inúmeras doenças, inclusive câncer, mas isso sempre foi laborioso e custoso para os órgãos que financiam pesquisas para drug discovery. As grandes empresas farmacêuticas e centros de pesquisa costumam usar uma abordagem denominada High Throughput Screening (HTS), onde são testados milhares de moléculas para atividades biológicas de forma automatizada. Além disso, temos a abordagem quantitativa que é uma técnica que é comumente usada para avaliar agentes toxicológicos, ela permite que amostras sejam analisadas em diferentes quantidades, permitindo que o pesquisador identifique a dose ideal do medicamento ou as doses tóxicas do mesmo. A maior problemática envolvendo essa tecnologia é o custo de infraestrutura e das bibliotecas.

Com o passar dos anos novas abordagens vêm sendo desenvolvidas, e graças aos dados produzidos por HTS, podemos desenvolver programas que conseguem filtrar informações relevantes no meio dos dados disponibilizados nesses bancos. Esse tipo de metodologia denominada in silico, permite o estudo de compostos para o desenvolvimento de novas terapias analisando estruturas tridimensionais de moléculas alvo e de seus ligantes.

Outra abordagem usada para o desenvolvimento dessas ferramentas é o “aprendizado de máquina”, uma sub-área da inteligência artificial. ML visa desenvolver algoritmos capazes de solucionar problemas para os quais não foram explicitamente programados. Uma das metodologias empregadas no ML supervisionado no contexto de drug discovery é a Quantitative Structure-Activity Relationship (QSAR), um estudo quantitativo para ver interações entre moléculas orgânicas e estruturas químicas de forma tridimensional, o que ajuda na descoberta de possíveis ligantes e/ou receptores (LIN et al, 2020). QSAR é um método baseado em ligantes, isto quer dizer que o estudo é focado na relação entre a estrutura do ligante e sua atividade, independente do receptor, permitindo a predição da atividade de novas moléculas por meio das suas características estruturais. Pode ser usada para virtual screening (LEELANANDA; LINDERT, 2016), e ser usada na predição da atividade química, inibição enzimática, inibição de crescimento celular entre outros.

Metodologia

Obtenção de dados

Os dados dos compostos ativos e inativos serão colhidos na plataforma PubChem, um banco de dados público que contém informações sobre estruturas e propriedades químicas de moléculas de baixo peso molecular, amplamente utilizadas para pesquisas com desenvolvimento de drogas (WANG et al, 2012). Os dados que serão utilizados são referentes aos tipos de cânceres de mama (PubChem BioAssays: 743214, 743208, 588794), colorretal (PubChem BioAssays: 1259291, 1259297, 1259298, 1259289), próstata (PubChem BioAssays: 652243, 1956, 651804, 624204), melanoma (PubChem BioAssays: 1259376, 1259372, 200, 434959), leucemia (PubChem BioAssays: 602125, 651707, 588685, 504375).

Engenharia de features

Para treinar os algoritmos capazes de inferir as características de interesse, serão dadas características estruturais e fisicoquímicas (“descritores”) obtidos a partir dos dados de estrutura derivados do pubchem. Sendo para isso utilizada a ferramenta RDKit (https://www.rdkit.org/),uma biblioteca de quimioinformática.

Teste de modelos preditivos

Serão avaliados diferente algoritmos para, árvores de decisão (decisions trees, DT), máquinas vetores de suporte (support vector machines, SVM), florestas aleatórias (random forest, RF) e redes neurais (neural networks, NN) disponíveis na bibliotecas scikit-learn (https://scikit-learn.org/), além de modelos de ensemble de árvores com boosting de gradiente (gradient boosting trees) disponíveis nas bibliotecas XGBoost (https://xgboost.ai/) e LightGBM (https://github.com/microsoft/LightGBM). Também será utilizada a biblioteca SHAP (https://github.com/slundberg/shap) para inspeção dos modelos preditivos gerados e explicação de seus resultados.
Provisionamento

Os modelos preditivos que apresentarem melhor performance serão provisionados em uma interface web implementada com uso do framework Flask (https://flask.palletsprojects.com/) a ser hospedado em um servidor para posterior acesso remoto.

Indicadores, Metas e Resultados

Ao final deste projeto, é esperado que tenhamos conseguido desenvolver modelos preditivos QSAR para estimar se determinada molécula de pequeno peso molecular possui potencial inibidor de crescimento para células tumorais, possibilitando assim seu uso posterior em projetos de prospecção e desenvolvimento de novos fármacos antitumorais a serem utilizados em quimioterapia e terapia alvo. Caso seja bem-sucedida para moléculas de pequeno peso molecular, a ferramenta poderá posteriormente ser avaliada para identificação de peptídeos para uso em terapia alvo. Além disso, será desenvolvida uma ferramenta, capaz de disponibilizar os modelos preditivos resultantes deste projeto. Essa ferramenta será protegida pelo registro de software no INPI. Por fim, como consequência adicional espera-se que seja publicado um artigo descrevendo a ferramenta e a metodologia utilizada.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
FABIANA KOMMLING SEIXAS	3
FREDERICO SCHMITT KREMER	6
ISADORA LEITZKE GUIDOTTI