Desenvolvimento de modelos para QSAR baseados em aprendizado de máquina para prospecção de moléculas para o tratamento da Doença de Alzheimer

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

01/12/2022 - 31/12/2023

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

FREDERICO SCHMITT KREMER

Área CNPq

Multidisciplinar

Resumo

Objetivo Geral

Desenvolvimento de um modelo QSAR, baseado em machine learning, que permite a identificação de drogas contra a Doença de Alzheimer.

Justificativa

A Doença de Alzheimer (DA), tem aumentado como uma epidemia no mundo todo, sendo a causa mais frequente de demência . O principal fato sobre ela, é que não há cura, apenas tratamento para seu retardo. O que caracteriza a doença é a morte de neurônios e a perda cognitiva de funções, devido estar ligado ao cérebro (Alzheimer’s, 2015). A prevalência global de pessoas com demência, devido a perda de função e comportamento, coloca uma carga de preocupações em idosos na nossa sociedade. Estima-se que a prevalência seja de 24 milhões de pessoas e provavelmente até 2050, esse valor quadruplique. Nos EUA, a doença de Alzheimer causa grandes custos nos cuidados de saúde, chegando a 172 bilhões de dólares por ano (Associação de Alzheimer, 2010). Apenas no Brasil, sendo um país com grande número de pessoas acima de 60 anos, de acordo com o Instituto Brasileiro de Geografia e Estatística (IBGE), seus estudos revelaram que quase 2 milhões de pessoas tem demência e que 40-60% são ligadas a Alzheimer (Sociedade Brasileira de Geriatria e Gerontologia, 2019).
Na doença de Alzheimer, ocorre uma disfunção bioenergética celular, característica comum em doenças neurodegenerativas. A energia interrompida, implica em mitocôndrias defeituosas e devido isto, destaca-se o desenvolvimento de terapêutica. Estudos prévios demonstraram um aumento no estresse oxidativo e danos no cérebro durante a DA, devido a mitocôndrias na patogenia, pois são as principais geradoras de sintomas (Bonda et al., 2014; Wang et al., 2014). Até o atual momento, o tratamento visa na prevenção de processos mitocondriais ligados a células terminais, ou seja, estresse oxidativo e apoptose. Cérebros de pacientes e camundongos com AD identificou-se estresse oxidativo no início (Nunomura et al., 2001; Praticò, Uryu, Leight, Trojanoswki, & Lee, 2001; Rhein et al., 2009; Wang et al., 2006; Yao et al., 2009).
A neuropatologia está amplamente ligada à placas beta amilóides, aos emaranhados neurofibrilares da proteína agregada TAU , microgliose, astrogliose, neurites distróficos e a perda de neurônios pode iniciar antes dos sintomas aparecerem e inicialmente as áreas afetadas do cérebro, são o hipocampo (memória), área entorrinal, neocórtex (cognição) e núcleos basais. A hipótese mais aceita para AD, é conhecida como “hipótese amilóide", no qual seria o erro e a agregação do peptídeo β‐amilóide (Aβ), em que ocorre uma cascata linear de patologia formando as placas amilóides e deposição intracelular de proteína TAU, formando emaranhados neurofibrilares (Chen et al., 2017; C.C. Tan, Zhang, Tan, & Yu, 2018). Com a proposta inicial da hipótese amilóide, foi colocada em questão das patologias amilóide e TAU ocorrerem simultaneamente ou de forma independente (De Strooper & Karran, 2016). Alguns sugerem também causas independentes como neuroinflamação, desregulação de cálcio, disfunção mitocondrial e prejuízo da autofagia lisossômica no caminho de degradação (Herrup, 2015). Em um estudo sobre placas amilóides demonstraram a rápida formação de suas estruturas das placas por 24 horas (Meyer-Luehmann M, 2008). Bem como que o inchaço distrófico dos dendritos começa a aparecer em uma semana (Spires-Jones T, 2012). Além disso, a instabilidade de espinhos e as placas refletem a plasticidade disfuncional em estruturas neuronais. Como consequência, isso tudo acarreta em um aumento no déficit funcional nas regiões ao redor das placas (Meyer-Luehmann M, 2008). Os cérebros de AD sofrem diversas alterações de função, como metabolismo energético, atividade sináptica e inflamação (Lorea-Valencia et al, 2019).
A neuroinflamação envolve alguns caminhos e citocinas e são de importante estudo na descoberta da patologia AD (F. Zhang & Jiang, 2015). Recentemente, o foco se voltou para algumas inflamações NLRP3, que, após a ativação, aciona o decote de pró‐IL‐1β e pró‐IL‐18 para suas formas ativas (Guo et al., 2015). Essa seria a descrição para a família NLR, a inflamação ativada NLRP3, evidência que a atividade inflamada NLRP3 pode piorar a doença e progressos feitos para desenvolver medicamentos direcionados na redução da ativação do inflamado NLRP3.
Diversas drogas já foram analisadas para o tratamento, mas a maioria não demonstrou resultados significativos para a cura. As drogas estudadas, têm como alvo receptores no sistema nervoso central (SNC), porém são medicações limitadas que diminuem sintomas. Nos Estados Unidos, as medicações inibidores de acetilcolinesterase (IAChE), foram aprovados pela Food and Drug Administration (FDA), nos quais são a Donepezila, Galantamina e Rivastigmina e também, os N-metilo-d-antagonista do receptor de aspartano (NMDAR), que é a Memantina. Essas são clínicas de terapias atuais, são as que permanecem, porém modestas com seu resultado. A expectativa de vida média é de 8 anos após o diagnóstico, mostra a necessidade de encontrar novas medicações (Alzheimer’s, 2015).
Além disso, devido ao estresse oxidativo, é estudado também o tratamento com antioxidante. No entanto, em ensaios clínicos realizados nos testes em pacientes com a patologia, não houve respostas claras e podem ter efeitos indesejáveis (Lloret et al., 2009; Miller et al., 2005). Foi realizado estudo com a vitamina E, em resultados positivos houve um declínio cognitivo quando comparado a placebo (Sano et al., 1997), mas outros estudos argumentaram mais tarde que os achados podem não generalizar para grupos maiores (Lloret et al., 2009).
Para a descoberta de compostos em estágios iniciais das moléculas de medicamentos é um processo baseado em dados de bioatividade a partir de High Throughput Screening (HTS). Centros de pesquisa e indústrias farmacêuticas usam este tipo de abordagem, onde são testadas as moléculas de forma automatizada (Nantasenamat e Prachayasittikul, 2015). A obtenção de novos compostos em HTS tem um custo alto, a modelagem QSAR é uma técnica fundamental na priorização de compostos para síntese e avaliação biológica. Essa técnica tem o uso da bioinformática a partir das informações da molécula, verifica se terá ou não afinidade com o receptor do fármaco e também se irá inibir ou não determinada molécula. Os modelos QSAR são usados para identificação de hits ou para otimização de hit-to-lead, que consiste em um estágio de descoberta precoce de medicamentos. Hit-to-lead é favorável porque tem potência, seletividade e parâmetros farmacocinéticos e toxicológicos, são essenciais para o desenvolvimento de um fármaco seguro e eficaz. Nenhum composto precisa ser testado antes da avaliação computacional, por isso o QSAR tem vantagem em tempo e custo-benefício para obtenção de compostos com propriedades biológicas desejadas. Consequentemente, o QSAR é amplamente utilizados para o meio da pesquisa, em universidades e indústrias do mundo (Cherkasov et al., 2014).
Outro modelo utilizado para o desenvolvimento de programas é o “aprendizado de máquina” , (Machine Learning, ML), uma sub-área da inteligência artificial (CHEN; KIRCHMAIR, 2020). É utilizado para desenvolver programações através de algoritmos capazes de solucionar problemas que essa tecnologia consegue expressar explicitamente. Pode ser dividida em aprendizagem supervisionada, para aprender com os dados fornecidos e em aprendizagem não supervisionada, que reconhece padrões nas amostras (PATEL; SHUKLA; WANG, 2020). Um dos objetivos empregados no ML, supervisionado no contexto de drug discovery é a Quantitative Structure-Activity Relationship (QSAR), um estudo quantitativo para ver interações entre moléculas orgânicas e estruturas químicas de forma tridimensional, o que ajuda na descoberta de possíveis ligantes e/ou receptores (LIN et al, 2020). QSAR consiste na base em ligantes, ou seja, em um estudo focado na relação entre a estrutura do ligante e sua atividade, independente do receptor, permitindo a previsão da atividade de novas moléculas por meio das suas características estruturais. Pode ser usada para virtual screening (LEELANANDA; LINDERT, 2016), e ser usada na atividade química, inibição enzimática, inibição de crescimento celular entre outros.

Desta forma, o objetivo deste trabalho é desenvolver modelos QSAR baseadas em ML, capazes de serem aplicadas para a identificação de moléculas ativas para a identificação de alvos para a Doença de Alzheimer. Estes modelos poderão ser utilizadas posteriormente em projetos de prospecção de moléculas através de virtual screening e drug design, auxiliando na identificação de possíveis moléculas alvos que podem ser úteis no desenvolvimento de medicações e terapias alvo.

Metodologia

Obtenção de dados

Os dados dos compostos ativos e inativos serão colhidos na plataforma PubChem, um banco de dados público que contém informações sobre estruturas e propriedades químicas de moléculas de baixo peso molecular, amplamente utilizadas para pesquisas com desenvolvimento de drogas (WANG et al, 2012).

Engenharia de features

Para treinar os algoritmos capazes de inferir as características de interesse, serão dadas características estruturais e fisicoquímicas (“descritores”) obtidos a partir dos dados de estrutura derivados do pubchem. Sendo para isso utilizada a ferramenta RDKit (https://www.rdkit.org/), uma biblioteca de quimioinformática.

Teste de modelos preditivos

Serão avaliados diferente algoritmos para, árvores de decisão (decisions trees, DT), máquinas vetores de suporte (support vector machines, SVM), florestas aleatórias (random forest, RF) e redes neurais (neural networks, NN) disponíveis na bibliotecas scikit-learn (https://scikit-learn.org/), além de modelos de ensemble de árvores com boosting de gradiente (gradient boosting trees) disponíveis nas bibliotecas XGBoost (https://xgboost.ai/) e LightGBM (https://github.com/microsoft/LightGBM). Também será utilizada a biblioteca SHAP (https://github.com/slundberg/shap) para inspeção dos modelos preditivos gerados e explicação de seus resultados.

Provisionamento

Os modelos preditivos que apresentarem melhor performance serão provisionados em uma interface web implementada com uso do framework Flask (https://flask.palletsprojects.com/) a ser hospedado em um servidor para posterior acesso remoto.

Indicadores, Metas e Resultados

Ao final deste projeto, é esperado que tenhamos conseguido desenvolver modelos preditivos QSAR para estimar se determinada molécula de pequeno peso molecular possui potencial inibidor da Doença de Alzheimer, possibilitando assim seu uso posterior em projetos de prospecção e desenvolvimento de novos fármacos a serem utilizados. Caso seja bem-sucedida para moléculas de pequeno peso molecular, a ferramenta poderá posteriormente ser avaliada para identificação de peptídeos para uso em terapia alvo. Além disso, será desenvolvida uma ferramenta, capaz de disponibilizar os modelos preditivos resultantes deste projeto. Essa ferramenta será protegida pelo registro de software no INPI. Por fim, como consequência adicional espera-se que seja publicado um artigo descrevendo a ferramenta e a metodologia utilizada.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
FREDERICO SCHMITT KREMER	2
MARIANA BERTOLDI AMATO