Uso de redes neurais para a busca racional de novos compostos

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

11/04/2024 - 15/04/2027

Unidade de Origem

Centro de Ciências Químicas, Farmacêuticas e de Alimentos

Coordenador Atual

ROBSON DA SILVA OLIBONI

Área CNPq

Ciências Exatas e da Terra

Resumo

Novos fármacos passam por várias fases de pesquisa até chegar ao mercado, e a busca por novos medicamentos envolve essencialmente um processo de inovação por novas estruturas bioativas. As dificuldades apresentadas no desenvolvimento de fármacos impulsionaram o desenvolvimento de técnicas racionais para o design de novos compostos, onde ferramentas computacionais são essenciais por fornecerem uma alternativa de baixo custo. Entre essas ferramentas, métodos de aprendizagem profunda são técnicas promissoras por serem desenvolvidas para trabalhar com grandes quantidades de dados, como o espaço químico, e pelo melhor desempenho apresentado frente a outras metodologias tradicionais. Porém, as metodologias desenvolvidas atualmente são voltadas para a produção de moléculas orgânicas, havendo um desafio especial no caso de compostos de coordenação, onde a presença de um metal de transição adiciona complexidades geométricas e isoméricas em relação a compostos orgânicos. Neste projeto, serão desenvolvidos um protocolos voltados ao design de novo de fármacos, através de redes neurais via um autoencoder variacional de aprendizagem não-supervisionada. O método consiste no treinamento de um conjunto de redes neurais na tarefa de tradução/reprodução de representações químicas. Simultaneamente, a rede aprende a prever valores de propriedades moleculares desejadas; neste projeto, o desempenho em simulações de docking molecular. Com isso, será formada uma biblioteca para a triagem virtual de compostos. Inicialmente, o projeto será voltado para novos candidatos a metalofármacos contendo o centro metálico cobre(II), um elemento bioessencial e de baixo custo. Prevê-se, a longo prazo, a ampliação deste trabalho com outros centros metálicos, classes de ligantes e alvos biológicos, como também o uso de redes neurais para outros problemas de interesse químico.

Objetivo Geral

Neste projeto, pretende-se obter uma biblioteca virtual de compostos, através de métodos de aprendizado profundo, para a busca racional de candidatos a fármacos, inicialmente contendo metais de transição. O projeto também buscará a colaboração com grupos experimentais.
Algumas metas deste projeto são:
a) Desenvolver e disponibilizar uma biblioteca virtual de metalofármacos, inicialmente com compostos de cobre(II);
b) Implementar uma metodologia para descrever o docking molecular de compostos metálicos em softwares gratuitos disponíveis, como o AutoDock Vina [1];
c) Otimização dos compostos frente à inibição das topoisomerases I e II, modos de interações com o DNA buscando metalofármacos com atividade antineoplásica;
d) Extensão da metodologia para o uso de redes neurais profundas no desenvolvimento de novos compostos e materiais de interesse tecnológico.
Como resultado desse trabalho, pretende-se propor alternativas que possam ser empregadas para o desenvolvimento de novos fármacos, bem como uma metodologia geral para a busca racional de novos compostos, em especial compostos com aplicações biológicas e tecnológicas.

Justificativa

A busca de novas moléculas com propriedades de interesse consiste essencialmente de um processo de inovação com base no espaço químico disponível. Entretanto, o design de novas moléculas é limitado pela estratégia de busca utilizada para explorar o espaço químico. Os métodos atuais atuam em uma biblioteca fixa ou usam métodos discretos de busca local, como algoritmos genéticos. Em geral, o problema nestes métodos consiste na busca manual e pouco efetiva por vastas áreas do espaço químico, visto que não é possível guiar a busca por gradientes [2].

Neste cenário, métodos de aprendizagem profunda (deep learning, DL) [3] assumiram um protagonismo importante na área, com seu impacto estimado como uma nova revolução em diversas áreas, como na descoberta de fármacos [4]. Estes métodos computacionais foram desenvolvidos para trabalhar com grandes bancos e dados, tais como as bibliotecas virtuais, e estão ganhando interesse rapidamente devido a sua performance superior comparado às técnicas tradicionais de aprendizagem de máquina (machine learning, ML) [5].

Um dos modelos generativos atualmente propostos para o design de compostos químicos são os autoencoders, um par de redes neurais profundas treinadas para converter uma representação discreta e molecular (como a representação SMILES [6], simplified molecular-input line-entry system) em uma representação vetorial contínua (espaço latente). Deste modo, pode-se utilizar métodos de otimização contínua para treinar o autoencoder em tempo real em uma tarefa/propriedade específica [2].

Um autoencoder variacional (variational autoencoder, VAE) pode ser definido como um autoencoder cujo treinamento é regularizado para evitar sobreajustes e garantir que o espaço latente tenha boas propriedades que possibilitem processos generativos [7]. Outra abordagem semelhante é tratar o problema como uma metodologia de tradução ao invés de reconstrução, semelhante ao traduzir uma sentença de uma linguagem para outra. Essa abordagem é utilizada pela arquitetura de tradução automática neural (neural machine translation, NMT) [8, 9]. Este modelo primeiro lê toda a sequência de entrada e a codifica em uma representação vetorial contínua intermediária (representação latente), que então é usada pelo decodificador para emitir a tradução respectiva [8]. Em ambos os métodos VAE e NMT, ao introduzir um gargalo de informação entre o codificador e o decodificador, a rede é forçada a comprimir a informação essencial da entrada de tal forma que o decodificador cometa os menores erros possíveis ao reconstruir a informação original [2, 8].

A busca por novas moléculas bioativas, ou de interesse tecnológico, do ponto de vista computacional está em geral relacionada à maximização de alguma propriedade de interesse. Por essa razão, estes modelos VAE e NMT, puramente generativos, também podem ser treinados para obter propriedades de interesse a partir da representação latente gerada. Na prática, treina-se uma rede neural juntamente com o autoencoder para predizer propriedades a partir da representação latente do banco de dados molecular [2].

Esta metodologia pode ser classificada como um design de novo de compostos [10, 11,12], onde a amostragem por novas estruturas com atividade biológica em um alvo específico é realizada no espaço latente produzido no treinamento do autoencoder variacional. Esta abordagem é bastante recente e vem sendo usada para a busca de compostos orgânicos bioativos [2, 8, 13], variando a técnica de produção do espaço latente.

Com base neste conceito, este projeto propõe a criação de uma biblioteca virtual de metalofármacos. Inicialmente, o foco será na obtenção de complexos de cobre(II) como inibidores das proteínas DNA-topoisomerases I e II, buscando um tratamento antineoplásico de baixo custo com um metal essencial. Os compostos inorgânicos fornecem uma flexibilidade adicional em relação aos compostos orgânicos, como o número de coordenação, geometrias e estados redox acessíveis [14]. Espera-se que, através da variação de alguns parâmetros estruturais e estereoeletrônicos das moléculas, complexos metálicos com melhores propriedades farmacológicas possam ser descobertos para aplicação em quimioterapia. Com a implementação da metodologia, espera-se ampliar o uso de redes neurais e métodos de aprendizagem de máquinas para o estudo de outros sistemas químicos.

Metodologia

O design de novo de metalofármacos será realizado por uma metodologia que consiste na utilização de um autoencoder variacional (VAE) [2, 8, 12], que converte uma linguagem primária de representação de moléculas (como o SMILES) para uma linguagem vetorial contínua (espaço latente), reconvertendo os dados em uma representação química como saída. No processo de codificação-decodificação, a rede aprende a condensar as informações essenciais necessárias minimizando o erro entre o dado de entrada (representação SMILES) e a saída (SMILES ou outra representação química, como a InchI [15]). Inicialmente, serão criadas estruturas de compostos para o processo de codificação-decodificação utilizando a linguagem SMILES. Serão testadas arquiteturas diferentes para o processo de codificação-decodificação, como a NMT e redes neurais generativas, para avaliar o desempenho do VAE. As estruturas obtidas serão posteriormente filtradas, utilizando o pacote RDKit [16], para que os complexos obedeçam a regra dos cinco de Lipinski [17]. Também será avaliado se as estruturas são sinteticamente acessíveis através de códigos computacionais como o CAESA [18] e SEEDS [19].
O processo de treinamento do autoencoder permite o aprendizado mútuo de descritores moleculares. Desse modo, a rede aprende a traduzir as representações moleculares e,conjuntamente, a descrever alguma propriedade dos compostos. Este processo generativo do VAE fornece um espaço latente contínuo, que permite o uso de algoritmos de otimização eficientes para a busca por novos compostos. Inicialmente, o autoencoder será treinado para descrever a performance dos complexos no docking molecular frente às enzimas topoisomerases I e II. Com isso, poderão ser obtidos novos compostos de coordenação frente à otimização, no espaço latente, dos resultados das simulações de docking.
As simulações de docking molecular serão realizadas com o programa AutoDock Vina [1] ou com programas que usam redes neurais para efetuar o docking [5,20]. Possivelmente será necessário implementar métodos para a descrição do docking de compostos de metais de transição [21]. Todas as metodologias desenvolvidas no projeto serão disponibilizadas para a comunidade acadêmica.
Estima-se que os estudos desses alvos acarretará em possíveis candidatos a agentes antineoplásicos. Com base nos dados obtidos, será criada uma biblioteca virtual com os complexos de metais de transição gerados. Salienta-se que, mesmo que os compostos não tenham uma grande atividade frente às topoisomerases, com a implementação da metodologia e a produção da biblioteca, outros problemas de busca racional de fármacos ou de algum sistema químico com propriedades de interesse se tornará uma questão de adaptação da rede neural.

Indicadores, Metas e Resultados

O principal resultado esperado é a obtenção de uma biblioteca virtual de compostos de coordenação, com a implementação de uma metodologia de busca racional para novos compostos com potencial atividade biológica contendo metais bioessenciais. Além disso, o desenvolvimento de metodologias teóricas também contribuirá com grupos experimentais, visto que muitos métodos experimentais de caracterização são caros e não estão disponíveis na instituição. Assim, espera-se fortalecer colaborações já realizadas com grupos experimentais da universidade e de outras instituições, como a UFRGS, UFSM, UFFS e UFSC.
Como outros resultados e impactos esperados, pode-se salientar:
1) Disponibilização do banco de dados de metalofármacos para a comunidade acadêmica, bem como possíveis programas e códigos computacionais relacionados aos métodos de aprendizagem profunda e docking molecular;
2) Publicação de artigos científicos em periódicos indexados. Espera-se a publicação de um artigo por ano relacionado ao projeto;
3) Extensão da metodologia para outros sistemas químicos, como a busca por novos materiais com propriedades de interesse tecnológico;
4) Contribuição para a formação de recursos humanos, com a admissão de alunos de mestrado e doutorado, conforme demanda do processo de seleção do Programa de Pós-Graduação em Química da UFPel (PPGQ-UFPel), e alunos de iniciação científica, conforme processos de seleção da UFPel. Estima-se a apresentação de trabalhos em eventos nacionais e internacionais, principalmente voltados à área de Química Teórica e Bioinorgânica;
5) Fomentar a divulgação científica da metodologia e resultados obtidos do projeto ao público em geral, através de ampla divulgação no website do grupo de pesquisa e páginas de mídias sociais. Também espera-se a realização de workshops sobre redes neurais e linguagens de programação, a ser implementado pelo proponente;
6) Espera-se que no longo prazo novos fármacos possam ser desenvolvidos, e que o presente trabalho dê uma contribuição de impacto nesse sentido.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ADRIANA CASTRO PINHEIRO	2
ANDRE FRANCISCO PIVATO BIAJOLI	2
ANDRE RICARDO FAJARDO	1
JONATHAN ALEXANDRE FETTER
LUIS GUILHERME DE CARVALHO REGO
ROBSON DA SILVA OLIBONI	4