Nome do Projeto
sAMPLe: Uma Ferramenta Web para Identificação de Peptídeos Antimicrobianos
Ênfase
Pesquisa
Data inicial - Data final
01/05/2025 - 31/12/2027
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências Biológicas
Resumo
A resistência aos antimicrobianos (RAM) é uma crise global de saúde, com infecções por patógenos resistentes resultando em milhões de mortes anualmente. A Organização Mundial da Saúde (OMS) atualizou sua lista de bactérias prioritárias para combate à RAM, destacando a urgência de novas terapias. O uso excessivo de antimicrobianos na medicina, veterinária e agricultura agrava o problema, levando à proliferação de cepas resistentes. Em resposta à escassez de tratamentos para infecções multirresistentes, os peptídeos antimicrobianos (AMPs) surgem como alternativa promissora. Esses compostos naturais, presentes em diversos organismos, exibem atividade contra vírus, bactérias, fungos e parasitas, além de potencial antitumoral. A eficácia dos AMPs reside em suas características estruturais e físico-químicas, como tamanho, composição e carga, que lhes permitem interagir com a membrana de micro-organismos. Apesar do potencial, a aplicação clínica dos AMPs enfrenta desafios como toxicidade para células eucarióticas e instabilidade. A pesquisa concentra-se em modificar a estrutura desses peptídeos para superar tais obstáculos e otimizar sua atividade. O design racional de AMPs, impulsionado por estudos computacionais e bancos de dados extensos, busca identificar padrões e prever a eficácia de novos peptídeos. A combinação de pesquisa computacional e biologia molecular oferece uma nova perspectiva no combate à RAM. A exploração de AMPs projetados racionalmente, com auxílio de inteligência artificial, pode levar a tratamentos inovadores, preservando a eficácia dos antimicrobianos e melhorando a saúde pública.

Objetivo Geral

Desenvolver uma plataforma centralizada com informações sobre peptídeos antimicrobianos, bem como um banco de dados curados com informações derivadas da literatura e modelos preditivos para diferentes atividades pertinentes para a pesquisa destas moléculas.

Justificativa

Segundo a Organização Mundial da Saúde (OMS), a resistência aos antimicrobianos (RAM) representa uma ameaça significativa à saúde pública global (WHO, 2024). Infecções causadas por patógenos resistentes aos antimicrobianos estão entre os maiores desafios terapêuticos atuais, resultando em mais de 1,27 milhões de mortes diretamente relacionadas e aproximadamente 5 milhões de óbitos associados no em 2019 (MURRAY et al., 2022). Em 2024, a OMS atualizou sua lista de bactérias patogênicas prioritárias para o desenvolvimento de novas estratégias de prevenção, controle e tratamento da RAM (WHO, 2024). Nela, estão listados 24 patógenos associados com resistência à alguma classe de antibiótico, divididos em três grupos (média, alta e crítica) conforme a mortalidade e a urgência por novas opções terapêuticas.
O uso indiscriminado de antimicrobianos na medicina humana, veterinária e na agricultura é um agravante da RAM. A pressão seletiva exercida pela ação incompleta desses fármacos ocasiona na proliferação de cepas resistentes no ambiente (RANG & DALE, 2020). Um estudo americano sugeriu que os principais fatores responsáveis pela RAM em países em desenvolvimento, como o Brasil, estão relacionados à falta de vigilância no desenvolvimento da resistência, a prescrição inadequada e a facilidade de acesso aos antibióticos (CHOSKSHI et al., 2019). Como resultado, enfrentamos hoje uma escassez de opções terapêuticas para tratar infecções causadas por micro-organismos multirresistentes (MDR).
Nesse contexto, iniciativas que visam a pesquisa e o desenvolvimento de novos compostos e/ou melhorias para aqueles que já estão disponíveis na clínica tornaram-se um alvo de estudo promissor, como os peptídeos antimicrobianos (AMPs). Usualmente, os AMPs se apresentam como sequências curtas, geralmente entre 5-50 aminoácidos, de caráter catiônico e com alta porcentagem de resíduos hidrofóbicos (>50%). São compostos produzidos como mecanismo de defesa pela resposta imune inata de diferentes organismos, como peixes, plantas, mamíferos e insetos (BIN HAFEEZ et al., 2021). Sua atividade pode ser classificada em antiviral, antibacteriana, antifúngica e antiparasitária, principalmente (ZHANG et al., 2021). Além disso, existem diversos estudos que atribuem aos AMPs também a ação antitumoral (HOSKIN & RAMAMOORTHY, 2008; DESLOUCHES & DI, 2017; TORNESELLO et al., 2020).
A atividade antimicrobiana e os mecanismos de ação dos AMPs estão diretamente relacionados às suas características estruturais e parâmetros físico-químicos (LI et al., 2021). Propriedades como tamanho e composição da sequência de aminoácidos, constituição da cadeia lateral, carga e proporção dos resíduos são apenas alguns dos diversos parâmetros que contribuem para o potencial ativo desses peptídeos. A sua estrutura secundária também é um fator relevante. Peptídeos nas formas alfa-hélice e folha-beta são mais seletivos e demonstram maior capacidade de interagir com a membrana de micro-organismos. (LIANG et al., 2020).
Existem algumas limitações que colaboram para os baixos números de AMPs que conseguem chegar ao uso clínico. Devido ao dano na membrana celular de células eucarióticas, a atividade hemolítica é considerada um de seus principais efeitos adversos (WANG et al., 2021). Além disso, eles são considerados instáveis e facilmente hidrolisados por proteases, fazendo com que sua meia-vida seja baixa e dificultando sua utilização em formulações orais (LAI et al., 2022). Entretanto, o estudo de modificações estruturais nesses peptídeos para permitir a correção desses e de outros problemas, e também potencializar a sua atividade já é uma possibilidade. Hoje, o design racional de AMPs é uma linha de pesquisa bastante trabalhada ao redor do mundo e tem demonstrado resultados promissores (MARCOS et al., 2008; UGGERHØJ et al., 2015; PEARSON et al., 2016; YOU et al., 2023).
Atualmente existem diversos bancos de dados disponíveis que juntos compõem mais de 30.000 sequências peptídicas. Além disso, alguns ainda fornecem informações de estudos experimentais in vitro e in vivo acerca da toxicidade e atividade hemolítica desses AMPs. Essa ampla gama de dados, permite a utilização de estratégias computacionais para a identificação de padrões entre as sequências e uma possível associação com sua atividade. A combinação desses dados com técnicas de aprendizado de máquina e modelagem computacional tem permitido avanços significativos no campo do design de AMPs. Hoje, algoritmos de aprendizado de máquina podem ser treinados com todas as informações disponíveis a respeito das sequências para prever a eficácia de novos peptídeos.
Diante do exposto, à medida que a RAM continua a desafiar abordagens convencionais de tratamento, a combinação entre pesquisa computacional e biologia molecular oferece uma nova perspectiva na luta contra micro-organismos resistentes. A exploração de AMPs projetados de maneira racional, apoiados por métodos de IA, pode oferecer um caminho promissor para enfrentar os desafios da RAM, buscando preservar a eficácia dos tratamentos e contribuir para a melhoria da saúde pública.

Metodologia

6.1. Coleta de Dados
Para obter dados de sequências peptídicas com atividade antimicrobiana, serão utilizados três bancos de dados públicos disponíveis online: Database of Antimicrobial Activity and Structure of Peptides (PIRTSKHALAVA et al., 2021), Antimicrobial Peptide Database (WANG et al., 2016) e Collection of Antimicrobial Peptide (WHAGU et al., 2020). As sequências serão extraídas e organizadas em arquivos no formato FASTA, categorizadas conforme suas atividades (antibacteriana, antifúngica, antiviral e antitumoral). Para criar o conjunto de dados de sequências peptídicas negativas (sem atividade antimicrobiana), será utilizada a plataforma Uniprot® (https://www.uniprot.org/). Serão aplicados filtros rigorosos para garantir que apenas sequências sem atividade antimicrobiana sejam incluídas, evitando a incorporação de dados positivos. Além disso, o projeto incluirá uma etapa de recuperação de dados de patentes e artigos científicos, visando enriquecer ainda mais o conjunto de dados com informações inéditas. Para isso, serão empregadas APIs especializadas em web scraping e mineração de dados. As principais ferramentas a serem utilizadas incluem: PyPatent e Google Patent Scraper, para extração de bancos de patentes, e MetaPub e Scholarly, para extração automatizada de dados de artigos científicos. Modelos de linguagem como ChatGPT e Gemini serão utilizados para a extração de informações em formato estruturado através da bibliteca LangChain, e será realizada posteriormente uma curadoria manual dos resultados. Além das sequências dos peptídeos, dados de atividade biológica (ex: concentração inibitória mínima, espécie que foi testada), também serão extraídos.
Outras atividades biológicas relevantes, como potencial atividade citotóxica, hemolítica, bem como susceptibilidade para degradação proteolítica serão extraídas da literatura, quando disponíveis, e preditas computacionalmente para ferramentas especializadas, sendo utilizadas anotações distintas para dados preditos e dados derivados de fontes primárias.
Para garantir a qualidade dos dados, uma revisão manual será empregada a partir dos dados organizados pelos LLMs, utilizando-se para isso uma pontuação para atribuir o grau de confiabilidade de que o peptídeo possui atividade biológica. Esta pontuação é baseada nos 5 níveis de evidência empregada pelo UniProt SwissProt, onde pontuação = 1 indica sequências com evidência apenas in silico, enquanto pontuação = 5 indica sequências com validação experimental. No presente trabalho, serão empregadas as seguintes pontuação, definidas empiricamente:
Peptídeos com evidência computacional (modelos de ML, docking molecular) ou similaridade com peptídeos já descritos experimentalmente.
Peptídeos com atividade demonstrada in vitro.
Peptídeos com atividade demonstrada in vivo.
Peptídeos já avaliados em ensaios clínicos
Peptídeos já foram aprovados para uso em humanos.

6.2. Seleção de Features
Para a seleção de features, será inicialmente realizada uma revisão da literatura para buscar as características mais relevantes em sequências peptídicas com atividade antimicrobiana. No contexto de aprendizado de máquina, features (ou características) são aspectos ou propriedades de um conjunto de dados utilizados para fazer previsões ou classificações (PUDJIHARTONO et al., 2022). Entre as principais características estão a composição de aminoácidos da sequência, parâmetros físico-químicos (carga, hidrofobicidade, peso molecular, entre outros) e características estruturais (DATTA et al., 2021). O cálculo das características será realizado utilizando a biblioteca Biopython (https://biopython.org/), que fornece diversas ferramentas para manipulação e análise de sequências biológicas, permitindo o cálculo das propriedades escolhidas para cada sequência peptídica (CHAPMAN et al., 2000). Para a criação de um dataframe contendo os dados das sequências e os features extraídos será utilizada a biblioteca Pandas.
6.3. Análise Exploratória de Dados
A análise exploratória de dados será realizada para compreender melhor as características das sequências peptídicas e suas propriedades físico-químicas, identificar padrões, e detectar possíveis outliers ou dados ausentes. Essa análise será realizada utilizando o ambiente de execução Google® Colab. Primeiramente, os datasets passarão por busca e correção de dados ausentes, duplicados ou inconsistentes. Uma análise de estatística descritiva será realizada utilizando as bibliotecas Pandas (https://pandas.pydata.org/), Matplotlib (https://matplotlib.org/) e Seaborn (https://seaborn.pydata.org/), visando entender a distribuição geral dos dados e as relações entre as variáveis. Além disso, serão feitas as seguintes análises: matriz de correlação, z-score e análise de componentes principais. Essas análises ajudarão a identificar padrões e facilitar a visualização de relações entre as variáveis.
6.4. Pré-processamento dos dados
O pré-processamento consiste em transformar os dados brutos em dados preparados para posterior treinamento dos modelos de aprendizado de máquina. A primeira etapa consistirá na limpeza e normalização dos dados. Esta etapa envolve a remoção de dados duplicados, a correção de dados incorretos ou incompletos e a filtragem de dados irrelevantes. Após, é realizada uma transformação dos dados para um formato compatível com os algoritmos de aprendizado de máquina. Nesta etapa os dados serão padronizados em escalas para garantir que todas as features contribuam igualmente para o modelo. Por fim, o conjunto de dados será dividido em três subconjuntos: treinamento, teste e validação, utilizando a função train_test_split do scikit-learn (https://scikit-learn.org/stable/). Os dados de treinamento servem para treinar o modelo, os dados de validação servem para comparar diferentes modelos e hiperparâmetros e os dados de teste tem como finalidade comprovar a funcionalidade do modelo.
6.5. Treinamento dos Modelos
Os modelos utilizados para treinamento serão: Random Forest Classifier, Support Vector Machine e Gradient Boosting Classifier. A escolha desses modelos é baseada na sua capacidade de lidar com dados de alta dimensionalidade e complexidade, características comuns nas sequências peptídicas e suas propriedades físico-químicas. Além disso, será empregado um modelo generativo baseado na arquitetura Transformer. Esse modelo aprende com a distribuição dos dados de entrada, permitindo compreender as características intrínsecas e padrões de cada sequência, estabelecendo uma associação com sua atividade. O conjunto de dados será participado em treino e teste (holdout), sendo os dados de treino posteriormente divididos para serem utilizados por métodos de validação, como validação cruzadas e leave-one-out (LOO). Os parâmetros selecionados para cada modelo serão otimizados utilizando grid search, uma função da biblioteca scikit-learn que prevê a melhor combinação de hiperparâmetros para um determinado modelo. Hiperparâmetros são variáveis que não são aprendidas pelo modelo, o usuário que os determina (ALIBRAHIM & LUDWIG, 2021). Para cada modelo, será definido um conjunto de possíveis valores para cada hiperparâmetro e uma validação cruzada será executada em cada combinação. O conjunto de hiperparâmetros que resultar na melhor performance será escolhido como o melhor para cada modelo. A avaliação final dos modelos será baseada nos resultados da validação cruzada, holdout e LOO.
6.6. Métricas de Validação
A avaliação do desempenho dos modelos em um experimento de aprendizado de máquina utiliza diversas métricas fundamentais. Entre as principais métricas estão: precisão, recall, f1-score e acurácia. A acurácia reflete a proporção de previsões corretas realizadas pelo modelo, oferecendo uma visão geral de seu desempenho. A precisão, por sua vez, determina a proporção de verdadeiros positivos em relação a todas as previsões positivas, indicando a probabilidade de ocorrência de falsos positivos. O recall indica a proporção de verdadeiros positivos em relação a todos os casos positivos reais, utilizado para identificação de falsos negativos. A f1-score é uma média ponderada de precisão e recall, (YACOUBY & AXMAN, 2020). O(s) modelo(s) com melhor(es) desempenho(s) nessas métricas será(ão) selecionado(s) para implementação na plataforma.
6.7. Explicabilidade dos modelos
Para entender a contribuição de cada feature e melhorar a interpretabilidade dos modelos, será utilizada a ferramenta SHAP (https://shap.readthedocs.io/en/latest/). Shapley Additive Explanations (em português Explicações do Aditivo Shapley) é uma metodologia que explica a saída dos modelos de aprendizado de máquina, fornecendo valores de importância para cada feature, permitindo uma interpretação mais clara e intuitiva dos resultados. Essa ferramenta ajudará a identificar quais características são mais relevantes para a previsão da atividade antimicrobiana das sequências peptídicas, permitindo a otimização dos modelos (LUNDBERG & LEE, 2017).
6.8. Desenvolvimento da Plataforma
A primeira etapa do desenvolvimento da aplicação web consistirá na criação do layout para gerar uma representação visual do projeto que será desenvolvido. Para isso será utilizada a ferramenta Figma® (https://www.figma.com/). O front-end (interface do usuário) será desenvolvido utilizando como base HTML5, CSS3 e JavaScript. Os frameworks React e BootStrap serão utilizados para criação de uma interface dinâmica. Para o back-end (servidor), será utilizado o Flask (https://flask.palletsprojects.com/en/3.0.x/), um microframework responsável por gerenciar as requisições e respostas entre o front-end e o servidor. Testes unitários serão realizados para garantir que cada componente individual da aplicação esteja funcionando corretamente. Esses testes serão implementados utilizando o framework pytest (https://docs.pytest.org/en/8.2.x/).

Indicadores, Metas e Resultados

O conjunto de dados proposto, será de grande importância na pesquisa e desenvolvimento de novos AMPs. Ao incluir sequências rotuladas e organizadas por atividade integradas com dados de fontes diversas, como bancos de dados públicos, patentes e artigos científicos, o projeto fornecerá uma base de dados rica e abrangente. Essa rotulagem facilitará a aplicação de técnicas de aprendizado de máquina para prever a eficácia de novos peptídeos, e permitirá identificar padrões moleculares associados à RAM. Em contextos de investigação, esse conjunto de dados poderá acelerar a descoberta de novos compostos com potencial terapêutico, reduzindo significativamente o tempo e os custos envolvidos no desenvolvimento de novos medicamentos. Em termos comerciais, as empresas farmacêuticas poderão utilizar esse conjunto de dados para identificar e desenvolver novos candidatos a fármacos, explorando oportunidades de mercado em áreas de alta demanda, como o tratamento de infecções multirresistentes.

Equipe do Projeto

NomeCH SemanalData inicialData final
DAIANE DRAWANZ HARTWIG4
Déborah Trota Farias de Albernaz
FREDERICO SCHMITT KREMER18
GRATCHELA DUTRA RODRIGUES
LUCIANO DA SILVA PINTO4

Página gerada em 01/05/2025 14:25:50 (consulta levou 0.136491s)