Nome do Projeto
Algoritmos de inteligência artificial para predição de doenças bucais a partir de variáveis clínicas, comportamentais, socioeconômicas e de um big data genético
Ênfase
Pesquisa
Data inicial - Data final
22/08/2023 - 31/12/2026
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências da Saúde
Resumo
O objetivo do presente projeto é o desenvolvimento de algoritmos de Machine Learning para predição de doenças bucais a partir de variáveis clínicas, comportamentais, socioeconômicas e genéticas. Todos os nascidos vivos de 1982 (n=5.914) foram identificados e incluídos em um inquérito de saúde perinatal. Estudos de Saúde Bucal foram realizados em subamostras aos 15 (n= 888), aos 24 (n=720) e 31 (n=539) anos. Aplicação de questionários e exames clínicos odontológicos foram realizados. Os desfechos investigados no presente projeto serão: i) trajetória de cárie dentária ao longo da vida (15, 24 e 31 anos); ii) doença periodontal (31 anos); iii) bruxismo (31 anos); e iv) má oclusão dentária (15 anos). Potenciais variáveis preditoras compreenderão fatores clínicos, comportamentais, socioeconômicos e genéticos. Amostras de DNA foram genotipadas e 370.000 Single Nucleotide Polymorphisms (SNPs) irão compor os preditores genéticos. A análise dos dados será realizada na linguagem Python. Os dados serão divididos aleatoriamente em subconjuntos de treinamento e teste (70:30) e as variáveis serão padronizadas (one-hot encoding). Validação cruzada de 10x será empregada utilizando hyperopt. Algoritmos de machine learning serão testados para cada um dos desfechos, incluindo regressão logística, redes neurais artificiais, random forest, light gradient boosting machine e extreme gradient boosting trees. O desempenho comparativo dos modelos será avaliado por meio da área sob a curva ROC, sensibilidade, especificidade, valor preditivo positivo (VPP), valor preditivo negativo e média harmônica entre sensibilidade e VPP (F-score). A calibração dos modelos será avaliada por meio do Brier Score. A contribuição de cada preditor será avaliada usando valores de Shapley.
Objetivo Geral
O objetivo geral do presente projeto é o desenvolvimento de algoritmos de Machine Learning utilizados na para predição de doenças e condições bucais (cárie dentária, doença periodontal, bruxismo e má oclusão dentária) a partir de variáveis clínicas, comportamentais, socioeconômicas e genéticas.
Justificativa
A aplicação de SNPs como variáveis preditoras em modelos de aprendizado de máquina pode identificar novas vias genéticas e melhorar a precisão na identificação de indivíduos de alto risco para diferentes doenças bucais. Até o momento, nenhum estudo disponível na literatura objetivou utilizar algoritmos de inteligência artificial para predição de doenças bucais incorporando informações genéticas. Assim, metodologias inovadoras, incluindo aprendizado de máquina, podem melhorar nossa compreensão dos processos biológicos subjacentes e de redes variantes de genes que poderiam influenciar diferentes doenças bucais.
Metodologia
Todos os nascidos vivos de 1982 (n=5.914) foram identificados e incluídos em um inquérito de saúde perinatal. Estudos de Saúde Bucal foram realizados em subamostras aos 15 (n= 888), aos 24 (n=720) e 31 (n=539) anos. Aplicação de questionários e exames clínicos odontológicos foram realizados. Os desfechos investigados no presente projeto serão: i) trajetória de cárie dentária ao longo da vida (15, 24 e 31 anos); ii) doença periodontal (31 anos); iii) bruxismo (31 anos); e iv) má oclusão dentária (15 anos). Potenciais variáveis preditoras compreenderão fatores clínicos, comportamentais, socioeconômicos e genéticos. Amostras de DNA foram genotipadas e 370.000 Single Nucleotide Polymorphisms (SNPs) irão compor os preditores genéticos. A análise dos dados será realizada na linguagem Python. Os dados serão divididos aleatoriamente em subconjuntos de treinamento e teste (70:30) e as variáveis serão padronizadas (one-hot encoding). Validação cruzada de 10x será empregada utilizando hyperopt. Algoritmos de machine learning serão testados para cada um dos desfechos, incluindo regressão logística, redes neurais artificiais, random forest, light gradient boosting machine e extreme gradient boosting trees. O desempenho comparativo dos modelos será avaliado por meio da área sob a curva ROC, sensibilidade, especificidade, valor preditivo positivo (VPP), valor preditivo negativo e média harmônica entre sensibilidade e VPP (F-score). A calibração dos modelos será avaliada por meio do Brier Score. A contribuição de cada preditor será avaliada usando valores de Shapley.
Indicadores, Metas e Resultados
• Capacitação da equipe de trabalho na utilização de Machine Learning em desfechos de saúde bucal;
• Geração de pelo menos 4 artigos científicos a serem encaminhados para a publicação em periódicos Qualis capes A1 (um artigo para cada desfecho estudado);
• Geração de trabalhos de iniciação científica, pelo menos um trabalho de conclusão de curso e uma dissertação de mestrado;
• Consolidação da linha de pesquisa em epidemiologia genética
• Desenvolvimento de algoritmos que melhoram a predição do risco de cárie dentária, doença periodontal, bruxismo e má oclusão.
• Geração de pelo menos 4 artigos científicos a serem encaminhados para a publicação em periódicos Qualis capes A1 (um artigo para cada desfecho estudado);
• Geração de trabalhos de iniciação científica, pelo menos um trabalho de conclusão de curso e uma dissertação de mestrado;
• Consolidação da linha de pesquisa em epidemiologia genética
• Desenvolvimento de algoritmos que melhoram a predição do risco de cárie dentária, doença periodontal, bruxismo e má oclusão.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
FLAVIO FERNANDO DEMARCO | 1 | ||
FRANCINE DOS SANTOS COSTA | 1 | ||
LUANA CARLA SALVI | |||
LUIZ ALEXANDRE CHISINI | 4 | ||
LUIZA GIODA NORONHA | |||
MARCOS BRITTO CORREA | 1 |