O uso da Inteligência Artificial (IA) como ferramenta de estratégia diagnóstica e prognóstica na COVID-19

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

01/08/2020 - 31/03/2021

Unidade de Origem

Faculdade de Medicina

Coordenador Atual

SILVIA ELAINE CARDOZO MACEDO

Área CNPq

Ciências da Saúde

Resumo

A pandemia pela COVID-19, nos últimos seis meses, estendeu-se rapidamente pelos cinco continentes mais populosos do mundo, sendo que o Brasil, atualmente, é o segundo país em número de casos após os EUA. A magnitude desse problema tem despertado a necessidade de tomada de decisões clínicas imediatas, as quais irão interferir em estratégias de saúde pública. Essas decisões incluem medidas de prevenção e tratamento, de acordo com a probabilidade de ocorrências dessa doença. A pesquisa do RNA do SARS-CoV-2 através do RT-PCR constitui-se no padrão-ouro para o diagnóstico da COVID-19. Porém, este exame não é amplamente acessível no Brasil e, segundo protocolos oficiais do Ministério da Saúde, o mesmo está indicado em situações específicas. Ademais, o resultado desse teste não é disponibilizado imediatamente, de tal forma que a decisão médica inicial é frequentemente pautada nos dados epidemiológicos, clínicos, laboratoriais e de imagem. Neste contexto, a elaboração de algoritmos para diagnósticos que possibilitem uma elevada predição da COVID-19 a partir de dados rotineiramente coletados em pacientes que buscam atendimento com sintomas respiratórios agudos poderia representar mais uma importante ferramenta para diagnóstico da doença. Em estudo realizado na emergência do Hospital Israelita Albert Einstein em São Paulo (Batista e col., 2020) foi relatado que a utilização de algoritmo de IA (Inteligência Artificial) com dados clínicos e laboratoriais coletados na avaliação inicial, alcançou bons resultados de sensibilidade e especificidade. As três entradas mais importantes para o desempenho preditivo do algoritmo foram as contagens de linfócitos, leucócitos e eosinófilos, respectivamente. Devido aos resultados do estudo citado, a utilização de algoritmos de IA é promissora e estimula a avaliação em outros cenários, bem como a utilização de outros dados clínicos disponíveis como entrada do algoritmo, de modo que possam melhorar o desempenho do mesmo. Pesquisas também vêm sendo desenvolvidas para a utilização de IA para estimar a evolução do quadro clínico dos pacientes confirmados com a doença. Nesses pacientes com a suspeita da doença ou com a mesma confirmada, quando existe a necessidade de hospitalização, dados adicionais são disponíveis, incluindo aferições de variáveis fisiológicas e bioquímicas, os quais podem auxiliar em algoritmos de IA para predição de prognóstico da COVID-19, incluindo desfechos como necessidade de intubação, ventilação mecânica e risco de morte. Este projeto de pesquisa trata do desenvolvimento ferramentas de IA, usando algoritmos de aprendizagem de máquina, para auxiliarem no diagnóstico da COVID-19 a partir de dados clínicos e laboratoriais e no prognóstico para estimar a evolução do quadro clínico dos pacientes confirmados com a doença.

Objetivo Geral

Elaborar ferramentas computacionais usando algoritmos de aprendizagem de máquina para o diagnóstico da COVID-19 baseado em dados epidemiológicos, clínicos e laboratoriais e para o prognóstico dos casos confirmados de COVID-19 para predizer desfechos como internação em UTI, necessidade de ventilação mecânica e risco de morte.

Justificativa

A importância epidemiológica da COVID-19, no Brasil e no mundo, dada a sua incidência e letalidade, associada à dificuldade de acesso amplo e rápido ao RT-PCR para o SARS-CoV-2, padrão-ouro para o diagnóstico da doença, impulsiona a busca por estratégias acessíveis para diagnóstico e prognóstico.
A aplicação de IA, usando algoritmos de aprendizado de máquina, têm sido bastante ampliada na área da saúde, como na classificação de tipos de tumor em imagens de ressonância magnética (Sajid e col., 2018), detecção de pólipos em imagens de endoscopia (Billah e Washeed, 2018), predição de problemas cardiovasculares (Poplin et al., 2018) e ajuda no diagnóstico de várias doenças como diabetes (Gulshan et al., 2016), síndrome de Parkinson (Lahmiri e col., 2018) e doenças pulmonares (Nam e col., 2019). Inclusive técnicas de aprendizado de máquina estão sendo propostas na literatura para diagnóstico da COVID-19, por exemplo, na integração de imagens de tomografia com exames clínicos (Mei et al., 2020).
O uso de algoritmos de IA, que a partir de dados epidemiológicos, clínicos e laboratoriais regularmente coletados na avaliação de pacientes com quadros respiratórios agudos, permite predizer a doença entre casos suspeitos e constitui-se em estratégia de saúde pública relevante, pela praticidade, rapidez de resposta e pelo baixo custo.
Para implementação da pesquisa e o desenvolvimento de um algoritmo de IA, é necessário estabelecer um protocolo de exames, acompanhado por um questionário complementar de sinais e sintomas, a ser aplicado naqueles pacientes, que se dirijam à UPA com sintomas respiratórios e com suspeita de terem contraído o novo coronavírus. Essas informações são de extrema importância para implantação e consolidação de um banco de dados local/regional de pacientes desidentificados, que poderá servir de base para análises estatísticas e futuras pesquisas na área.
Essa ferramenta, com o algoritmo já treinado rodando em segundo plano, retornará a probabilidade daquele paciente estar infectado com a SARS-CoV-2, a qual pode auxiliar o médico na tomada de decisão sobre a realização do teste RT-PCR. Essa probabilidade poderia, ainda, ficar disponível como um indicador quando as pessoas realizam um exame de sangue de rotina em um laboratório.
Conforme o banco de dados vai sendo alimentado com as informações dos pacientes, o algoritmo pode ser retreinado, o que melhora seu nível de assertividade.
A ferramenta proposta contribuirá com a redução e priorização do número de testes RT-PCR, absorvendo uma parcela dos negativos.
Já uma ferramenta que possa auxiliar no prognóstico contribuirá para a tomada de decisões sobre o curso de cada tratamento e procedimento relevante à qualidade de vida e às tomadas de decisões. Para tanto, é importante a coleta de dados no HE-UFPel/EBSERH.

Metodologia

A cidade de Pelotas, segundo estimativas do IBGE de 2018, tem uma população de 341.648 habitantes, sendo a quarta cidade mais populosa do estado. Encontra-se inserida na 3ª Coordenadoria Regional de Saúde, composta por 22 municípios, sendo referência de atendimento em saúde para alguns destes municípios, o que amplia a população atendida pelos serviços de saúde local. Na atual pandemia pela COVID-19, os pacientes com sintomas respiratórios agudos serão atendidos nas Unidades de Pronto-Atendimento (UPA) de Pelotas, e dos mesmos, serão coletadas informações epidemiológicas (sexo, idade), dados clínicos incluindo sinais vitais (temperatura axilar e frequência respiratória), saturação de oxigênio, sintomas respiratórios e exames laboratoriais como hemograma e PCR. Os pacientes serão submetidos ao RT-PCR para SARS-CoV-2, conforme o protocolo do Ministério da Saúde.
Os pacientes hospitalizados no HE-UFPel/EBSERH com suspeita de COVID-19 ou confirmação de contágio serão monitorados por variáveis fisiológicas e exames laboratoriais, incluindo dados de hemograma, PCR, ferritina, tipo sanguíneo, D-dímeros e troponinas que serão coletados para alimentar algoritmos de predição de desfechos como necessidade de ventilação mecânica, internação em UTI e risco de morte.
A partir dessas informações formar-se-á um banco de dados local/regional de pacientes desidentificados, que poderá também servir de base para análises estatísticas e futuras pesquisas na área.
A partir de um conjunto de dados desse banco utilizar-se-á algoritmos de aprendizagem de máquina para o desenvolvimento das ferramentas computacionais de predição de diagnóstico e prognóstico.
Particularmente em um cenário de aprendizado supervisionado, o conjunto de treinamento é formado pelos dados de entrada e seus respectivos dados de saída conhecidos. O objetivo é, dado um conjunto de treinamento, obter um modelo o qual seja um bom preditor para as respostas que queremos encontrar, correspondentes aos dados de entrada (Bishop, 2006).
No aprendizado de máquina, um modelo matemático para determinado problema é definido por alguns parâmetros, os quais são otimizados por um algoritmo baseado em dados conhecidos (Alpaydin, 2014). Visando a generalização do modelo, o banco de dados conhecidos será separado aleatoriamente em conjunto de treinamento e conjunto de teste. Essa técnica é chamada de validação cruzada. O algoritmo é treinado somente com os dados do conjunto de treinamento. Após o treinamento, o conjunto de teste será utilizado para validação do modelo.
Dentre as técnicas de aprendizagem de máquina para classificação que pretende-se verificar a aplicação, pode-se destacar gradient boosting com árvores de decisão, regressão logística, support vector machines (SVM) e redes neurais artificiais (Norvig, 2002; Steinwart, 2008). A maior parte desses algoritmos é baseado na otimização por gradiente descendente, que busca a minimização de uma métrica de erro utilizando a derivada dessa métrica em relação aos pesos do algoritmo.
Base de dados para diagnóstico possuem, comumente, comportamento altamente desbalanceado, ou seja, não possuem a mesma quantidade de amostras para positivos e negativos. Este comportamento influencia no treinamento dos algoritmos, alterando a capacidade do modelo de diferenciar as duas classes. O tratamento desse desbalanceamento poderá ser feito com uma abordagem clássica com K-Nearest Neighbor Synthetic Minority Over-sampling Technique (KNN SMOTE) ou com uso de aprendizado profundo com Generative Adversarial Networks (GAN). Tais técnicas criam amostras sintéticas da classe menos presente nos dados.
A evolução da composição do banco de dados se dará com o decorrer do levantamento das informações dos pacientes e, a partir de um certo nível, será possível utilizar esse conjunto de dados para retreinar o algoritmo com informações locais/regionais. Assim, plataformas (web ou aplicativo) serão disponibilizadas para diagnóstico de pacientes a partir da inserção dos dados. No caso da ferramenta para diagnóstico, com o algoritmo já treinado rodando em segundo plano, retornará a probabilidade daquele paciente estar infectado com a SARS-CoV-2, a qual pode auxiliar o médico na tomada de decisão sobre a realização do teste RT-PCR. Essa probabilidade poderia, ainda, ficar disponível como um indicador quando as pessoas realizam um exame de sangue de rotina em um laboratório. No caso da ferramenta de prognóstico, retornará a predição dos desfechos como tipo de internação, necessidade de ventilação mecânica e risco de morte.
As funções das ferramentas de diagnóstico e prognóstico poderão ser modificadas e/ou aprimoradas de acordo com o feedback dos profissionais da saúde.

Indicadores, Metas e Resultados

INDICADORES:
Os parâmetros de sensibilidade, especificidade e AUC serão utilizados como indicadores para validação do algoritmo.

METAS:
Para diagnóstico (Ação 1) tem-se como meta a obtenção de sensibilidade e especificidade acima de 85% e 80%, respectivamente, e AUC acima de 0,87.
Para prognóstico (Ação 2) tem-se como meta o desenvolvimento de um algoritmo com acurácia maior que 0,5, sendo, deste modo, um classificador com capacidade de discriminação.

Resultados esperados:
Uma página web e/ou aplicativo que apresenta como retorno uma probabilidade com relação ao diagnóstico da COVID-19 e um prognóstico com relação à predição do tratamento daqueles que forem positivos.

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ALESSANDRA NOTARI
ALEXANDRE DE ABREU GASTAUD
BIANCA RODRIGUES ORLANDO
CLÁUDIO LUÍS D ELIA MACHADO
DANISE SENNA OLIVEIRA	2
FABIANO SANDRINI MORAES
FABIO DE MOURA PINTO
HELENA SOUZA VAN DER LAAN
LUCIAN SOARES SCHIAVON
MARINA DE BORBA OLIVEIRA FREIRE
MAURO ANDRÉ BARBOSA CUNHA
OSCAR SCHMITT KREMER
RENATA VERNETTI GIUSTI
RICARDO BICA NOAL	2
RICARDO DOS SANTOS DE MEDEIROS
SILVIA ELAINE CARDOZO MACEDO	2
VINÍCIUS NIZOLLI KUHN