Nome do Projeto
Acesso-Fácil-HU
Ênfase
Pesquisa
Data inicial - Data final
10/01/2025 - 10/01/2029
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências Exatas e da Terra
Resumo
Este projeto de pesquisa visa desenvolver e validar um sistema de chatbot baseado em Recuperação Aumentada por Geração (RAG) para auxiliar colaboradores da Empresa Brasileira de Serviços Hospitalares (EBSERH) no acesso eficiente a informações contidas em manuais, regulamentações e orientações internas relacionadas às atividades do hospital universitário. Essa parceria entre a Universidade Federal de Pelotas (UFPEL) e a EBSERH permitirá a utilização de dados fornecidos pela empresa para explorar o potencial de grandes modelos de linguagem (LLMs) aprimorados por RAG no contexto hospitalar. Dessa forma, a pesquisa será conduzida na linha da Inteligência Artificial (IA) e buscará avançar no desenvolvimento de sistemas inteligentes que combinam técnicas de recuperação de informações e geração de linguagem natural, abordando problemas específicos como a demora no acesso a documentos extensos e o risco de respostas incorretas em assistentes convencionais. Nesse sentido, o projeto utilizará um banco de dados vetorial para recuperação de informações e integração com LLMs para gerar respostas precisas e contextualizadas. A avaliação incluirá métricas quantitativas, como BERTScore e RAGAs, além de estudos qualitativos com os colaboradores para analisar usabilidade e impacto no ambiente de trabalho. É válido ressaltar que serão seguidos rigorosos princípios éticos de proteção de dados, espera-se contribuir significativamente para o avanço de sistemas RAG, demonstrando seu potencial para otimizar processos corporativos em contextos hospitalares.
Objetivo Geral
Investigar e desenvolver técnicas baseadas em Recuperação Aumentada por Geração (RAG) em LLMs, explorando suas aplicações no ambiente hospitalar administrado pela EBSERH, com o objetivo de criar um sistema protótipo (chatbot) para facilitar o acesso a manuais, normas e orientações utilizadas por seus colaboradores.
Objetivos Específicos
*Coletar e estruturar dados: Reunir e processar manuais, regulamentos e documentos internos fornecidos pela EBSERH para sua utilização no sistema de RAG.
*Criar o pipeline de RAG: Desenvolver e implementar o pipeline combinando grandes modelos de linguagem (LLMs) e mecanismos de recuperação semântica para busca e geração de respostas.
*Avaliar quantitativamente o desempenho: Utilizar métricas como BERTScore e RAGAs para medir a relevância, fidelidade e qualidade das respostas geradas.
*Conduzir avaliações qualitativas: Realizar testes de usabilidade e eficácia com grupos de colaboradores para analisar a adoção e impacto do chatbot no ambiente hospitalar.
* Garantir a proteção de dados: Implementar medidas para assegurar a confidencialidade e ética no uso dos dados fornecidos pela EBSERH durante todas as etapas do projeto.
* Documentar e disseminar resultados: Publicar os resultados e avanços, contribuindo com o campo de sistemas baseados em RAG para aplicações corporativas e hospitalares.
Objetivos Específicos
*Coletar e estruturar dados: Reunir e processar manuais, regulamentos e documentos internos fornecidos pela EBSERH para sua utilização no sistema de RAG.
*Criar o pipeline de RAG: Desenvolver e implementar o pipeline combinando grandes modelos de linguagem (LLMs) e mecanismos de recuperação semântica para busca e geração de respostas.
*Avaliar quantitativamente o desempenho: Utilizar métricas como BERTScore e RAGAs para medir a relevância, fidelidade e qualidade das respostas geradas.
*Conduzir avaliações qualitativas: Realizar testes de usabilidade e eficácia com grupos de colaboradores para analisar a adoção e impacto do chatbot no ambiente hospitalar.
* Garantir a proteção de dados: Implementar medidas para assegurar a confidencialidade e ética no uso dos dados fornecidos pela EBSERH durante todas as etapas do projeto.
* Documentar e disseminar resultados: Publicar os resultados e avanços, contribuindo com o campo de sistemas baseados em RAG para aplicações corporativas e hospitalares.
Justificativa
A crescente complexidade das operações em hospitais universitários exige acesso rápido e preciso a informações críticas para a execução de atividades administrativas e assistenciais. No contexto da EBSERH, que gerencia hospitais universitários e integra suas funções assistenciais, de ensino e pesquisa, o uso de ferramentas inteligentes como sistemas de RAG representa uma oportunidade de otimizar o acesso às informações necessárias para a tomada de decisões no cotidiano hospitalar.
Embora os LLMs tenham se mostrado promissores em várias áreas, sua aplicação prática em determinados setores é limitada devido à falta de soluções específicas que combinem a geração de linguagem natural com a recuperação precisa de informações. A técnica de RAG oferece um meio de superar essas limitações ao integrar a capacidade de recuperação semântica de dados com a geração de respostas contextuais e relevantes.
Dessa forma, este projeto de pesquisa se justifica por sua contribuição científica e prática: do ponto de vista acadêmico, explora uma tecnologia emergente de IA, ampliando os conhecimentos sobre a eficácia e limitações do RAG em LLMs; no âmbito prático, responde a uma demanda específica da EBSERH ao propor soluções que impactem positivamente a agilidade e eficiência dos processos internos, além de apoiar a capacitação dos colaboradores.
Ao alinhar ciência aplicada e inovação tecnológica, o projeto também promove uma colaboração estreita entre a Universidade e a EBSERH, reforçando o vínculo entre pesquisa, ensino e os desafios do cotidiano hospitalar, em conformidade com os valores acadêmicos e sociais.
Embora os LLMs tenham se mostrado promissores em várias áreas, sua aplicação prática em determinados setores é limitada devido à falta de soluções específicas que combinem a geração de linguagem natural com a recuperação precisa de informações. A técnica de RAG oferece um meio de superar essas limitações ao integrar a capacidade de recuperação semântica de dados com a geração de respostas contextuais e relevantes.
Dessa forma, este projeto de pesquisa se justifica por sua contribuição científica e prática: do ponto de vista acadêmico, explora uma tecnologia emergente de IA, ampliando os conhecimentos sobre a eficácia e limitações do RAG em LLMs; no âmbito prático, responde a uma demanda específica da EBSERH ao propor soluções que impactem positivamente a agilidade e eficiência dos processos internos, além de apoiar a capacitação dos colaboradores.
Ao alinhar ciência aplicada e inovação tecnológica, o projeto também promove uma colaboração estreita entre a Universidade e a EBSERH, reforçando o vínculo entre pesquisa, ensino e os desafios do cotidiano hospitalar, em conformidade com os valores acadêmicos e sociais.
Metodologia
A metodologia do projeto será dividida em cinco etapas principais, abrangendo desde a preparação dos dados até a avaliação do sistema desenvolvido.
1. Coleta e Pré-processamento dos Dados
Coleta: Os manuais, normas e orientações internas da EBSERH serão fornecidos pela instituição em formato digital, como PDFs e documentos de texto.
Extração de conteúdo: Utilizar ferramentas de extração para transformar os documentos em texto bruto.
2. Desenvolvimento do Pipeline de Recuperação Aumentada por Geração (RAG)
Divisão em blocos semânticos (chunks): Aplicar algoritmos para dividir os textos em blocos de tamanho reduzido e semântica consistente, otimizando a recuperação e utilização no modelo.
Geração de embeddings: Criar representações vetoriais dos chunks utilizando modelos de linguagem baseados em embeddings.
Armazenamento: Armazenar os blocos processados em uma base vetorial para buscas eficientes baseadas em similaridade.
Construção do pipeline: Implementar um pipeline RAG combinando busca semântica e geração de respostas em linguagem natural.
Integração: Configurar o modelo de linguagem para receber blocos recuperados como contexto e gerar respostas baseadas na consulta fornecida pelos colaboradores da EBSERH.
3. Criação do Conjunto de Perguntas e Respostas de Referência
Geração manual: Pesquisadores criarão perguntas e respostas baseadas nas informações dos manuais e documentos fornecidos.
Geração com RAG: Utilizando o modelo configurado, serão enviados blocos de chunks para o LLM com a solicitação de criação de perguntas e respostas com base apenas no conteúdo fornecido.
Validação por especialistas: O conjunto gerado, seja manual ou automaticamente, será revisado e validado por, pelo menos, um profissional de cada área relevante da EBSERH. Essa etapa garantirá que as perguntas e respostas estejam de acordo com a prática profissional e os contextos específicos da instituição.
4. Avaliação do Sistema
A avaliação será conduzida em duas etapas:
Quantitativa:
Utilização do conjunto validado de perguntas e respostas de referência.
Cálculo de métricas de desempenho do chatbot, como:
BERTScore: Para avaliar a similaridade semântica entre as respostas geradas pelo chatbot e as de referência (Precisão, Recall, F1).
RAGAs: Métricas de relevância do contexto, fidelidade e adequação das respostas.
Qualitativa:
Testes realizados com grupos de colaboradores da EBSERH, avaliando aspectos como clareza, facilidade de uso e confiabilidade do sistema.
Coleta de feedback por meio de entrevistas e questionários.
5. Iteração e Refinamento
Com base nos resultados das avaliações, ajustes serão realizados no pipeline RAG, incluindo parâmetros de busca e geração.
Novas iterações do chatbot serão testadas até alcançar níveis satisfatórios de desempenho.
1. Coleta e Pré-processamento dos Dados
Coleta: Os manuais, normas e orientações internas da EBSERH serão fornecidos pela instituição em formato digital, como PDFs e documentos de texto.
Extração de conteúdo: Utilizar ferramentas de extração para transformar os documentos em texto bruto.
2. Desenvolvimento do Pipeline de Recuperação Aumentada por Geração (RAG)
Divisão em blocos semânticos (chunks): Aplicar algoritmos para dividir os textos em blocos de tamanho reduzido e semântica consistente, otimizando a recuperação e utilização no modelo.
Geração de embeddings: Criar representações vetoriais dos chunks utilizando modelos de linguagem baseados em embeddings.
Armazenamento: Armazenar os blocos processados em uma base vetorial para buscas eficientes baseadas em similaridade.
Construção do pipeline: Implementar um pipeline RAG combinando busca semântica e geração de respostas em linguagem natural.
Integração: Configurar o modelo de linguagem para receber blocos recuperados como contexto e gerar respostas baseadas na consulta fornecida pelos colaboradores da EBSERH.
3. Criação do Conjunto de Perguntas e Respostas de Referência
Geração manual: Pesquisadores criarão perguntas e respostas baseadas nas informações dos manuais e documentos fornecidos.
Geração com RAG: Utilizando o modelo configurado, serão enviados blocos de chunks para o LLM com a solicitação de criação de perguntas e respostas com base apenas no conteúdo fornecido.
Validação por especialistas: O conjunto gerado, seja manual ou automaticamente, será revisado e validado por, pelo menos, um profissional de cada área relevante da EBSERH. Essa etapa garantirá que as perguntas e respostas estejam de acordo com a prática profissional e os contextos específicos da instituição.
4. Avaliação do Sistema
A avaliação será conduzida em duas etapas:
Quantitativa:
Utilização do conjunto validado de perguntas e respostas de referência.
Cálculo de métricas de desempenho do chatbot, como:
BERTScore: Para avaliar a similaridade semântica entre as respostas geradas pelo chatbot e as de referência (Precisão, Recall, F1).
RAGAs: Métricas de relevância do contexto, fidelidade e adequação das respostas.
Qualitativa:
Testes realizados com grupos de colaboradores da EBSERH, avaliando aspectos como clareza, facilidade de uso e confiabilidade do sistema.
Coleta de feedback por meio de entrevistas e questionários.
5. Iteração e Refinamento
Com base nos resultados das avaliações, ajustes serão realizados no pipeline RAG, incluindo parâmetros de busca e geração.
Novas iterações do chatbot serão testadas até alcançar níveis satisfatórios de desempenho.
Indicadores, Metas e Resultados
Indicadores:
Qualidade da Resposta do Chatbot
Métrica: BERTScore (similaridade semântica entre as respostas do chatbot e as de referência).
Relevância, Fidelidade e Adequação (RAGAs)
Métrica: Context Relevancy, Faithfulness e Answer Relevancy.
Engajamento e Usabilidade do Chatbot
Métrica: Resultados de avaliações qualitativas com os colaboradores.
Acurácia na Recuperação de Informação
Métrica: Taxa de recuperação correta de documentos para cada consulta.
Validação de Perguntas e Respostas de Referência
Métrica: Proporção de perguntas e respostas aprovadas por profissionais das áreas da EBSERH.
Metas:
Coletar e processar 100% dos manuais e documentos fornecidos pela EBSERH até o final do primeiro semestre do projeto.
Construir e implementar o pipeline RAG funcional no primeiro ano.
Validar um conjunto de pelo menos 150 perguntas e respostas com profissionais da EBSERH até o final do segundo ano.
Concluir a avaliação quantitativa e qualitativa do sistema até o quinto semestre do projeto.
Refinar e disponibilizar um protótipo operacional para testes finais no ambiente hospitalar até o final do terceiro ano de projeto.
Resultados Esperados:
- Contribuições Científicas:
Publicação de resultados em periódicos e conferências sobre o impacto da aplicação de RAG em ambientes hospitalares.
Novos insights sobre a eficácia de técnicas de geração aumentada e sua aplicabilidade prática em LLMs.
- Benefício à EBSERH: Implantação de um sistema que melhora os fluxos de trabalho e capacita os colaboradores com uma ferramenta moderna de apoio às decisões.
Qualidade da Resposta do Chatbot
Métrica: BERTScore (similaridade semântica entre as respostas do chatbot e as de referência).
Relevância, Fidelidade e Adequação (RAGAs)
Métrica: Context Relevancy, Faithfulness e Answer Relevancy.
Engajamento e Usabilidade do Chatbot
Métrica: Resultados de avaliações qualitativas com os colaboradores.
Acurácia na Recuperação de Informação
Métrica: Taxa de recuperação correta de documentos para cada consulta.
Validação de Perguntas e Respostas de Referência
Métrica: Proporção de perguntas e respostas aprovadas por profissionais das áreas da EBSERH.
Metas:
Coletar e processar 100% dos manuais e documentos fornecidos pela EBSERH até o final do primeiro semestre do projeto.
Construir e implementar o pipeline RAG funcional no primeiro ano.
Validar um conjunto de pelo menos 150 perguntas e respostas com profissionais da EBSERH até o final do segundo ano.
Concluir a avaliação quantitativa e qualitativa do sistema até o quinto semestre do projeto.
Refinar e disponibilizar um protótipo operacional para testes finais no ambiente hospitalar até o final do terceiro ano de projeto.
Resultados Esperados:
- Contribuições Científicas:
Publicação de resultados em periódicos e conferências sobre o impacto da aplicação de RAG em ambientes hospitalares.
Novos insights sobre a eficácia de técnicas de geração aumentada e sua aplicabilidade prática em LLMs.
- Benefício à EBSERH: Implantação de um sistema que melhora os fluxos de trabalho e capacita os colaboradores com uma ferramenta moderna de apoio às decisões.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
LARISSA ASTROGILDO DE FREITAS | 1 | ||
MARILIA ROSA SILVEIRA | |||
Murilo Vargas da Cunha | |||
ULISSES BRISOLARA CORRÊA | 3 |