Nome do Projeto
LETRAS & PROCESSAMENTO DE LINGUAGEM NATURAL (LAMPELL-PLN): SUB-LABORATÓRIO PARA ESTUDOS DAS MÚTUAS CONTRIBUIÇÕES ENTRE PROCESSAMENTO DE LINGUAGEM NATURAL, LINGUÍSTICA, LITERATURA & ENSINO.
Ênfase
Pesquisa
Data inicial - Data final
01/10/2025 - 30/09/2029
Unidade de Origem
Coordenador Atual
Área CNPq
Linguística, Letras e Artes
Resumo
LETRAS & PROCESSAMENTO DE LINGUAGEM NATURAL (LAMPELL-PLN) Este projeto aborda a relação entre Letras e processamento de linguagem natural (PLN) para aprofundar o estudo do português brasileiro em seus diversos aspectos sociolinguísticos, culturais e cognitivos. Frente à crescente integração da inteligência artificial na análise linguística e literária, o projeto reconhece o potencial do PLN para automatizar a análise de grandes corpora, identificar variações dialetais, neologismos e padrões de aquisição linguística, além de contribuir para intervenções pedagógicas e clínicas mais eficazes, especialmente em populações com necessidades específicas, como crianças com transtorno do espectro autista ou surdez. Ao mesmo tempo, destaca-se o cuidado ético para evitar vieses, preservar a diversidade linguística e garantir privacidade e justiça social no uso das tecnologias. Estruturado em fases, o projeto propõe a criação de infraestrutura tecnológica especializada (junto ao Laboratório Multimídia de Pesquisa em Estudos da Linguagem e Literatura - LAMPELL), desenvolvimento de corpora anotados multidimensionais e adaptação de ferramentas computacionais para nuances do português brasileiro. A metodologia combina métodos qualitativos tradicionais, como análise do discurso e etnografia, com técnicas de machine learning e deep learning para reconhecimento automático de fala, análise sintática e semântica, e modelagem de variações linguísticas e processos de aquisição em L1 e L2. O projeto também enfatiza a formação interdisciplinar de pesquisadores e profissionais, integrando linguistas, fonoaudiólogos, cientistas da computação e estudantes em um ambiente colaborativo. Além da pesquisa, o LAMPELL-PLN conduzirá atividades de extensão, publicará corpora e ferramentas abertas e promoverá parcerias nacionais e internacionais para ampliar o impacto científico e social. Os resultados previstos incluem a consolidação do laboratório como referência, a produção de recursos tecnológicos inclusivos e culturalmente sensíveis, e o avanço do conhecimento científico aliado à inovação responsável em inteligência artificial aplicada à linguagem. Dessa forma, LAMPELL-PLN posiciona-se na vanguarda da interseção entre Letras e Tecnologias Digitais, promovendo uma abordagem crítica e ética que valoriza a pluralidade linguística e contribui para a democratização do conhecimento e o desenvolvimento sustentável da pesquisa em literatura, linguística e processamento computacional da linguagem.

Objetivo Geral

Criar e consolidar o LAMPELL-PLN como polo de excelência em pesquisa, desenvolvimento e formação na interseção entre Sociolinguística (SL), Aquisição da Linguagem (AL), Linguística Aplicada (LA), Literatura e PLN, com foco nos usos das variedades do português brasileiro.
Aprofundar o conhecimento sobre como a linguagem (oral e escrita) é adquirida e utilizada em contextos naturais, considerando, tal como em Oliveira et al. (2023), variações sociais, culturais e cognitivas, especialmente em línguas e dialetos menos documentados, possibilitando uma base para intervenções educacionais e clínicas mais eficazes.

Justificativa

Pesquisas sociolinguísticas tradicionais enfrentam desafios para analisar leituras massivas de dados qualitativos e quantitativos. O PLN possibilita automatizar tarefas como extração de padrões, classificação de textos e análise de sentimentos em grande escala, permitindo mapear fenômenos dialetais, atitudes linguísticas e tendências de mudança em mídias digitais.
Ao mesmo tempo, modelos clássicos de PLN tendem a focar na eficiência, negligenciando a diversidade linguística, o que compromete sua eficácia e justiça social. Incorporar a perspectiva sociolinguística é fundamental para gerar sistemas mais robustos, precisos e inclusivos, com impactos positivos em reconhecimento de fala, tradução automática e geração de texto.
A implantação do LAMPELL-PLN é estratégica, posicionando a área de Letras no centro da inovação tecnológica e formando profissionais interdisciplinarmente aptos a atuar na fronteira entre linguística e computação, setores em crescente demanda. O desenvolvimento de pesquisas associadas à aquisição da linguagem e ao Processamento de Linguagem Natural (PLN) justifica-se por diversas dimensões que envolvem avanços científicos, sociais e tecnológicos.
Sabidamente, a aquisição da linguagem é um fenômeno complexo que se manifesta pela integração progressiva de elementos e fatos de linguagem em contextos linguísticos e socioculturais variados, fortemente marcados pela interação social e cultural. Estudos tradicionais em Linguística (especialmente em fonologia e fonoaudiologia) têm elucidado os processos e estratégias fundamentais para o desenvolvimento da linguagem, particularmente em populações com necessidades específicas, como crianças com Transtorno do Espectro Autista ou com surdez, cujas interações mediadas por cuidadores são essenciais para o progresso comunicativo (OLIVEIRA et al., 2023; ÁVILA-NÓBREGA; CAVALCANTE, 2024).
A incorporação do PLN nesses estudos amplia as possibilidades de análise, pois possibilita o tratamento computacional e em larga escala de corpora multimodais, permitindo detectar padrões, variações e desvios no processo de aquisição (COSTA et al., 2024). Ferramentas automatizadas, como softwares de anotação multimodal (ex.: ELAN), associadas a técnicas de machine learning e deep learning, viabilizam, por exemplo, o reconhecimento automático de fala e a extração de informações linguísticas em diferentes níveis de descrição (fonológico, morfossintático, semântico, pragmático, lexical, textual), o que traz maior precisão e abrangência às pesquisas (OLIVEIRA et al., 2023).
Além disso, ao integrar PLN com métodos tradicionais qualitativos — como análise do discurso e estudos etnográficos — as pesquisas podem colocar sob análise o vasto universo dos dados digitais, incluindo interações em redes sociais, registros orais e textos escritos, o que se alinha com a crescente demanda por estudos macro e microlinguísticos, capazes de capturar a complexidade da linguagem em uso (SILVA; LIMA, 2024).
Do ponto de vista tecnológico e educacional, o entrelaçamento entre aquisição da linguagem em ambientes mono/multicultural e PLN oferece contribuições para o desenvolvimento de sistemas educacionais inclusivos, aplicações clínicas e materiais didáticos personalizados, promovendo a equidade no ensino e a adaptação a diferentes perfis e necessidades linguísticas (GOMES, 2021; ZOU et al., 2024). Além disso, o PLN representa um caminho possível para a democratização do conhecimento linguístico, dado seu potencial de automatizar processos e disponibilizar recursos acessíveis para comunidades linguísticas diversas.
Por fim, considera-se fundamental a perspectiva ética no desenvolvimento dessas pesquisas, com atenção à proteção dos dados dos sujeitos, representatividade cultural e linguística e combate a vieses implícitos nos modelos computacionais. Tal cuidado ético garante que as inovações técnicas não comprometam a pluralidade linguística nem a justiça social (RIOS; O’CONNOR, 2024). Portanto, a investigação que integre a aquisição, a variação e a mudança linguísticas com o processamento da linguagem natural constitui campo vital para expandir o conhecimento científico, potencializar métodos analíticos e favorecer intervenções pedagógicas e clínicas mais eficazes, além de fomentar a inovação responsável no uso da inteligência artificial aplicada à linguagem.

Metodologia

Fase 1: Implantação e Estruturação do LAMPELL-PLN
ꚛ Planejamento e aquisição de hardware e software especializados.
ꚛ Preparação de espaço físico que favoreça trabalho colaborativo.
ꚛ Formação da equipe inicial e estabelecimento de parcerias estratégicas.
ꚛ Implementação de repositórios digitais com controle de versão e armazenamento seguro.

4.2. Fase 2: Capacitação e Desenvolvimento Inicial
ꚛ Oferta de workshops e cursos em programação, PLN e machine learning para os linguistas e estudantes participantes do projeto.
ꚛ Construção ou inclusão das bases de dados linguísticos.
ꚛ Análise, adaptação e validação de ferramentas computacionais para funcionamento com o português brasileiro.

4.3. Fase 3: Pesquisas e Expansão
ꚛ Ampliação das bases de dados linguísticos manuseáveis por ferramentas automatizadas, assegurando representatividade de diferentes variáveis sociolinguísticas.
o Seleção e inclusão ou coleta de dados linguísticos diversos que incluam textos orais e escritos de diferentes variedades dialetais, contextos sociais e faixas etárias para contemplar a aquisição, variação e mudança linguística, assim como dados de aquisição da linguagem L1 e L2.
o Digitalização e anotação multimodal dos dados, incluindo aspectos lexicais, fonológicos, morfossintáticos, semânticos e pragmáticos, utilizando softwares como ELAN e FieldWorks Language Explorer (FLEx).
o Desenvolvimento de metadados através do registro de informações sociolinguísticas e demográficas dos participantes para análises de variáveis como idade, gênero, escolaridade, ocupação, etnia, região, nível socioeconômico, acesso a bens culturais, atitudes, orientação e identidade linguísticas.
o Análise linguística computacional com o emprego de ferramentas avançadas de PLN para extração de métricas de complexidade lexical, coerência, coesão, uso de estruturas sintáticas e semânticas, como o sistema NILC-Metrix, adaptado para o português.
o Modelagem e classificação com algoritmos de machine learning e deep learning para detectar padrões de variação linguística, mudança histórica, trajetórias de aquisição e para identificar dialetos e socioletos através de classificação supervisionada e não supervisionada.
ꚛ Desenvolvimento de modelos avançados para detecção de variações fonológicas e morfossintáticas, para classificação dialetal e para análise de percepção e recepção linguísticas.
o Estudos estatísticos para verificação da significância das variações observadas, mapeando correlações entre variáveis sociolinguísticas e características linguísticas extraídas computacionalmente.
o Análise crítica e interpretativa qualitativa das relações entre variações linguísticas e contexto social, considerando teorias linguísticas clássicas e contemporâneas para fundamentar interpretações.
o Estratégias de revisão sistemática através do método PICO (Problema, Intervenção, Comparação, Outcome) para avaliar e sintetizar a literatura científica relevante, garantindo rigor metodológico nas referências teóricas e tecnológicas.
ꚛ Início de ações e projetos aplicados (pesquisa, inovação, ensino e extensão) e criação de grupos de estudo internos.
ꚛ Seminários regulares para divulgação e discussão dos avanços.

4.4. Fase 4: Consolidação e Disseminação
ꚛ Produção científica consolidada e contínua.
ꚛ Publicação e disponibilização aberta de corpora, modelos pré-treinados e ferramentas, com documentação detalhada e licenciamentos apropriados.
ꚛ Atividades de extensão para a comunidade externa (escolas, ONGs).
ꚛ Busca ativa de financiamento para sustentabilidade do laboratório.

Indicadores, Metas e Resultados

Resultados Esperados
ꚛ Laboratório plenamente estruturado, com corpo técnico e infraestrutura computacional.
ꚛ Corpora sociolinguísticos digitalizados, anotados e abertos à comunidade científica.
ꚛ Ferramentas de PLN adaptadas e especializadas para as variedades do português brasileiro.
ꚛ Formação de profissionais com perfil interdisciplinar, domínio de linguística e tecnologia.
ꚛ Produção científica de impacto nas áreas de Linguística Teórica, Linguística Aplicada e PLN.
ꚛ Contribuições para a construção de tecnologias linguísticas mais inclusivas e culturalmente sensíveis.
ꚛ Reconhecimento nacional e internacional do LAMPELL-PLN.

Equipe do Projeto

NomeCH SemanalData inicialData final
HELEN RAATZ
HELENA VITALINA SELBACH1
LUISA DA COSTA SILVA GALLAS
LUÍS ISAÍAS CENTENO DO AMARAL16
MARCIA MORALES KLEE
PAULO ROBERTO FERREIRA JUNIOR1
RAFAEL VETROMILLE DE CASTRO4

Página gerada em 07/10/2025 00:59:27 (consulta levou 0.365856s)