Nome do Projeto
LETRAS & PROCESSAMENTO DE LINGUAGEM NATURAL (LAMPELL-PLN): SUB-LABORATÓRIO PARA ESTUDOS DAS MÚTUAS CONTRIBUIÇÕES ENTRE PROCESSAMENTO DE LINGUAGEM NATURAL, LINGUÍSTICA, LITERATURA & ENSINO.
Ênfase
Pesquisa
Data inicial - Data final
01/10/2025 - 30/09/2029
Unidade de Origem
Coordenador Atual
Área CNPq
Linguística, Letras e Artes
Resumo
LETRAS & PROCESSAMENTO DE LINGUAGEM NATURAL (LAMPELL-PLN)
Este projeto aborda a relação entre Letras e processamento de linguagem natural (PLN) para aprofundar o estudo do português brasileiro em seus diversos aspectos sociolinguísticos, culturais e cognitivos. Frente à crescente integração da inteligência artificial na análise linguística e literária, o projeto reconhece o potencial do PLN para automatizar a análise de grandes corpora, identificar variações dialetais, neologismos e padrões de aquisição linguística, além de contribuir para intervenções pedagógicas e clínicas mais eficazes, especialmente em populações com necessidades específicas, como crianças com transtorno do espectro autista ou surdez. Ao mesmo tempo, destaca-se o cuidado ético para evitar vieses, preservar a diversidade linguística e garantir privacidade e justiça social no uso das tecnologias. Estruturado em fases, o projeto propõe a criação de infraestrutura tecnológica especializada (junto ao Laboratório Multimídia de Pesquisa em Estudos da Linguagem e Literatura - LAMPELL), desenvolvimento de corpora anotados multidimensionais e adaptação de ferramentas computacionais para nuances do português brasileiro. A metodologia combina métodos qualitativos tradicionais, como análise do discurso e etnografia, com técnicas de machine learning e deep learning para reconhecimento automático de fala, análise sintática e semântica, e modelagem de variações linguísticas e processos de aquisição em L1 e L2. O projeto também enfatiza a formação interdisciplinar de pesquisadores e profissionais, integrando linguistas, fonoaudiólogos, cientistas da computação e estudantes em um ambiente colaborativo. Além da pesquisa, o LAMPELL-PLN conduzirá atividades de extensão, publicará corpora e ferramentas abertas e promoverá parcerias nacionais e internacionais para ampliar o impacto científico e social. Os resultados previstos incluem a consolidação do laboratório como referência, a produção de recursos tecnológicos inclusivos e culturalmente sensíveis, e o avanço do conhecimento científico aliado à inovação responsável em inteligência artificial aplicada à linguagem. Dessa forma, LAMPELL-PLN posiciona-se na vanguarda da interseção entre Letras e Tecnologias Digitais, promovendo uma abordagem crítica e ética que valoriza a pluralidade linguística e contribui para a democratização do conhecimento e o desenvolvimento sustentável da pesquisa em literatura, linguística e processamento computacional da linguagem.
Objetivo Geral
Criar e consolidar o LAMPELL-PLN como polo de excelência em pesquisa, desenvolvimento e formação na interseção entre Sociolinguística (SL), Aquisição da Linguagem (AL), Linguística Aplicada (LA), Literatura e PLN, com foco nos usos das variedades do português brasileiro.
Aprofundar o conhecimento sobre como a linguagem (oral e escrita) é adquirida e utilizada em contextos naturais, considerando, tal como em Oliveira et al. (2023), variações sociais, culturais e cognitivas, especialmente em línguas e dialetos menos documentados, possibilitando uma base para intervenções educacionais e clínicas mais eficazes.
Aprofundar o conhecimento sobre como a linguagem (oral e escrita) é adquirida e utilizada em contextos naturais, considerando, tal como em Oliveira et al. (2023), variações sociais, culturais e cognitivas, especialmente em línguas e dialetos menos documentados, possibilitando uma base para intervenções educacionais e clínicas mais eficazes.
Justificativa
Pesquisas sociolinguísticas tradicionais enfrentam desafios para analisar leituras massivas de dados qualitativos e quantitativos. O PLN possibilita automatizar tarefas como extração de padrões, classificação de textos e análise de sentimentos em grande escala, permitindo mapear fenômenos dialetais, atitudes linguísticas e tendências de mudança em mídias digitais.
Ao mesmo tempo, modelos clássicos de PLN tendem a focar na eficiência, negligenciando a diversidade linguística, o que compromete sua eficácia e justiça social. Incorporar a perspectiva sociolinguística é fundamental para gerar sistemas mais robustos, precisos e inclusivos, com impactos positivos em reconhecimento de fala, tradução automática e geração de texto.
A implantação do LAMPELL-PLN é estratégica, posicionando a área de Letras no centro da inovação tecnológica e formando profissionais interdisciplinarmente aptos a atuar na fronteira entre linguística e computação, setores em crescente demanda. O desenvolvimento de pesquisas associadas à aquisição da linguagem e ao Processamento de Linguagem Natural (PLN) justifica-se por diversas dimensões que envolvem avanços científicos, sociais e tecnológicos.
Sabidamente, a aquisição da linguagem é um fenômeno complexo que se manifesta pela integração progressiva de elementos e fatos de linguagem em contextos linguísticos e socioculturais variados, fortemente marcados pela interação social e cultural. Estudos tradicionais em Linguística (especialmente em fonologia e fonoaudiologia) têm elucidado os processos e estratégias fundamentais para o desenvolvimento da linguagem, particularmente em populações com necessidades específicas, como crianças com Transtorno do Espectro Autista ou com surdez, cujas interações mediadas por cuidadores são essenciais para o progresso comunicativo (OLIVEIRA et al., 2023; ÁVILA-NÓBREGA; CAVALCANTE, 2024).
A incorporação do PLN nesses estudos amplia as possibilidades de análise, pois possibilita o tratamento computacional e em larga escala de corpora multimodais, permitindo detectar padrões, variações e desvios no processo de aquisição (COSTA et al., 2024). Ferramentas automatizadas, como softwares de anotação multimodal (ex.: ELAN), associadas a técnicas de machine learning e deep learning, viabilizam, por exemplo, o reconhecimento automático de fala e a extração de informações linguísticas em diferentes níveis de descrição (fonológico, morfossintático, semântico, pragmático, lexical, textual), o que traz maior precisão e abrangência às pesquisas (OLIVEIRA et al., 2023).
Além disso, ao integrar PLN com métodos tradicionais qualitativos — como análise do discurso e estudos etnográficos — as pesquisas podem colocar sob análise o vasto universo dos dados digitais, incluindo interações em redes sociais, registros orais e textos escritos, o que se alinha com a crescente demanda por estudos macro e microlinguísticos, capazes de capturar a complexidade da linguagem em uso (SILVA; LIMA, 2024).
Do ponto de vista tecnológico e educacional, o entrelaçamento entre aquisição da linguagem em ambientes mono/multicultural e PLN oferece contribuições para o desenvolvimento de sistemas educacionais inclusivos, aplicações clínicas e materiais didáticos personalizados, promovendo a equidade no ensino e a adaptação a diferentes perfis e necessidades linguísticas (GOMES, 2021; ZOU et al., 2024). Além disso, o PLN representa um caminho possível para a democratização do conhecimento linguístico, dado seu potencial de automatizar processos e disponibilizar recursos acessíveis para comunidades linguísticas diversas.
Por fim, considera-se fundamental a perspectiva ética no desenvolvimento dessas pesquisas, com atenção à proteção dos dados dos sujeitos, representatividade cultural e linguística e combate a vieses implícitos nos modelos computacionais. Tal cuidado ético garante que as inovações técnicas não comprometam a pluralidade linguística nem a justiça social (RIOS; O’CONNOR, 2024). Portanto, a investigação que integre a aquisição, a variação e a mudança linguísticas com o processamento da linguagem natural constitui campo vital para expandir o conhecimento científico, potencializar métodos analíticos e favorecer intervenções pedagógicas e clínicas mais eficazes, além de fomentar a inovação responsável no uso da inteligência artificial aplicada à linguagem.
Ao mesmo tempo, modelos clássicos de PLN tendem a focar na eficiência, negligenciando a diversidade linguística, o que compromete sua eficácia e justiça social. Incorporar a perspectiva sociolinguística é fundamental para gerar sistemas mais robustos, precisos e inclusivos, com impactos positivos em reconhecimento de fala, tradução automática e geração de texto.
A implantação do LAMPELL-PLN é estratégica, posicionando a área de Letras no centro da inovação tecnológica e formando profissionais interdisciplinarmente aptos a atuar na fronteira entre linguística e computação, setores em crescente demanda. O desenvolvimento de pesquisas associadas à aquisição da linguagem e ao Processamento de Linguagem Natural (PLN) justifica-se por diversas dimensões que envolvem avanços científicos, sociais e tecnológicos.
Sabidamente, a aquisição da linguagem é um fenômeno complexo que se manifesta pela integração progressiva de elementos e fatos de linguagem em contextos linguísticos e socioculturais variados, fortemente marcados pela interação social e cultural. Estudos tradicionais em Linguística (especialmente em fonologia e fonoaudiologia) têm elucidado os processos e estratégias fundamentais para o desenvolvimento da linguagem, particularmente em populações com necessidades específicas, como crianças com Transtorno do Espectro Autista ou com surdez, cujas interações mediadas por cuidadores são essenciais para o progresso comunicativo (OLIVEIRA et al., 2023; ÁVILA-NÓBREGA; CAVALCANTE, 2024).
A incorporação do PLN nesses estudos amplia as possibilidades de análise, pois possibilita o tratamento computacional e em larga escala de corpora multimodais, permitindo detectar padrões, variações e desvios no processo de aquisição (COSTA et al., 2024). Ferramentas automatizadas, como softwares de anotação multimodal (ex.: ELAN), associadas a técnicas de machine learning e deep learning, viabilizam, por exemplo, o reconhecimento automático de fala e a extração de informações linguísticas em diferentes níveis de descrição (fonológico, morfossintático, semântico, pragmático, lexical, textual), o que traz maior precisão e abrangência às pesquisas (OLIVEIRA et al., 2023).
Além disso, ao integrar PLN com métodos tradicionais qualitativos — como análise do discurso e estudos etnográficos — as pesquisas podem colocar sob análise o vasto universo dos dados digitais, incluindo interações em redes sociais, registros orais e textos escritos, o que se alinha com a crescente demanda por estudos macro e microlinguísticos, capazes de capturar a complexidade da linguagem em uso (SILVA; LIMA, 2024).
Do ponto de vista tecnológico e educacional, o entrelaçamento entre aquisição da linguagem em ambientes mono/multicultural e PLN oferece contribuições para o desenvolvimento de sistemas educacionais inclusivos, aplicações clínicas e materiais didáticos personalizados, promovendo a equidade no ensino e a adaptação a diferentes perfis e necessidades linguísticas (GOMES, 2021; ZOU et al., 2024). Além disso, o PLN representa um caminho possível para a democratização do conhecimento linguístico, dado seu potencial de automatizar processos e disponibilizar recursos acessíveis para comunidades linguísticas diversas.
Por fim, considera-se fundamental a perspectiva ética no desenvolvimento dessas pesquisas, com atenção à proteção dos dados dos sujeitos, representatividade cultural e linguística e combate a vieses implícitos nos modelos computacionais. Tal cuidado ético garante que as inovações técnicas não comprometam a pluralidade linguística nem a justiça social (RIOS; O’CONNOR, 2024). Portanto, a investigação que integre a aquisição, a variação e a mudança linguísticas com o processamento da linguagem natural constitui campo vital para expandir o conhecimento científico, potencializar métodos analíticos e favorecer intervenções pedagógicas e clínicas mais eficazes, além de fomentar a inovação responsável no uso da inteligência artificial aplicada à linguagem.
Metodologia
Fase 1: Implantação e Estruturação do LAMPELL-PLN
ꚛ Planejamento e aquisição de hardware e software especializados.
ꚛ Preparação de espaço físico que favoreça trabalho colaborativo.
ꚛ Formação da equipe inicial e estabelecimento de parcerias estratégicas.
ꚛ Implementação de repositórios digitais com controle de versão e armazenamento seguro.
4.2. Fase 2: Capacitação e Desenvolvimento Inicial
ꚛ Oferta de workshops e cursos em programação, PLN e machine learning para os linguistas e estudantes participantes do projeto.
ꚛ Construção ou inclusão das bases de dados linguísticos.
ꚛ Análise, adaptação e validação de ferramentas computacionais para funcionamento com o português brasileiro.
4.3. Fase 3: Pesquisas e Expansão
ꚛ Ampliação das bases de dados linguísticos manuseáveis por ferramentas automatizadas, assegurando representatividade de diferentes variáveis sociolinguísticas.
o Seleção e inclusão ou coleta de dados linguísticos diversos que incluam textos orais e escritos de diferentes variedades dialetais, contextos sociais e faixas etárias para contemplar a aquisição, variação e mudança linguística, assim como dados de aquisição da linguagem L1 e L2.
o Digitalização e anotação multimodal dos dados, incluindo aspectos lexicais, fonológicos, morfossintáticos, semânticos e pragmáticos, utilizando softwares como ELAN e FieldWorks Language Explorer (FLEx).
o Desenvolvimento de metadados através do registro de informações sociolinguísticas e demográficas dos participantes para análises de variáveis como idade, gênero, escolaridade, ocupação, etnia, região, nível socioeconômico, acesso a bens culturais, atitudes, orientação e identidade linguísticas.
o Análise linguística computacional com o emprego de ferramentas avançadas de PLN para extração de métricas de complexidade lexical, coerência, coesão, uso de estruturas sintáticas e semânticas, como o sistema NILC-Metrix, adaptado para o português.
o Modelagem e classificação com algoritmos de machine learning e deep learning para detectar padrões de variação linguística, mudança histórica, trajetórias de aquisição e para identificar dialetos e socioletos através de classificação supervisionada e não supervisionada.
ꚛ Desenvolvimento de modelos avançados para detecção de variações fonológicas e morfossintáticas, para classificação dialetal e para análise de percepção e recepção linguísticas.
o Estudos estatísticos para verificação da significância das variações observadas, mapeando correlações entre variáveis sociolinguísticas e características linguísticas extraídas computacionalmente.
o Análise crítica e interpretativa qualitativa das relações entre variações linguísticas e contexto social, considerando teorias linguísticas clássicas e contemporâneas para fundamentar interpretações.
o Estratégias de revisão sistemática através do método PICO (Problema, Intervenção, Comparação, Outcome) para avaliar e sintetizar a literatura científica relevante, garantindo rigor metodológico nas referências teóricas e tecnológicas.
ꚛ Início de ações e projetos aplicados (pesquisa, inovação, ensino e extensão) e criação de grupos de estudo internos.
ꚛ Seminários regulares para divulgação e discussão dos avanços.
4.4. Fase 4: Consolidação e Disseminação
ꚛ Produção científica consolidada e contínua.
ꚛ Publicação e disponibilização aberta de corpora, modelos pré-treinados e ferramentas, com documentação detalhada e licenciamentos apropriados.
ꚛ Atividades de extensão para a comunidade externa (escolas, ONGs).
ꚛ Busca ativa de financiamento para sustentabilidade do laboratório.
ꚛ Planejamento e aquisição de hardware e software especializados.
ꚛ Preparação de espaço físico que favoreça trabalho colaborativo.
ꚛ Formação da equipe inicial e estabelecimento de parcerias estratégicas.
ꚛ Implementação de repositórios digitais com controle de versão e armazenamento seguro.
4.2. Fase 2: Capacitação e Desenvolvimento Inicial
ꚛ Oferta de workshops e cursos em programação, PLN e machine learning para os linguistas e estudantes participantes do projeto.
ꚛ Construção ou inclusão das bases de dados linguísticos.
ꚛ Análise, adaptação e validação de ferramentas computacionais para funcionamento com o português brasileiro.
4.3. Fase 3: Pesquisas e Expansão
ꚛ Ampliação das bases de dados linguísticos manuseáveis por ferramentas automatizadas, assegurando representatividade de diferentes variáveis sociolinguísticas.
o Seleção e inclusão ou coleta de dados linguísticos diversos que incluam textos orais e escritos de diferentes variedades dialetais, contextos sociais e faixas etárias para contemplar a aquisição, variação e mudança linguística, assim como dados de aquisição da linguagem L1 e L2.
o Digitalização e anotação multimodal dos dados, incluindo aspectos lexicais, fonológicos, morfossintáticos, semânticos e pragmáticos, utilizando softwares como ELAN e FieldWorks Language Explorer (FLEx).
o Desenvolvimento de metadados através do registro de informações sociolinguísticas e demográficas dos participantes para análises de variáveis como idade, gênero, escolaridade, ocupação, etnia, região, nível socioeconômico, acesso a bens culturais, atitudes, orientação e identidade linguísticas.
o Análise linguística computacional com o emprego de ferramentas avançadas de PLN para extração de métricas de complexidade lexical, coerência, coesão, uso de estruturas sintáticas e semânticas, como o sistema NILC-Metrix, adaptado para o português.
o Modelagem e classificação com algoritmos de machine learning e deep learning para detectar padrões de variação linguística, mudança histórica, trajetórias de aquisição e para identificar dialetos e socioletos através de classificação supervisionada e não supervisionada.
ꚛ Desenvolvimento de modelos avançados para detecção de variações fonológicas e morfossintáticas, para classificação dialetal e para análise de percepção e recepção linguísticas.
o Estudos estatísticos para verificação da significância das variações observadas, mapeando correlações entre variáveis sociolinguísticas e características linguísticas extraídas computacionalmente.
o Análise crítica e interpretativa qualitativa das relações entre variações linguísticas e contexto social, considerando teorias linguísticas clássicas e contemporâneas para fundamentar interpretações.
o Estratégias de revisão sistemática através do método PICO (Problema, Intervenção, Comparação, Outcome) para avaliar e sintetizar a literatura científica relevante, garantindo rigor metodológico nas referências teóricas e tecnológicas.
ꚛ Início de ações e projetos aplicados (pesquisa, inovação, ensino e extensão) e criação de grupos de estudo internos.
ꚛ Seminários regulares para divulgação e discussão dos avanços.
4.4. Fase 4: Consolidação e Disseminação
ꚛ Produção científica consolidada e contínua.
ꚛ Publicação e disponibilização aberta de corpora, modelos pré-treinados e ferramentas, com documentação detalhada e licenciamentos apropriados.
ꚛ Atividades de extensão para a comunidade externa (escolas, ONGs).
ꚛ Busca ativa de financiamento para sustentabilidade do laboratório.
Indicadores, Metas e Resultados
Resultados Esperados
ꚛ Laboratório plenamente estruturado, com corpo técnico e infraestrutura computacional.
ꚛ Corpora sociolinguísticos digitalizados, anotados e abertos à comunidade científica.
ꚛ Ferramentas de PLN adaptadas e especializadas para as variedades do português brasileiro.
ꚛ Formação de profissionais com perfil interdisciplinar, domínio de linguística e tecnologia.
ꚛ Produção científica de impacto nas áreas de Linguística Teórica, Linguística Aplicada e PLN.
ꚛ Contribuições para a construção de tecnologias linguísticas mais inclusivas e culturalmente sensíveis.
ꚛ Reconhecimento nacional e internacional do LAMPELL-PLN.
ꚛ Laboratório plenamente estruturado, com corpo técnico e infraestrutura computacional.
ꚛ Corpora sociolinguísticos digitalizados, anotados e abertos à comunidade científica.
ꚛ Ferramentas de PLN adaptadas e especializadas para as variedades do português brasileiro.
ꚛ Formação de profissionais com perfil interdisciplinar, domínio de linguística e tecnologia.
ꚛ Produção científica de impacto nas áreas de Linguística Teórica, Linguística Aplicada e PLN.
ꚛ Contribuições para a construção de tecnologias linguísticas mais inclusivas e culturalmente sensíveis.
ꚛ Reconhecimento nacional e internacional do LAMPELL-PLN.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
HELEN RAATZ | |||
HELENA VITALINA SELBACH | 1 | ||
LUISA DA COSTA SILVA GALLAS | |||
LUÍS ISAÍAS CENTENO DO AMARAL | 16 | ||
MARCIA MORALES KLEE | |||
PAULO ROBERTO FERREIRA JUNIOR | 1 | ||
RAFAEL VETROMILLE DE CASTRO | 4 |