Nome do Projeto
Detecção Automática de Sarcasmo e Ironia em Múltiplos Idiomas
Ênfase
Pesquisa
Data inicial - Data final
02/08/2020 - 02/08/2022
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências Exatas e da Terra
Resumo
Grande parte dos estudos em Análise de Sentimento visam a classificar enunciados de acordo com sua polaridade. A ironia/sarcasmo se apresenta como um desafio a essa área, visto que compreende a inversão do sentido no texto. Por outro lado, o grande volume de dados publicados nas Redes Sociais e as características do gênero micropost chamam a atenção dos estudiosos. Nesse trabalho, propomos construir e detectar automaticamente ironia/sarcasmo em microposts e em textos noticiários reais e irônicos em múltiplo idiomas (Português, Inglês, Italiano, Espanhol, Árabe).
Objetivo Geral
O objetivo geral deste trabalho é realizar a coleta e o processamento de micropost e textos noticiários reais e irônicos, adquiridos com a ajuda de um programa desenvolvido para a coleta automatizada destes textos provenientes da web. Ainda, pretendemos elaborar ferramentas que façam a detecção automática de sarcasmo e ironia neste tipo de texto. Por fim, almejamos usar o corpus de ironia em língua portuguesa para a criação de uma competição voltada a tarefa de detecção de sarcasmo e ironia no idioma Português, semelhante as competições SemEval 2018 (Inglês), Ironita 2018 (Italiano), IroSvA 2019 (Espanhol) e FIRE 2019 (Árabe).
Justificativa
Apesar dos avanços no desenvolvimento tecnológico em Inteligência Artificial, o processamento automático de opinião se depara com vários obstáculos. Dentre eles, destaca-se a linguagem figurada. Nesse ínterim, a ironia se mostra como um desafio ao Processamento de Linguagem Natural. Em Análise de Sentimento, considera-se que o primeiro passo para o processamento de textos irônicos é a detecção automática desse fenômeno linguístico. Diversos estudos (como Carvalho 2009, Gonzales-Ibanez 2011, Reyes 2013 e Freitas 2014) propõem métodos capazes de identificar ironia em diferentes idiomas e, devido à presença de opiniões e outras características deste gênero textual, tweets e outros textos curtos frequentemente compõem corpora para esse tipo de trabalho.
Metodologia
Inicialmente, iremos criar uma ferramenta que captura textos de sites de noticiários com o foco em notícias reais e sensacionalistas. Com o corpus de ironia elaborado, iremos propor uma competição voltada a tarefa de detecção de sarcasmo e ironia no idioma Português. Por fim, pretendemos criar um sistema de detecção automática de sarcasmo e ironia em múltiplos idiomas. Esse sistema será criado após análise das propostas enviadas para as competições: SemEval 2018 (Inglês), Ironita 2018 (Italiano), IroSvA 2019 (Espanhol), FIRE 2019 (Árabe) e competição do Português.
Indicadores, Metas e Resultados
Dentre os resultados esperados podemos citar:
- programa para a coleta automatizada destes textos provenientes da web;
- corpus de ironia em língua portuguesa;
- competição voltada a tarefa de detecção de sarcasmo e ironia no idioma Português;
- sistema de detecção automática de sarcasmo e ironia em múltiplos idiomas.
- programa para a coleta automatizada destes textos provenientes da web;
- corpus de ironia em língua portuguesa;
- competição voltada a tarefa de detecção de sarcasmo e ironia no idioma Português;
- sistema de detecção automática de sarcasmo e ironia em múltiplos idiomas.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
GABRIEL SCHUBERT MARTEN | |||
LARISSA ASTROGILDO DE FREITAS | 3 |