Nome do Projeto
Análise de Sentimento Baseada em Aspectos Usando Aprendizado Profundo: uma Proposta Aplicada a Língua Portuguesa
Ênfase
Pesquisa
Data inicial - Data final
02/08/2020 - 02/08/2028
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências Exatas e da Terra
Resumo
Uma grande quantidade de textos opinativos se tornou disponível publicamente com o aumento do acesso a Internet e a popularização de sistemas onde o usuário é coautor do conteúdo. Nesses textos pode-se encontrar muitas informações valiosas, tanto para indivíduos quanto para entidades (privadas ou governamentais). No entanto, extrair informações relevantes destas fontes pode ser um desafio. A Análise de Sentimento é a área da Ciência da Computação focada em extrair destes documentos os sentimentos expressos por indivíduos com relação a produtos ou serviços. Este trabalho propõe o emprego de redes neurais convolucionais na análise de sentimento em nível de aspectos aplicada a textos escritos em Língua Portuguesa. Esse tipo de abordagem realiza análises direcionadas a descrever os sentimentos expressos em um nível bastante específico, buscando explicar quais aspectos (partes ou propriedades) das entidades estão despertando o sentimento descrito no texto. Ao final deste trabalho esperamos ter desenvolvido um novo método de análise de sentimento em nível de aspectos baseado em redes neurais convolucionais que avance o desempenho do estado-da-arte.
Objetivo Geral
O objetivo geral deste trabalho é propor (definir, implementar e avaliar) um novo método de Análise de Sentimento em Nível de Aspectos para documentos opinativos escritos em Língua Portuguesa utilizando Aprendizado Profundo.
Justificativa
Ao longo das últimas duas décadas houve um crescimento no uso da Internet ao redor do mundo, e em especial nos países em desenvolvimento. Tomando-se como exemplo o Brasil, no ano 2000 existiam 5 milhões de habitantes com acesso frequente à Internet, o que representava em torno de 2.9% da sua população. Atualmente, estima-se que perto de 140 milhões de pessoas acessam regularmente a Internet no território brasileiro, alcançando cerca de 66% da população (INTERNET WORLD STATS, 2017).
Dentre os cinquenta sistemas online mais acessados pelos brasileiros encontramos buscadores de conteúdo, sites de notícias, redes sociais e sites de compra e venda de produtos (AMAZON, 2018). Desta lista destacamos a importância de sistemas onde o usuário é coautor do conteúdo (User-Generated
Content – UGC), como redes sociais (Facebook e Twitter) e sites de venda de produtos, onde os usuários podem escrever comentários sobre os produtos (como, por exemplo, Mercado Livre e Americanas).
A medida que as mídias sociais atingiram mais da metade da população nacional, apenas o Facebook já possuía em torno de 111 milhões de usuários ativos no Brasil em 2017 (INTERNET WORLD STATS, 2017), elas se tornaram importantes plataformas de disseminação da informação. Isso fez com que as experiências e opiniões que as pessoas comuns compartilham nas mídias tenham a possibilidade de alcançar uma parcela significativa da sociedade em que estão inseridas. Assim, essas opiniões podem ajudar outras pessoas em suas escolhas, sejam elas sobre produtos, serviços ou profissionais.
Segundo Liu (2015), as pessoas são muito influenciadas por opiniões de terceiros, mesmo em decisões simples como "qual filme assistir?". Antes do surgimento da Internet, essas opiniões eram coletadas diretamente com amigos e familiares, ou ainda consultando especialistas ou veículos especializados, como revistas com análises sobre produtos e serviços. Atualmente, as mídias sociais facilitam o acesso a essas opiniões, sejam elas de amigos e familiares, de especialistas ou mesmo de outros indivíduos desconhecidos.
Para entidades privadas e governamentais o levantamento de opiniões é frequentemente feito através de questionários específicos, ao custo de desenvolvimento de perguntas adequadas e muitas vezes com dificuldade para obter respostas do público de interesse (SCHOUTEN; FRASINCAR, 2016).
As opiniões têm grande utilidade para essas entidades pois essas informações podem auxiliá-las a direcionar seus esforços de gestão em busca de aumento de qualidade nos produtos e serviços prestados (CAMBRIA et al., 2010). Esse esforço pode ser ainda melhor gerenciado se tivermos informações mais detalhadas sobre quais partes do produto ou serviço estão sendo elogiadas ou criticadas na Web (SCHOUTEN; FRASINCAR, 2016).
Nesse cenário de disseminação do acesso à Internet, ferramentas de distribuição de conteúdo gerado pelo usuário popularizaram-se e ganharam importância nas tomadas de decisão de indivíduos e empresas (YE et al., 2011; AGGARWAL; SINGH, 2013; ZHANG; ZHAO; GUPTA, 2018).
Porém, um grande volume de opiniões trás consigo uma série de problemas associados. O mais evidente está relacionado com a dificuldade de se obterem informações relevantes dentro de um grande volume de informações disponíveis na Web. Informações estas que, em geral, estão disponibilizadas de forma não estruturada em documentos escritos em língua natural. Estes documentos muitas vezes apresentam ambiguidades e ocultam informações relevantes em conteúdo multimídia (como imagens, áudios e vídeos).
Focando nessas adversidades, dentro da Ciência da Computação desenvolveu-se uma área para extrair o sentimento que um documento expressa sobre determinada entidade, essa área é chamada de Análise de Sentimento (LIU, 2010). Embora a forma de tratamento desta área tenha convergido para esta nomenclatura, ainda podemos encontrar trabalhos que se referem a esta área como Mineração de Opinião, Classificação de Sentimento, Extração de Opinião, Mineração de Sentimento, Análise de Subjetividade, Análise de Afeição,
Análise de Emoção, Mineração de Críticas, dentre outros (FREITAS, 2015; LIU, 2012; PANG, LEE, 2008).
A maior parte da pesquisa nesta área é constituída de trabalhos focados na extração do sentimento expresso em referências diretas a uma entidade de interesse ("Pepsi é a melhor bebida que existe!"). Deixando de buscar aquele nível de detalhes que possibilitaria que as empresas investissem em melhorias nos pontos problemáticos dos seus produtos e os indivíduos pudessem buscar informações mais precisas sobre os produtos de interesse. Por exemplo, "Eu amo meu iPhone, mas não posso ficar longe de uma tomada" expressa sentimentos conflitantes sobre a entidade de interesse "iPhone", primeiramente um sentimento de satisfação com o dispositivo de forma geral, mas então uma referência indireta a um aspecto ("bateria") do dispositivo. Para lidar com esse nível de detalhamento precisamos de métodos de análise de sentimento
diferenciados, que operem em um nível de granularidade mais baixo e mais dirigido. Na literatura estes métodos são conhecidos como métodos em Nível de Aspecto.
Em se tratando de trabalhos aplicados à Língua Portuguesa encontramos apenas um trabalho de análise de sentimento em nível de aspectos, englobando desde a detecção de aspectos até a classificação do sentimento sobre os mesmos, que foi proposto por FREITAS (2015). Este trabalho é baseado em léxicos de sentimento e regras linguísticas. O desempenho deste tipo de abordagem é dependente das regras criadas para a extração de informações e da qualidade do léxico de sentimento quanto ao domínio dos textos a serem
analisados. Aplicar uma abordagem deste tipo em um corpus diferente do qual ele foi criado pode ser um desafio.
Trabalhos em Nível de Aspectos aplicados a outras línguas também representam uma pequena parte da literatura. Segundo SCHOUTEN; FRASINCAR (2016) a maioria dos trabalhos da literatura assumem como foco a análise em nível de sentença ou documento, pois são versões mais simples do problema. SCHOUTEN; FRASINCAR (2016) ainda ressalta que dada a dificuldade da realização completa da análise de sentimento em nível de aspectos muitos trabalhos focam em sub-tarefas, como a extração de aspectos.
Este trabalho tem como objetivo propor um novo método de Análise de Sentimento em Nível de Aspectos, para fornecer aos interessados informações sobre sentimento expresso em textos opinativos em um nível mais detalhado, aumentando a utilidade dessa ferramenta tanto para indivíduos como para empresas.
Para evitar as limitações das regras linguísticas discutidas acima pretendemos utilizar métodos de aprendizado supervisionado para a determinação da orientação de sentimento expressa nos textos opinativos. A metodologia proposta baseia-se em Redes Neurais Convolucionais, que são modelos capazes de extrair características dos dados de entrada que sejam mais adequadas a tarefa que esteja sendo treinada. Essa é uma característica interessante se compararmos com outros métodos de aprendizado supervisionado utilizados para análise de sentimento, como Máquinas de Vetores Suporte (SVM – do Inglês Support Vector Machines) ou Naïve Bayes, que recebem como entrada características extraídas por métodos determinados
pelo projetista do sistema. A forma como essas características são extraídas é outro fator limitante dos métodos de análise de sentimento pois elas podem estar sobre ajustadas para o corpus em que o método foi treinado.
Dentre os cinquenta sistemas online mais acessados pelos brasileiros encontramos buscadores de conteúdo, sites de notícias, redes sociais e sites de compra e venda de produtos (AMAZON, 2018). Desta lista destacamos a importância de sistemas onde o usuário é coautor do conteúdo (User-Generated
Content – UGC), como redes sociais (Facebook e Twitter) e sites de venda de produtos, onde os usuários podem escrever comentários sobre os produtos (como, por exemplo, Mercado Livre e Americanas).
A medida que as mídias sociais atingiram mais da metade da população nacional, apenas o Facebook já possuía em torno de 111 milhões de usuários ativos no Brasil em 2017 (INTERNET WORLD STATS, 2017), elas se tornaram importantes plataformas de disseminação da informação. Isso fez com que as experiências e opiniões que as pessoas comuns compartilham nas mídias tenham a possibilidade de alcançar uma parcela significativa da sociedade em que estão inseridas. Assim, essas opiniões podem ajudar outras pessoas em suas escolhas, sejam elas sobre produtos, serviços ou profissionais.
Segundo Liu (2015), as pessoas são muito influenciadas por opiniões de terceiros, mesmo em decisões simples como "qual filme assistir?". Antes do surgimento da Internet, essas opiniões eram coletadas diretamente com amigos e familiares, ou ainda consultando especialistas ou veículos especializados, como revistas com análises sobre produtos e serviços. Atualmente, as mídias sociais facilitam o acesso a essas opiniões, sejam elas de amigos e familiares, de especialistas ou mesmo de outros indivíduos desconhecidos.
Para entidades privadas e governamentais o levantamento de opiniões é frequentemente feito através de questionários específicos, ao custo de desenvolvimento de perguntas adequadas e muitas vezes com dificuldade para obter respostas do público de interesse (SCHOUTEN; FRASINCAR, 2016).
As opiniões têm grande utilidade para essas entidades pois essas informações podem auxiliá-las a direcionar seus esforços de gestão em busca de aumento de qualidade nos produtos e serviços prestados (CAMBRIA et al., 2010). Esse esforço pode ser ainda melhor gerenciado se tivermos informações mais detalhadas sobre quais partes do produto ou serviço estão sendo elogiadas ou criticadas na Web (SCHOUTEN; FRASINCAR, 2016).
Nesse cenário de disseminação do acesso à Internet, ferramentas de distribuição de conteúdo gerado pelo usuário popularizaram-se e ganharam importância nas tomadas de decisão de indivíduos e empresas (YE et al., 2011; AGGARWAL; SINGH, 2013; ZHANG; ZHAO; GUPTA, 2018).
Porém, um grande volume de opiniões trás consigo uma série de problemas associados. O mais evidente está relacionado com a dificuldade de se obterem informações relevantes dentro de um grande volume de informações disponíveis na Web. Informações estas que, em geral, estão disponibilizadas de forma não estruturada em documentos escritos em língua natural. Estes documentos muitas vezes apresentam ambiguidades e ocultam informações relevantes em conteúdo multimídia (como imagens, áudios e vídeos).
Focando nessas adversidades, dentro da Ciência da Computação desenvolveu-se uma área para extrair o sentimento que um documento expressa sobre determinada entidade, essa área é chamada de Análise de Sentimento (LIU, 2010). Embora a forma de tratamento desta área tenha convergido para esta nomenclatura, ainda podemos encontrar trabalhos que se referem a esta área como Mineração de Opinião, Classificação de Sentimento, Extração de Opinião, Mineração de Sentimento, Análise de Subjetividade, Análise de Afeição,
Análise de Emoção, Mineração de Críticas, dentre outros (FREITAS, 2015; LIU, 2012; PANG, LEE, 2008).
A maior parte da pesquisa nesta área é constituída de trabalhos focados na extração do sentimento expresso em referências diretas a uma entidade de interesse ("Pepsi é a melhor bebida que existe!"). Deixando de buscar aquele nível de detalhes que possibilitaria que as empresas investissem em melhorias nos pontos problemáticos dos seus produtos e os indivíduos pudessem buscar informações mais precisas sobre os produtos de interesse. Por exemplo, "Eu amo meu iPhone, mas não posso ficar longe de uma tomada" expressa sentimentos conflitantes sobre a entidade de interesse "iPhone", primeiramente um sentimento de satisfação com o dispositivo de forma geral, mas então uma referência indireta a um aspecto ("bateria") do dispositivo. Para lidar com esse nível de detalhamento precisamos de métodos de análise de sentimento
diferenciados, que operem em um nível de granularidade mais baixo e mais dirigido. Na literatura estes métodos são conhecidos como métodos em Nível de Aspecto.
Em se tratando de trabalhos aplicados à Língua Portuguesa encontramos apenas um trabalho de análise de sentimento em nível de aspectos, englobando desde a detecção de aspectos até a classificação do sentimento sobre os mesmos, que foi proposto por FREITAS (2015). Este trabalho é baseado em léxicos de sentimento e regras linguísticas. O desempenho deste tipo de abordagem é dependente das regras criadas para a extração de informações e da qualidade do léxico de sentimento quanto ao domínio dos textos a serem
analisados. Aplicar uma abordagem deste tipo em um corpus diferente do qual ele foi criado pode ser um desafio.
Trabalhos em Nível de Aspectos aplicados a outras línguas também representam uma pequena parte da literatura. Segundo SCHOUTEN; FRASINCAR (2016) a maioria dos trabalhos da literatura assumem como foco a análise em nível de sentença ou documento, pois são versões mais simples do problema. SCHOUTEN; FRASINCAR (2016) ainda ressalta que dada a dificuldade da realização completa da análise de sentimento em nível de aspectos muitos trabalhos focam em sub-tarefas, como a extração de aspectos.
Este trabalho tem como objetivo propor um novo método de Análise de Sentimento em Nível de Aspectos, para fornecer aos interessados informações sobre sentimento expresso em textos opinativos em um nível mais detalhado, aumentando a utilidade dessa ferramenta tanto para indivíduos como para empresas.
Para evitar as limitações das regras linguísticas discutidas acima pretendemos utilizar métodos de aprendizado supervisionado para a determinação da orientação de sentimento expressa nos textos opinativos. A metodologia proposta baseia-se em Redes Neurais Convolucionais, que são modelos capazes de extrair características dos dados de entrada que sejam mais adequadas a tarefa que esteja sendo treinada. Essa é uma característica interessante se compararmos com outros métodos de aprendizado supervisionado utilizados para análise de sentimento, como Máquinas de Vetores Suporte (SVM – do Inglês Support Vector Machines) ou Naïve Bayes, que recebem como entrada características extraídas por métodos determinados
pelo projetista do sistema. A forma como essas características são extraídas é outro fator limitante dos métodos de análise de sentimento pois elas podem estar sobre ajustadas para o corpus em que o método foi treinado.
Metodologia
Aqui descrevemos brevemente as corpora anotadas que serão utilizadas em nossos experimentos, elencamos as metodologias do estado-da-arte que serão utilizadas para comparação com nossos resultados, descrevemos a metodologia que está sendo proposta para a tarefa de Análise de Sentimento em Nível de Aspectos (ABSA) .
Corpora Escritas em Português Disponíveis com Anotação em Nível de Aspectos
A Determinação da Orientação do Sentimento expresso em documentos opinativos a partir de métodos baseados em Aprendizado de Máquina Supervisionado dependem de textos com marcações específicas. No caso de ABSA, as anotações precisam apresentar, pelo menos, duas informações: qual aspecto da entidade é Alvo da Opinião e qual a Orientação do Sentimento expressa no texto.
Dentre os trabalhos voltados para a Língua Portuguesa (Brasileira e Europeia) foram encontrados três corpus com anotações de Alvo da Opinião disponíveis ao público. Cada um deles trata de um domínio de entidades alvo diferentes: Hotéis (FREITAS, 2015), Livros (FREITAS et al., 2012) e Política (CARVALHO et al., 2011).
Visão Geral da Arquitetura Proposta para ABSA
Em linhas gerais os experimentos se darão explorando diferentes opções de implementação de cada um dos estágios, ou seja, serão verificadas alternativas de pré processamento dos textos opinativos, de extração dos aspectos e da determinação da orientação do sentimento.
Nosso objetivo principal é desenvolver um novo método de Determinação da Orientação do Sentimento utilizando Redes Neurais Convolucionais (CNN) focando em produzir resultados em Nível de Aspectos.
* Pré-processamento
Sempre que trabalhamos com textos provindos de Conteúdo Gerado pelo Usuário é necessário que se tome alguns cuidados com a forma na qual os dados se apresentam.
Nos fóruns, sistemas de reviews e redes sociais o emprego da língua nem sempre é condizente com seu uso da língua culta (LIU, 2015). Muitas vezes nos deparamos com erros ortográficos, estrangeirismos, uso de símbolos (emoticons e emojis) e gírias, além de repetições de letras ou símbolos.
Em geral, sistemas de Processamento da Língua Natural tratam essas ocorrências para permitir que ferramentas desenvolvidas para textos escritos em língua culta possam ser utilizadas. O desempenho de ferramentas de Marcação de Partes do Discurso (POS taggers – do Inglês Part-of-speech tagger) e tokenizers pode ser afetado pelo uso informal da língua escrita. Além disso, o casamento de tokens dos textos em análise com os presentes em recursos externos (como léxicos de sentimento e ontologias de domínio) também pode ser afetado.
Para evitar esses problemas muitas vezes são utilizados pré-processamentos específicos. Remoção de caracteres repetidos, remoção de espaços excessivos, remoção de pontuação repetida, remoção de quebras de linhas, remoção de símbolos não alfanuméricos, correção ortográfica, conversão do texto para caixa-baixa, etc. Note-se que essas correções tornam os textos mais próximos da norma culta, no entanto podem afetar o significado que o autor quis gerar utilizando a língua informal.
Em se tratando de Análise de Sentimento, por exemplo, a repetição de uma letra em uma palavra é frequentemente vista como um indicativo de que o autor quis expressar uma intensidade maior no sentimento presente no texto opinativo. Esse efeito também pode ser obtido pela repetição do pontuação de exclamação ou de interrogação (LIU, 2015; BLAZ; BECKER, 2016).
A conversão do texto para caixa-baixa também pode afetar a aplicação de métodos de Análise de Sentimento, em especial aqueles que realizam a extração de entidades nomeadas do texto.
Na execução dos experimentos os pré-processamentos serão realizados de diferentes formas, visto que algumas etapas posteriores podem ter seu desempenho afetado negativamente. Por exemplo, o Estágio 2 da Figura 1 terá uma implementação baseada em extrator de entidades nomeadas, que pode ser afetada pelo emprego da conversão do texto em caixa-baixa. Por outro lado, os tokens do texto tem de serem uniformizados para que se aplique o casamento com os tokens no léxico de sentimento que utilizaremos na implementação do baseline.
Por fim, cada texto pré-processado será separado em sentenças para a aplicação dos métodos de Determinação da Orientação do Sentimento. Isso facilitará o emprego de métodos de aprendizado de máquina, diminuindo o número de parâmetros de treinamento das Redes Neurais Convolucionais, por exemplo.
* Extração de Aspectos
Para possibilitar a extração da Orientação de Sentimento de cada um dos aspectos presentes nos textos de entrada é necessário que estes sejam encontrados dentro do texto. Neste trabalho propomos duas formas de realizar essa extração de aspectos explicitamente citados no texto. A primeira forma é através da utilização de Reconhecimento de Entidades Nomeadas (Named Entity Recognition – NER). A segunda forma é a partir da lista de conceitos de uma Ontologia de Domínio.
No entanto, nem todas as opiniões são feitas com referências diretas aos aspectos de uma entidade. Por isso a detecção de aspectos implícitos é importante. Uma das formas de extração de aspectos implícitos que será explorada neste trabalho é baseada na estrutura de ontologias de domínio, como proposto em FREITAS (2015).
Além disso, este trabalho também avaliará se um modelo de word embedding treinado para o domínio é capaz de substituir a ontologia de domínio na subtarefa de detecção de aspectos implícitos.
Ao final esperamos apontar se um recurso externo complexo e custoso como ontologia pode ser substituído por abordagens mais automatizadas, como Reconhecimento de Entidades Nomeadas associado a um modelo de word embedding de domínio.
* ABSA
Como base de comparação para o desempenho do método proposto, nossos experimentos incluem a execução de métodos de estado-da-arte em ABSA aplicados ao Português (FREITAS, 2015) e ao Inglês (WANG et al., 2016).
O trabalho de FREITAS (2015), o único focado em ABSA especificamente para a Língua Portuguesa que encontramos na literatura, será nosso baseline.
FREITAS (2015) apresenta um método de ABSA que utiliza ontologias para a extração dos aspectos do texto. Uma vez que um aspecto seja detectado o método utiliza um léxico de sentimento para a Determinação da Orientação de Sentimento presente em uma janela de quatro palavras ao redor do aspecto. Após, o sistema verifica se existe ao menos uma dentre três formas de negação relacionadas a esse trecho do texto, caso alguma delas exista a orientação do sentimento expressa no trecho é invertida.
Além disso, utilizaremos uma abordagem com desempenho de estado daarte para a língua inglesa chamada ATAE-LSTM (Attention Aspect Embedding - LSTM) disponibilizada pelos autores WANG et al. (2016). Este método utiliza uma rede neural recorrente com um mecanismo de atenção aplicado ao aspecto que se deseja avaliar a orientação de sentimento.
*ABSA baseada em Aprendizado Profundo
Como discutido anteriormente, técnicas baseadas em Aprendizado Profundo têm sido aplicadas aos mais diferentes problemas e obtido bons resultados, muitas vezes se tornando o estado-da-arte.
A abordagem que propomos para a tarefa de ABSA neste trabalho é baseada em Redes Neurais Convolucionais. Nesse tipo de Redes Neurais Artificiais (RNA) normalmente são associadas camadas de convolução com camadas de pooling. As camadas de convolução extraem características dos dados de entrada e e as camadas de pooling são responsáveis por realizar redução dimensional dos dados.
Assim como outros métodos de aprendizado de máquina supervisionado aplicados a classificação do sentimento, as CNN não admitem os textos de entrada antes de uma conversão para uma representação numérica. Essa representação classicamente era um vetor one-hot baseado em um dicionário de palavras ou expressões admitidas. Outra representação recorrente é a Bag-of-Words – BoW, onde também temos um dicionário de palavras admitidas, mas o vetor de representação apresenta a frequência com que elas aparecem no texto de entrada, uma sentença, por exemplo (TANG; ZHANG, 2018).
Outros trabalhos já utilizaram CNN para a tarefa de classificação de sentimento em nível de sentença ou documento (TANG; ZHANG, 2018; ZHANG; WANG; LIU, 2018), mas neste trabalho propomos uma arquitetura que trabalhará em Nível de Aspectos. Em nossa proposta a Rede Neural Convolucional receberá uma sentença e um aspecto e deverá ser capaz de apontar o sentimento expresso nessa sentença sobre esse aspecto.
Para isso, a nossa arquitetura proposta, receberá a sentença em uma representação em nível de caracteres e o candidato a aspecto alvo de sentimento, representado também por um aspect embedding (AE).
O aspect embedding é obtido por um modelo criado exclusivamente para diferenciar os aspectos, possibilitando que se utilize um espaço de representação M-dimensional (M < D) diferente do utilizado para representar as palavras nos textos. Isto pode simplificar o treinamento da rede, mas restringe os aspectos aos que forem utilizados durante o treinamento do aspect embedding.
A ideia de utilizar um aspect embedding é baseada no trabalho de WANG et al. (2016) e o modelo de Rede Neural Convolucional com entrada em Nível de character embeddings é baseada nos trabalhos de WEHRMANN; BECKER; BARROS (2018).
O trabalho de WEHRMANN; BECKER; BARROS (2018) utiliza uma CNN com entrada em Nível de character embeddings para classificação do sentimento expresso em tweets, bem como a classificação da língua em que foram escritos. Para ambas as tarefas a proposta dos autores apresenta melhor desempenho que os seus baselines, que incluem abordagens baseadas em LSTM e outras propostas de CNN.
Corpora Escritas em Português Disponíveis com Anotação em Nível de Aspectos
A Determinação da Orientação do Sentimento expresso em documentos opinativos a partir de métodos baseados em Aprendizado de Máquina Supervisionado dependem de textos com marcações específicas. No caso de ABSA, as anotações precisam apresentar, pelo menos, duas informações: qual aspecto da entidade é Alvo da Opinião e qual a Orientação do Sentimento expressa no texto.
Dentre os trabalhos voltados para a Língua Portuguesa (Brasileira e Europeia) foram encontrados três corpus com anotações de Alvo da Opinião disponíveis ao público. Cada um deles trata de um domínio de entidades alvo diferentes: Hotéis (FREITAS, 2015), Livros (FREITAS et al., 2012) e Política (CARVALHO et al., 2011).
Visão Geral da Arquitetura Proposta para ABSA
Em linhas gerais os experimentos se darão explorando diferentes opções de implementação de cada um dos estágios, ou seja, serão verificadas alternativas de pré processamento dos textos opinativos, de extração dos aspectos e da determinação da orientação do sentimento.
Nosso objetivo principal é desenvolver um novo método de Determinação da Orientação do Sentimento utilizando Redes Neurais Convolucionais (CNN) focando em produzir resultados em Nível de Aspectos.
* Pré-processamento
Sempre que trabalhamos com textos provindos de Conteúdo Gerado pelo Usuário é necessário que se tome alguns cuidados com a forma na qual os dados se apresentam.
Nos fóruns, sistemas de reviews e redes sociais o emprego da língua nem sempre é condizente com seu uso da língua culta (LIU, 2015). Muitas vezes nos deparamos com erros ortográficos, estrangeirismos, uso de símbolos (emoticons e emojis) e gírias, além de repetições de letras ou símbolos.
Em geral, sistemas de Processamento da Língua Natural tratam essas ocorrências para permitir que ferramentas desenvolvidas para textos escritos em língua culta possam ser utilizadas. O desempenho de ferramentas de Marcação de Partes do Discurso (POS taggers – do Inglês Part-of-speech tagger) e tokenizers pode ser afetado pelo uso informal da língua escrita. Além disso, o casamento de tokens dos textos em análise com os presentes em recursos externos (como léxicos de sentimento e ontologias de domínio) também pode ser afetado.
Para evitar esses problemas muitas vezes são utilizados pré-processamentos específicos. Remoção de caracteres repetidos, remoção de espaços excessivos, remoção de pontuação repetida, remoção de quebras de linhas, remoção de símbolos não alfanuméricos, correção ortográfica, conversão do texto para caixa-baixa, etc. Note-se que essas correções tornam os textos mais próximos da norma culta, no entanto podem afetar o significado que o autor quis gerar utilizando a língua informal.
Em se tratando de Análise de Sentimento, por exemplo, a repetição de uma letra em uma palavra é frequentemente vista como um indicativo de que o autor quis expressar uma intensidade maior no sentimento presente no texto opinativo. Esse efeito também pode ser obtido pela repetição do pontuação de exclamação ou de interrogação (LIU, 2015; BLAZ; BECKER, 2016).
A conversão do texto para caixa-baixa também pode afetar a aplicação de métodos de Análise de Sentimento, em especial aqueles que realizam a extração de entidades nomeadas do texto.
Na execução dos experimentos os pré-processamentos serão realizados de diferentes formas, visto que algumas etapas posteriores podem ter seu desempenho afetado negativamente. Por exemplo, o Estágio 2 da Figura 1 terá uma implementação baseada em extrator de entidades nomeadas, que pode ser afetada pelo emprego da conversão do texto em caixa-baixa. Por outro lado, os tokens do texto tem de serem uniformizados para que se aplique o casamento com os tokens no léxico de sentimento que utilizaremos na implementação do baseline.
Por fim, cada texto pré-processado será separado em sentenças para a aplicação dos métodos de Determinação da Orientação do Sentimento. Isso facilitará o emprego de métodos de aprendizado de máquina, diminuindo o número de parâmetros de treinamento das Redes Neurais Convolucionais, por exemplo.
* Extração de Aspectos
Para possibilitar a extração da Orientação de Sentimento de cada um dos aspectos presentes nos textos de entrada é necessário que estes sejam encontrados dentro do texto. Neste trabalho propomos duas formas de realizar essa extração de aspectos explicitamente citados no texto. A primeira forma é através da utilização de Reconhecimento de Entidades Nomeadas (Named Entity Recognition – NER). A segunda forma é a partir da lista de conceitos de uma Ontologia de Domínio.
No entanto, nem todas as opiniões são feitas com referências diretas aos aspectos de uma entidade. Por isso a detecção de aspectos implícitos é importante. Uma das formas de extração de aspectos implícitos que será explorada neste trabalho é baseada na estrutura de ontologias de domínio, como proposto em FREITAS (2015).
Além disso, este trabalho também avaliará se um modelo de word embedding treinado para o domínio é capaz de substituir a ontologia de domínio na subtarefa de detecção de aspectos implícitos.
Ao final esperamos apontar se um recurso externo complexo e custoso como ontologia pode ser substituído por abordagens mais automatizadas, como Reconhecimento de Entidades Nomeadas associado a um modelo de word embedding de domínio.
* ABSA
Como base de comparação para o desempenho do método proposto, nossos experimentos incluem a execução de métodos de estado-da-arte em ABSA aplicados ao Português (FREITAS, 2015) e ao Inglês (WANG et al., 2016).
O trabalho de FREITAS (2015), o único focado em ABSA especificamente para a Língua Portuguesa que encontramos na literatura, será nosso baseline.
FREITAS (2015) apresenta um método de ABSA que utiliza ontologias para a extração dos aspectos do texto. Uma vez que um aspecto seja detectado o método utiliza um léxico de sentimento para a Determinação da Orientação de Sentimento presente em uma janela de quatro palavras ao redor do aspecto. Após, o sistema verifica se existe ao menos uma dentre três formas de negação relacionadas a esse trecho do texto, caso alguma delas exista a orientação do sentimento expressa no trecho é invertida.
Além disso, utilizaremos uma abordagem com desempenho de estado daarte para a língua inglesa chamada ATAE-LSTM (Attention Aspect Embedding - LSTM) disponibilizada pelos autores WANG et al. (2016). Este método utiliza uma rede neural recorrente com um mecanismo de atenção aplicado ao aspecto que se deseja avaliar a orientação de sentimento.
*ABSA baseada em Aprendizado Profundo
Como discutido anteriormente, técnicas baseadas em Aprendizado Profundo têm sido aplicadas aos mais diferentes problemas e obtido bons resultados, muitas vezes se tornando o estado-da-arte.
A abordagem que propomos para a tarefa de ABSA neste trabalho é baseada em Redes Neurais Convolucionais. Nesse tipo de Redes Neurais Artificiais (RNA) normalmente são associadas camadas de convolução com camadas de pooling. As camadas de convolução extraem características dos dados de entrada e e as camadas de pooling são responsáveis por realizar redução dimensional dos dados.
Assim como outros métodos de aprendizado de máquina supervisionado aplicados a classificação do sentimento, as CNN não admitem os textos de entrada antes de uma conversão para uma representação numérica. Essa representação classicamente era um vetor one-hot baseado em um dicionário de palavras ou expressões admitidas. Outra representação recorrente é a Bag-of-Words – BoW, onde também temos um dicionário de palavras admitidas, mas o vetor de representação apresenta a frequência com que elas aparecem no texto de entrada, uma sentença, por exemplo (TANG; ZHANG, 2018).
Outros trabalhos já utilizaram CNN para a tarefa de classificação de sentimento em nível de sentença ou documento (TANG; ZHANG, 2018; ZHANG; WANG; LIU, 2018), mas neste trabalho propomos uma arquitetura que trabalhará em Nível de Aspectos. Em nossa proposta a Rede Neural Convolucional receberá uma sentença e um aspecto e deverá ser capaz de apontar o sentimento expresso nessa sentença sobre esse aspecto.
Para isso, a nossa arquitetura proposta, receberá a sentença em uma representação em nível de caracteres e o candidato a aspecto alvo de sentimento, representado também por um aspect embedding (AE).
O aspect embedding é obtido por um modelo criado exclusivamente para diferenciar os aspectos, possibilitando que se utilize um espaço de representação M-dimensional (M < D) diferente do utilizado para representar as palavras nos textos. Isto pode simplificar o treinamento da rede, mas restringe os aspectos aos que forem utilizados durante o treinamento do aspect embedding.
A ideia de utilizar um aspect embedding é baseada no trabalho de WANG et al. (2016) e o modelo de Rede Neural Convolucional com entrada em Nível de character embeddings é baseada nos trabalhos de WEHRMANN; BECKER; BARROS (2018).
O trabalho de WEHRMANN; BECKER; BARROS (2018) utiliza uma CNN com entrada em Nível de character embeddings para classificação do sentimento expresso em tweets, bem como a classificação da língua em que foram escritos. Para ambas as tarefas a proposta dos autores apresenta melhor desempenho que os seus baselines, que incluem abordagens baseadas em LSTM e outras propostas de CNN.
Indicadores, Metas e Resultados
Com o desenvolvimento de um método de análise de sentimento em nível de aspectos baseado em aprendizado profundo pretendemos melhorar o estado da arte da análise de sentimento aplicada ao Português. Assim permitindo que as análises realizadas sejam úteis e que desempenhem um papel importante nos processos de tomada de decisão de indivíduos e entidades.
Ao final deste trabalho esperamos possuir os seguintes artefatos:
● Um novo método de Análise de Sentimento em Nível de Aspectos aplicado a Língua Portuguesa, baseado em nossa abordagem AECharCNN;
● Um método de Análise de Sentimento em Nível de Aspectos aplicado a Língua Portuguesa constituído de uma Combinação de Classificadores, associando as três abordagens presentes em nossos experimentos: Baseada em Léxico de Sentimento, Baseada em LSTM e a AE-CharCNN;
● Tornar desnecessária a dependência de recursos externos criados manualmente, como Ontologias de Domínio, para a extração de aspectos implícitos através do uso de modelos Word2vec;
● Modelos Word2vec treinados para os domínios de Acomodações/Hotéis, Livros e Política.
Ao final deste trabalho esperamos possuir os seguintes artefatos:
● Um novo método de Análise de Sentimento em Nível de Aspectos aplicado a Língua Portuguesa, baseado em nossa abordagem AECharCNN;
● Um método de Análise de Sentimento em Nível de Aspectos aplicado a Língua Portuguesa constituído de uma Combinação de Classificadores, associando as três abordagens presentes em nossos experimentos: Baseada em Léxico de Sentimento, Baseada em LSTM e a AE-CharCNN;
● Tornar desnecessária a dependência de recursos externos criados manualmente, como Ontologias de Domínio, para a extração de aspectos implícitos através do uso de modelos Word2vec;
● Modelos Word2vec treinados para os domínios de Acomodações/Hotéis, Livros e Política.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
ALINE AVER VANIN | |||
BRENDA SALENAVE SANTANA | 6 | ||
CLAUDIO LUIS DA SILVA MACHADO JUNIOR | |||
FELIX LEONEL VASCONCELOS DA SILVA | |||
GABRIEL ALMEIDA GOMES | |||
GABRIEL SCHUBERT MARTEN | |||
GUILHERME DA SILVA CAMARGO | |||
GUILHERME RAMISON | |||
JÚLIA DA ROCHA JUNQUEIRA | |||
LARISSA ASTROGILDO DE FREITAS | 6 | ||
LEONARDO GULARTE COELHO | |||
LUIZ OTAVIO ALVES HAMMES | |||
RODRIGO BARBOSA CARVALHO | |||
RODRIGO FERREIRA RODRIGUES | |||
ULISSES BRISOLARA CORRÊA | |||
ULISSES BRISOLARA CORRÊA | 2 | ||
WESLEY COSTA SILVEIRA | |||
ÉMERSON PHILIPPE LOPES |