Codificação de Vídeo de Baixo Custo Computacional Auxiliada por Aprendizado de Máquina

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

01/08/2021 - 31/07/2029

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

GUILHERME RIBEIRO CORRÊA

Área CNPq

Ciências Exatas e da Terra

Resumo

A utilização de vídeos digitais popularizou-se nas últimas décadas graças aos avanços que possibilitaram o aumento da capacidade computacional, de transmissão e de exibição de informação em diversos tipos de dispositivos eletrônicos. Mais recentemente, a pandemia da COVID-19 levou a uma massiva migração de atividades presenciais para plataformas virtuais que empregam vídeos digitais como principal meio de comunicação, evidenciando ainda mais a relevância deste tipo de mídia no nosso cotidiano. O enorme volume de dados presentes em um vídeo faz com que a sua compressão seja mandatória, de forma que a academia e a indústria vêm desenvolvendo novos padrões de compressão ao longo das últimas décadas, sempre em busca de melhores taxas de compressão que permitam viabilizar uma melhor experiência de usuário, como vídeos de alta e ultra-alta definição e conteúdo imersivo. Entretanto, o processo de compressão acaba por ser extremamente custoso computacionalmente, por vezes impossibilitando a implementação de codificadores e decodificadores de vídeo em dispositivos com baixo poder computacional e limitações energéticas. A transcodificação de vídeo, que é um processo necessário para prover compatibilidade entre dispositivos e aplicações que empregam diferentes padrões, é um processo ainda mais custoso, pois envolve uma decodificação e uma recodificação em sequência. Este projeto tem o objetivo de propor soluções baseadas em aprendizado de máquina para a redução do custo computacional de codificadores de vídeo estado-da-arte atualmente em fase de adoção, nomeadamente o AOMedia Video (AV1) (AOM, 2021) e o Versatile Video Coding (VVC) (ISO/IEC, 2021). Além disso, o projeto propõe o desenvolvimento de soluções para transcodificação entre os atuais codificadores estado-da-arte e seus antecessores VP9 e High Efficiency Video Coding (HEVC), já bastante populares em dispositivos e aplicações multimídia comerciais. A execução deste projeto possibilitará o estudo de técnicas avançadas e atuais de aprendizado de máquina que possam ser aplicadas à codificação de vídeo em padrões atualmente em fase de adoção, gerando soluções eficientes para um problema de grande relevância atual na indústria multimídia mundial. Por ser um problema de grande interesse tanto na academia quanto na indústria, as soluções propostas têm grande potencial para geração de patentes, contribuindo para o avanço científico e tecnológico no país e qualificando pesquisadores brasileiros em uma área estratégica.

Objetivo Geral

O objetivo principal deste projeto consiste no desenvolvimento de soluções inovadoras para a redução do custo computacional dos codificadores de vídeo estado-da-arte VVC e AV1 e de transcodificadores de vídeo que envolvem os novos formatos e seus antecessores HEVC e VP9, respectivamente. As estratégias propostas serão focadas em otimizações algorítmicas baseadas em modelos computacionais construídos através de técnicas de aprendizado de máquina. As soluções deverão se concentrar nas etapas mais custosas dos processos de codificação, sempre buscando minimizar o custo computacional sem causar perdas significativas na eficiência de codificação.

Justificativa

A incorporação de diversas ferramentas e funcionalidades nos novos formatos de codificação de vídeo tem por objetivo aumentar a sua eficiência de codificação. O VVC atinge taxas de compressão 44,4% superiores às atingidas pelo seu predecessor, o padrão HEVC (SIQUEIRA; CORREA; GRELLERT, 2020). De forma similar, o codificador de referência AV1 atinge taxas de compressão até 20% superiores às atingidas pelo codificador de referência VP9 (GROIS; NGUYEN; MARPE, 2018). Entretanto, este aumento em eficiência vem acompanhado de um acréscimo significativo no custo computacional. O codificador de referência VVC apresenta um tempo de processamento entre 10,2 e 15,9 vezes superior àquele do codificador HEVC (SIQUEIRA; CORREA; GRELLERT, 2020). Já o codificador de referência AV1 pode ser até 117 vezes mais complexo que o codificador VP9, de acordo com experimentos apresentados em (GROIS; NGUYEN; MARPE, 2018).

Até o momento da escrita deste projeto, poucos trabalhos que abordam o problema do alto custo computacional dos codificadores AV1 e VVC haviam sido publicados na literatura. Além disso, exceto pelos trabalhos do próprio coordenador, as soluções com foco na redução de custo computacional de transcodificadores AV1 e VVC são poucas ou inexistentes. Com a recente finalização do VVC, torna-se essencial o desenvolvimento de soluções que viabilizem a implementação de codificadores rápidos e que permitam a migração de conteúdo previamente codificado com o padrão antecessor HEVC através de transcodificadores eficientes. Note-se que tanto a codificação quanto a transcodificação de vídeo são processos realizados em grande escala em servidores de companhias de streaming de vídeo como Netflix, Amazon e Google. Durante os anos de execução deste projeto, as companhias da indústria de multimídia deverão migrar suas aplicações e conteúdo para os atuais padrões AV1 e VVC. Há, portanto, um grande interesse industrial no desenvolvimento de soluções rápidas e eficientes como as propostas neste projeto.

Metodologia

O fluxo metodológico divide os esforços da investigação proposta em quatro grandes etapas: (1) estudo documental, bibliográfico e ferramental, (2) mineração de dados e treinamento e implementação de modelos preditivos, (3) execução de experimentos para análise e avaliação de resultados e (4) divulgação dos resultados obtidos no projeto. As quatro etapas supracitadas serão aplicadas a todos os objetos-alvo deste projeto, ou seja, a todos os codificadores e transcodificadores de baixo custo computacional relatados na seção anterior.

A etapa (1) consiste no estudo da documentação técnica que especifica os formatos de vídeo VP9 e AV1, definidos pela Google/AOMedia (WEBM, 2021; AOM, 2021), e os padrões HEVC e VVC, definidos pelo VCEG/MPEG (HEVC, 2013; ISO/IEC, 2021). A etapa (1) também prevê uma revisão sistemática da literatura que deverá identificar as principais soluções para redução de complexidade de codificadores de vídeo baseadas em aprendizado de máquina supervisionado. Do ponto de vista ferramental, a etapa (1) inclui o estudo e a ambientação dos pesquisadores aos codecs de vídeo libaom (AV1) (AOM, 2021), libvp9 (VP9) (WEBM, 2021), VVC Test Model (VTM) (JVET, 2021) e HEVC Model (HM) (HEVC, 2013). Também deverão ser alvo de investigação e ambientação as ferramentas para análise estatística, mineração de dados e aprendizado de máquina que serão utilizadas ao longo do projeto, tais como Scikit-learn (PEDREGOSA; et al., 2011), Weka (HALL; et al., 2009) e Pytorch (PASZKE; et al., 2019).

A etapa (2) tem por objetivo a mineração de dados extraídos dos codificadores e decodificadores, o treinamento de modelos preditivos baseados em aprendizado de máquina e a implementação de tais modelos. Para o treinamento dos modelos, serão considerados diferentes algoritmos de aprendizado de máquina supervisionado, dependendo do tipo de problema a ser solucionado, como árvores de decisão, florestas aleatórias (Random Forests), Naïve Bayes, Regressão Logística, Support Vector Machines (SVM), Multilayer Perceptron (MLP) e redes neurais. Os modelos que resultarem nas maiores taxas de precisão e que apresentem custo computacional aceitável serão implementados nos codificadores de vídeo AV1 e VVC.

Na etapa (3), serão realizados experimentos sobre as novas soluções de codificadores AV1 e VVC e seus transcodificadores com o objetivo de verificar a sua eficiência em termos de compressão, qualidade de imagem e custo computacional em comparação às suas versões originais. Os tempos de processamento serão medidos com a mesma metodologia empregada na primeira etapa, ou seja, através da utilização de um profiler de software. A eficiência de codificação será medida através da técnica de Bjontegaard (BJONTEGAARD, 2001), bastante difundida na comunidade de codificação de vídeo. Para testes que envolvem o codificador VVC, serão utilizados os vídeos das Condições Comuns de Teste (CCT) definidas pelo MPEG (BOSSEN, 2013). Para o codificador AV1, serão utilizados os vídeos do conjunto Xiph Test Media indicados na documentação da AOMedia (AOM, 2021).

A etapa (4) será executada ao longo de todo o projeto e consiste na preparação de publicações para eventos e periódicos da área, com intuito de divulgar amplamente os resultados obtidos.

Indicadores, Metas e Resultados

Por se tratar de um projeto com características inovadoras, como (1) utilização de técnicas baseadas em aprendizado de máquina, (2) foco em um formato de vídeo livre de royalties estado-da-arte e (3) foco em um padrão de codificação de vídeo recentemente finalizado pelo MPEG, espera-se que as soluções geradas sejam competitivas com o estado-da-arte e passíveis de registro de propriedade intelectual (depósitos de patentes) e eventual transferência a empresas interessadas, com retorno econômico para a UFPel e, de modo geral, para o Brasil. Os resultados obtidos com esta pesquisa serão publicados em periódicos e anais de eventos importantes relacionados a esta área. Além disso, os resultados serão divulgados em trabalhos de conclusão de curso (TCC), dissertações de mestrado e teses de doutorado dos alunos envolvidos no projeto.

Objetivamente, as contribuições esperadas estão alicerçadas nos seguintes produtos específicos, que servirão futuramente como indicadores de sucesso deste projeto:

● DOIS modelos baseados em aprendizado de máquina para decisão rápida em codificador AV1;
● DOIS modelos baseados em aprendizado de máquina para decisão rápida em codificador VVC;
● DOIS modelos baseados em aprendizado de máquina para decisão rápida em transcodificador VP9-para-AV1;
● DOIS modelos baseados em aprendizado de máquina para decisão rápida em transcodificador HEVC-para-VVC;
● DOIS artigos publicados em periódicos de extrato qualificado;
● SEIS artigos publicados em eventos internacionais de extrato qualificado;
● DOIS artigos publicados em eventos nacionais;
● DOIS trabalhos de conclusão de curso na UFPel concluídos sobre o tema;
● UMA dissertação de mestrado no PPGC-UFPel sobre o tema;
● TRÊS teses de doutorado orientadas no PGGC-UFPel sobre o tema (uma concluída até o fim do projeto).

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ADSON ILEON RIPINSKI DUARTE
ALEX MACHADO BORGES
ALLAN NORNBERG SCHUCH
BRUNA ROSA GARCIA
BRUNO ZATT	4
CAROLINE SOUZA CAMARGO
CEZAR DE OLIVEIRA VELEDA
DANIEL MUNARI VILCHEZ PALOMINO	2
DANIEL NUNES CHOUDHURY
ERICK RADMANN
GUILHERME RIBEIRO CORRÊA	12
ISIS DUARTE BENDER
LEANDRO WEBER TAVARES
LEANDRO WEBER TAVARES
LEONARDO LUIS MULLER
LUCAS SEIDY RIBEIRO DOS SANTOS IKENOUE
LUCIANO VOLCAN AGOSTINI	2
LUIZ CEZAR MOREIRA DE CAMPOS NETO
MARCELO SCHIAVON PORTO	2
MATHEUS CORREA LINDINO
MURILLO ALEIXO MOTA
PATRICK SILVA DA ROSA
THIAGO LUIZ ALVES BUBOLZ

Fontes Financiadoras

Sigla / Nome	Valor	Administrador
CNPq / Conselho Nacional de Desenvolvimento Científico e Tecnológico	R$ 20.000,00	Coordenador
FAPERGS / Fundação de Amparo a Pesquisa do Estado Rio Grande do Sul	R$ 21.000,00	Coordenador

Plano de Aplicação de Despesas

Descrição	Valor
339033 - Passagens de Despesas de Locomoção	R$ 6.000,00
449052 - Equipamentos e Material Permanente	R$ 15.000,00
339039 - Outros Serviços de Terceiro - Pessoa Jurídica	R$ 20.000,00