Nome do Projeto
Aprendizado de máquina e inteligência artificial no controle de qualidade de sementes
Ênfase
Pesquisa
Data inicial - Data final
13/05/2021 - 31/08/2026
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências Agrárias
Resumo
O projeto em submissão está ligado às áreas prioritárias de inteligência artificial e agronegócio. Sua justificativa é atribuída ao fato do fortíssimo desafio de empresas do setor de sementes na tomada de decisão rápida e precisa, no que se refere ao ranqueamento de lotes, ao trabalhar com acentuada quantidade de lotes numa Unidade de Beneficiamento de Sementes, sendo que a manipulação manual se torna quase inviável. A reinvenção da agricultura vem com inteligência artificial (IA), principalmente no setor de qualidade. Assim, o objetivo desta proposta é desenvolver e avaliar ferramentas utilizando o aprendizado de máquinas e o processamento de imagens para a classificação de lotes de sementes.
Objetivo Geral
Desenvolver e avaliar ferramentas utilizando o aprendizado de máquinas e processamento de imagens para a classificação de lotes de sementes.
Justificativa
Ao longo do tempo, agricultura tornou-se muito mais do que simplesmente um meio de fornecer alimentos para populações cada vez maiores. As plantas se tornaram uma importante fonte de energia (alimento) e constituem-se em peça fundamental no quebra- cabeça para auxiliar a resolver o problema do aquecimento global (BARBEDO, 2013). Levando em conta as novas técnicas, muitas não destrutivas, para avaliar as características fisiológicas de sementes, satisfazendo a demanda dos agricultores, a indústria de sementes, focada principalmente na produção, beneficiamento, armazenamento e comercialização de sementes de alta qualidade, precisa trabalhar sob os padrões de uma agricultura sustentável e de precisão (DELLAQUILA, 2009).
A utilização do processamento de imagem digitais deve ser levada em consideração como alternativa que possa vir a contribuir para o aprimoramento do beneficiamento das sementes nas agroindústrias, de acordo com os estudos de Jhawar (2016) e Santiago et al. (2019).
Essas técnicas possibilitam que as análises sejam rápidas, eficazes e não-destrutivas, ou seja, técnicas baseadas em uso de imagens RGBs (vermelha-verde-azul) são cada vez mais empregadas na avaliação da coloração e aparência externa de sementes, garantindo assim sua altíssima qualidade (LIU et al., 2015; MAHAJAN et al., 2018). Dessa forma, nos últimos anos, o interesse pelo uso de algoritmos com pré- processamentos apropriados, que visem tornar possível um sistema com características de qualidades especificas dos produtos, vem tornando-se de grande importância e utilidade para as indústrias.
A modernidade no campo se faz necessária não só pelo uso da tecnologia, como também para a obtenção de respostas rápidas e eficientes, em operações cuja demora na execução de trabalhos manuais, resulta em processos lentos e menos precisos. Além disso, a aplicabilidade da inteligência artificial e do aprendizado de máquina se torna essencial para o desenvolvimento sustentável no setor agrícola. Desta forma, vários estudos têm sido focados em bases de dados a fim de facilitar o melhor entendimento de modelos de inteligência artificial, em diferentes setores da agricultura para fins de facilitar e otimizar a utilização de recursos.
Como por exemplo, o interesse no desenvolvimento de tecnologias apropriadas, capazes de melhorar as informações sobre a produção agrícola, como aquelas obtidas no teste de avaliação da qualidade de sementes pelo teste de germinação, tem sido um tópico central. De acordo com DellAquila (2009), a maioria das abordagens de manejo de sementes fornecem metodologias de diagnóstico altamente automatizadas e assistidas por computadores. Nessas são determinados marcadores de qualidade fisiológica das sementes, que incluem classificação do tamanho das sementes, avaliação do espaço de cores da superfície das sementes por análise de imagem, espectrometria assistidas por computador, inspeção não letal por raios X combinada com imagem quantitativa e a detecção do sinal de fluorescência da clorofila amplificado por tecnologia laser.
Para o setor de sementes, ainda se encontram vários desafios na tomada de decisão rápida e precisa ao se trabalhar com número elevado de lotes de sementes, sendo que a manipulação manual se torna quase impossível. O ranqueamento de lotes de sementes para comercialização de uma empresa é fundamental no quesito da rapidez de despacho de lotes para a comercialização e a distribuição aos produtores, porém é necessário informar a qualidade desses lotes. Além disso, uma abordagem entre a produção de grãos que desempenha um papel importante no agronegócio brasileiro e mundial. Nesse sentido, a demanda por métodos eficientes e seguros de produção de alimentos está aumentando. A tecnologia da informação passa a ser uma ferramenta para alcançar tal fim (PATRÍCIO; RIEDER, 2018).
Durante o controle de qualidade de lotes de sementes, os requisitos mínimos são as exigências legais, proveniente dos resultados de testes que realizam a análise de sementes. Essa operação gera uma quantidade acentuada de informações, que dependendo do porte da empresa somente em uma safra agrícola poderá alcançar milhares de dados. Por exemplo, uma empresa que trabalha com um portfólio de 20 cultivares, somente cumprida a exigência legal de um lote certificado C1 terá que cumprir oito requisitos mínimos dos quais serão multiplicados pelo número de lotes de cada cultivar, afora os requisitos de qualidade interna da empresa e as análises temporais de armazenamento de cada lote.
Assim, em grandes produtores de sementes se fazem necessários profissionais que inicialmente realizem a organização e a análise desses dados e posteriormente executem a classificação desses lotes para que possam trabalhar a priori o pessoal de vendas e a posteriori o pessoal da expedição. Geralmente, devido ao fato de sua responsabilidade ser muito grande, porque um erro pode fazer a empresa perder seu prestígio no mercado e ainda ter um prejuízo financeiro, muitas vezes, incalculável, esses tem um cargo e salário mais altos e precisam ser altamente especializados.
A utilização do processamento de imagem digitais deve ser levada em consideração como alternativa que possa vir a contribuir para o aprimoramento do beneficiamento das sementes nas agroindústrias, de acordo com os estudos de Jhawar (2016) e Santiago et al. (2019).
Essas técnicas possibilitam que as análises sejam rápidas, eficazes e não-destrutivas, ou seja, técnicas baseadas em uso de imagens RGBs (vermelha-verde-azul) são cada vez mais empregadas na avaliação da coloração e aparência externa de sementes, garantindo assim sua altíssima qualidade (LIU et al., 2015; MAHAJAN et al., 2018). Dessa forma, nos últimos anos, o interesse pelo uso de algoritmos com pré- processamentos apropriados, que visem tornar possível um sistema com características de qualidades especificas dos produtos, vem tornando-se de grande importância e utilidade para as indústrias.
A modernidade no campo se faz necessária não só pelo uso da tecnologia, como também para a obtenção de respostas rápidas e eficientes, em operações cuja demora na execução de trabalhos manuais, resulta em processos lentos e menos precisos. Além disso, a aplicabilidade da inteligência artificial e do aprendizado de máquina se torna essencial para o desenvolvimento sustentável no setor agrícola. Desta forma, vários estudos têm sido focados em bases de dados a fim de facilitar o melhor entendimento de modelos de inteligência artificial, em diferentes setores da agricultura para fins de facilitar e otimizar a utilização de recursos.
Como por exemplo, o interesse no desenvolvimento de tecnologias apropriadas, capazes de melhorar as informações sobre a produção agrícola, como aquelas obtidas no teste de avaliação da qualidade de sementes pelo teste de germinação, tem sido um tópico central. De acordo com DellAquila (2009), a maioria das abordagens de manejo de sementes fornecem metodologias de diagnóstico altamente automatizadas e assistidas por computadores. Nessas são determinados marcadores de qualidade fisiológica das sementes, que incluem classificação do tamanho das sementes, avaliação do espaço de cores da superfície das sementes por análise de imagem, espectrometria assistidas por computador, inspeção não letal por raios X combinada com imagem quantitativa e a detecção do sinal de fluorescência da clorofila amplificado por tecnologia laser.
Para o setor de sementes, ainda se encontram vários desafios na tomada de decisão rápida e precisa ao se trabalhar com número elevado de lotes de sementes, sendo que a manipulação manual se torna quase impossível. O ranqueamento de lotes de sementes para comercialização de uma empresa é fundamental no quesito da rapidez de despacho de lotes para a comercialização e a distribuição aos produtores, porém é necessário informar a qualidade desses lotes. Além disso, uma abordagem entre a produção de grãos que desempenha um papel importante no agronegócio brasileiro e mundial. Nesse sentido, a demanda por métodos eficientes e seguros de produção de alimentos está aumentando. A tecnologia da informação passa a ser uma ferramenta para alcançar tal fim (PATRÍCIO; RIEDER, 2018).
Durante o controle de qualidade de lotes de sementes, os requisitos mínimos são as exigências legais, proveniente dos resultados de testes que realizam a análise de sementes. Essa operação gera uma quantidade acentuada de informações, que dependendo do porte da empresa somente em uma safra agrícola poderá alcançar milhares de dados. Por exemplo, uma empresa que trabalha com um portfólio de 20 cultivares, somente cumprida a exigência legal de um lote certificado C1 terá que cumprir oito requisitos mínimos dos quais serão multiplicados pelo número de lotes de cada cultivar, afora os requisitos de qualidade interna da empresa e as análises temporais de armazenamento de cada lote.
Assim, em grandes produtores de sementes se fazem necessários profissionais que inicialmente realizem a organização e a análise desses dados e posteriormente executem a classificação desses lotes para que possam trabalhar a priori o pessoal de vendas e a posteriori o pessoal da expedição. Geralmente, devido ao fato de sua responsabilidade ser muito grande, porque um erro pode fazer a empresa perder seu prestígio no mercado e ainda ter um prejuízo financeiro, muitas vezes, incalculável, esses tem um cargo e salário mais altos e precisam ser altamente especializados.
Metodologia
Experimento I – Processamento de imagem para classificação de lotes de sementes
Obtenção das amostras
Para a elaboração das análises de danos em sementes, serão utilizadas amostras representativas de lotes de sementes com diferentes tipos e níveis de danos, sendo as sementes separadas manualmente caracterizando os diferentes tratamentos. Essa separação será realizada pela mesma pessoa, empregando a mesma técnica, para evitar erros sistemáticos. Neste trabalho serão utilizadas sementes de milho, soja e arroz.
As imagens serão digitalizadas com um escâner com um fundo de Etil Vinil Acetato (EVA) na cor preta, com dimensões de 22x30 cm, onde será delimitada uma área de 11x11cm devido ao tamanho das amostras. As imagens serão capturadas em RGB (vermelha-verde-azul) e depois processadas.
As imagens escaneadas serão processadas no software ImageJ (sendo esse um software livre) que terá como função verificar qual das faixas de cores apresentará maior facilidade de separação das sementes, para futuro uso em equipamentos de seleção por cor em unidades de beneficiamento, por exemplo. Para isso serão gerados histogramas e com estes verificadas as maiores diferenças de tonalidade e, portanto, identificar as tonalidades mais eficientes para separar as sementes. Se a cor não for suficiente para tal separação será usado o Software ImageJ e filtros para a separação como transformada de Fourier.
Análise estatística
Na sequência serão feitas as análises estatísticas descritivas exploratórias, visando à obtenção de maior quantidade de informações possíveis através dos dados. Os dados coletados serão submetidos à análise de variância (p≤0,05) e depois comparados pelo teste de Tukey em nível de probabilidade de 5%. Serão obtidos dados estatísticos tradicionais que relacionados possam refletir às propriedades físicas da área de pixels das imagens, além dos gráficos de histograma de frequência, frequência acumulada e utilização das médias com intervalo de confiança.
Experimento II – Aprendizado de máquinas para separação de lotes de sementes
Serão utilizados dados provenientes de empresas produtoras de sementes, sendo considerados os atributos safras e cultivares. Nesse experimento serão utilizadas sementes de milho, soja e arroz. Escolhida a espécie será necessário um número considerável de dados.
Os atributos utilizados serão relacionados a questões estabelecidas em normas de produção e comercialização de sementes (pureza física, número de outras sementes, porcentagem de sementes infestadas, germinação) e outros de identificação do lote (material, peneira, safra).
O pré-processamento será utilizado para verificar dados discrepantes, retirar dados incoerentes e linhas sem dados, trocar vírgulas por pontos e tornar os dados para leitura no software utilizado.
O arquivo de treinamento será formado com 50% de lotes aceitos e 50% dos lotes rejeitados como uma forma de balanceamento dos dados.
Esses dados serão analisados primeiramente em cultivares e safras em separado, por espécie. A seguir, a análise será de cada cultivar com todas as safras e finalmente de todas as cultivares e safras reunidas.
Os classificadores utilizados serão J48, RandomForest, CVR, lBk, MLP e NäiveBayes. Também a validação cruzada, no qual se dividirá o conjunto de dados, treinamento e teste, em 10 subconjuntos. A média dessas precisões corresponderá ao desempenho do algoritmo sobre o conjunto de dados fornecido. Essa técnica reduz a probabilidade de que coincidências subavaliem ou sobre-avaliem o desempenho para uma determinada configuração. Todos os resultados reportados neste trabalho utilizaram essa técnica. As etapas descritas serão realizadas no software Weka (sendo um software livre).
Para verificar quais algoritmos serão mais convenientes utilizar-se-á o critério das suas acurácias e da matriz de confusão proveniente de cada modelo.
Para a execução de cluster e assim realizar uma avaliação não supervisionada serão empregados os algoritmos SimpleKMeans e FarthestFirst.
Obtenção das amostras
Para a elaboração das análises de danos em sementes, serão utilizadas amostras representativas de lotes de sementes com diferentes tipos e níveis de danos, sendo as sementes separadas manualmente caracterizando os diferentes tratamentos. Essa separação será realizada pela mesma pessoa, empregando a mesma técnica, para evitar erros sistemáticos. Neste trabalho serão utilizadas sementes de milho, soja e arroz.
As imagens serão digitalizadas com um escâner com um fundo de Etil Vinil Acetato (EVA) na cor preta, com dimensões de 22x30 cm, onde será delimitada uma área de 11x11cm devido ao tamanho das amostras. As imagens serão capturadas em RGB (vermelha-verde-azul) e depois processadas.
As imagens escaneadas serão processadas no software ImageJ (sendo esse um software livre) que terá como função verificar qual das faixas de cores apresentará maior facilidade de separação das sementes, para futuro uso em equipamentos de seleção por cor em unidades de beneficiamento, por exemplo. Para isso serão gerados histogramas e com estes verificadas as maiores diferenças de tonalidade e, portanto, identificar as tonalidades mais eficientes para separar as sementes. Se a cor não for suficiente para tal separação será usado o Software ImageJ e filtros para a separação como transformada de Fourier.
Análise estatística
Na sequência serão feitas as análises estatísticas descritivas exploratórias, visando à obtenção de maior quantidade de informações possíveis através dos dados. Os dados coletados serão submetidos à análise de variância (p≤0,05) e depois comparados pelo teste de Tukey em nível de probabilidade de 5%. Serão obtidos dados estatísticos tradicionais que relacionados possam refletir às propriedades físicas da área de pixels das imagens, além dos gráficos de histograma de frequência, frequência acumulada e utilização das médias com intervalo de confiança.
Experimento II – Aprendizado de máquinas para separação de lotes de sementes
Serão utilizados dados provenientes de empresas produtoras de sementes, sendo considerados os atributos safras e cultivares. Nesse experimento serão utilizadas sementes de milho, soja e arroz. Escolhida a espécie será necessário um número considerável de dados.
Os atributos utilizados serão relacionados a questões estabelecidas em normas de produção e comercialização de sementes (pureza física, número de outras sementes, porcentagem de sementes infestadas, germinação) e outros de identificação do lote (material, peneira, safra).
O pré-processamento será utilizado para verificar dados discrepantes, retirar dados incoerentes e linhas sem dados, trocar vírgulas por pontos e tornar os dados para leitura no software utilizado.
O arquivo de treinamento será formado com 50% de lotes aceitos e 50% dos lotes rejeitados como uma forma de balanceamento dos dados.
Esses dados serão analisados primeiramente em cultivares e safras em separado, por espécie. A seguir, a análise será de cada cultivar com todas as safras e finalmente de todas as cultivares e safras reunidas.
Os classificadores utilizados serão J48, RandomForest, CVR, lBk, MLP e NäiveBayes. Também a validação cruzada, no qual se dividirá o conjunto de dados, treinamento e teste, em 10 subconjuntos. A média dessas precisões corresponderá ao desempenho do algoritmo sobre o conjunto de dados fornecido. Essa técnica reduz a probabilidade de que coincidências subavaliem ou sobre-avaliem o desempenho para uma determinada configuração. Todos os resultados reportados neste trabalho utilizaram essa técnica. As etapas descritas serão realizadas no software Weka (sendo um software livre).
Para verificar quais algoritmos serão mais convenientes utilizar-se-á o critério das suas acurácias e da matriz de confusão proveniente de cada modelo.
Para a execução de cluster e assim realizar uma avaliação não supervisionada serão empregados os algoritmos SimpleKMeans e FarthestFirst.
Indicadores, Metas e Resultados
Desenvolvimento de ferramenta para a tomada de decisão sobre o destino de lotes de sementes, alcançando resultados mais rápidos e precisos;
Obtenção de técnica que possa ser utilizada em máquinas de beneficiamento de sementes e empresas produtoras de sementes;
Publicação de artigos científicos e apresentação de trabalhos em congressos; Orientação de alunos de doutorado, mestrado e iniciação científica.
Obtenção de técnica que possa ser utilizada em máquinas de beneficiamento de sementes e empresas produtoras de sementes;
Publicação de artigos científicos e apresentação de trabalhos em congressos; Orientação de alunos de doutorado, mestrado e iniciação científica.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
ADAMO DE SOUSA ARAÚJO | 1 | ||
ADRIEL NADAL | |||
CARLA APARECIDA ASCOLI | |||
FRANCISCO AMARAL VILLELA | 1 | ||
GIZELE INGRID GADOTTI | 2 | ||
GRACIELA BUCK | |||
Graziele Feltrin Dias Wendling | |||
HUGO SILVA DE ALMEIDA VENANCIO LOPES | |||
ISABELLA BRANDÃO MOREIRA | |||
JOÃO LUIZ GONÇALVES LOPES | |||
LUCIANA DIAS ROCHA | |||
Marcelo Guimaraes Brito | |||
RAFAEL RICO TIMM | |||
RITA DE CASSIA MOTA MONTEIRO | |||
RITA DE CASSIA MOTA MONTEIRO | |||
ROMÁRIO DE MESQUITA PINHEIRO | |||
RUAN BERNARDY | |||
Rogério Carpes |
Fontes Financiadoras
Sigla / Nome | Valor | Administrador |
---|---|---|
CAPES / Coordenação de Aperfeiçoamento de Nível Superior | R$ 1.040,80 | Coordenador |