Nome do Projeto
Desenvolvimento de aplicações computacionais para melhoramento genético e bioinformática
Ênfase
Pesquisa
Data inicial - Data final
01/10/2020 - 30/09/2028
Unidade de Origem
Coordenador Atual
Área CNPq
Ciências Agrárias
Resumo
O melhoramento genético é uma das praticas mais importantes da agricultura e pecuária. Grande parte dos projetos de melhoramento gera grande quantidade de dados que necessitam ser arquivado, processados e analisados com métodos específicos dentro da área de conhecimento.
O desenvolvimento de aplicações computacionais de uso amigável e de distribuição grátis é uma oportunidade para a transferência de conhecimento em conjunto com a formação de recursos humanos dentro de um curso de pós-graduação, além de gerar resultados positivos para o reconhecimento da instituição.
Além deste aspecto, dentro do nosso grupo de pesquisa de melhoramento de plantas é evidente a demanda pela criação de aplicações que possam auxiliar no controle dos trabalhos realizados no melhoramento de arroz, milho, trigo e milho.
Objetivo Geral
Iniciar pesquisa, sistematização e desenvolvimento de aplicativos computacionais para diferentes demandas técnicas na área de gerenciamento de bancos de germoplasmas, gerenciamento de programa de melhoramento genético e análise de dados de experimentos agrícolas de melhoramento, “big data” e mineração de dados, destinados para a distribuição de uso livre.
Justificativa
O melhoramento genético é um dos princípios teóricos e práticos mais importantes na manutenção e no avanço da agricultura e agropecuária em diferentes países do mundo. Países que não tem um sistema de melhoramento de espécies sustentado por uma base genética local, e, por conhecimento sistematizado corre risco de ter que importar frequentemente esse conhecimento e/ou tecnologias derivadas deste conhecimento.
O desenvolvimento de técnicas para o sequenciamento genômico tem sido utilizado para prever o fenótipo de maneira automatizada (Furbank e Tester, 2011) e até para prever o conteúdo e função dos sistemas vivos. Essa rápida geração de grandes quantidades de dados descrevendo sistemas biológicos, a análise e interpretação desses dados usando conhecimentos estatísticos e computacionais, transformaram a biologia em uma ciência rica em informações. Nesse sentido, a integração e a interpretação de grandes quantidades de dados direcionam o desenho e a natureza de novas hipóteses científicas e a aplicação dos resultados existentes (Halewood et al., 2018).
Ainda, dentro da questão do tratamento e análise de dados, recentemente o grande crescimento no acumulo de informações gerou uma nova área do conhecimento, que tem sido descrita como “big data”. Embora muitos dos algoritmos, técnicas e modelos estatísticos utilizadas nas análises de “big data” e mineração de dados (“data mining”) sejam de conhecimento já amplamente difundido, é importante para as instituições públicas de ensino e/ou pesquisa, que este conhecimento e/ou ferramentas para esta nova área do conhecimento sejam implementadas e/ou sistematizadas de maneira grátis para serem disponibilizadas para o público em geral (Bombarely et al., 2010, Selby et al., 2019).
Há um constante avanço das estratégias de melhoramento genético vegetal e animal, juntamente com a valorização e crescimento dos bancos de germoplasma em grupos de pesquisa e universidades públicas bem como em empresas privadas. Esses avanços em conjunto com a extensão e/ou transferência dessas tecnologias tem gerado demanda por sistemas computacionais para armazenamento, sistematização e tratamento técnico destes dados gerados de forma simples e automatizada.
Para Cruz (1998), uma maneira de se aumentar a chance de êxito nos programas de melhoramento é a realização de experimentos fidedignos, dos quais são obtidos grandes volumes de dados experimentais. O processamento adequado destes dados possibilita que os parâmetros genéticos sejam estimados e os fenômenos biológicos sejam interpretados. Ainda segundo este autor, nesta etapa é fundamental a existência de recursos computacionais e aplicativos eficientes à disposição dos pesquisadores.
De maneira geral, o desenvolvimento deste tipo de aplicação é pouco frequente no Brasil, dada a demanda do conhecimento especifico nas áreas correlatas. Por outro lado, grandes empresas produzem seus próprios “softwares” que são vendidos por valores muito altos, tornando difícil a compra e utilização por pequenos grupos de pesquisa e/ou por técnicos que atuam como pessoa física (consultores, técnicos, pesquisadores, etc...), dado o alto custo das licenças dos “softwares” (pacotes) comerciais.
O desenvolvimento de aplicações e ferramentas computacionais referentes a todas estas áreas do conhecimento (cadastro e gerenciamento de dados de bancos de germoplasma, pré- melhoramento, melhoramento, análise de dados experimentais, “big data”, mineração de dados) vai gerar como resultado aplicativos computacionais (“softwares”). Além disso, gera paralelamente o desenvolvimento da pesquisa e acumulo de conhecimento dentro do grupo de pesquisa, que de forma direta é transferida aos alunos durante a formação nos cursos de Pós-Graduação (Mestrado e Doutorado) e para alunos de Iniciação Científica, bem como possibilitar novas publicações de artigos e livros científicos.
Dentro desse contexto, o presente projeto tem por objetivo iniciar uma linha de pesquisa no desenvolvimento de aplicativos computacionais para diferentes demandas técnicas na área de gerenciamento de dados de germoplasmas, genética, gerenciamento de programas de melhoramento genético e experimentação agrícola, destinados distribuição para uso livre.
O desenvolvimento de técnicas para o sequenciamento genômico tem sido utilizado para prever o fenótipo de maneira automatizada (Furbank e Tester, 2011) e até para prever o conteúdo e função dos sistemas vivos. Essa rápida geração de grandes quantidades de dados descrevendo sistemas biológicos, a análise e interpretação desses dados usando conhecimentos estatísticos e computacionais, transformaram a biologia em uma ciência rica em informações. Nesse sentido, a integração e a interpretação de grandes quantidades de dados direcionam o desenho e a natureza de novas hipóteses científicas e a aplicação dos resultados existentes (Halewood et al., 2018).
Ainda, dentro da questão do tratamento e análise de dados, recentemente o grande crescimento no acumulo de informações gerou uma nova área do conhecimento, que tem sido descrita como “big data”. Embora muitos dos algoritmos, técnicas e modelos estatísticos utilizadas nas análises de “big data” e mineração de dados (“data mining”) sejam de conhecimento já amplamente difundido, é importante para as instituições públicas de ensino e/ou pesquisa, que este conhecimento e/ou ferramentas para esta nova área do conhecimento sejam implementadas e/ou sistematizadas de maneira grátis para serem disponibilizadas para o público em geral (Bombarely et al., 2010, Selby et al., 2019).
Há um constante avanço das estratégias de melhoramento genético vegetal e animal, juntamente com a valorização e crescimento dos bancos de germoplasma em grupos de pesquisa e universidades públicas bem como em empresas privadas. Esses avanços em conjunto com a extensão e/ou transferência dessas tecnologias tem gerado demanda por sistemas computacionais para armazenamento, sistematização e tratamento técnico destes dados gerados de forma simples e automatizada.
Para Cruz (1998), uma maneira de se aumentar a chance de êxito nos programas de melhoramento é a realização de experimentos fidedignos, dos quais são obtidos grandes volumes de dados experimentais. O processamento adequado destes dados possibilita que os parâmetros genéticos sejam estimados e os fenômenos biológicos sejam interpretados. Ainda segundo este autor, nesta etapa é fundamental a existência de recursos computacionais e aplicativos eficientes à disposição dos pesquisadores.
De maneira geral, o desenvolvimento deste tipo de aplicação é pouco frequente no Brasil, dada a demanda do conhecimento especifico nas áreas correlatas. Por outro lado, grandes empresas produzem seus próprios “softwares” que são vendidos por valores muito altos, tornando difícil a compra e utilização por pequenos grupos de pesquisa e/ou por técnicos que atuam como pessoa física (consultores, técnicos, pesquisadores, etc...), dado o alto custo das licenças dos “softwares” (pacotes) comerciais.
O desenvolvimento de aplicações e ferramentas computacionais referentes a todas estas áreas do conhecimento (cadastro e gerenciamento de dados de bancos de germoplasma, pré- melhoramento, melhoramento, análise de dados experimentais, “big data”, mineração de dados) vai gerar como resultado aplicativos computacionais (“softwares”). Além disso, gera paralelamente o desenvolvimento da pesquisa e acumulo de conhecimento dentro do grupo de pesquisa, que de forma direta é transferida aos alunos durante a formação nos cursos de Pós-Graduação (Mestrado e Doutorado) e para alunos de Iniciação Científica, bem como possibilitar novas publicações de artigos e livros científicos.
Dentro desse contexto, o presente projeto tem por objetivo iniciar uma linha de pesquisa no desenvolvimento de aplicativos computacionais para diferentes demandas técnicas na área de gerenciamento de dados de germoplasmas, genética, gerenciamento de programas de melhoramento genético e experimentação agrícola, destinados distribuição para uso livre.
Metodologia
1)Recursos computacionais
As aplicações serão destinadas para uso em computadores pessoais (microcomputadores). Inicialmente as aplicações serão destinadas para usuários de sistemas MS Windows e posteriormente para usuários Linux e sistemas Apple Mac. Todas as aplicações serão desenvolvidas utilizando linguagens de distribuição grátis, entre elas, C/C++, Lazarus (Free Pascal), R, Python e Perl (Carey e Papin, 2018, Santos-Silva et al., 2019, Matthew e Sunday, 2014). A escolha de cada uma destas linguagens para cada etapa deverá ocorrer durante o progresso do projeto. De maneira geral as linguagens C/C++ e Lazarus serão utilizadas para a composição das “interfaces” gráficas e as linguagens R, Python e Perl utilizadas para funções estatísticas, pois estas são linguagens consagradas no tratamento de dados e para estatística. O banco de dados utilizado será o MySQL, também de distribuição grátis (Selby et al., 2019, Shrestha et al., 2012).
2)Metodologia para os sistemas de gerenciamento de dados de bancos de germoplasma, melhoramento e análise de dados
Para o desenvolvimento das aplicações destinadas a gerenciamento de dados de bancos de germoplasma e gerenciamento de programas de melhoramento será adotado como modelo básico o programa de melhoramento de aveia do CGF-UFPel e outras experiências do grupo com trabalhos de arroz, milho e trigo (Venske et al., 2019, Pegoraro et al., 2017, Baretta et al., 2017, Maia et al., 2008, Maia et a., 2016, Oliveira et al., 2012; Stein et al., 2018). Além destas experiências para o desenho do modelo do sistema serão coletadas experiências pessoais com melhoristas de outros programas de melhoramento vegetal e animal, bem como da literatura para a proposição de um modelo de banco de dados e de aplicação (Shrestha et al., 2012; Selby et al., 2019; Cruz e Regazzi, 1994; Schuster e Cruz, 2004; Cruz, Carneiro e Regazzi, 2014; Isik et al., 2017).
Nas aplicações destinadas a “big data”, mineração de dados e análise de dados de experimentos agrícolas de melhoramento serão utilizados modelos já consolidados na literatura e de uso amplo (Shrestha et al., 2012; Fernandez Pozo et al., 2014; Li e Chen, 2014).
As aplicações serão destinadas para uso em computadores pessoais (microcomputadores). Inicialmente as aplicações serão destinadas para usuários de sistemas MS Windows e posteriormente para usuários Linux e sistemas Apple Mac. Todas as aplicações serão desenvolvidas utilizando linguagens de distribuição grátis, entre elas, C/C++, Lazarus (Free Pascal), R, Python e Perl (Carey e Papin, 2018, Santos-Silva et al., 2019, Matthew e Sunday, 2014). A escolha de cada uma destas linguagens para cada etapa deverá ocorrer durante o progresso do projeto. De maneira geral as linguagens C/C++ e Lazarus serão utilizadas para a composição das “interfaces” gráficas e as linguagens R, Python e Perl utilizadas para funções estatísticas, pois estas são linguagens consagradas no tratamento de dados e para estatística. O banco de dados utilizado será o MySQL, também de distribuição grátis (Selby et al., 2019, Shrestha et al., 2012).
2)Metodologia para os sistemas de gerenciamento de dados de bancos de germoplasma, melhoramento e análise de dados
Para o desenvolvimento das aplicações destinadas a gerenciamento de dados de bancos de germoplasma e gerenciamento de programas de melhoramento será adotado como modelo básico o programa de melhoramento de aveia do CGF-UFPel e outras experiências do grupo com trabalhos de arroz, milho e trigo (Venske et al., 2019, Pegoraro et al., 2017, Baretta et al., 2017, Maia et al., 2008, Maia et a., 2016, Oliveira et al., 2012; Stein et al., 2018). Além destas experiências para o desenho do modelo do sistema serão coletadas experiências pessoais com melhoristas de outros programas de melhoramento vegetal e animal, bem como da literatura para a proposição de um modelo de banco de dados e de aplicação (Shrestha et al., 2012; Selby et al., 2019; Cruz e Regazzi, 1994; Schuster e Cruz, 2004; Cruz, Carneiro e Regazzi, 2014; Isik et al., 2017).
Nas aplicações destinadas a “big data”, mineração de dados e análise de dados de experimentos agrícolas de melhoramento serão utilizados modelos já consolidados na literatura e de uso amplo (Shrestha et al., 2012; Fernandez Pozo et al., 2014; Li e Chen, 2014).
Indicadores, Metas e Resultados
Espera-se com esse projeto:
1) Treinamento de estudantes de graduação e pós-graduação com conhecimentos já consolidados na literatura e novos conhecimentos gerados durante o desenvolvimento e sistematização dos aplicativos;
2) Disponibilização de nova versão de lançamento ou correções dos aplicativos a cada seis meses;
3) Com a disponibilização dos aplicativos criar um grupo de usuários e pesquisadores externos que mantenham um relacionamento com o grupo de pesquisa CGF-UFPel;
4) Gerar publicações de artigos científicos e/ou livros referentes aos aplicativos, utilização destes e/ou aplicação dos mesmos na análise de dados gerados em experimentos.
1) Treinamento de estudantes de graduação e pós-graduação com conhecimentos já consolidados na literatura e novos conhecimentos gerados durante o desenvolvimento e sistematização dos aplicativos;
2) Disponibilização de nova versão de lançamento ou correções dos aplicativos a cada seis meses;
3) Com a disponibilização dos aplicativos criar um grupo de usuários e pesquisadores externos que mantenham um relacionamento com o grupo de pesquisa CGF-UFPel;
4) Gerar publicações de artigos científicos e/ou livros referentes aos aplicativos, utilização destes e/ou aplicação dos mesmos na análise de dados gerados em experimentos.
Equipe do Projeto
Nome | CH Semanal | Data inicial | Data final |
---|---|---|---|
ANTONIO COSTA DE OLIVEIRA | 1 | ||
CAMILA PEGORARO | 1 | ||
EDUARDO VENSKE | |||
JÉDER DA ROCHA MATTOS | |||
LUCIANO CARLOS DA MAIA | |||
LUIS EDUARDO PANOZZO | 1 | ||
MARCO ANDRE PALDES DA COSTA | 1 |