Aplicação de técnicas de engenharia de proteínas na modifiação de enzimas lignocelulósicas

Nome do Projeto

Ênfase

Pesquisa

Data inicial - Data final

31/03/2021 - 31/03/2025

Unidade de Origem

Centro de Desenvolvimento Tecnológico

Coordenador Atual

LUCIANO DA SILVA PINTO

Área CNPq

Ciências Biológicas

Resumo

Criar uma biblioteca com todas as proteínas obtidas por ambos os métodos; Dinâmica molecular nos mutantes que tiveram resultado consenso nas abordagens de mutação Inspeção visual dos mutantes para encontrar erros e problemas nos aminoácidos Docking molecular dos mutantes para analisar se a atividade da enzima se manteve Expressar as proteínas que tiveram o melhor desempenho para fazer testes in vitro;

Objetivo Geral

O processo de hidrólise enzimática é o responsável pelos maiores custos na produção de bioetanol, principalmente pelo custo das enzimas. Ainda, enzimas degradadoras de celulose são bastante substrato-específicas, e sensíveis a temperatura e pH, fazendo com que seja de interesse econômico a prospecção de novas enzimas que possam diminuir os custos da produção de combustíveis. Uma das soluções para esse problema é a utilização de enzimas termoestáveis no processo de hidrolise.

Justificativa

De acordo com o Postulado de Anfinsen, a estrutura tridimensional de uma proteína está
intimamente ligada à sua função, o que significa que alterações na estrutura de uma
proteína, como modificar os aminoácidos de sua cadeia, podem trazer modificações na
função exercida por ela.
Engenharia de proteínas é uma abordagem que visa mudar a sequência de aminoácidos
nativa de uma proteína afim de introduzir uma nova propriedade, ou melhorar uma função
já existente (Arnold, 1993). Essa alteração normalmente consiste em substituir, remover
ou alterar um ou mais aminoácidos da proteína. A engenharia de proteína pode ser
dividida em três métodos: Evolução dirigida, design racional e design semi-racional, sendo
a escolha do método dependente do alvo que se quer trabalhar, assim como as
informações disponíveis sobre a proteína (Kapoor, Rafiq, & Sharma, 2017).
Evolução dirigida é atualmente a técnica mais utilizada na engenharia de proteínas. É um
processo inspirado pela seleção natural, utilizando processos iterativos de modificação e
seleção para identificar a variante com a função desejada (Cobb, Si, & Zhao, 2012). A
utilização da técnica não depende de conhecimento sobre a proteína alvo, ou de sua
estrutura tridimensional, entretanto dados sobre a proteína podem ser utilizados para
maximizar a eficiência do processo. Essa técnica se baseia no uso do gene que expressa
a proteína alvo, que é submetido a diversas técnicas de mutagenese como error-prone
PCR(Cadwell & Joyce, 1994)e recombinação genética (Stemmer, 1994) para criar uma
biblioteca de genes modificados. Esses mutantes passam por um processo rigoroso de
seleção, onde os genes escolhidos de acordo com a função desejada vão novamente
passar por um processo de mutagenese, que vai ser repetido por várias gerações (P. A.
Dalby, 2011).
O design racional é uma técnica que surgiu devido ao grande aumento de informação
disponível sobre sistemas biológicos, tanto de sequências (DNA e Aminoácidos), estrutura
tridimensional de proteínas, rotas metabólicas, entre outros, elucidando assim a relação
sequência-estrutura de uma proteína (Kapoor et al., 2017). Nessa técnica, aminoácidos
são seletivamente mutados afim de introduzir características específicas à proteína alvo.
Mais especificamente, essa técnica envolve a alteração, remoção ou adição de um único
ou de um conjunto de aminoácidos em uma posição específica da proteína alvo, afim de
alterar a sua função. Devido a alta dificuldade de se prever o resultado que a modificação de aminoácidos vai ter na estrutura e função da proteína, a seleção dos aminoácidos a
serem modificados (Singh et al., 2017). O design racional é dividido em métodos
baseados em sequência, onde a sequência da proteína alvo é alinhada a sequências
homologas para identificar o aminoácido que, quando alterado, resulte numa mudança de
função, e os baseados em estrutura, onde a proteína pode ter sua estrutura diretamente
alterada afim de melhorar alguma função, como modificar os aminoácidos do sítio ativo
para modificar sua atividade catalítica (Li, Xie, Zhang, & Zhao, 2015)
O design semi-racional é uma abordagem que combina características tanto da
abordagem racional quanto da abordagem de evolução dirigida, já que em muitos casos a
mudança desejada não pode ser obtida através do uso de nenhum dos métodos
separadamente, como por exemplo quando é necessária a modificação em vários
aminoácidos simultaneamente (Mate & Alcalde, 2015). No design semi-racional, a
mutagenese é feita em diversos aminoácidos seletivamente, ou seja, tendo conhecimento
a priori da função de regiões e domínios específicas da proteína. Atualmente, técnicas
computacionais avançadas como aprendizado de máquinas são utilizados para alterar
proteínas de acordo com características desejadas (Yang, Wu, & Arnold, 2018), além do
uso de técnicas de bioinformática para testar essas proteínas in silico.
Dinâmica Molecular de proteínas é uma técnica que torna possível a análise de um
sistema biologicamente relevante, como proteínas, proteínas de membrana, ribossomos,
nucleossomos, em um intervalo de tempo capaz de mostrar movimentos complexos de
regiões a serem estudadas, e na presença de um solvente (Hospital, Goñi, Orozco, &
Gelpí, 2015). A construção do sistema começa com a seleção de uma estrutura alvo. A
estrutura inicial para a simulação pode ser obtida tanto por estruturas experimentais,
como as depositadas no PDB, como por estruturas obtidas através de modelagem
molecular. A estrutura pode ser representada em diferentes níveis de detalhe, sendo a
representação atomica (cada átomo sendo representado adequadamente e sua energia
calculada) a que leva aos melhores resultados (Childers et al., 2017). Selecionado a
estrutura, é necessário obter as forças que irão agir sob cada um dos átomos do sistema,
um conjunto de equações e parâmetros empíricos chamados Campos de Força (Kandt,
Ash, & Peter Tieleman, 2007). Solvente é adicionado ao sistema, assim como ions,
utilizados para neutralizar a sua carga. É feito então o processo de minimização de
energia, que tenta reposicionar os átomos no sistema, visando sempre com que a energia
tenda a uma mínima local, diminuindo contatos inapropriados entre os átomos do sistema (Chatzieleftheriou, Adendorff, & Lagaros, 2016). O sistema é então equilibrado em
condições de temperatura e pressão estipulados pelo usuário por alguns picossegundos
(Gallo et al., 2009). Com o sistema construído, minimizado e equilibrado, após as forças
que agem em cada átomo serem obtidas, as leis da física newtoniana clássica são
aplicadas para calcular a velocidade e obter a posição individual e trajetória de cada
átomo. A simulação de Dinâmica Molecular emula então os movimentos físicos dos
átomos em uma proteína presente no ambiente desejado. O resultado bruto de uma
metodologia de dinâmica molecular é uma sequência de dados que mostra
detalhadamente a movimentação dos átomos em função de um intervalo de tempo,
chamada Trajetória, que é definida pela interação de todos os átomos específicados no
sistema (Patodia, Bagaria, & Chopra, 2014).
Docking molecular é um método computacional que é utilizado para avaliar o potencial de
ligação de um ligante (uma proteína ou uma molécula) a um receptor (proteína). Esse
processo se inicia com a tentativa pelos algoritmos de busca de posicionar corretamente
um ligante dentro de um sítio ativo do receptor. Dependendo da metodologia, tanto o
receptor como o ligante podem ser tratados como rígidos ou flexíveis, sendo os algoritmos
que tratam o ligante como flexível muito mais precisos, apesar de necessitar de mais
poder de processamento (Rosenfeld, Vajda, & Delisi, 1995). Os algoritmos de busca de
docking flexível podem ser divididos em três tipos: sistemáticos, estocásticos ou
determinísticos (Brooijmans & Kuntz, 2003). Além disso, é necessário avaliar as possíveis
ligações que ocorrem nas diferentes posições das moléculas através de um algoritmo de
score (Kitchen, Decornez, Furr, & Bajorath, 2004).
A biomassa lignocelulósica possui um enorme potencial para contribuir para a crescente
demanda mundial por fontes de energia renováveis, como na produção de
biocombustíveis, sendo considerada a origem mais abundante de fontes renováveis
encontrada na natureza (Passos, Pereira, & Castro, 2018). A biomassa lignocelulósica é
uma mistura complexa de polissacarídeos como celulose, hemecelulose e lignina, que
compõem a parede celular de plantas. De especial interesse entre estas moléculas está a
Celulose, que estima-se representar cerca de 50% do carbono do planeta (Kuhad, Gupta,
& Singh, 2011), sendo os açúcares covalentemente presos em sua estrutura o principal
produto de interesse industrial. Entretanto, a celulose também é o polissacarídeo mais
recalcitrante à degradação catalítica encontrado na biomassa lignocelulósica (Himmel et
al., 2007), o que torna difícil a obtenção dos subprodutos de sua catálise. Para a produção de biocombustíveis em escala industrial, a biomassa lignocelulósica tem primeiro seu
tamanho reduzido por processos mecânicos, e posteriormente sofre uma etapa de prétratamento por processos térmicos, deixando a parede celular mais suscetível a ação de
enzimas lignucelulósicas (Chundawat, Beckham, Himmel, & Dale, 2011).
Para uma hidrólise eficiente da celulose, um "coquetel enzimático" é utilizado para
degradação da celulose em glicose. Existem três tipos de enzimas, do grupo das glicosil
hidrolases, responsável pela conversão de celulose em glicose: Endoglucanases,
responsaveis pela clivagem aleatória das regiões internas da fibra celulósica;
celobiohidrolases, que agem principalmente na porção cristalina da celulose, catalizando
a liberação de glicose ou celobiose das extremidades da fibra celulósica, e Betaglicosidases, que transformam a celobiose em glicose (Silva, Vaz, & Filho, 2018). A
hidrólise da celulose requer a sinergia de diversas celulases em um sistema heterogêneo,
sendo o grau de sinergia da atividade de um grupo de enzimas definido pela proporçã oda
soma da atividade de cada uma das enzimas do grupo (Malgas, Thoresen, van Dyk, &
Pletschke, 2017).
As dificuldades na transformação da celulose em seus subprodutos de forma custo-efetiva
é o maior obstáculo, seu custo atual impedindo uma substituição efetiva dos combustíveis
fósseis por os de fonte renovável. O processo de hidrólise enzimática é o responsável
pelos maiores custos na produção de bioetanol, principalmente pelo custo das enzimas
(Aden & Foust, 2009). Ainda, enzimas degradadoras de celulose são bastante substratoespecíficas, e sensíveis a temperatura e pH, fazendo com que seja de interesse
econômico a prospecção de novas enzimas que possam diminuir os custos da produção
de combustíveis (Percival Zhang, Himmel, & Mielenz, 2006). O processo de hidrólise
enzimatica geralmente acontece entre 40ºC e 50ºC, consideradas taxas lentas de
hidrólise e caracterizadas

Metodologia

Criação da pipeline de engenharia de proteínas combinando design semi-racional e
racional para melhora da termoestabilidade
A pipeline criada é uma mistura de métodos semi-racionais (empíricos, porém baseados
em softwares que geram mutações aleatórias) e racionais (análises das estruturas). A
pipeline começa com uma limpeza do alvo, retirando todos os co-fatores, água e ligantes
(a maioria dos programas não trabalha de forma confiável com a presença destes). Após
essa etapa, uma combinação do programa YASARA (Land & Humble, 2018) e o conjunto
de bibliotecas FRESCO (Wijma et al., 2014) são utilizados para gerar uma tabela dos
aminoácidos selecionados para serem mutados.
Gerada a tabela com a lista de aminoácidos a serem mutados, dois programas são
utilizados para realizar as mutações: FoldX (Guerois, Nielsen, & Serrano, 2002) e Ddg
Monomer do pacote Rosetta (Kellogg, Leaver-Fay, & Baker, 2011). Ambos os programas
funcionam com mutações pontuais e de forma aleatória – modificam cada um dos
aminoácidos selecionados para todos os outros aminoácidos naturais, usando cálculos de
campo de força para medir a nova estabilidade da proteína, e gerando uma estrutura
tridimensional para cada uma das mutações. No final de todas as mutações, listas são
geradas com as mutações que cada um dos programas prediz que estabilizam a proteína,
de acordo com um threshold de energia escolhido pelo usuário (ex: mutações que
causam pelo menos -2 ddG de modificação na energia da proteína).
Metodologicamente, uma etapa de dinâmica molecular de todos os aminoácidos preditos
como estabilizantes é realizada após os passos de mutação. Entretanto, devido à grande
quantidade de mutações geradas, e à falta de capacidade computacional para analisar
todas as mutações, outras abordagens devem ser utilizadas para diminuir o número de
mutações à serem simuladas. Uma dessas abordagens é o uso da aplicação Backrub do
pacote Rosetta (Davis, Arendall, Richardson, & Richardson, 2006). A aplicação de
Backrub usa uma espécie de simulação com campo de força parecida com dinâmica
molecular, porém mais rudimentares, chamadas de Simulações de Monte Carlo (Zhang &
Chou, 1992). Diferente da dinâmica molecular, simulações de Monte Carlo não são séries
temporais, ou seja, não é a movimentação de uma proteína em função do tempo. No caso
da aplicação backrub, ela utiliza Monte Carlo para analisar a adaptação do backbone da
estrutura da proteína à mudanças nas cadeias laterais, nos permitindo analisar se as
mutações preditas como estabilizantes pelos programas vão ser “aceitas” pela estrutura
da proteína (Keedy et al., 2012). As mutações que foram preditas como mais estáveis por cada um dos programas vai ser utilizada pra gerar uma lista consenso de mutações, as
quais serão submetidas a simulações de dinâmica molecular para análise.
Como a abordagem por software só calcula a contribuição para a estabilização de cada
um dos resíduos, também é interessante fazer a mutação racional e manual de alguns
resíduos, afim de aumentar a estabilidade. É possível, por exemplo, que a modificação de
um resíduo específico sozinho não melhore a termoestabilidade da proteína, mas melhore
quando outro resíduo também é modificado. Esse é o caso da formação de pontes
salinas, que podem ser manualmente adicionadas na estrutura modificando resíduos
específicos (Jermutus, Tessier, Pasamontes, van Loon, & Lehmann, 2001). A introdução
de prolina em regiões de loops também podem ser feitas, reduzindo a entropia do estado
desnaturado (Fu, Grimsley, Razvi, Scholtz, & Pace, 2009). Pontes dissulfeto também
podem ser construídas, porém com certa cautela, visto que nem todas as pontes
dissulfeto contribuem para a estabilidade da proteína (Dombkowski, Sultana, & Craig,
2014). Dinâmica Molecular pode ser utilizada como base para predizer pontes dissulfeto
estabilizantes (Sanchez-Romero et al., 2013), porém necessitam de funcionabilidades
pagas de softwares (YASARA) para avaliar a probabilidade de estabilização, ou a
capacidade de screening in vitro de uma grande quantidade de mutantes.
Prospecção de alvo
Para escolher um alvo para aplicar à pipeline, assim como para facilitar a futura
expressão do alvo para testes in vitro, a proteína deveria ter algumas características:
 Ter estrutura tridimensional em qualidade aceitável (< 2 Angstroms de resolução)
depositada no PDB;
 Ser da classe de enzimas degradadoras de material lignocelulítico;
 Preferencialmente poder ser expresso em sistema de expressão em E. coli;
 Preferencialmente ter tamanho pequeno (< 350 aminoácidos em sua forma
madura);
 Não haver trabalhos publicados sobre termoestabilização da enzima escolhida
O alvo escolhido foi uma enzima da classe das glicosil hidrolases, classificado no banco
de dados CAZy (Carbohydrate-Active enZYmes) (Lombard, Golaconda Ramulu, Drula,
Coutinho, & Henrissat, 2014) como uma GH5 (Glicosídeo Hidrolase Família 5), isolada de
Xanthomonas axonopodis pv. citri (cepa 306), bactéria patogênica que causa o cancro
cítrico. Estudos sobre a doença mostram que essa bactéria é ativa preferencialmente na faixa de temperatura dos 30°C aos 35°C (Amaral, 2003), e estudos com enzimas
lignocelulósicas da mesma cepa mostram que elas perdem mais de 60% da sua atividade
em temperaturas maiores que 45°C em 30 minutos de incubação (Queiroz, 2017). Apesar
destes estudos serem um forte indicativo para definir o alvo como mesofílico, uma análise
de dinâmica molecular do alvo foi feita para confirmação.
Análise de Dinâmica Molecular para estimar a termoestabilidade do alvo
Devido à falta de informações disponíveis em bancos de dados quanto à temperatura de
ação do alvo, estudos de dinâmica molecular foram feitos para tentar estimar a
termoestabilidade do alvo. Estudos desse tipo vem sendo regularmente feitos nas últimas
três decadas para as mais variadas proteínas, como Lisozima (Mark & Van Gunsteren,
1992), Ubiquitina (Dastidar & Mukhopadhyay, 2005), TRPZ1 (Settanni & Fersht, 2008) e
Crambina (A. Dalby & Shamsir, 2015).
Para simular o desdobramento da proteína, simulações de alta temperatura (400K) são
necessárias. Isso se deve ao fato da diferença da escala de tempo existente entre uma
simulação de dinâmica molecular (nanosegundos) com o desdobramento in vitro.
Simulações em alta temperatura aceleram o processo de desdobramento sem afetar a via
(Day, Bennion, Ham, & Daggett, 2002).
Todas as simulações foram feitas com a estrutura tridimensional da XacCel5A em sua
forma nativa (código de acesso ao PDB: 4W7U), utilizando o programa GROMACS
(Abraham et al., 2015), e o campo de força CHARMM36 (Huang & MacKerell, 2013). A
proteína foi posicionada no centro de uma caixa de solvatação, com o tamanho definido
calculando a distância de 10 Angstroms do átomo mais próximo da extremidade em
qualquer um dos eixos. Moléculas explícitas de água (TIP3P) (Jorgensen, Chandrasekhar,
Madura, Impey, & Klein, 1983) foram adicionadas ao sistema. O sistema foi simulado em
condições de fronteiras periódicas, utilizando o método Particle Mesh Ewald para as
interações eletroestáticas de longo alcance. Foi definido um cut-off suave para as Forças
de Van der Waals, começando a diminuir o potencial a 8 angstroms, até cessar em 10
angstroms. Ions de Sódio (Na) e Cloro (Cl) foram adicionados para neutralizar o sistema.
O sistema foi então submetido a um processo de minimização de energia por 5000 steps,
sendo cada step equivalente a 2 femtosegundos. Após o sistema minimizado,
temperatura e pressão foram adicionados ao sistema. Três sistemas diferentes foram
criados com 3 temperaturas diferentes (300K, 350K e 400K), todos a 1 atmosfera de
pressão, sendo submetidos a 50.000 steps de equilíbrio NTP (Número de Átomos, Temperatura e Pressão constantes). Após isso, o sistema foi simulado por 50
nanossegundos, com frames da simulação sendo obtidos a cada 100 picossegundos.
Para verificar a integridade da estrutura tridimensional em altas temperatuas, análise de
RMSF (Root Mean Square Fluctuation), uma métrica que calcula a média da
movimentação de resíduos em toda a simulação, SASA (Solvent Acessible Surface Area),
que méde a área da superfície da proteína acessível pelo solvente, assim como o Raio de
Giro, que mede a distância entre o centro da proteína e sua porção mais afastada. Além
disso, também foram avaliados a quantidade de ligações de hidrogênio presentes na
proteína durante cada uma das simulações em função do tempo.
Análise in silico das proteínas mutadas
Para testar as proteínas modificadas pelas técnicas supracitadas, uma pipeline de análise
vai ser construída in silico de forma a filtrar as proteínas e selecionar as que tiverem
melhor resultado.
Como citado no final da etapa de mutação, uma análise de dinâmica molecular é
necessária para analisar as mutações selecionadas. Para isso, uma rápida simulação de
0,5ns para cada uma das estruturas mutantes é realizada, utilizando os mesmos
parâmetros utilizados para a simulação da proteína para cálculo de termoestabilidade,
porém somente na temperatura de 300K. Ao fim das simulações, as proteínas vão passar
por inspeção visual para eliminar mutações que contenham erros, como exposição ao
solvente de cadeias hidrofóbicas, aumento no número de ligações de hidrogênio
insatisfeitas, criação de cavidades inesperadas no interior da proteína (como exemplo,
pela introdução de prolina em uma alfa-hélice), flexibilidade irregular na cadeia lateral, no
backbone e na proteína como um todo. Além disso, cálculos de RMSF vão ser feitos para
todas as proteínas e, baseado na teoria estabelecida de que proteínas termoestáveis tem
menor flutuação, selecionadas com base na flutuação dos resíduos comparado com a
nativa. Todas essas alterações são indicativas ou de erros na simulação, ou de (mais
comum) problemas estruturais causados pela modificação do aminoácido. Geralmente
mais de 50% das mutações são eliminadas neste processo.
A

Indicadores, Metas e Resultados

Construção da pipeline de mutação por design semi-racional e racional visando
melhorar a termoestabilidade;
 Prospectar alvos de interesse para aplicação da metodologia desenvolvida;
 Criar uma biblioteca com todas as proteínas obtidas por ambos os métodos;
 Dinâmica molecular nos mutantes que tiveram resultado consenso nas
abordagens de mutação
 Inspeção visual dos mutantes para encontrar erros e problemas nos aminoácidos
 Docking molecular dos mutantes para analisar se a atividade da enzima se
manteve
 Expressar as proteínas que tiveram o melhor desempenho para fazer testes in
vitro;

Produto final
 Enzima degradadora de celulose com termoestabilidade melhorada
 Publicação de um artigo na revista Journal of Chemical Information and Modelling
(Fator de impacto 3.8 e Qualis biotecnologia A2) ou Biotechnology for Biofuels
(Fator de impacto 5.4 e Qualis biotecnologia A1

Equipe do Projeto

Nome	CH Semanal	Data inicial	Data final
ALESSANDRA NEIS
ALICE CALDERIPE DE LIMA
CHRYSTIAN NUNES GONCALVES
FREDERICO SCHMITT KREMER	2
KETHLIN DE QUADROS FERREIRA
LUCIANO DA SILVA PINTO	4
RAFAEL DOS SANTOS WOLOSKI