Projecto do genoma da sanguessuga medicinal europeia Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) com ênfase em anticoagulantes
Estatística de montagem e análise BUSCO
O genoma provisório de Hirudo medicinalis ROMIZI 11733 foi montado em 19.929 andaimes, abrangendo 176.96 Mbps com uma cobertura mediana de 146,78×, uma pontuação N50 de 50.382 bps, e uma pontuação L50 de 772 (a estatística completa para o esboço da montagem do genoma pode ser encontrada no Arquivo Suplementar 1). BUSCO ver. 4.0.526 foi executado para avaliar a completude do genoma. A análise das proteínas previstas vs. metazoa_odb10 resultou numa pontuação de completitude de 94,2% (90,0% completa + 4,2% fragmentada).
O tamanho do conjunto representa 78,67% do tamanho estimado do genoma (230 Mbps; http://genomesize.com). Uma anotação de duas passagens com MAKER27 resultou em 35.166 proteínas previstas com 780 variantes de emendas. Usando tRNAscan-SE28, um total de 429 genes de tRNA foram previstos, assim como 116 pseudogenes adicionais. Um adicional de 535 genes/motivos RNA não codificadores foram previstos usando Infernal29, que incluiu 64 genes rRNA e 316 microRNAs. O conteúdo repetitivo do genoma foi estimado em 24,71% (14,43% intercalados e 10,28% repetições simples) pelo RepeatModeler30, sendo a unidade mais abundante não classificada (6,14%). Todos os arquivos de anotação foram depositados em https://doi.org/10.5281/zenodo.3555585 (último acesso em 20 de janeiro de 2020). As leituras brutas, assim como as seqüências montadas foram depositadas no Arquivo Europeu de Nucleotídeos (ENA) sob a adesão ao estudo PRJEB35865.
Anticoagulantes de sanguessugas, número de cópias e repetições tandem
No total, foram encontrados produtos gênicos no genoma Hirudo medicinalis que mostraram acertos BLASTp adequados (superior a 1E-5) contra 18 proteínas bem caracterizadas derivadas de sanguessugas com funções relacionadas à anti-hemostasia (Tabela 1). Estas incluem eglina C, desestabilase I, ghilanten, inibidor da triptase derivada da sanguessuga (ITL), guamerina, cistatina, hirudina, fator tipo hirudina 3, ficolin, inibidores da protease serina tipo Kazal (serpinas), lectina tipo C, manilase, bdellina, piguamerina, antistasina, bdellastasina, lefaxina e um trombinibidor não identificado. A Tabela 1 mostra os principais resultados do genoma H. medicinalis, juntamente com os resultados das três bases de dados globais, o número de cópias do gene em todo o genoma e a presença ou ausência de um peptídeo de sinal.
Se mesmo dos 18 anticoagulantes putativos ocorrem em uma única cópia através dos nossos dados (Tabela 1); note que ainda há uma chance de que mais cópias estejam presentes nas partes não sequenciadas do genoma. Estes são piguamerina, hirudina, ghilanten, fator hirudina tipo 3, LDTI, o inibidor de trombina não identificado e cistatina. O maior número de cópias (n = 7) foi encontrado para a eglina C e desestabilização; enquanto as cópias para a primeira pareciam estar espalhadas pelos andaimes (as sete cópias ocorreram em seis andaimes diferentes), a segunda incluía três cópias no mesmo andaime e outro andaime com duas cópias.
Quando a maioria dos anticoagulantes aqui visados não estão posicionados adjacentes uns aos outros em nosso genoma de rascunho, as seguintes proteínas parecem ocorrer em arrays tandem como duas ou mais cópias: lectina tipo C (com forte conservação de tamanhos exon e intron entre as cópias), guamerina (com baixa conservação de tamanhos exon e intron entre as cópias), inibidor da protease serina tipo Kazal (com baixa conservação de tamanhos exon e intron entre as cópias) e bdellin (com tamanhos exon relativamente conservados, mas tamanhos intron diferentes entre as cópias). Além disso, o ITL e três cópias tandem de bdellin são adjacentes entre si no andaime 209471.
Outros peptídeos bioativos
Além dos golpes contra fatores de anticoagulação conhecidos, derivados de sanguessugas, foram recuperados no H 1.176 golpes contra 227 diferentes compostos bioativos isolados de organismos que se alimentam de sangue. medicinalis; a função e as vias de acesso para a maioria destes permanecem desconhecidas e, como tal, apenas nos concentraremos nas proteínas bioactivas não sanguessugas que demonstraram estar envolvidas na anticoagulação. Foram obtidos golpes robustos (superiores a 1E-5) contra 23 proteínas diferentes que afetam negativamente a cascata de coagulação. Estas incluem uma desintegração e metaloproteinase com motivo trombospondina (ADAMTS), apyrase, inibidor da serina protease tipo Kunitz, fibrinogenase, crisoptina, bothrojaracin, óxido nítrico (vasodilatador), aglucetina, snaclec, kaouthiagin metaloproteinase hemorrágica, batroxestatina, inibidor de trombina (do carrapato Estrela Solitária Amblyomma americanum), anexina, tabserina, proteína inibidora de trombina (do Rhodnius prolixus), protease de serina venenosa, quimotripsina, brasiliensina, catepsina B, dipetalogastino, achelase, halyxina e antitrombina III (da cobra real Ophiophagus hannah). O arquivo suplementar 2 mostra os hits para estes peptídeos, juntamente com seus hits recíprocos BLAST e a previsão do peptídeo de sinal. Vários dos acertos recíprocos BLAST foram contra genes não anotados (isto é, “proteína hipotética” ou “proteína descaracterizada”) no genoma Helobdella robusta, de tal forma que pouca informação pode ser deduzida a respeito da identidade dos fósforos. Entretanto, também avaliamos hits inferiores (mas ainda superiores a 1E-5) contra genes bem anotados nas três bases de dados globais. Após a avaliação de todas as informações disponíveis, apenas os seguintes produtos protéicos não puderam ser robustamente inferidos para estarem presentes no genoma H. medicinalis (ou seja os restantes produtos proteicos estão todos presentes): crisoptina, óxido nítrico, inibidor de trombina (de Amblyomma americanum), quimotripsina, dipelogastin e achelase.
Semelhança de sequência e alinhamentos em pares
Cada uma das proteínas relacionadas com a anticoagulação derivada de H. medicinalis foram alinhadas com sua contraparte arquetípica, e os alinhamentos são apresentados na Fig. 1 (para desestabilização I, LDTI, hirudina e fator tipo hirudina 3, e bdellina) e Arquivo Suplementar 3 (para eglina C, ghilanten, guamerina, cistatina, ficolina, serpentina tipo Kazal, lectina tipo C, manilase, piguamerina, antistasina, bdellastasina e o trombininibidor não identificado). Note que a sequência de H. medicinalis com uma batida contra a lefaxina encontrou uma batida muito superior contra a hemeritrina quando reciprocamente BLASTed e não foi mais considerado um ortologue da lefaxina.
Para a desestabilização I, a sequência recém derivada mostra 78% de semelhança em posições com aminoácidos partilhados (i.e., quando as lacunas não são contadas) com o anticoagulante conhecido (número de acesso ao GenBank AAA9614431), que também foi originalmente derivado de Hirudo medicinalis. Além disso, as posições de todos os 14 resíduos de cisteína mostram uma conservação total, sugerindo uma estrutura dobrável semelhante entre as proteínas. Não foram encontrados casos de indels no alinhamento (Fig. 1A).
No alinhamento de aminoácidos para LDTI, incluindo a nova sequência e a sequência arquetípica derivada de Hirudo medicinalis (número de acesso GenBank AAB3376932), as duas sequências mostram 99% de semelhança de sequência e conservação total das posições dos seis resíduos de cisteína. Não foram encontrados indels (Fig. 1B).
O ortograma hirudin orthologue recentemente sequenciado mostra conservação quase total (semelhança de sequência 99,9%) quando comparado com a sequência arquetípica (número de acesso GenBank APA2083333), originalmente derivada de Hirudo verbana. Além disso, as posições dos seis resíduos de cisteína presentes no peptídeo maduro são totalmente conservadas (duas cisteínas também são conservadas na região do peptídeo sinal). Nenhum evento indel estava presente no alinhamento (Fig. 1C).
A sequência de bdellin recuperada do genoma de H. medicinalis mostra 99,2% de semelhança com a sequência arquetípica (GenBank accession number P0986534) originalmente derivada de H. medicinalis, e as posições de todos os resíduos de cisteína (n = 6) são totalmente conservadas. Nenhum indel estava presente no alinhamento (Fig. 1D).
Para eglin C, a nova sequência mostra 99,9% de semelhança com a sequência arquetípica (número de acesso GenBank 0905140 A35). Nenhum resíduo de cisteína está presente em nenhuma das sequências e nenhum indel (Arquivo Suplementar 3A).
A sequência ghilanten recentemente adquirida mostra apenas 32% de semelhança de sequência quando comparada com a sequência arquetípica (número de acesso GenBank AAB2123336) derivada da sanguessuga glossifoniana Haementeria ghilianii (de Filippi, 1849). A baixa afinidade entre as sequências sugere que estas podem não ser sequências ortogonais. Independentemente disso, a nova sequência inclui 25 resíduos de cisteína na proteína madura e as posições de 17 destes são conservadas no alinhamento. Eventos Indel estavam presentes em ambas as sequências, a maior das quais cobre 25 resíduos (inserção na nova sequência ou eliminação na sequência arquetípica), e apenas cadeias curtas (máximo de n = 3) de homopolímeros foram identificadas (Arquivo Suplementar 3B).
Para a guamerina, a nova sequência mostra 67% de semelhança com a proteína arquetípica (número de acesso ao GenBank AAD0944237), que foi originalmente derivada de Hirudo nipponia Whitman, 1886. As posições de todos os nove resíduos de cisteína presentes no alinhamento são totalmente conservadas. Nenhum evento indel foi encontrado (Arquivo Suplementar 3C).
A nova seqüência para cistatina mostra 57% de similaridade quando comparada à sua contraparte arquetípica (número de acesso GenBank AAN2867938), a partir do tessulato de Theromyzon glossiphoniid (Müller, 1774); a posição do resíduo único de cisteína é conservada entre as seqüências. Nenhum evento indel estava presente no alinhamento (Arquivo Suplementar 3D).
Para o ficolin, a semelhança de sequência é de 59% entre as posições de aminoácidos partilhados entre a nossa nova sequência e a sequência arquetípica (aproveitada do conjunto de dados utilizado por Min et al.15), derivada da Macrobdella decorativa da sanguessuga medicinal norte-americana (Digamos, 1824). Dois dos três resíduos de cisteína presentes na seqüência M. decora-derivados também estão presentes na mesma posição na nova seqüência. Uma inserção bastante extensa está presente na nova seqüência (ou, alternativamente, um evento de exclusão na seqüência arquetípica) e cobre 27 resíduos de aminoácidos (Arquivo Suplementar 3E).
A serpino tipo Kazal recentemente derivado mostra apenas 26% de similaridade de seqüência para locais de aminoácidos compartilhados quando comparado com a seqüência derivada de Macrobdella decora- (do conjunto de dados usado por Min et al.15). Dos 13 resíduos de cisteína presentes na sequência “arquetípica”, 12 mostram posições conservadas na nova sequência. Indels curtos estão presentes em ambas as sequências (Arquivo Suplementar 3F).
O alinhamento de lectin tipo C indica que existe 43% de similaridade entre a nova sequência e a comparação arquetípica derivada de M. decora (ver15). Treze resíduos de cisteína existem na sequência arquetípica e as posições para nove destes são conservadas na sequência recentemente adquirida. Três pequenas deleções isoladas estão presentes na sequência arquetípica (ou, alternativamente, estas representam inserções na nova sequência) (Arquivo Suplementar 3G).
Para a manilase, 83% dos resíduos de aminoácidos compartilhados são idênticos entre a nova sequência e aquela derivada de um pedido de patente dos EUA (no. 2006 US 7.049.124 B1P09856) e extraída da lição da sanguessuga medicinal asiática Hirudinaria manillensis, 1842. Notoriamente, a manilase é completamente desprovida de resíduos de cisteína, assim como a sequência derivada de Hirudo medicinalis. Uma inserção/deleção está presente no meio do alinhamento e abrange 16 resíduos (Arquivo Suplementar 3H).
Para o inibidor de tripsina piguamerina, nosso novo produto genético sequenciado mostra 46% de semelhança com a sequência arquetípica (número de acesso GenBank P8149939), originalmente derivado da nipponia de Hirudo. A sequência arquetípica inclui dez resíduos de cisteína e seis destes estão em posições conservadas na nova sequência. Nenhum indel está presente no alinhamento (arquivo suplementar 3I).
Para o antistasin, a sequência derivada da nossa amostra de H. medicinalis mostra 36% de semelhança com a sequência arquetípica (número de acesso GenBank P1535840) de Haementeria officinalis. Além disso, a posição de 18 das 21 cisteinas presentes na sequência arquetípica é conservada entre as sequências (Suplemento 3J).
Nossa sequência recém derivada no alinhamento de bdellastasina mostra conservação quase total (99,9% de semelhança em locais de aminoácidos compartilhados) quando comparada com a variante arquetípica (número de acesso GenBank 1C9P41), também de Hirudo medicinalis. As posições das 10 cisteinas são totalmente conservadas entre as sequências (Ficheiro Complementar 3K).
O inibidor de trombina desconhecido que aqui serve como anticoagulante arquetípico foi originalmente derivado do piscicolid Pontobdella macrothela (Schmarda, 1861) (ver16), após os golpes à base de BLAST contra um suposto inibidor de trombina da sanguessuga Haemadipsa sylvestris Blanchard, 1894. A nossa sequência derivada de Hirudo medicinalis mostra apenas 28% de semelhança de sequência para locais de aminoácidos partilhados, contudo as posições para sete dos oito resíduos de cisteína presentes na sequência alvo são totalmente conservadas na sequência recentemente adquirida. Curiosamente, uma grande inserção de 27 aminoácidos está presente no meio da nova sequência; alternativamente, esta é uma eliminação na sequência arquetípica (Arquivo Suplementar 3L).
Árvores de genebra
Para cada um dos 16 anticoagulantes putativos derivados de sanguessugas, descrevemos as topologias de árvores não enraizadas usando a terminologia proposta por Wilkinson et al.42, em que um “clã” em uma árvore não enraizada é potencialmente equivalente a um grupo monofilético em uma árvore enraizada e “grupo adjacente” é equivalente ao grupo irmão.
Na árvore genealógica para desestabilização I (Fig. 2A), a sequência recém-adquirida forma um clã, embora com um suporte bastante baixo (suporte de probabilidade bootstrap = 72%), com a sequência arquetípica e várias variantes recuperadas de esforços sequenciais anteriores para Hirudo medicinalis31.
Para LDTI (Fig. 2B), a nova seqüência forma um clã (LBS = 100%) com todas as variantes arquetípicas do anticoagulante – note que os comprimentos dos ramos são muito curtos ou zero dentro deste agrupamento de seqüências, suportando a noção de ortologia entre elas.
Nossa sequência hirudin recém derivada também forma um clã com duas variantes arquetípicas do inibidor de trombina (LBS = 97%) (Fig. 3A) derivado da sanguessuga hirudinóide Poecilobdella viridis (Blanchard, 1864) e Hirudo verbana. Novamente, o comprimento do ramo é insignificante. Além disso, a árvore corrobora os resultados do BLAST para o fator 3 hirudinídeo, na medida em que nossa nova seqüência derivada de H. medicinalis forma um clã (LBS = 87%) com a seqüência arquetípica derivada de Hirudo orientalis.
Na árvore bdellin (Fig. 3B), a nova sequência forma um clã, embora com baixo suporte, (LBS = 26%) com a sequência arquetípica, assim como as variantes previamente sequenciadas de Hirudo nipponia, Hirudo medicinalis e Macrobdella decora. O comprimento do ramo entre a nova sequência e a sequência arquetípica é muito curto, corroborando a determinação da homologia baseada na semelhança (ver acima).
Para eglin C, a nova sequência forma um clã (LBS < 75%) com a variante arquetípica; note que a identidade a nível de espécie da sanguessuga da qual a sequência arquetípica foi derivada é desconhecida. Além disso, o clã inclui uma sequência de um esforço de sequenciamento separado para Hirudo medicinalis (não publicado), e o comprimento dos ramos dentro deste clã é muito curto ou zero (Arquivo Suplementar 4A).
Na árvore construída a partir de membros da família de anticoagulantes antistasin (Arquivo Suplementar 4B), nossa seqüência “ghilanten” de H. medicinalis forma um clã (LBS < 75%) com três outras seqüências de Heptacyclus cf. viridus, Placobdella kwetlumye e Pontobdella macrothela. Este clã é o grupo adjacente a um clã que inclui a sequência arquetípica para therostasin, assim como várias variantes deste gene de várias espécies de sanguessugas. Em contraste, a sequência arquetípica para ghilanten forma um clã (com um comprimento de ramo muito curto) com a sequência arquetípica de antistasin, numa secção distante da árvore não enraizada. Como tal, a identidade da sequência de ghilanten recentemente derivada ainda é discutível, mas parece razoável sugerir que ela pertence à therostasin, em vez de ghilanten. Quando comparada directamente com a therostasin (dados não mostrados), a nova sequência mostra 43%, o que representa uma melhoria de 11% em comparação com o alinhamento com o ghilanten (ver acima). Cada uma das restantes proteínas antistasin-família do conjunto de dados de H. medicinalis formam clãs com os seus respectivos anticoagulantes arquetípicos. Para bdellastasina, piguamerina e guamerina, cada uma das novas sequências derivadas nidifica como a sequência adjacente às variantes arquetípicas. Para o antistasin, a nossa sequência coloca num clã maior, incluindo sequências de várias espécies de sanguessugas, bem como as variantes arquetípicas tanto do ghilanten como do antistasin.
Para a cistatina, apenas três sequências comparativas adicionais estavam disponíveis como base para a matriz. Apesar desta escassez de dados, a nova seqüência forma um clã (LBS < 75%) com a seqüência arquetípica e o comprimento do ramo é comparável aos dos outros terminais (Arquivo Suplementar 4C).
Quando não há uma seqüência arquetípica, derivada da sanguessuga, disponível para ficolin, nossa nova seqüência forma um clã junto com uma variante previamente derivada (não publicada) de H. medicinalis (LBS = 100%), com comprimento de ramo zero separando as seqüências (Arquivo Suplementar 4D).
A árvore para inibidores de protease serina tipo Kazal (Arquivo Suplementar 4E) é uma das poucas já construídas para seqüências de sanguessugas e isso se manifesta tanto na falta de variantes arquetípicas derivadas de sanguessugas quanto na falta de dados comparativos (apenas quatro seqüências compõem a matriz). A nossa nova sequência forma um clã (LBS = 51%) com uma variante derivada de Haemadipsa interrupta.
Na árvore de lectin tree tipo C (Supplementary File 4F), a sequência para o acerto superior forma um clã não suportado (LBS < 75%) com variantes derivadas da sanguessuga medicinal africana Aliolimnatis fenestrata e Hirudo medicinalis. Este clã, por sua vez, é o grupo adjacente da sequência arquetípica.
Corroborando a determinação ortográfica baseada na similaridade, a nossa sequência manilase recém derivada forma um clã com a sequência arquetípica e duas outras sequências derivadas da Praobdellid Limnobdella mexicana e Haemadipsa interrupta. Dada esta colocação e o comprimento do ramo que leva à nossa sequência, há poucas dúvidas de que ela representa um ortolog da manilase (Arquivo Suplementar 4G).
Fectuadas juntas, os resultados das análises do BLAST, alinhamento e árvore genealógica sugerem que cada um dos seguintes produtos protéicos derivados de sanguessugas estão representados no H. genoma medicinalis: eglina C, destabilase I, ghilanten, inibidor da triptase derivada da sanguessuga (ITL), guamerina, cistatina, hirudina, ficolina, inibidores da serina protease tipo Kazal (serpinas), lectina tipo C, manilase, bdellina, piguamerina, antistasina, bdellastasina e um inibidor de trombina não identificado.
Leave a Reply