Le projet de génome de la sangsue médicinale européenne Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) en mettant l’accent sur les anticoagulants

Statistiques d’assemblage et analyse BUSCO

Le projet de génome de Hirudo medicinalis ROMIZI 11733 a été assemblé à 19 929 échafaudages couvrant 176.96 Mbps avec une couverture médiane de 146,78×, un score N50 de 50 382 bps et un score L50 de 772 (les statistiques complètes de l’ébauche d’assemblage du génome se trouvent dans le fichier supplémentaire 1). BUSCO ver. 4.0.526 a été exécuté pour évaluer la complétude du génome. L’analyse des protéines prédites par rapport à la metazoa_odb10 a donné un score de complétude de 94,2% (90,0% complet + 4,2% fragmenté).

La taille de l’assemblage représente 78,67% de la taille estimée du génome (230 Mbps ; http://genomesize.com). Une annotation en deux passages avec MAKER27 a donné 35 166 protéines prédites avec 780 variantes d’épissage. En utilisant tRNAscan-SE28, un total de 429 gènes d’ARNt ont été prédits, ainsi que 116 pseudogènes supplémentaires. 535 gènes/motifs d’ARN non codants supplémentaires ont été prédits à l’aide d’Infernal29, dont 64 gènes d’ARNr et 316 microARN. Le contenu répétitif du génome a été estimé à 24,71 % (14,43 % de répétitions intercalées et 10,28 % de répétitions simples) par RepeatModeler30, l’unité la plus abondante étant non classée (6,14 %). Tous les fichiers d’annotation ont été déposés sur https://doi.org/10.5281/zenodo.3555585 (dernier accès le 20 janvier 2020). Les lectures brutes, ainsi que les séquences assemblées ont été déposées dans l’European Nucleotide Archive (ENA) sous l’accession d’étude PRJEB35865.

Anticoagulants de sangsue, nombre de copies et répétitions en tandem

Au total, des produits génétiques ont été trouvés dans le génome de Hirudo medicinalis qui ont montré des occurrences BLASTp adéquates (supérieures à 1E-5) contre 18 protéines dérivées de sangsue bien caractérisées avec des fonctions liées à l’antihémostase (tableau 1). Il s’agit notamment de l’égline C, de la déstabilase I, du ghilanten, de l’inhibiteur de tryptase dérivé de la sangsue (LDTI), de la guamérine, de la cystatine, de l’hirudine, du facteur 3 semblable à l’hirudine, de la ficoline, des inhibiteurs de sérine-protéase de type Kazal (serpines), de la lectine de type C, de la manillase, de la bdelline, de la piguamérine, de l’antistasine, de la bdellastasine, de la lefaxine et d’un inhibiteur de thrombine non identifié. Le tableau 1 montre les meilleurs résultats du génome de H. medicinalis, ainsi que les résultats obtenus par rapport aux trois bases de données mondiales, le nombre de copies du gène dans tout le génome et la présence ou l’absence d’un peptide signal.

Tableau 1 Protéines antihémostatiques connues, dérivées de la sangsue, avec des correspondances à haut score dans le génome de Hirudo medicinalis.

Sept des 18 anticoagulants putatifs apparaissent en une seule copie à travers nos données (tableau 1) ; notez qu’il y a toujours une chance que plus de copies soient présentes dans les parties non séquencées du génome. Il s’agit de la piguamérine, l’hirudine, le ghilanten, le facteur 3 semblable à l’hirudine, le LDTI, l’inhibiteur de thrombine non identifié et la cystatine. Le nombre de copies le plus élevé (n = 7) a été trouvé pour l’égline C et la déstabilase ; alors que les copies de la première semblaient dispersées sur les échafaudages (les sept copies se sont produites sur six échafaudages différents), la seconde comprenait trois copies sur le même échafaudage et un autre échafaudage avec deux copies.

Alors que la plupart des anticoagulants ciblés ici ne sont pas positionnés de manière adjacente les uns aux autres dans notre ébauche de génome, les protéines suivantes semblent se produire dans des réseaux en tandem en tant que deux copies ou plus : La lectine de type C (avec une forte conservation de la taille des exon et des introns entre les copies), la guamérine (avec seulement une faible conservation de la taille des exon et des introns entre les copies), l’inhibiteur de protéase à sérine de type Kazal (avec seulement une faible conservation de la taille des exon et des introns entre les copies) et la bdelline (avec des tailles d’exon relativement conservées, mais des tailles d’intron différentes entre les copies). De plus, LDTI et les trois copies en tandem de la bdelline sont adjacentes l’une à l’autre sur l’échafaudage 209471.

Autres peptides bioactifs

En plus des résultats contre les facteurs d’anticoagulation connus dérivés de la sangsue, 1 176 résultats contre 227 composés bioactifs différents isolés d’organismes se nourrissant de sang ont été récupérés dans le génome de H. medicinalis ; la fonction et les voies de la plupart d’entre eux restent inconnues et, par conséquent, nous nous concentrerons uniquement sur les protéines bioactives non issues de sangsues dont l’implication dans l’anticoagulation a été démontrée. Des résultats robustes (supérieurs à 1E-5) ont été obtenus pour 23 protéines différentes qui ont un effet négatif sur la cascade de la coagulation. Il s’agit notamment d’une désintégrine et d’une métalloprotéinase à motif thrombospondine (ADAMTS), de l’apyrase, de l’inhibiteur de la sérine-protéinase de type Kunitz, de la fibrinogénase, de la chrysoptine, de la bothrojaracine, de l’oxyde nitrique (vasodilatateur), de l’agglucétine, du snaclec, de la métalloprotéinase hémorragique kaouthiagine, de la batroxstatine, inhibiteur de la thrombine (de la tique Amblyomma americanum), annexine, tabserine, protéine inhibitrice de la thrombine (de Rhodnius prolixus), sérine protéase du venin de serpent, chymotrypsine, brasiliensine, cathepsine B, dipetalogastine, achelase, halyxine et antithrombine-III (du cobra royal Ophiophagus hannah). Le fichier supplémentaire 2 montre les résultats pour ces peptides, ainsi que les résultats BLAST réciproques et la prédiction du peptide signal. Plusieurs des résultats BLAST réciproques étaient contre des gènes non annotés (c’est-à-dire « protéine hypothétique » ou « protéine non caractérisée ») dans le génome de Helobdella robusta, de sorte que peu d’informations peuvent être déduites concernant l’identité des correspondances. Cependant, nous avons également évalué les résultats inférieurs (mais toujours supérieurs à 1E-5) par rapport à des gènes bien annotés dans les trois bases de données mondiales. Après l’évaluation de toutes les informations disponibles, seuls les produits protéiques suivants n’ont pas pu être déduits de manière robuste comme étant présents dans le génome de H. medicinalis (c’est-à-dire, les produits protéiques restants sont tous présents) : chrysoptine, oxyde nitrique, inhibiteur de thrombine (provenant d’Amblyomma americanum), chymotrypsine, dipélogastine et achelase.

Similitude de séquence et alignements par paires

Chacune des protéines liées à l’anticoagulation dérivées de H. medicinalis ont été alignées avec leur homologue archétypal, et les alignements sont présentés dans la figure 1 (pour la déstabilase I, LDTI, l’hirudine et le facteur 3 semblable à l’hirudine, et la bdelline) et dans le fichier supplémentaire 3 (pour l’egline C, le ghilanten, la guamérine, la cystatine, la ficoline, la serpine de type Kazal, la lectine de type C, la manillase, la piguamérine, l’antistase, la bdellastase et l’inhibiteur de thrombine non identifié). Notez que la séquence de H. medicinalis avec un hit contre la léfaxine a trouvé un hit bien supérieur contre l’hémérythrine lors d’un BLAST réciproque et n’a pas été considérée plus avant comme un orthologue de la léfaxine.

Figure 1
figure1

Alignements d’acides aminés basés sur MAFFT des orthologues anticoagulants putatifs dérivés du génome d’Hirudo medicinalis et les hits BLASTp supérieurs respectifs. (A) Déstabilase I putative de H. medicinalis alignée avec la séquence connue de la protéine bioactive salivaire (numéro d’accession GenBank AAA96144) ; (B) Inhibiteur de tryptase dérivé de la sangsue (LDTI) putatif de H. medicinalis aligné avec la séquence connue de la protéine bioactive salivaire (numéro d’accession GenBank AAB33769) ; (C) Hirudine (HV1) putative de H. medicinalis alignée avec la séquence connue de la protéine bioactive salivaire (numéro d’accession GenBank AAB33769). medicinalis alignée avec la séquence connue de la protéine bioactive salivaire (numéro d’accession GenBank APA20833) ; (D) bdelline putative de H. medicinalis alignée avec la séquence connue de la protéine bioactive salivaire (numéro d’accession GenBank P09865). Les cases rouges dénotent les résidus de cystéine conservés et les ombres bleues représentent la conservation des résidus entre les séquences.

Pour la déstabilase I, la séquence nouvellement dérivée montre 78% de similarité dans les positions avec des acides aminés partagés (c’est-à-dire, lorsque les lacunes ne sont pas comptées) avec l’anticoagulant connu (numéro d’accession GenBank AAA9614431), qui a également été initialement dérivé de Hirudo medicinalis. En outre, les positions des 14 résidus de cystéine sont parfaitement conservées, ce qui suggère une structure de repliement similaire entre les protéines. Aucun cas d’indel n’a été rencontré dans l’alignement (Fig. 1A).

Dans l’alignement des acides aminés pour LDTI, incluant la nouvelle séquence et la séquence archétype dérivée de Hirudo medicinalis (numéro d’accession GenBank AAB3376932), les deux séquences montrent une similarité de séquence de 99% et une conservation complète des positions des six résidus cystéine. Aucun indel n’a été rencontré (Fig. 1B).

L’orthologue de l’hirudine nouvellement séquencé montre une conservation presque totale (similarité de séquence 99,9%) lorsqu’il est comparé à la séquence archétype (numéro d’accession GenBank APA2083333), initialement dérivée de Hirudo verbana. En outre, les positions des six résidus de cystéine présents dans le peptide mature sont entièrement conservées (deux cystéines sont également conservées dans la région du peptide signal). Aucun événement indel n’était présent dans l’alignement (Fig. 1C).

La séquence de bdelline récupérée à partir du génome de H. medicinalis présente une similarité de séquence de 99,2 % avec la séquence archétype (numéro d’accession GenBank P0986534) initialement dérivée de H. medicinalis, et les positions de tous les résidus cystéine (n = 6) sont entièrement conservées. Aucun indel n’était présent dans l’alignement (Fig. 1D).

Pour l’égline C, la nouvelle séquence montre une similarité de séquence de 99,9% lorsqu’elle est comparée à la séquence archétype (numéro d’accession GenBank 0905140 A35). Aucun résidu cystéine n’est présent dans l’une ou l’autre des séquences et aucun indel n’était présent (Fichier supplémentaire 3A).

La séquence ghilanten nouvellement acquise ne présente que 32% de similarité de séquence lorsqu’elle est comparée à la séquence archétype (numéro d’accession GenBank AAB2123336) dérivée de la sangsue glossiphoniide Haementeria ghilianii (de Filippi, 1849). La faible affinité entre les séquences suggère qu’il ne s’agit peut-être pas de séquences orthologues. Néanmoins, la nouvelle séquence comprend 25 résidus de cystéine dans la protéine mature et les positions de 17 d’entre eux sont conservées dans l’alignement. Des événements indel étaient présents dans les deux séquences, dont le plus grand couvre 25 résidus (insertion dans la nouvelle séquence ou délétion dans la séquence archétypale), et seules de courtes chaînes (maximum de n = 3) d’homopolymères ont été identifiées (Fichier supplémentaire 3B).

Pour la guamérine, la nouvelle séquence montre une similarité de séquence de 67% avec la protéine archétypale (numéro d’accession GenBank AAD0944237), qui a été initialement dérivée de Hirudo nipponia Whitman, 1886. Les positions des neuf résidus de cystéine présents dans l’alignement sont entièrement conservées. Aucun événement indel n’a été rencontré (fichier supplémentaire 3C).

La nouvelle séquence de la cystatine présente 57 % de similarité lorsqu’elle est comparée à son homologue archétype (numéro d’accession GenBank AAN2867938), provenant du glossiphoniidé Theromyzon tessulatum (Müller, 1774) ; la position du seul résidu cystéine est conservée entre les séquences. Aucun événement indel n’était présent dans l’alignement (fichier supplémentaire 3D).

Pour la ficoline, la similarité de séquence est de 59% entre les positions d’acides aminés partagées entre notre nouvelle séquence et la séquence archétype (tirée du jeu de données utilisé par Min et al.15), dérivée de la sangsue médicinale nord-américaine Macrobdella decora (Say, 1824). Deux des trois résidus de cystéine présents dans la séquence dérivée de M. decora sont également présents à la même position dans la nouvelle séquence. Une insertion assez étendue est présente dans la nouvelle séquence (ou, alternativement, un événement de délétion dans la séquence archétypale) et couvre 27 résidus d’acides aminés (Fichier supplémentaire 3E).

La serpine de type Kazal nouvellement dérivée montre seulement 26% de similarité de séquence pour les sites d’acides aminés partagés lorsqu’elle est comparée à la séquence dérivée de Macrobdella decora (à partir du jeu de données utilisé par Min et al.15). Sur les 13 résidus de cystéine présents dans la séquence « archétype », 12 présentent des positions conservées dans la nouvelle séquence. De courts indels sont présents dans les deux séquences (Fichier supplémentaire 3F).

L’alignement de la lectine de type C indique que 43% de similarité de séquence existe entre la nouvelle séquence et la comparaison archétypale dérivée de M. decora (voir15). Treize résidus de cystéine existent dans la séquence archétypale et les positions de neuf d’entre eux sont conservées dans la séquence nouvellement acquise. Trois délétions isolées et courtes sont présentes dans la séquence archétypale (ou, alternativement, elles représentent des insertions dans la nouvelle séquence) (Fichier supplémentaire 3G).

Pour la manillase, 83% des résidus d’acides aminés partagés sont identiques entre la nouvelle séquence et celle dérivée d’une demande de brevet américain (n° 2006 US 7.049.124 B1P09856) et extraite de la sangsue médicinale asiatique Hirudinaria manillensis Lesson, 1842. Notoirement, la manillase est totalement dépourvue de résidus de cystéine, et il en est de même pour la séquence dérivée de Hirudo medicinalis. Une insertion/délétion est présente au milieu de l’alignement et s’étend sur 16 résidus (Fichier supplémentaire 3H).

Pour l’inhibiteur de trypsine piguamérine, notre produit génique nouvellement séquencé montre 46% de similarité avec la séquence archétypale (numéro d’accession GenBank P8149939), initialement dérivée de Hirudo nipponia. La séquence archétypale comprend dix résidus de cystéine et six d’entre eux sont en position conservée dans la nouvelle séquence. Aucun indel n’est présent dans l’alignement (Fichier supplémentaire 3I).

Pour l’antistase, la séquence dérivée de notre spécimen de H. medicinalis montre 36% de similarité avec la séquence archétypale (numéro d’accession GenBank P1535840) de Haementeria officinalis. En outre, la position de 18 des 21 cystéines présentes dans la séquence archétypale est conservée entre les séquences (Fichier supplémentaire 3J).

Notre séquence nouvellement dérivée dans l’alignement de la bdellastasine montre une conservation presque complète (99,9% de similarité aux sites d’acides aminés partagés) lorsqu’elle est comparée à la variante archétypale (numéro d’accession GenBank 1C9P41), également issue de Hirudo medicinalis. Les positions des 10 cystéines sont entièrement conservées entre les séquences (Fichier supplémentaire 3K).

L’inhibiteur de thrombine inconnu qui sert ici d’anticoagulant archétypal a été initialement dérivé du piscicole Pontobdella macrothela (Schmarda, 1861) (voir16) suite à des résultats basés sur BLAST contre un inhibiteur de thrombine putatif de la sangsue hémadipside Haemadipsa sylvestris Blanchard, 1894. Notre séquence dérivée de Hirudo medicinalis ne présente que 28 % de similitude de séquence pour les sites d’acides aminés partagés, mais les positions de sept des huit résidus de cystéine présents dans la séquence cible sont entièrement conservées dans la séquence nouvellement acquise. Il est intéressant de noter qu’une grande insertion de 27 acides aminés est présente au milieu de la nouvelle séquence ; il peut également s’agir d’une délétion dans la séquence archétypale (Fichier supplémentaire 3L).

Arbres génétiques

Pour chacun des 16 anticoagulants putatifs dérivés de la sangsue, nous décrivons les topologies des arbres non enracinés en utilisant la terminologie proposée par Wilkinson et al.42, dans laquelle un « clan » dans un arbre non enraciné est potentiellement équivalent à un groupe monophylétique dans un arbre enraciné et « groupe adjacent » est équivalent à un groupe frère.

Dans l’arbre génique de la déstabilase I (Fig. 2A), la séquence nouvellement acquise forme un clan, bien qu’avec un soutien assez faible (soutien bootstrap de probabilité = 72%), avec la séquence archétypale et plusieurs variantes récupérées à partir d’efforts de séquençage précédents pour Hirudo medicinalis31.

Figure 2
figure2

Hypothèses phylogénétiques résultant des analyses de vraisemblance maximale d’un ensemble d’orthologues putatifs pour chaque anticoagulant ou famille d’anticoagulants. (A) Destabilase I (ln L = -3340.015305) ; (B) LDTI (ln L = -640.341632). Les nuances de vert indiquent le plus petit clan qui inclut à la fois la séquence nouvellement dérivée et la variante archétypale de l’anticoagulant.

Pour LDTI (Fig. 2B), la nouvelle séquence forme un clan (LBS = 100%) avec toutes les variantes archétypales de l’anticoagulant – notez que les longueurs de branche sont très courtes ou nulles au sein de ce cluster de séquences, ce qui soutient la notion d’orthologie entre elles.

Notre séquence d’hirudine nouvellement dérivée forme également un clan avec deux variants archétypaux de l’inhibiteur de la thrombine (LBS = 97%) (Fig. 3A) dérivés de la sangsue hirudinide Poecilobdella viridis (Blanchard, 1864) et de Hirudo verbana. Là encore, la longueur des branches est négligeable. De plus, l’arbre corrobore les résultats de BLAST pour le facteur 3 analogue à l’hirudine, dans la mesure où notre séquence nouvellement dérivée de H. medicinalis forme un clan (LBS = 87%) avec la séquence archétypale dérivée de Hirudo orientalis.

Figure 3
figure3

Hypothèses phylogénétiques résultant des analyses de maximum de vraisemblance d’un ensemble d’orthologues putatifs pour chaque anticoagulant ou famille d’anticoagulants. (A) Hirudine (ln L = -4750.252905) ; (B) bdelline (ln L = -1771.698797). Les ombres vertes indiquent le plus petit clan qui inclut à la fois la séquence nouvellement dérivée et la variante archétypale de l’anticoagulant.

Dans l’arbre de la bdelline (Fig. 3B), la nouvelle séquence forme un clan, bien qu’avec un faible soutien, (LBS = 26%) avec la séquence archétypale, ainsi que les variantes précédemment séquencées de Hirudo nipponia, Hirudo medicinalis et Macrobdella decora. La longueur de branche entre la nouvelle séquence et la séquence archétypale est très courte, corroborant la détermination de l’homologie basée sur la similarité (voir ci-dessus).

Pour l’égline C, la nouvelle séquence forme un clan (LBS < 75%) avec la variante archétypale ; notez que l’identité au niveau de l’espèce de la sangsue dont la séquence archétypale a été dérivée est inconnue. En outre, le clan comprend une séquence provenant d’un effort de séquençage distinct pour Hirudo medicinalis (non publié), et les longueurs de branche au sein de ce clan sont très courtes ou nulles (fichier supplémentaire 4A).

Dans l’arbre construit à partir des membres de la famille des antistases des anticoagulants (fichier supplémentaire 4B), notre séquence « ghilanten » de H. medicinalis forme un clan (LBS < 75%) avec trois autres séquences de Heptacyclus cf. viridus, Placobdella kwetlumye et Pontobdella macrothela. Ce clan est le groupe adjacent à un clan qui comprend la séquence archétypale de la thérostasine, ainsi que plusieurs variantes de ce gène provenant de diverses espèces de sangsues. En revanche, la séquence archétypale de ghilanten forme un clan (avec une branche très courte) avec la séquence archétypale d’antistasin, dans une section très éloignée de l’arbre non enraciné. En tant que telle, l’identité de la séquence ghilanten nouvellement dérivée reste discutable, mais il semble raisonnable de suggérer qu’elle appartient à la thérostasine, plutôt qu’à la ghilanten. Lorsqu’elle est comparée directement à la thérostasine (données non présentées), la nouvelle séquence affiche 43 %, ce qui représente une amélioration de 11 % par rapport à l’alignement avec le ghilanten (voir ci-dessus). Chacune des protéines de la famille des antistasines restantes dans l’ensemble de données de H. medicinalis forme des clans avec leur anticoagulant archétypal respectif. Pour la bdellastasine, la piguamérine et la guamérine, chacune des séquences nouvellement dérivées se niche comme séquence adjacente aux variantes archétypales. Pour l’antistasin, notre séquence se place dans un clan plus large, comprenant des séquences de plusieurs espèces de sangsues, ainsi que les variants archétypaux de la ghilanten et de l’antistasin.

Pour la cystatine, seules trois séquences supplémentaires et comparatives étaient disponibles comme base de la matrice. Malgré ce manque de données, la nouvelle séquence forme un clan (LBS < 75%) avec la séquence archétypale et la longueur de la branche est comparable à celles des autres terminaux (Supplementary File 4C).

Alors qu’aucune séquence archétypale, dérivée de la sangsue, n’est disponible pour la ficoline, notre nouvelle séquence forme un clan avec une variante précédemment dérivée (non publiée) de H. medicinalis (LBS = 100%), avec une longueur de branche nulle séparant les séquences (Supplementary File 4D).

L’arbre des inhibiteurs de sérine-protéase de type Kazal (Supplementary File 4E) est l’un des rares jamais construits pour les séquences de sangsues et cela se manifeste à la fois par l’absence de variants archétypaux dérivés de sangsues et par le manque de données comparatives (seules quatre séquences composent la matrice). Notre nouvelle séquence forme un clan (LBS = 51%) avec un variant dérivé de Haemadipsa interrupta.

Dans l’arbre des lectines de type C (Fichier supplémentaire 4F), la séquence pour le top hit forme un clan non soutenu (LBS < 75%) avec des variants dérivés de la sangsue médicinale africaine Aliolimnatis fenestrata et Hirudo medicinalis. Ce clan, à son tour, est le groupe adjacent de la séquence archétype.

Corroborant la détermination de l’orthologie basée sur la similarité, notre séquence de manillase nouvellement dérivée forme un clan avec la séquence archétype et deux autres séquences dérivées de la praobdellide Limnobdella mexicana et Haemadipsa interrupta. Compte tenu de ce placement et de la longueur de la branche menant à notre séquence, il y a peu de doute qu’elle représente un orthologue de la manillase (fichier supplémentaire 4G).

Ensemble, les résultats des analyses BLAST, d’alignement et d’arbre génique suggèrent que chacun des produits protéiques dérivés de sangsues suivants est représenté dans le génome de H. medicinalis : égline C, déstabilase I, ghilanten, inhibiteur de tryptase dérivé de la sangsue (LDTI), guamérine, cystatine, hirudine, ficoline, inhibiteurs de sérine-protéase de type Kazal (serpines), lectine de type C, manillase, bdelline, piguamérine, antistasin, bdellastasin et un inhibiteur de thrombine non identifié.

Leave a Reply