Ontwerp-genoom van de Europese medicinale bloedzuiger Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) met de nadruk op anticoagulantia

Assemblagestatistieken en BUSCO-analyse

Het conceptgenoom van Hirudo medicinalis ROMIZI 11733 werd geassembleerd tot 19.929 scaffolds die 176.96 Mbps met een mediane dekking van 146,78×, een N50-score van 50.382 bps, en een L50-score van 772 (volledige statistieken voor de ontwerp-genoomassemblage zijn te vinden in Supplementary File 1). BUSCO ver. 4.0.526 werd uitgevoerd om de volledigheid van het genoom te beoordelen. De analyse van de voorspelde eiwitten vs. de metazoa_odb10 resulteerde in een compleetheidsscore van 94,2% (90,0% compleet + 4,2% gefragmenteerd).

De assemblagegrootte vertegenwoordigt 78,67% van de geschatte genoomgrootte (230 Mbps; http://genomesize.com). Een annotatie in twee stappen met MAKER27 resulteerde in 35.166 voorspelde eiwitten met 780 splice-varianten. Met behulp van tRNAscan-SE28 werden in totaal 429 tRNA-genen voorspeld, alsmede nog eens 116 pseudogenen. Nog eens 535 niet-coderende RNA-genen/motieven werden voorspeld met behulp van Infernal29, waaronder 64 rRNA-genen en 316 microRNA’s. Het repetitieve gehalte van het genoom werd door RepeatModeler30 geschat op 24,71% (14,43% afgewisselde en 10,28% enkelvoudige herhalingen), waarbij de meest voorkomende eenheid niet-geclassificeerd was (6,14%). Alle annotatie bestanden zijn gedeponeerd bij https://doi.org/10.5281/zenodo.3555585 (laatst bekeken op 20 januari 2020). De ruwe gegevens en de geassembleerde sequenties zijn gedeponeerd in het European Nucleotide Archive (ENA) onder de studietoegang PRJEB35865.

Lech anticoagulants, copy number and tandem repeats

In totaal werden in het genoom van Hirudo medicinalis genproducten gevonden die adequate BLASTp-hits (superieur aan 1E-5) vertoonden tegen 18 goed gekarakteriseerde bloedzuiger-afgeleide eiwitten met functies in verband met anti-hemostase (tabel 1). Hiertoe behoren eglin C, destabilase I, ghilanten, leech-derived tryptase inhibitor (LDTI), guamerin, cystatin, hirudin, hirudin-like factor 3, ficolin, Kazal-type serine protease inhibitors (serpins), C-type lectin, manillase, bdellin, piguamerin, antistasin, bdellastasin, lefaxin en een niet geïdentificeerde trombineremmer. Tabel 1 bevat de tophits uit het genoom van H. medicinalis, samen met de treffers in de drie wereldwijde databanken, het kopienummer van het gen in het genoom, en de aan- of afwezigheid van een signaalpeptide.

Tabel 1 Bekende, van bloedzuigers afgeleide antihistostase-gerelateerde eiwitten met hoog scorende overeenkomsten in het genoom van Hirudo medicinalis.

Zeven van de 18 mogelijke anticoagulantia komen in één enkele kopie in onze gegevens voor (tabel 1); merk op dat er nog steeds een kans bestaat dat er meer kopieën aanwezig zijn in de niet-gesequentieerde delen van het genoom. Het gaat om piguamerine, hirudine, ghilanten, hirudine-achtige factor 3, LDTI, de niet-geïdentificeerde trombineremmer en cystatine. Het hoogste kopie-aantal (n = 7) werd gevonden voor eglin C en destabilase; terwijl de kopieën voor eerstgenoemde verspreid leken over de scaffolds (de zeven kopieën kwamen voor op zes verschillende scaffolds), omvatte laatstgenoemde drie kopieën op dezelfde scaffold en een andere scaffold met twee kopieën.

Waar de meeste anticoagulantia waar het hier om gaat niet naast elkaar voorkomen in ons ontwerp-genoom, lijken de volgende eiwitten in tandem-arrays voor te komen als twee of meer kopieën: C-type lectine (met sterke conservering van exon- en introngrootte tussen de kopieën), guamerine (met slechts geringe conservering van exon- en introngrootte tussen de kopieën), Kazal-type serine protease inhibitor (met slechts geringe conservering van exon- en introngrootte tussen de kopieën) en bdelline (waarbij de exongrootte relatief geconserveerd is, maar de introngrootte tussen de kopieën verschilt). Verder zijn LDTI en drie tandem-exemplaren van bdelline naast elkaar te vinden op scaffold 209471.

Andere bio-actieve peptiden

Naast de treffers tegen bekende, van bloedzuigers afgeleide antistollingsfactoren, werden in het genoom van H. medicinalis-genoom; de functie en de routes voor de meeste van deze stoffen zijn nog onbekend en wij zullen ons dan ook alleen richten op de niet-uit bloedzuigende bioactieve eiwitten waarvan is aangetoond dat ze betrokken zijn bij antistolling. Robuuste treffers (beter dan 1E-5) werden gevonden tegen 23 verschillende eiwitten die de stollingscascade negatief beïnvloeden. Hiertoe behoren een desintegrine- en metalloproteïnase met een trombospondinemotief (ADAMTS), apyrase, serineproteaseremmer van het Kunitz-type, fibrinogenase, chrysoptine, bothrojaracine, stikstofmonoxide (vaatverwijdend middel), agglucetine, snaclec, hemorragische metalloproteïnase kaouthiagine, batroxstatine, trombineremmer (van de Lone Star teek Amblyomma americanum), annexine, tabserine, trombineremmerproteïne (van Rhodnius prolixus), serineprotease uit slangengif, chymotrypsine, brasiliensine, kathepsine B, dipetalogastine, achelase, halyxine en antitrombine-III (van de koningscobra Ophiophagus hannah). Supplementary File 2 toont de treffers voor deze peptiden, samen met hun wederkerige BLAST treffers en signaalpeptide voorspelling. Verschillende van de wederkerige BLAST hits waren tegen niet-geannoteerde (d.w.z. “hypothetisch eiwit” of “ongekarakteriseerd eiwit”) genen in het Helobdella robusta genoom, zodat weinig informatie kan worden afgeleid betreffende de identiteit van de matches. We hebben echter ook minder goede treffers (maar nog steeds beter dan 1E-5) vergeleken met goed geannoteerde genen in de drie wereldwijde databanken. Na evaluatie van alle beschikbare informatie kon alleen van de volgende eiwitproducten niet robuust worden afgeleid dat ze in het genoom van H. medicinalis aanwezig zijn (d.w.z, de resterende eiwitproducten zijn allemaal aanwezig): chrysoptine, stikstofmonoxide, trombineremmer (uit Amblyomma americanum), chymotrypsine, dipelogastine en achelase.

Gelijkenis in sequentie en paarsgewijze alignments

Elke van de antistolling-gerelateerde eiwitten afkomstig van H. medicinalis werden uitgelijnd met hun archetypische tegenhanger, en de uitlijningen worden gepresenteerd in Fig. 1 (voor destabilase I, LDTI, hirudine en hirudine-achtige factor 3, en bdelline) en Supplementary File 3 (voor eglin C, ghilanten, guamerine, cystatine, ficolin, de Kazal-type serpin, C-type lectine, manillase, piguamerine, antistasine, bdellastasine en de niet-geïdentificeerde trombineremmer). Merk op dat de H. medicinalis-sequentie met een hit tegen lefaxine een veel betere hit vond tegen hemerythrine wanneer wederkerig BLASTed en verder niet werd beschouwd als een ortholoog van lefaxine.

Figuur 1
figuur 1

MAFFT-gebaseerde aminozuuruitlijningen van putatieve anticoagulant-orthologen afkomstig van het genoom van Hirudo medicinalis en de respectieve top BLASTp-hits. (A) Putatief destabilase I van H. medicinalis, uitgelijnd met de bekende sequentie van het speekselbioactieve eiwit (GenBank-referentienummer AAA96144); (B) putatief Leech Derived Tryptase Inhibitor (LDTI) van H. medicinalis, uitgelijnd met de bekende sequentie van het speekselbioactieve eiwit (GenBank-referentienummer AAB33769); (C) putatief hirudine (HV1) van H. medicinalis, uitgelijnd met de bekende sequentie van het speekselbioactieve eiwit (GenBank-referentienummer AAA96144); (C) putatief hirudine (HV1) van H. medicinalis uitgelijnd met de bekende sequentie van het speekselbioactieve eiwit (GenBank-toegangsnummer APA20833); (D) putatief bdelline van H. medicinalis uitgelijnd met de bekende sequentie van het speekselbioactieve eiwit (GenBank-toegangsnummer P09865). Rode vakjes geven geconserveerde cysteïneresiduen aan en blauwe arceringen staan voor het behoud van residuen tussen de sequenties.

Voor destabilase I vertoont de nieuw afgeleide sequentie 78% overeenkomst in posities met gedeelde aminozuren (d.w.z. wanneer hiaten niet worden meegerekend) met het bekende anticoagulans (GenBank-toetredingsnummer AAA9614431), dat ook oorspronkelijk afkomstig was van Hirudo medicinalis. Bovendien vertonen de posities van alle 14 cysteïneresiduen volledige overeenkomst, wat wijst op een vergelijkbare vouwstructuur tussen de eiwitten. In de alignment werden geen indels aangetroffen (Fig. 1A).

In de aminozuur alignment voor LDTI, inclusief de nieuwe sequentie en de archetypische sequentie afgeleid van Hirudo medicinalis (GenBank toetredingsnummer AAB3376932), vertonen de twee sequenties 99% sequentie gelijkenis en volledige instandhouding van de posities van de zes cysteïne residuen. Er werden geen indels gevonden (Fig. 1B).

De nieuw gesequenteerde hirudine ortholoog vertoont bijna volledige conservatie (sequentie gelijkenis 99.9%) in vergelijking met de archetypische sequentie (GenBank toetredingsnummer APA2083333), oorspronkelijk afkomstig van Hirudo verbana. Bovendien zijn de posities van de zes cysteïneresiduen in het rijpe peptide volledig geconserveerd (twee cysteïnes zijn ook geconserveerd in het signaalpeptidegedeelte). Er waren geen indel events aanwezig in de alignment (Fig. 1C).

De bdelline sequentie die uit het H. medicinalis genoom is teruggevonden vertoont 99.2% sequentie overeenkomst met de archetypische sequentie (GenBank toetredingsnummer P0986534) die oorspronkelijk afkomstig was van H. medicinalis, en de posities van alle cysteine residuen (n = 6) zijn volledig geconserveerd. Er waren geen indels in de alignment (Fig. 1D).

Voor eglin C vertoont de nieuwe sequentie 99,9% sequentie-overeenkomst in vergelijking met de archetypische sequentie (GenBank-toetredingsnummer 0905140 A35). In geen van beide sequenties komen cysteïneresiduen voor en er waren geen indels (Supplementary File 3A).

De nieuw verworven ghilanten-sequentie vertoont slechts 32% sequentie-overeenkomst in vergelijking met de oer-sequentie (GenBank-toetredingsnummer AAB2123336) afkomstig van de glossiphoniide bloedzuiger Haementeria ghilianii (de Filippi, 1849). De lage verwantschap tussen de sequenties suggereert dat dit wellicht geen orthologe sequenties zijn. Hoe dan ook, de nieuwe sequentie bevat 25 cysteïneresiduen in het rijpe eiwit en de posities van 17 van deze residuen zijn geconserveerd in de uitlijning. Indel events waren aanwezig in beide sequenties, waarvan de grootste 25 residuen omvat (insertie in de nieuwe sequentie of deletie in de archetypische sequentie), en alleen korte reeksen (maximaal n = 3) van homopolymeren werden geïdentificeerd (Supplementary File 3B).

Voor guamerine vertoont de nieuwe sequentie 67% sequentie-overeenkomst met het archetypische eiwit (GenBank-toetredingsnummer AAD0944237), dat oorspronkelijk werd afgeleid van Hirudo nipponia Whitman, 1886. De posities van alle negen cysteïneresiduen die in de uitlijning voorkomen, zijn volledig geconserveerd. Er werden geen indel events gevonden (Supplementary File 3C).

De nieuwe sequentie voor cystatine vertoont 57% overeenkomst in vergelijking met zijn archetypische tegenhanger (GenBank-toetredingsnummer AAN2867938), van de glossiphoniid Theromyzon tessulatum (Müller, 1774); de positie van het enkele cysteïnerecuul is geconserveerd tussen de sequenties. Er waren geen indel-gebeurtenissen in de alignment (Supplementary File 3D).

Voor ficolin is de sequentie-overeenkomst 59% tussen de gedeelde aminozuurposities tussen onze nieuwe sequentie en de archetypische sequentie (overgenomen uit de door Min et al.15 gebruikte dataset), afkomstig van de Noord-Amerikaanse medicinale bloedzuiger Macrobdella decora (Say, 1824). Twee van de drie cysteïneresiduen die in de van M. decora afgeleide sequentie aanwezig zijn, zijn ook in de nieuwe sequentie op dezelfde plaats aanwezig. Een vrij uitgebreide insertie is aanwezig in de nieuwe sequentie (of, als alternatief, een deletie gebeurtenis in de archetypische sequentie) en beslaat 27 aminozuur residuen (Supplementary File 3E).

De nieuw afgeleide Kazal-type serpin vertoont slechts 26% sequentie overeenkomst voor gedeelde aminozuur sites in vergelijking met de Macrobdella decora-afgeleide sequentie (uit de dataset gebruikt door Min et al.15). Van de 13 cysteïneresiduen die in de “archetypische” sequentie aanwezig zijn, vertonen er 12 geconserveerde posities in de nieuwe sequentie. Korte indels zijn aanwezig in beide sequenties (Supplementary File 3F).

De C-type lectine alignment geeft aan dat 43% sequentie gelijkenis bestaat tussen de nieuwe sequentie en de archetypische vergelijking afgeleid van M. decora (zie15). Dertien cysteïneresiduen komen voor in de archetypische sequentie en de posities voor negen van deze residuen zijn geconserveerd in de nieuw verworven sequentie. Drie geïsoleerde, korte deleties zijn aanwezig in de archetypische sequentie (of, als alternatief, deze vertegenwoordigen inserties in de nieuwe sequentie) (Supplementary File 3G).

Voor manillase zijn 83% van de gedeelde aminozuurresiduen identiek tussen de nieuwe sequentie en die afgeleid van een Amerikaanse octrooiaanvraag (nr. 2006 US 7.049.124 B1P09856) en geëxtraheerd uit de Aziatische medicinale bloedzuiger Hirudinaria manillensis Lesson, 1842. Het is bekend dat manillase volledig vrij is van cysteïneresten, en dat geldt ook voor de sequentie afkomstig van Hirudo medicinalis. Een insertie/deletie is aanwezig in het midden van de alignment en overbrugt 16 residuen (Supplementary File 3H).

Voor de trypsine-inhibitor piguamerine vertoont ons nieuw gesequenteerde genproduct 46% overeenkomst met de archetypische sequentie (GenBank toetredingsnummer P8149939), oorspronkelijk afkomstig van Hirudo nipponia. De archetypische sequentie bevat tien cysteïneresten en zes daarvan bevinden zich op geconserveerde posities in de nieuwe sequentie. Er zijn geen indels aanwezig in de alignment (Supplementary File 3I).

Voor antistasine vertoont de sequentie afgeleid van ons specimen van H. medicinalis 36% overeenkomst met de archetypische sequentie (GenBank toetredingsnummer P1535840) uit Haementeria officinalis. Bovendien is de positie van 18 van de 21 cysteïnen in de archetypische sequentie geconserveerd tussen de sequenties (Supplementary File 3J).

Onze nieuw afgeleide sequentie in de bdellastasine alignment vertoont bijna volledige conservering (99,9% overeenkomst op gedeelde aminozuur sites) in vergelijking met de archetypische variant (GenBank toetredingsnummer 1C9P41), ook van Hirudo medicinalis. De posities van de 10 cysteïnen zijn volledig geconserveerd tussen de sequenties (Supplementary File 3K).

De onbekende trombine inhibitor die hier als archetypische anticoagulant dient, werd oorspronkelijk afgeleid van de piscicolid Pontobdella macrothela (Schmarda, 1861) (zie16) na treffers op basis van BLAST tegen een vermoedelijke trombine inhibitor van de hemadipside bloedzuiger Haemadipsa sylvestris Blanchard, 1894. Onze van Hirudo medicinalis afgeleide sequentie vertoont slechts 28% sequentieovereenkomst voor gedeelde aminozuursites, maar de posities voor zeven van de acht cysteïneresiduen in de doelsequentie zijn volledig geconserveerd in de nieuw verworven sequentie. Interessant is dat in het midden van de nieuwe sequentie een grote invoeging van 27 aminozuren aanwezig is; als alternatief is dit een deletie in de archetypische sequentie (Supplementary File 3L).

Genbomen

Voor elk van de 16 van bloedzuigers afgeleide putatieve anticoagulantia beschrijven we de onbewortelde boomtopologieën met gebruikmaking van de terminologie voorgesteld door Wilkinson et al.42, waarin een “clan” in een onbewortelde boom potentieel equivalent is aan een monofyletische groep in een bewortelde boom en “aangrenzende groep” equivalent is aan zustergroep.

In de genboom voor destabilase I (Fig. 2A) vormt de nieuw verworven sequentie een clan, zij het met tamelijk lage ondersteuning (likelihood bootstrap support = 72%), met de archetypische sequentie en verscheidene varianten die werden verkregen uit eerdere sequentie-onderzoeken voor Hirudo medicinalis31.

Figuur 2
figuur 2

Phylogenetische hypothesen die het resultaat zijn van maximale waarschijnlijkheidsanalyses van een reeks putatieve orthologen voor elke anticoagulant of anticoagulantiefamilie. (A) Destabilase I (ln L = -3340,015305); (B) LDTI (ln L = -640,341632). De groene tinten geven de kleinste clan aan die zowel de nieuw afgeleide sequentie als de archetypische variant van de anticoagulant omvat.

Voor LDTI (fig. 2B) vormt de nieuwe sequentie een clan (LBS = 100%) met alle archetypische varianten van de anticoagulant – merk op dat de taklengten binnen deze cluster van sequenties zeer kort of nul zijn, wat de notie van orthologie tussen deze sequenties ondersteunt.

Onze nieuw afgeleide hirudine-sequentie vormt ook een clan met twee archetypische varianten van de trombine-remmer (LBS = 97%) (Fig. 3A), afkomstig van de hirudine-achtige bloedzuiger Poecilobdella viridis (Blanchard, 1864) en Hirudo verbana. Ook hier zijn de taklengtes te verwaarlozen. Bovendien bevestigt de boom de BLAST-resultaten voor hirudine-achtige factor 3, in die zin dat onze nieuwe sequentie uit H. medicinalis een clan (LBS = 87%) vormt met de archetypische sequentie uit Hirudo orientalis.

Figuur 3
figuur3

Phylogenetische hypothesen die het resultaat zijn van maximale waarschijnlijkheidsanalyses van een reeks putatieve orthologen voor elke anticoagulant of anticoagulantiefamilie. (A) Hirudin (ln L = -4750,252905); (B) bdellin (ln L = -1771,698797). De groene tinten geven de kleinste clan aan die zowel de nieuw afgeleide sequentie als de oervariant van de antistollingsstof omvat.

In de boom van bdelline (fig. 3B) vormt de nieuwe sequentie een clan, zij het met geringe ondersteuning (LBS = 26%), met de oersequentie, alsook met eerder sequentievarianten van Hirudo nipponia, Hirudo medicinalis en Macrobdella decora. De taklengte tussen de nieuwe sequentie en de archetypische sequentie is zeer kort, hetgeen de op similariteit gebaseerde homologiebepaling (zie boven) bevestigt.

Voor eglin C vormt de nieuwe sequentie een clan (LBS < 75%) met de archetypische variant; merk op dat de identiteit op soortniveau van de bloedzuiger waarvan de archetypische sequentie is afgeleid, onbekend is. Bovendien bevat de clan een sequentie van een afzonderlijke sequentiebepaling voor Hirudo medicinalis (ongepubliceerd), en de taklengten binnen deze clan zijn zeer kort of nul (Supplementary File 4A).

In de boom opgebouwd uit leden van de antistasine-familie van antistollingsmiddelen (Supplementary File 4B), vormt onze “ghilanten” sequentie van H. medicinalis een clan (LBS < 75%) met drie andere sequenties van Heptacyclus cf. viridus, Placobdella kwetlumye en Pontobdella macrothela. Deze clan is de aangrenzende groep van een clan die de archetypische sequentie voor therostasine omvat, alsmede verscheidene varianten van dit gen uit diverse bloedzuigersoorten. Daarentegen vormt de archetypische sequentie voor ghilanten een clan (met een zeer korte taklengte) met de archetypische sequentie van antistasin, in een ver verwijderd deel van de boom zonder wortels. Als zodanig is de identiteit van de nieuw afgeleide ghilanten-sequentie nog steeds discutabel, maar het lijkt redelijk om te suggereren dat deze eerder tot therostasin dan tot ghilanten behoort. Wanneer de nieuwe sequentie rechtstreeks wordt vergeleken met therostasin (gegevens niet weergegeven), vertoont zij 43%, wat een verbetering is met 11% ten opzichte van de uitlijning met ghilanten (zie hierboven). Elk van de resterende antistasine-familie eiwitten in de H. medicinalis dataset vormen clans met hun respectievelijke archetypische anticoagulant. Voor bdellastasin, piguamerin en guamerin nestelt elk van de nieuw afgeleide sequenties zich als de aangrenzende sequentie aan de archetypische varianten. Voor antistasin plaatst onze sequentie zich in een grotere clan, met inbegrip van sequenties van verschillende bloedzuigersoorten, alsmede de archetypische varianten van zowel ghilanten als antistasin.

Voor cystatine waren slechts drie aanvullende, vergelijkende sequenties beschikbaar als basis voor de matrix. Ondanks deze schaarste aan gegevens vormt de nieuwe sequentie een clan (LBS < 75%) met de archetypische sequentie en is de taklengte vergelijkbaar met die voor de andere terminals (Supplementary File 4C).

Waar voor ficoline geen archetypische, van bloedzuigers afgeleide sequentie beschikbaar is, vormt onze nieuwe sequentie een clan samen met een variant die eerder (ongepubliceerd) is afgeleid van H. medicinalis (LBS = 100%), met nul taklengte tussen de sequenties (Supplementary File 4D).

De boom voor Kazal-type serine protease inhibitors (Supplementary File 4E) is een van de weinige die ooit voor bloedzuigersequenties is geconstrueerd en dit komt tot uiting in zowel het ontbreken van uit bloedzuigers afgeleide archetypische varianten als het gebrek aan vergelijkende gegevens (slechts vier sequenties maken deel uit van de matrix). Onze nieuwe sequentie vormt een clan (LBS = 51%) met een variant afgeleid van Haemadipsa interrupta.

In de C-type lectine boom (Supplementary File 4F) vormt de sequentie voor de top hit een niet-ondersteunde clan (LBS < 75%) met varianten afgeleid van de Afrikaanse medicinale bloedzuiger Aliolimnatis fenestrata en Hirudo medicinalis. Deze clan is op zijn beurt de aangrenzende groep van de archetypische sequentie.

Bevestigend de op similariteit gebaseerde orthologiebepaling, vormt onze nieuw afgeleide manillase-sequentie een clan met de archetypische sequentie en twee andere sequenties afkomstig van de praobdellide Limnobdella mexicana en Haemadipsa interrupta. Gezien deze plaatsing en de lengte van de tak die naar onze sequentie leidt, bestaat er weinig twijfel over dat deze een ortholoog van manillase vertegenwoordigt (Supplementary File 4G).

Alles bij elkaar suggereren de resultaten van de BLAST-, alignment- en genboomanalyses dat elk van de volgende van bloedzuigers afgeleide eiwitproducten vertegenwoordigd is in het genoom van H. medicinalis-genoom vertegenwoordigd zijn: eglin C, destabilase I, ghilanten, leech-derived tryptase inhibitor (LDTI), guamerine, cystatine, hirudine, ficoline, Kazal-type serine protease inhibitors (serpins), C-type lectine, manillase, bdelline, piguamerine, antistasine, bdellastasine en een niet-geïdentificeerde trombineremmer.

Leave a Reply