Utkast till arvsmassa hos den europeiska medicinska blodigeln Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) med tonvikt på antikoagulanter
Samlingsstatistik och BUSCO-analys
Utkastet till genomet för Hirudo medicinalis ROMIZI 11733 samlades till 19 929 scaffolds som spänner över 176.96 Mbps med en mediantäckning på 146,78×, en N50-poäng på 50 382 bps och en L50-poäng på 772 (fullständig statistik för utkastet till sammansättning av genomet finns i Supplementary File 1). BUSCO ver. 4.0.526 kördes för att bedöma genomets fullständighet. Analysen av de förutspådda proteinerna jämfört med metazoa_odb10 resulterade i en fullständighetspoäng på 94,2 % (90,0 % kompletta + 4,2 % fragmenterade).
Samlingsstorleken motsvarar 78,67 % av den uppskattade genomstorleken (230 Mbps; http://genomesize.com). En annotering i två omgångar med MAKER27 resulterade i 35 166 förutspådda proteiner med 780 splicevarianter. Med hjälp av tRNAscan-SE28 förutsades totalt 429 tRNA-gener och ytterligare 116 pseudogener. Ytterligare 535 icke-kodande RNA-gener/motiv förutspåddes med hjälp av Infernal29 , vilket inkluderade 64 rRNA-gener och 316 mikroRNA:er. Genomets repetitiva innehåll uppskattades till 24,71 % (14,43 % interspenderade och 10,28 % enkla repetitioner) med RepeatModeler30 , där den vanligaste enheten var oklassificerad (6,14 %). Alla annotationsfiler har deponerats på https://doi.org/10.5281/zenodo.3555585 (senast tillgänglig den 20 januari 2020). De råa läsningarna, liksom de sammansatta sekvenserna har deponerats i European Nucleotide Archive (ENA) under studiens accession PRJEB35865.
Leech anticoagulants, copy number and tandem repeats
Totalt hittades genprodukter i Hirudo medicinalis-genomet som uppvisade adekvata BLASTp-träffar (överlägsen 1E-5) mot 18 välkaraktäriserade leech-deriverade proteiner med funktioner som är relaterade till antihemostasis (tabell 1). Dessa inkluderar eglin C, destabilas I, ghilanten, leech-derived tryptase inhibitor (LDTI), guamerin, cystatin, hirudin, hirudin-liknande faktor 3, ficolin, serinproteashämmare av Kazal-typ (serpiner), lektin av C-typ, manillas, bdellin, piguamerin, antistasin, bdellastasin, lefaxin och en oidentifierad trombininhibitor. Tabell 1 visar de bästa träffarna från H. medicinalis-genomet, tillsammans med träffarna mot de tre globala databaserna, genens kopianummer i hela genomet och förekomsten eller frånvaron av en signalpeptid.
Sju av de 18 förmodade antikoagulantia förekommer i en enda kopia i alla våra data (tabell 1); observera att det fortfarande finns en chans att fler kopior finns i de osekvenserade delarna av genomet. Dessa är piguamerin, hirudin, ghilanten, hirudin-liknande faktor 3, LDTI, den oidentifierade trombinhämmaren och cystatin. Det högsta antalet kopior (n = 7) hittades för eglin C och destabilas; medan kopiorna för den förstnämnda verkade spridda över ställningarna (de sju kopiorna förekom på sex olika ställningar), omfattade den sistnämnda tre kopior på samma ställning och en annan ställning med två kopior.
Då de flesta av de antikoagulantia som är måltavlor för detta projekt inte är placerade intill varandra i vårt utkast till genom, tycks följande proteiner förekomma i tandemställen som två eller fler kopior: C-typ lektin (med starkt bevarande av exon- och intronstorlekar mellan kopiorna), guamerin (med endast lågt bevarande av exon- och intronstorlekar mellan kopiorna), serinproteashämmare av Kazal-typ (med endast lågt bevarande av exon- och intronstorlekar mellan kopiorna) och bdellin (med exonstorlekar som är relativt bevarade, men med intronstorlekar som skiljer sig åt mellan kopiorna). Vidare är LDTI och hela tre tandemkopior av bdellin intill varandra på ställningen 209471.
Andra bioaktiva peptider
Inom träffarna mot kända, av blodigeln härledda antikoagulationsfaktorer återfanns hela 1 176 träffar mot 227 olika bioaktiva föreningar som isolerats från blodfödande organismer i H. medicinalis-genomet. Funktionen och vägarna för de flesta av dessa är fortfarande okända och därför kommer vi endast att fokusera på de bioaktiva proteiner som inte är från blodiglar och som har visat sig vara involverade i antikoagulationen. Robusta träffar (bättre än 1E-5) hittades mot 23 olika proteiner som påverkar koagulationskaskaden negativt. Dessa inkluderar ett desintegrin- och metalloproteinas med trombospondinmotiv (ADAMTS), apyrase, serinproteashämmare av Kunitz-typ, fibrinogenas, krysoptin, bothrojaracin, kväveoxid (vasodilator), agglucetin, snaclec, hemorrhagiskt metalloproteinas kaouthiagin, batroxstatin, trombinhämmare (från den amerikanska fästingen Amblyomma americanum), annexin, tabserin, trombinhämmande protein (från Rhodnius prolixus), serinproteas av ormgift, chymotrypsin, brasiliensin, kathepsin B, dipetalogastin, achelas, halyxin och antitrombin-III (från kungskobran Ophiophagus hannah). I den kompletterande filen 2 visas träffarna för dessa peptider, tillsammans med deras ömsesidiga BLAST-träffar och signalpeptidförutsägelser. Flera av de ömsesidiga BLAST-träffarna var mot oannoterade (dvs. ”hypotetiskt protein” eller ”okarakteriserat protein”) gener i Helobdella robusta-genomet, vilket innebär att lite information kan härledas om matchningarnas identitet. Vi utvärderade dock även sämre träffar (men fortfarande över 1E-5) mot välannoterade gener i de tre globala databaserna. Efter utvärdering av all tillgänglig information var det endast följande proteinprodukter som inte på ett tillförlitligt sätt kunde härledas till att finnas i H. medicinalis-genomet (dvs, de återstående proteinprodukterna är alla närvarande): chrysoptin, kväveoxid, trombinhämmare (från Amblyomma americanum), chymotrypsin, dipelogastin och achelas.
Sekvenslikhet och parvisa anpassningar
Var och en av de antikoaguleringsrelaterade proteinerna som härrör från H. medicinalis anpassades till sin arketypiska motsvarighet och anpassningarna presenteras i figur 1 (för destabilas I, LDTI, hirudin och hirudinliknande faktor 3 samt bdellin) och i tilläggsfil 3 (för eglin C, ghilanten, guamerin, cystatin, ficolin, serpinet av Kazal-typ, lektin av C-typ, manillas, piguamerin, antistasin, bdellastasin och den oidentifierade trombininhibitorn). Observera att H. medicinalis-sekvensen med en träff mot lefaxin hade en mycket bättre träff mot hemerythrin vid ömsesidig BLAST-analys och att den inte längre ansågs vara en ortolog till lefaxin.
För destabilas I visar den nyligen härledda sekvensen 78 % likhet i positioner med delade aminosyror (dvs. när luckor inte räknas) med den kända antikoagulanten (GenBank accession number AAA9614431), som också ursprungligen härrörde från Hirudo medicinalis. Dessutom visar positionerna för alla 14 cysteinrester ett fullständigt bevarande, vilket tyder på en liknande veckningsstruktur mellan proteinerna. Inga fall av indels påträffades i anpassningen (fig. 1A).
I aminosyraanpassningen för LDTI, inklusive den nya sekvensen och den arketypiska sekvensen som härstammar från Hirudo medicinalis (GenBank accession nummer AAB3376932), visar de två sekvenserna 99 % sekvenslikhet och fullständig bevarande av positionerna för de sex cysteinresterna. Inga indels påträffades (fig. 1B).
Den nyligen sekvenserade hirudin-ortologen visar nästan fullständig bevarande (sekvenslikhet 99,9 %) jämfört med den arketypiska sekvensen (GenBank accession nummer APA208333333), som ursprungligen härstammar från Hirudo verbana. Dessutom är positionerna för de sex cysteinrester som finns i den mogna peptiden helt bevarade (två cysteinrester är också bevarade i signalpeptidregionen). Inga indel-händelser förekom i anpassningen (fig. 1C).
Bdellinsekvensen som återfanns från H. medicinalis-genomet uppvisar 99,2 % sekvenslikhet med den arketypiska sekvensen (GenBank-anslutningsnummer P0986534) som ursprungligen härstammar från H. medicinalis, och positionerna för alla cysteinrester (n = 6) är helt och hållet konserverade. Inga indels fanns i anpassningen (fig. 1D).
För eglin C visar den nya sekvensen 99,9 % sekvenslikhet jämfört med den arketypiska sekvensen (GenBank accession number 0905140 A35). Inga cysteinrester förekommer i någon av sekvenserna och inga indels förekom (Supplementary File 3A).
Den nyförvärvade ghilantensekvensen uppvisar endast 32 % sekvenslikhet jämfört med den arketypiska sekvensen (GenBank accession number AAB2123336) som härstammar från den glossiphoniida blodigeln Haementeria ghilianii (de Filippi, 1849). Den låga affiniteten mellan sekvenserna tyder på att dessa kanske inte är ortologiska sekvenser. Oavsett detta innehåller den nya sekvensen 25 cysteinrester i det mogna proteinet och positionerna för 17 av dessa är bevarade i anpassningen. Indelhändelser förekom i båda sekvenserna, varav den största omfattar 25 rester (insättning i den nya sekvensen eller deletion i den arketypiska sekvensen), och endast korta strängar (högst n = 3) av homopolymerer identifierades (kompletterande fil 3B).
För guamerin uppvisar den nya sekvensen 67 % sekvenslikhet med det arketypiska proteinet (GenBank-anslutningsnummer AAD0944237), som ursprungligen härrörde från Hirudo nipponia Whitman, 1886. Positionerna för alla nio cysteinrester som finns i anpassningen är helt bevarade. Inga indel-händelser påträffades (kompletterande fil 3C).
Den nya sekvensen för cystatin uppvisar 57 % likhet jämfört med dess arketypiska motsvarighet (GenBank accession number AAN2867938), från glossiphoniiden Theromyzon tessulatum (Müller, 1774); positionen för den enda cysteinrestigen är bevarad mellan sekvenserna. Inga indel-händelser förekom i anpassningen (Supplementary File 3D).
För ficolin är sekvenslikheten 59 % mellan delade aminosyrapositioner mellan vår nya sekvens och den arketypiska sekvensen (hämtad från det dataset som användes av Min et al.15), som härstammar från den nordamerikanska medicinska blodigeln Macrobdella decora (Say, 1824). Två av de tre cysteinrester som finns i sekvensen från M. decora finns också i samma position i den nya sekvensen. En ganska omfattande insättning finns i den nya sekvensen (eller alternativt en deletionshändelse i den arketypiska sekvensen) och täcker 27 aminosyrarester (Supplementary File 3E).
Den nyligen härledda serpinen av Kazal-typ uppvisar endast 26 % sekvenslikhet för delade aminosyroresurser jämfört med den sekvens som härstammar från Macrobdella decora (från den datauppsättning som användes av Min et al.15). Av de 13 cysteinrester som finns i den ”arketypiska” sekvensen uppvisar 12 bevarade positioner i den nya sekvensen. Korta indels finns i båda sekvenserna (Supplementary File 3F).
C-type lectin alignment visar att 43 % sekvenslikhet finns mellan den nya sekvensen och den arketypiska jämförelsen som härrör från M. decora (se15). Tretton cysteinrester finns i den arketypiska sekvensen och positionerna för nio av dessa är bevarade i den nytillkomna sekvensen. Tre isolerade, korta deletioner finns i den arketypiska sekvensen (eller, alternativt, dessa representerar inlagringar i den nya sekvensen) (kompletterande fil 3G).
För manillas är 83 % av de delade aminosyraresterna identiska mellan den nya sekvensen och den sekvens som härstammar från en amerikansk patentansökan (nr 2006 US 7.049.124 B1P09856) och som utvunnits från den asiatiska medicinska blodigeln Hirudinaria manillensis Lesson, 1842. Manillas saknar helt cysteinrester, vilket även gäller sekvensen från Hirudo medicinalis. En insättning/eliminering finns i mitten av anpassningen och omfattar 16 rester (kompletterande fil 3H).
För trypsinhämmaren piguamerin visar vår nyligen sekvenserade genprodukt 46 % likhet med den arketypiska sekvensen (GenBank-anslutningsnummer P8149939), som ursprungligen härstammar från Hirudo nipponia. Den arketypiska sekvensen innehåller tio cysteinrester och sex av dessa finns i bevarade positioner i den nya sekvensen. Inga indels finns i anpassningen (Supplementary File 3I).
För antistasin visar sekvensen som härrör från vårt exemplar av H. medicinalis 36 % likhet med den arketypiska sekvensen (GenBank accession number P1535840) från Haementeria officinalis. Dessutom är positionen för 18 av de 21 cysteiner som finns i den arketypiska sekvensen bevarad mellan sekvenserna (Supplementary File 3J).
Vår nyligen härledda sekvens i bdellastasin-anpassningen visar nästan fullständig bevarande (99,9 % likhet vid delade aminosyror) när den jämförs med den arketypiska varianten (GenBank accession number 1C9P41), även den från Hirudo medicinalis. Positionerna för de 10 cysteinerna är helt konserverade mellan sekvenserna (Supplementary File 3K).
Den okända trombinhämmaren som här fungerar som den arketypiska antikoagulanten härstammade ursprungligen från piscicolid Pontobdella macrothela (Schmarda, 1861) (se16) efter BLAST-baserade träffar mot en förmodad trombinhämmare från den hemadipsidiska blodigeln Haemadipsa sylvestris Blanchard, 1894. Vår från Hirudo medicinalis härledda sekvens uppvisar endast 28 % sekvenslikhet när det gäller delade aminosyraplatser, men positionerna för sju av de åtta cysteinrester som finns i målsekvensen är helt bevarade i den nyförvärvade sekvensen. Intressant nog finns en stor insättning på 27 aminosyror i mitten av den nya sekvensen; alternativt är detta en deletion i den arketypiska sekvensen (kompletterande fil 3L).
Genträd
För var och en av de 16 antikoagulantia som härstammar från blodigeln beskriver vi de orotade trädtopologierna med hjälp av den terminologi som föreslagits av Wilkinson et al.42, där en ”klan” i ett orotat träd potentiellt motsvarar en monofyletisk grupp i ett rotat träd och ”intilliggande grupp” motsvarar systergrupp.
I genträdet för destabilas I (fig. 2A) bildar den nyförvärvade sekvensen en klan, om än med ganska lågt stöd (sannolikhetsbootstrap-stöd = 72 %), med den arketypiska sekvensen och flera varianter som hämtats från tidigare sekvenseringsförsök för Hirudo medicinalis31.
För LDTI (Fig. 2B) bildar den nya sekvensen en klan (LBS = 100 %) med alla arketypiska varianter av antikoagulanten – observera att grenlängderna är mycket korta eller noll inom detta kluster av sekvenser, vilket stödjer tanken på ortologi mellan dem.
Vår nyligen härledda hirudinsekvens bildar också en klan med två arketypiska varianter av trombinhämmaren (LBS = 97 %) (Fig. 3A) som härstammar från den hirudinida blodigeln Poecilobdella viridis (Blanchard, 1864) och Hirudo verbana. Återigen är grenlängderna försumbara. Trädet bekräftar dessutom BLAST-resultaten för hirudinliknande faktor 3, såtillvida att vår nyligen härledda sekvens från H. medicinalis bildar en klan (LBS = 87 %) med den arketypiska sekvensen som härrör från Hirudo orientalis.
I bdellinträdet (fig. 3B) bildar den nya sekvensen en klan, om än med lågt stöd, (LBS = 26 %) med den arketypiska sekvensen, samt med tidigare sekvenserade varianter från Hirudo nipponia, Hirudo medicinalis och Macrobdella decora. Grenlängden mellan den nya sekvensen och den arketypiska sekvensen är mycket kort, vilket bekräftar den likhetsbaserade homologibestämningen (se ovan).
För eglin C bildar den nya sekvensen en klan (LBS < 75 %) med den arketypiska varianten; observera att identiteten på artnivå för den igel från vilken den arketypiska sekvensen härstammar är okänd. Dessutom innehåller klanen en sekvens från ett separat sekvenseringsarbete för Hirudo medicinalis (opublicerat), och grenlängderna inom denna klan är mycket korta eller noll (Supplementary File 4A).
I det träd som konstruerats från medlemmar av antikoagulansfamiljen antistasin (Supplementary File 4B) bildar vår ”ghilanten”-sekvens från H. medicinalis en klan (LBS < 75%) med tre andra sekvenser från Heptacyclus cf. viridus, Placobdella kwetlumye och Pontobdella macrothela. Denna klan är den angränsande gruppen till en klan som innehåller den arketypiska sekvensen för therostasin samt flera varianter av denna gen från olika igelarter. Däremot bildar den arketypiska sekvensen för ghilanten en klan (med mycket kort grenlängd) med den arketypiska sekvensen för antistasin, i en långt avlägsen del av det orotade trädet. Identiteten hos den nyligen härledda ghilantensekvensen är därför fortfarande diskutabel, men det verkar rimligt att föreslå att den tillhör therostasin, snarare än ghilanten. När den nya sekvensen jämförs direkt med therostasin (data visas inte) visar den 43 %, vilket är en förbättring med 11 % jämfört med anpassningen till ghilanten (se ovan). Var och en av de återstående proteinerna i antistasin-familjen i H. medicinalis-dataset bildar klaner med sina respektive arketypiska antikoagulanter. För bdellastasin, piguamerin och guamerin nästlar sig var och en av de nyligen härledda sekvenserna in som den intilliggande sekvensen till de arketypiska varianterna. För antistasin placerar sig vår sekvens i en större klan, inklusive sekvenser från flera igelarter, samt de arketypiska varianterna av både ghilanten och antistasin.
För cystatin fanns endast tre ytterligare, jämförande sekvenser tillgängliga som grund för matrisen. Trots denna brist på data bildar den nya sekvensen en klan (LBS < 75 %) med den arketypiska sekvensen och grenlängden är jämförbar med dem för de andra terminalerna (Supplementary File 4C).
Då ingen arketypisk, från blodigeln härledd sekvens finns tillgänglig för ficolin bildar vår nya sekvens en klan tillsammans med en variant som tidigare härletts (opublicerat) från H. medicinalis (LBS = 100 %), med noll grenlängd som skiljer sekvenserna åt (Supplementary File 4D).
Trädet för serinproteashämmare av Kazal-typ (Supplementary File 4E) är ett av endast ett fåtal som någonsin konstruerats för sekvenser från blodiglar, och detta är uppenbart både i avsaknaden av arketypiska varianter som härstammar från blodiglar och i avsaknaden av komparativa data (endast fyra sekvenser ingår i matrisen). Vår nya sekvens bildar en klan (LBS = 51 %) med en variant som härrör från Haemadipsa interrupta.
I C-type lektinträdet (Supplementary File 4F) bildar sekvensen för den bästa träffen en klan utan stöd (LBS < 75 %) med varianter som härrör från den afrikanska medicinska blodigeln Aliolimnatis fenestrata och Hirudo medicinalis. Denna klan är i sin tur den angränsande gruppen för den arketypiska sekvensen.
Som bekräftelse på den likhetsbaserade ortologibestämningen bildar vår nyligen härledda manillassekvens en klan med den arketypiska sekvensen och två andra sekvenser som härstammar från praobdelliden Limnobdella mexicana och Haemadipsa interrupta. Med tanke på denna placering och längden på den gren som leder till vår sekvens är det knappast någon tvekan om att den representerar en ortolog av manillas (Supplementary File 4G).
Tillsammantaget tyder resultaten från BLAST-, alignment- och genträdanalyserna på att var och en av följande proteinkomponenter som härstammar från blodiglar är representerade i H. medicinalis-genomet: eglin C, destabilas I, ghilanten, leech-derived tryptase inhibitor (LDTI), guamerin, cystatin, hirudin, ficolin, serinproteashämmare av Kazal-typ (serpiner), lektin av C-typ, manillas, bdellin, piguamerin, antistasin, bdellastasin och en oidentifierad trombininhibitor.
Leave a Reply