Draft genome of the European medicinal leech Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) s důrazem na antikoagulanty

Statistika sestavení a analýza BUSCO

Návrh genomu Hirudo medicinalis ROMIZI 11733 byl sestaven do 19 929 scaffoldů zahrnujících 176.96 Mbps s mediánem pokrytí 146,78×, skóre N50 50 382 bps a skóre L50 772 (úplné statistiky sestavení návrhu genomu lze nalézt v doplňkovém souboru 1). BUSCO ver. 4.0.526 byl spuštěn pro posouzení úplnosti genomu. Výsledkem analýzy předpovězených proteinů oproti metazoa_odb10 bylo skóre úplnosti 94,2 % (90,0 % úplných + 4,2 % fragmentovaných)

Velikost sestavení představuje 78,67 % odhadované velikosti genomu (230 Mb/s; http://genomesize.com). Výsledkem dvouprůchodové anotace pomocí MAKER27 bylo 35 166 předpovězených proteinů se 780 sestřihovými variantami. Pomocí tRNAscan-SE28 bylo předpovězeno celkem 429 genů tRNA a dalších 116 pseudogenů. Pomocí nástroje Infernal29 bylo předpovězeno dalších 535 nekódujících genů/motivů RNA, což zahrnovalo 64 genů rRNA a 316 mikroRNA. Obsah repetitivních jednotek v genomu byl pomocí nástroje RepeatModeler30 odhadnut na 24,71 % (14,43 % prokládaných a 10,28 % jednoduchých repetic), přičemž nejpočetnější jednotkou byly neklasifikované repetice (6,14 %). Všechny anotační soubory byly uloženy na adrese https://doi.org/10.5281/zenodo.3555585 (poslední přístup 20. ledna 2020). Surová čtení i sestavené sekvence byly uloženy v Evropském nukleotidovém archivu (ENA) pod studijním přístupem PRJEB35865.

Antikoagulanty pijavic, počet kopií a tandemové repetice

Celkově byly v genomu Hirudo medicinalis nalezeny genové produkty, které vykazovaly adekvátní shody BLASTp (lepší než 1E-5) vůči 18 dobře charakterizovaným proteinům odvozeným od pijavic s funkcí související s antihemostázou (tabulka 1). Patří mezi ně eglin C, destabiláza I, ghilanten, inhibitor tryptázy odvozený od pijavice (LDTI), guamerin, cystatin, hirudin, hirudinu podobný faktor 3, ficolin, inhibitory serinových proteáz Kazalova typu (serpiny), lektin typu C, maniláza, bdellin, piguamerin, antistasin, bdellastasin, lefaxin a neidentifikovaný trombininhibitor. Tabulka 1 uvádí nejlepší shody z genomu H. medicinalis spolu se shodami proti třem globálním databázím, počtem kopií genu v celém genomu a přítomností nebo nepřítomností signálního peptidu.

Tabulka 1 Známé, z pijavic odvozené proteiny související s antihemostatismem s vysoce skórujícími shodami v genomu Hirudo medicinalis.

Sedm z 18 předpokládaných antikoagulantů se napříč našimi daty vyskytuje v jediné kopii (tabulka 1); upozorňujeme, že stále existuje možnost, že se v nesekvenovaných částech genomu vyskytuje více kopií. Jedná se o piguamerin, hirudin, ghilanten, hirudinu podobný faktor 3, LDTI, neidentifikovaný inhibitor trombinu a cystatin. Nejvyšší počet kopií (n = 7) byl zjištěn u eglinu C a destabilizázy; zatímco kopie u prvního z nich se zdály být rozptýleny napříč scaffoldy (sedm kopií se vyskytovalo na šesti různých scaffoldech), druhý zahrnoval tři kopie na stejném scaffoldu a další scaffold se dvěma kopiemi.

Zatímco většina zde sledovaných antikoagulantů není v našem návrhu genomu umístěna vedle sebe, následující proteiny se zřejmě vyskytují v tandemových polích jako dvě nebo více kopií: (se silným zachováním velikosti exonů a intronů mezi kopiemi), guamerin (pouze s nízkým zachováním velikosti exonů a intronů mezi kopiemi), inhibitor serinových proteáz typu Kazal (pouze s nízkým zachováním velikosti exonů a intronů mezi kopiemi) a bdellin (s relativně zachovanou velikostí exonů, ale s rozdílnou velikostí intronů mezi kopiemi). Dále LDTI a plně tři tandemové kopie bdellinu spolu sousedí na scaffoldu 209471.

Jiné bioaktivní peptidy

Kromě shod proti známým antikoagulačním faktorům odvozeným z pijavic bylo v H. medicinalis; funkce a cesty většiny z nich zůstávají neznámé, a proto se zaměříme pouze na bioaktivní proteiny, které nejsou z pijavic a u nichž bylo prokázáno, že se podílejí na antikoagulaci. Byly získány robustní shody (lepší než 1E-5) proti 23 různým proteinům, které negativně ovlivňují koagulační kaskádu. Patří mezi ně dezintegrin a metaloproteináza s trombospondinovým motivem (ADAMTS), apiráza, inhibitor serinových proteáz Kunitzova typu, fibrinogenáza, chrysoptin, bothrojaracin, oxid dusnatý (vazodilatátor), aglucetin, snaclec, hemoragická metaloproteináza kaouthiagin, batroxstatin, inhibitor trombinu (z klíštěte osamělé Amblyomma americanum), annexin, tabserin, protein inhibitoru trombinu (z Rhodnius prolixus), serinová proteáza hadího jedu, chymotrypsin, brasiliensin, katepsin B, dipetalogastin, acheláza, halyxin a antitrombin-III (z kobry královské Ophiophagus hannah). V doplňkovém souboru 2 jsou uvedeny shody těchto peptidů spolu s jejich vzájemnými shodami BLAST a předpovědí signálního peptidu. Několik vzájemných shod BLAST bylo proti neanotovaným (tj. „hypotetický protein“ nebo „necharakterizovaný protein“) genům v genomu Helobdella robusta, takže lze odvodit jen málo informací o identitě těchto shod. Hodnotili jsme však také horší shody (ale stále lepší než 1E-5) s dobře anotovanými geny ve třech globálních databázích. Po vyhodnocení všech dostupných informací nebylo možné robustně odvodit přítomnost pouze následujících proteinových produktů v genomu H. medicinalis (tj, všechny zbývající proteinové produkty jsou přítomny): chryzoptin, oxid dusnatý, inhibitor trombinu (z Amblyomma americanum), chymotrypsin, dipelogastin a acheláza.

Sekvenční podobnost a párová zarovnání

Každý z proteinů souvisejících s antikoagulací odvozených z H. medicinalis je přítomen. medicinalis byly zarovnány se svým archetypálním protějškem a zarovnání jsou uvedena na obr. 1 (pro destabilizázu I, LDTI, hirudin a hirudinu podobný faktor 3 a bdellin) a v doplňkovém souboru 3 (pro eglin C, ghilanten, guamerin, cystatin, ficolin, serpin typu Kazal, lektin typu C, manilázu, piguamerin, antistasin, bdellastasin a neidentifikovaný trombininhibitor). Všimněte si, že sekvence H. medicinalis se shodou proti lefaxinu našla při vzájemném BLASTování mnohem lepší shodu proti hemerytrinu a nebyla dále považována za ortolog lefaxinu.

Obrázek 1
obrázek1

Zarovnání aminokyselin na základě MAFFT předpokládaných ortologů antikoagulantů odvozených z genomu Hirudo medicinalis a příslušné nejlepší shody BLASTp. (A) putativní destabiláza I z H. medicinalis zarovnaná se známou sekvencí slinného bioaktivního proteinu (GenBank přístupové číslo AAA96144); (B) putativní Leech Derived Tryptase Inhibitor (LDTI) z H. medicinalis zarovnaný se známou sekvencí slinného bioaktivního proteinu (GenBank přístupové číslo AAB33769); (C) putativní hirudin (HV1) z H. medicinalis zarovnaný se známou sekvencí slinného bioaktivního proteinu (GenBank přístupové číslo APA20833); (D) putativní bdellin z H. medicinalis zarovnaný se známou sekvencí slinného bioaktivního proteinu (GenBank přístupové číslo P09865). Červené rámečky označují konzervované cysteinové zbytky a modré šrafování představuje zachování zbytků mezi sekvencemi.

U destabilázy I vykazuje nově odvozená sekvence 78% podobnost v pozicích se sdílenými aminokyselinami (tj. když se nepočítají mezery) se známým antikoagulantem (GenBank přístupové číslo AAA9614431), který byl původně také odvozen z Hirudo medicinalis. Pozice všech 14 cysteinových zbytků navíc vykazují plnou konzervaci, což naznačuje podobnou strukturu skládání mezi proteiny. V zarovnání se nevyskytly žádné případy indelů (obr. 1A).

V zarovnání aminokyselin pro LDTI, včetně nové sekvence a archetypální sekvence odvozené z Hirudo medicinalis (GenBank přístupové číslo AAB3376932), vykazují obě sekvence 99% sekvenční podobnost a plné zachování pozic šesti cysteinových zbytků. Nebyly nalezeny žádné indely (obr. 1B).

Nově sekvenovaný ortolog hirudinu vykazuje téměř úplnou konzervaci (sekvenční podobnost 99,9 %) při srovnání s archetypovou sekvencí (GenBank accession number APA2083333), původně odvozenou z Hirudo verbana. Kromě toho jsou plně konzervovány pozice šesti cysteinových zbytků přítomných ve zralém peptidu (dva cysteiny jsou rovněž konzervovány v oblasti signálního peptidu). V zarovnání nebyly přítomny žádné indely (obr. 1C).

Sekvence bdellinu získaná z genomu H. medicinalis vykazuje 99,2% sekvenční podobnost s archetypální sekvencí (GenBank přístupové číslo P0986534) původně pocházející z H. medicinalis a pozice všech cysteinových zbytků (n = 6) jsou plně konzervovány. V zarovnání nebyly přítomny žádné indely (obr. 1D).

Pro eglin C vykazuje nová sekvence 99,9% sekvenční podobnost při srovnání s archetypální sekvencí (GenBank přístupové číslo 0905140 A35). V obou sekvencích nejsou přítomny žádné cysteinové zbytky a nebyly zjištěny žádné indely (doplňkový soubor 3A).

Nově získaná sekvence ghilantenu vykazuje pouze 32% sekvenční podobnost při srovnání s archetypální sekvencí (GenBank přístupové číslo AAB2123336) pocházející z glossiphoniidní pijavice Haementeria ghilianii (de Filippi, 1849). Nízká příbuznost mezi sekvencemi naznačuje, že se nemusí jednat o ortologickou sekvenci. Bez ohledu na to nová sekvence obsahuje 25 cysteinových zbytků ve zralém proteinu a pozice 17 z nich jsou v zarovnání zachovány. V obou sekvencích byly přítomny indelové události, z nichž největší zahrnuje 25 zbytků (inserce v nové sekvenci nebo delece v archetypální sekvenci), a byly identifikovány pouze krátké řetězce (maximálně n = 3) homopolymerů (doplňkový soubor 3B).

U guamerinu vykazuje nová sekvence 67% sekvenční podobnost s archetypálním proteinem (GenBank přístupové číslo AAD0944237), který byl původně odvozen z Hirudo nipponia Whitman, 1886. Pozice všech devíti cysteinových zbytků přítomných v zarovnání jsou plně konzervovány. Nebyly nalezeny žádné indely (Supplementary File 3C).

Nová sekvence pro cystatin vykazuje 57% podobnost při srovnání se svým archetypálním protějškem (GenBank accession number AAN2867938), pocházejícím z glossiphoniida Theromyzon tessulatum (Müller, 1774); pozice jediného cysteinového zbytku je mezi sekvencemi konzervována. V zarovnání nebyly přítomny žádné indely (Supplementary File 3D).

U fikolinu je sekvenční podobnost 59 % mezi sdílenými aminokyselinovými pozicemi mezi naší novou sekvencí a archetypální sekvencí (využitou ze souboru dat použitého Minem a spol.15), pocházející ze severoamerické pijavice lékařské Macrobdella decora (Say, 1824). Dva ze tří cysteinových zbytků přítomných v sekvenci odvozené od M. decora se na stejném místě nacházejí i v nové sekvenci. V nové sekvenci je přítomna poměrně rozsáhlá inzerce (případně událost delece v archetypální sekvenci), která pokrývá 27 aminokyselinových zbytků (Supplementary File 3E).

Nově odvozený serpin typu Kazal vykazuje pouze 26% sekvenční podobnost sdílených aminokyselinových míst ve srovnání se sekvencí odvozenou od Macrobdella decora (ze souboru dat použitého Minem a spol.15). Ze 13 cysteinových zbytků přítomných v „archetypální“ sekvenci jich 12 vykazuje v nové sekvenci konzervované pozice. V obou sekvencích jsou přítomny krátké indely (doplňkový soubor 3F).

Zarovnání lektinu typu C ukazuje, že mezi novou sekvencí a archetypálním srovnáním odvozeným z M. decora (viz15) existuje 43% sekvenční podobnost. V archetypální sekvenci existuje třináct cysteinových zbytků a pozice devíti z nich jsou v nově získané sekvenci zachovány. V archetypální sekvenci jsou přítomny tři izolované krátké delece (případně představují inserce v nové sekvenci) (Doplňkový soubor 3G).

U manilázy je 83 % sdílených aminokyselinových zbytků shodných mezi novou sekvencí a sekvencí odvozenou z patentové přihlášky USA (č. 2006 US 7.049.124 B1P09856) a získanou z asijské pijavice lékařské Hirudinaria manillensis Lesson, 1842. Je notoricky známo, že manillasa zcela postrádá cysteinové zbytky, a stejně tak sekvence odvozená z Hirudo medicinalis. Uprostřed zarovnání je přítomna inserce/delece, která zahrnuje 16 zbytků (doplňkový soubor 3H).

Pro trypsinový inhibitor piguamerin vykazuje náš nově sekvenovaný genový produkt 46% podobnost s archetypální sekvencí (přístupové číslo GenBank P8149939), původně pocházející z Hirudo nipponia. Archetypální sekvence obsahuje deset cysteinových zbytků a šest z nich je v nové sekvenci v konzervovaných pozicích. V zarovnání se nevyskytují žádné indely (doplňkový soubor 3I).

U antistasinu sekvence odvozená z našeho exempláře H. medicinalis vykazuje 36% podobnost s archetypovou sekvencí (GenBank přístupové číslo P1535840) z Haementeria officinalis. Kromě toho je mezi sekvencemi zachována poloha 18 z 21 cysteinů přítomných v archetypální sekvenci (doplňkový soubor 3J).

Naše nově odvozená sekvence v zarovnání bdellastasinu vykazuje téměř úplnou konzervaci (99,9% podobnost na sdílených aminokyselinových místech) při srovnání s archetypální variantou (GenBank přístupové číslo 1C9P41), rovněž z Hirudo medicinalis. Pozice 10 cysteinů jsou mezi sekvencemi plně konzervovány (doplňkový soubor 3K).

Neznámý inhibitor trombinu, který zde slouží jako archetypální antikoagulant, byl původně odvozen z pisivky Pontobdella macrothela (Schmarda, 1861) (viz16) na základě shody BLAST s předpokládaným inhibitorem trombinu z hemadipsidní pijavice Haemadipsa sylvestris Blanchard, 1894. Naše sekvence odvozená od Hirudo medicinalis vykazuje pouze 28% sekvenční podobnost sdílených aminokyselinových míst, avšak pozice sedmi z osmi cysteinových zbytků přítomných v cílové sekvenci jsou v nově získané sekvenci plně konzervovány. Zajímavé je, že uprostřed nové sekvence je přítomna velká inzerce 27 aminokyselin; případně se jedná o deleci v archetypální sekvenci (doplňkový soubor 3L).

Genové stromy

Pro každý z 16 předpokládaných antikoagulantů odvozených od pijavic popisujeme nezakořeněné topologie stromů pomocí terminologie navržené Wilkinsonem a kol.42, v níž „klan“ v nezakořeněném stromu potenciálně odpovídá monofyletické skupině v zakořeněném stromu a „sousední skupina“ odpovídá sesterské skupině.

V genovém stromu pro destabilázu I (obr. 2A) tvoří nově získaná sekvence klan, i když s poměrně nízkou podporou (pravděpodobnostní bootstrapová podpora = 72 %), s archetypální sekvencí a několika variantami získanými z předchozího sekvenování pro Hirudo medicinalis31.

Obrázek 2
obrázek2

Fylogenetické hypotézy vyplývající z analýz maximální věrohodnosti souboru předpokládaných ortologů pro každý antikoagulant nebo antikoagulační rodinu. (A) Destabiláza I (ln L = -3340,015305); (B) LDTI (ln L = -640,341632). Zelené odstíny označují nejmenší klan, který zahrnuje jak nově odvozenou sekvenci, tak archetypální variantu antikoagulantu.

Pro LDTI (obr. 2B) tvoří nová sekvence klan (LBS = 100 %) se všemi archetypálními variantami antikoagulantu – všimněte si, že délky větví jsou v rámci tohoto shluku sekvencí velmi krátké nebo nulové, což podporuje představu ortologie mezi nimi.

Naše nově odvozená sekvence hirudinu také tvoří klan se dvěma archetypálními variantami inhibitoru trombinu (LBS = 97 %) (obr. 3A) pocházejícími z hirudinidní pijavice Poecilobdella viridis (Blanchard, 1864) a Hirudo verbana. Délky větví jsou opět zanedbatelné. Strom navíc potvrzuje výsledky BLAST pro faktor podobný hirudinu 3, neboť naše nově odvozená sekvence z H. medicinalis tvoří klan (LBS = 87 %) s archetypální sekvencí odvozenou z Hirudo orientalis.

Obrázek 3
obrázek3

Fylogenetické hypotézy vyplývající z analýz maximální věrohodnosti souboru předpokládaných ortologů pro každý antikoagulant nebo antikoagulační rodinu. (A) Hirudin (ln L = -4750,252905); (B) bdellin (ln L = -1771,698797). Zelené odstíny označují nejmenší klan, který zahrnuje jak nově odvozenou sekvenci, tak archetypální variantu antikoagulantu.

Ve stromu bdellinu (obr. 3B) tvoří nová sekvence klan, i když s nízkou podporou, (LBS = 26 %) s archetypální sekvencí, stejně jako s dříve sekvenovanými variantami z Hirudo nipponia, Hirudo medicinalis a Macrobdella decora. Délka větve mezi novou sekvencí a archetypovou sekvencí je velmi krátká, což potvrzuje určení homologie na základě podobnosti (viz výše).

Pro eglin C tvoří nová sekvence klan (LBS < 75 %) s archetypovou variantou; všimněte si, že druhová identita pijavice, z níž byla archetypová sekvence odvozena, není známa. Kromě toho klan zahrnuje sekvenci ze samostatného sekvenování pro Hirudo medicinalis (nepublikováno) a délky větví v rámci tohoto klanu jsou velmi krátké nebo nulové (Supplementary File 4A).

Ve stromu sestaveném z členů antistasinové rodiny antikoagulantů (Supplementary File 4B) tvoří naše „ghilantenová“ sekvence z H. medicinalis klan (LBS < 75%) se třemi dalšími sekvencemi z Heptacyclus cf. viridus, Placobdella kwetlumye a Pontobdella macrothela. Tento klan je sousední skupinou ke klanu, který zahrnuje archetypální sekvenci pro terostasin, jakož i několik variant tohoto genu z různých druhů pijavic. Naproti tomu archetypální sekvence pro ghilanten tvoří klan (s velmi krátkou délkou větve) s archetypální sekvencí antistasinu, ve vzdálené části nezakořeněného stromu. Identita nově odvozené sekvence ghilanten jako takové je stále diskutabilní, ale zdá se rozumné předpokládat, že patří spíše terostasinu než ghilantenu. Při přímém srovnání s therostasinem (údaje nejsou uvedeny) vykazuje nová sekvence 43 %, což je 11% zlepšení ve srovnání se zarovnáním s ghilantenem (viz výše). Každý ze zbývajících proteinů antistasinové rodiny v souboru dat H. medicinalis tvoří klany s příslušným archetypálním antikoagulantem. U bdellastasinu, piguamerinu a guamerinu se každá z nově odvozených sekvencí uhnízdí jako sousední sekvence k archetypálním variantám. U antistasinu se naše sekvence umisťuje do většího klanu, který zahrnuje sekvence z několika druhů pijavic a také archetypální varianty ghilantenu i antistasinu.

Pro cystatin byly jako základ matice k dispozici pouze tři další, srovnávací sekvence. Navzdory tomuto nedostatku dat tvoří nová sekvence klan (LBS < 75 %) s archetypální sekvencí a délka větví je srovnatelná s délkami větví pro ostatní terminály (doplňkový soubor 4C).

Pro fikolin není k dispozici žádná archetypální sekvence odvozená z pijavic, naše nová sekvence tvoří klan spolu s variantou dříve odvozenou (nepublikovanou) z H. Gantinatin. medicinalis (LBS = 100 %), přičemž sekvence odděluje nulová délka větve (doplňkový soubor 4D).

Strom pro inhibitory serinových proteáz Kazalova typu (doplňkový soubor 4E) je jedním z mála, který byl kdy pro sekvence pijavic zkonstruován, což se projevuje jak v absenci archetypálních variant odvozených od pijavic, tak v nedostatku srovnávacích dat (matici tvoří pouze čtyři sekvence). Naše nová sekvence tvoří klan (LBS = 51 %) s variantou odvozenou od Haemadipsa interrupta.

Ve stromu lektinů typu C (Supplementary File 4F) tvoří sekvence pro top hit nepodporovaný klan (LBS < 75 %) s variantami odvozenými od africké pijavice lékařské Aliolimnatis fenestrata a Hirudo medicinalis. Tento klan je zase příbuznou skupinou archetypální sekvence.

Potvrzením určení ortologie na základě podobnosti tvoří naše nově odvozená sekvence manilázy klan s archetypální sekvencí a dvěma dalšími sekvencemi odvozenými z praobdellid Limnobdella mexicana a Haemadipsa interrupta. Vzhledem k tomuto umístění a délce větve vedoucí k naší sekvenci není pochyb o tom, že představuje ortolog manilázy (doplňkový soubor 4G).

Souhrnně výsledky analýz BLAST, zarovnání a genového stromu naznačují, že každý z následujících proteinových produktů odvozených od pijavic je zastoupen v H. medicinalis: eglin C, destabiláza I, ghilanten, inhibitor tryptázy odvozený od pijavice (LDTI), guamerin, cystatin, hirudin, ficolin, inhibitory serinových proteáz typu Kazal (serpiny), lektin typu C, maniláza, bdellin, piguamerin, antistasin, bdellastasin a neidentifikovaný trombininhibitor.

.

Leave a Reply