Proiect de genom al lipitoarei medicinale europene Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) cu accent pe anticoagulante | Scientific Reports Proiect de genom al lipitoarei medicinale europene Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes), cu accent pe anticoagulante
Statistici de asamblare și analiză BUSCO
Proiectul de genom al lui Hirudo medicinalis ROMIZI 11733 a fost asamblat în 19.929 de scheleme care acoperă 176.96 Mbps cu o acoperire mediană de 146,78×, un scor N50 de 50.382 bps și un scor L50 de 772 (statisticile complete pentru proiectul de asamblare a genomului pot fi găsite în fișierul suplimentar 1). BUSCO ver. 4.0.526 a fost rulat pentru a evalua caracterul complet al genomului. Analiza proteinelor prezise față de metazoa_odb10 a avut ca rezultat un scor de completitudine de 94,2% (90,0% complet + 4,2% fragmentat).
Dimensiunea ansamblului reprezintă 78,67% din dimensiunea estimată a genomului (230 Mbps; http://genomesize.com). O adnotare în două treceri cu MAKER27 a avut ca rezultat 35.166 de proteine prezise cu 780 de variante de îmbinare. Folosind tRNAscan-SE28, a fost prezis un total de 429 de gene tRNA, precum și un număr suplimentar de 116 pseudogene. Un număr suplimentar de 535 de gene/motive de ARN necodificatoare au fost prezise cu ajutorul Infernal29, care a inclus 64 de gene de ARNr și 316 microARN. Conținutul repetitiv al genomului a fost estimat la 24,71% (14,43% repetiții intercalate și 10,28% repetiții simple) de către RepeatModeler30, cea mai abundentă unitate fiind neclasificată (6,14%). Toate fișierele de adnotare au fost depuse la https://doi.org/10.5281/zenodo.3555585 (ultima accesare: 20 ianuarie 2020). Lecturile brute, precum și secvențele asamblate au fost depuse în Arhiva Europeană de Nucleotide (ENA) sub accesoriul de studiu PRJEB35865.
Anticoagulantele de lipitori, numărul de copii și repetările în tandem
În total, în genomul Hirudo medicinalis au fost găsite produse genice care au prezentat rezultate BLASTp adecvate (superioare la 1E-5) față de 18 proteine bine caracterizate derivate din lipitori cu funcții legate de antihemostază (Tabelul 1). Printre acestea se numără eglin C, destabilaza I, ghilanten, inhibitorul de triptază derivat din lipitori (LDTI), guamerina, cistatina, hirudina, factorul 3 asemănător hirudinei, ficolina, inhibitorii de serin protează de tip Kazal (serpinele), lectina de tip C, manilaza, bdellina, piguamerina, antistasina, bdellastasina, lefaxina și un inhibitor al trombininei neidentificat. Tabelul 1 prezintă cele mai bune rezultate din genomul H. medicinalis, împreună cu rezultatele obținute în cele trei baze de date globale, numărul de copii al genei în tot genomul și prezența sau absența unei peptide semnal.
Șapte din cei 18 anticoagulanți putativi apar într-o singură copie în datele noastre (tabelul 1); rețineți că există încă o șansă ca mai multe copii să fie prezente în părțile nesecvențiate ale genomului. Acestea sunt piguamerina, hirudina, ghilantenul, factorul 3 asemănător hirudinei, LDTI, inhibitorul de trombină neidentificat și cistatina. Cel mai mare număr de copii (n = 7) a fost găsit pentru eglin C și destabilază; în timp ce copiile pentru prima păreau împrăștiate pe schele (cele șapte copii au apărut pe șase schele diferite), cea de-a doua includea trei copii pe aceeași schelă și o altă schelă cu două copii.
În timp ce majoritatea anticoagulanților vizați aici nu sunt poziționați adiacent unul față de celălalt în proiectul nostru de genom, următoarele proteine par să apară în matrice în tandem ca două sau mai multe copii: lectina de tip C (cu o conservare puternică a dimensiunilor exonilor și intronilor între copii), guamerina (cu o conservare redusă a dimensiunilor exonilor și intronilor între copii), inhibitorul serin proteazei de tip Kazal (cu o conservare redusă a dimensiunilor exonilor și intronilor între copii) și bdellina (cu dimensiuni ale exonilor relativ conservate, dar cu dimensiuni ale intronilor care diferă între copii). Mai mult, LDTI și toate cele trei copii în tandem ale bdellinei sunt adiacente între ele pe scheletul 209471.
Alte peptide bioactive
În plus față de rezultatele obținute împotriva factorilor de anticoagulare cunoscuți, derivați din lipitori, au fost recuperate 1.176 de rezultate pozitive împotriva a 227 de compuși bioactivi diferiți izolați din organisme care se hrănesc cu sânge în H. medicinalis; funcția și căile de acces pentru majoritatea acestora rămân necunoscute și, ca atare, ne vom concentra doar pe proteinele bioactive care nu provin de la lipitori și care s-au dovedit a fi implicate în anticoagulare. S-au obținut rezultate solide (superioare la 1E-5) pentru 23 de proteine diferite care afectează negativ cascada coagulării. Printre acestea se numără dezintegrina și metaloproteinaza cu motiv trombospondinic (ADAMTS), apiraza, inhibitorul serin-proteazei de tip Kunitz-, fibrinogenaza, crisoptina, bothrojaracina, oxidul nitric (vasodilatator), agglucetina, snaclec, metaloproteinaza hemoragică kaouthiagin, batroxstatina, inhibitor de trombină (de la căpușa Lone Star Amblyomma americanum), anexină, tabserină, proteină inhibitoare de trombină (de la Rhodnius prolixus), serin protează din venin de șarpe, chimotripsină, brasiliensină, catepsină B, dipetalogastină, achelază, halyxină și antitrombină-III (de la cobra rege Ophiophagus hannah). Fișierul suplimentar 2 prezintă rezultatele pentru aceste peptide, împreună cu rezultatele BLAST reciproce și predicția peptidei semnal. Mai multe dintre răspunsurile BLAST reciproce au fost date împotriva unor gene neanunțate (de exemplu, „proteină ipotetică” sau „proteină necaracterizată”) din genomul Helobdella robusta, astfel încât pot fi deduse puține informații cu privire la identitatea corespondențelor. Cu toate acestea, am evaluat, de asemenea, potrivirile inferioare (dar totuși superioare la 1E-5) față de genele bine anotabile din cele trei baze de date globale. După evaluarea tuturor informațiilor disponibile, numai următorii produse proteice nu au putut fi deduse în mod robust ca fiind prezente în genomul H. medicinalis (de ex, restul produselor proteice sunt toate prezente): crisoptina, oxidul nitric, inhibitorul de trombină (de la Amblyomma americanum), chimotripsina, dipelogastina și achelaza.
Similitudine de secvență și alinieri pe perechi
Care dintre proteinele legate de anticoagulare derivate din H. medicinalis au fost aliniate cu omologul lor arhetipal, iar alinierile sunt prezentate în Fig. 1 (pentru destabilază I, LDTI, hirudina și factorul 3 asemănător hirudinei și bdellina) și în Fișierul suplimentar 3 (pentru eglin C, ghilanten, guamerină, cistatină, ficolină, serpina de tip Kazal, lectina de tip C, manilaza, piguamerina, antistasina, bdellastasina și inhibitorul neidentificat al trombininhibitorului). Se remarcă faptul că secvența de H. medicinalis cu o potrivire față de lefaxină a găsit o potrivire mult superioară față de hemeritrină atunci când a fost comparată prin BLAST reciproc și nu a fost considerată în continuare un ortolog al lefaxinei.
Pentru destabilază I, secvența nou derivată prezintă o similitudine de 78% în pozițiile cu aminoacizi comuni (adică atunci când nu se numără lacunele) cu anticoagulantul cunoscut (număr de acces GenBank AAA9614431), care a fost, de asemenea, derivat inițial din Hirudo medicinalis. În plus, pozițiile tuturor celor 14 reziduuri de cisteină prezintă o conservare completă, sugerând o structură de pliere similară între proteine. Nu au fost întâlnite cazuri de indeli în aliniere (Fig. 1A).
În alinierea aminoacizilor pentru LDTI, incluzând noua secvență și secvența arhetipală derivată din Hirudo medicinalis (număr de acces GenBank AAB3376932), cele două secvențe prezintă o similaritate de secvență de 99% și o conservare completă a pozițiilor celor șase reziduuri de cisteină. Nu au fost întâlnite indeluri (Fig. 1B).
Ortologul hirudinei recent secvențiat prezintă o conservare aproape completă (similaritate de secvență 99,9%) în comparație cu secvența arhetipală (număr de acces GenBank APA208333333), derivată inițial din Hirudo verbana. În plus, pozițiile celor șase reziduuri de cisteină prezente în peptida matură sunt complet conservate (două cisteine sunt, de asemenea, conservate în regiunea peptidei semnal). Niciun eveniment indel nu a fost prezent în aliniere (Fig. 1C).
Secvența de bdellină recuperată din genomul H. medicinalis prezintă o similitudine de secvență de 99,2% cu secvența arhetipală (număr de acces GenBank P0986534) derivată inițial din H. medicinalis, iar pozițiile tuturor reziduurilor de cisteină (n = 6) sunt complet conservate. Nu au fost prezente indeluri în aliniere (Fig. 1D).
Pentru eglin C, noua secvență prezintă o similitudine de secvență de 99,9% în comparație cu secvența arhetipală (numărul de acces GenBank 0905140 A35). Nu sunt prezente reziduuri de cisteină în niciuna dintre secvențe și nu au fost prezente indeluri (Fișier suplimentar 3A).
Secvența ghilantină nou achiziționată prezintă o similitudine de secvență de numai 32% atunci când este comparată cu secvența arhetipală (număr de accesare GenBank AAB2123336) derivată din lipitoarea glossiphoniidă Haementeria ghilianii (de Filippi, 1849). Afinitatea scăzută dintre secvențe sugerează că este posibil ca acestea să nu fie secvențe ortologe. Cu toate acestea, noua secvență include 25 de reziduuri de cisteină în proteina matură, iar pozițiile a 17 dintre acestea sunt conservate în aliniere. Evenimentele indel au fost prezente în ambele secvențe, dintre care cel mai mare acoperă 25 de reziduuri (inserție în noua secvență sau deleție în secvența arhetipală), și au fost identificate doar șiruri scurte (maxim n = 3) de homopolimeri (Fișier suplimentar 3B).
Pentru guamerină, noua secvență prezintă o similitudine de secvență de 67% cu proteina arhetipală (număr de acces GenBank AAD0944237), care a fost derivată inițial din Hirudo nipponia Whitman, 1886. Pozițiile tuturor celor nouă reziduuri de cisteină prezente în aliniere sunt complet conservate. Nu au fost întâlnite evenimente indel (Fișier suplimentar 3C).
Noua secvență pentru cistatină prezintă o similitudine de 57% în comparație cu omologul său arhetipal (număr de acces GenBank AAN2867938), provenit de la glossifoniidul Theromyzon tessulatum (Müller, 1774); poziția singurului reziduu de cisteină este conservată între secvențe. Niciun eveniment indel nu a fost prezent în aliniere (Fișier suplimentar 3D).
Pentru ficolină, similaritatea secvenței este de 59% între pozițiile de aminoacizi partajate între noua noastră secvență și secvența arhetipală (valorificată din setul de date utilizat de Min et al.15), derivată din lipitoarea medicinală nord-americană Macrobdella decora (Say, 1824). Două din cele trei reziduuri de cisteină prezente în secvența derivată din M. decora sunt, de asemenea, prezente în aceeași poziție în noua secvență. O inserție destul de extinsă este prezentă în noua secvență (sau, alternativ, un eveniment de deleție în secvența arhetipală) și acoperă 27 de reziduuri de aminoacizi (Fișier suplimentar 3E).
Serpina de tip Kazal nou derivată prezintă o similitudine de secvență de numai 26 % pentru situsurile de aminoacizi comune în comparație cu secvența derivată din Macrobdella decora (din setul de date utilizat de Min et al.15). Dintre cele 13 reziduuri de cisteină prezente în secvența „arhetipală”, 12 prezintă poziții conservate în noua secvență. Indelurile scurte sunt prezente în ambele secvențe (Fișier suplimentar 3F).
Alinierea lectinei de tip C indică faptul că există o similitudine de secvență de 43% între noua secvență și comparația arhetipală derivată din M. decora (a se vedea15). Treisprezece reziduuri de cisteină există în secvența arhetipală, iar pozițiile pentru nouă dintre acestea sunt conservate în secvența nou dobândită. Trei deleții izolate, scurte, sunt prezente în secvența arhetipală (sau, alternativ, acestea reprezintă inserții în noua secvență) (Fișier suplimentar 3G).
Pentru manilaza, 83% din reziduurile de aminoacizi comune sunt identice între noua secvență și cea derivată dintr-o cerere de brevet american (nr. 2006 US 7.049.124 B1P09856) și extrasă din lipitoarea medicinală asiatică Hirudinaria manillensis Lesson, 1842. În mod notoriu, manilaza este complet lipsită de reziduuri de cisteină, la fel ca și secvența derivată din Hirudo medicinalis. O inserție/deleție este prezentă în mijlocul alinierii și se întinde pe 16 reziduuri (Fișier suplimentar 3H).
Pentru inhibitorul de tripsină piguamerină, produsul nostru genetic recent secvențiat prezintă o similitudine de 46% cu secvența arhetipală (număr de acces GenBank P8149939), derivată inițial din Hirudo nipponia. Secvența arhetipală include zece reziduuri de cisteină, iar șase dintre acestea se află în poziții conservate în noua secvență. În aliniere nu sunt prezente indeluri (Fișier suplimentar 3I).
Pentru antistasină, secvența derivată din specimenul nostru de H. medicinalis prezintă o similitudine de 36% cu secvența arhetipală (număr de acces GenBank P1535840) din Haementeria officinalis. În plus, poziția a 18 din cele 21 de cisteine prezente în secvența arhetipală este conservată între secvențe (Fișier suplimentar 3J).
Secvența noastră nou derivată în alinierea bdellastasinului arată o conservare aproape completă (99,9 % similaritate la situsurile de aminoacizi partajate) în comparație cu varianta arhetipală (număr de acces GenBank 1C9P41), de asemenea din Hirudo medicinalis. Pozițiile celor 10 cisteine sunt complet conservate între secvențe (Fișier suplimentar 3K).
Inhibitorul de trombină necunoscut care servește aici drept anticoagulant arhetipal a fost derivat inițial din piscicolidul Pontobdella macrothela (Schmarda, 1861) (a se vedea16) în urma unor rezultate pozitive pe bază de BLAST față de un inhibitor de trombină putativ din lipitoarea haemadipsidă Haemadipsa sylvestris Blanchard, 1894. Secvența noastră derivată din Hirudo medicinalis prezintă o similitudine de secvență de numai 28% în ceea ce privește situsurile de aminoacizi comune, însă pozițiile pentru șapte din cele opt reziduuri de cisteină prezente în secvența țintă sunt complet conservate în secvența nou achiziționată. În mod interesant, o inserție mare de 27 de aminoacizi este prezentă în mijlocul noii secvențe; alternativ, aceasta este o deleție în secvența arhetipală (fișier suplimentar 3L).
Arborii genetici
Pentru fiecare dintre cei 16 anticoagulanți putativi derivați din lipitori, descriem topologiile arborilor fără rădăcini folosind terminologia propusă de Wilkinson et al.42, în care un „clan” într-un arbore neînrădăcinat este potențial echivalent cu un grup monofiletic într-un arbore înrădăcinat, iar „grupul adiacent” este echivalent cu grupul înfrățit.
În arborele genetic pentru destabilază I (Fig. 2A), secvența nou achiziționată formează un clan, deși cu un suport destul de scăzut (suport bootstrap de probabilitate = 72%), cu secvența arhetipală și câteva variante recuperate din eforturile anterioare de secvențiere pentru Hirudo medicinalis31.
Pentru LDTI (Fig. 2B), noua secvență formează un clan (LBS = 100%) cu toate variantele arhetipale ale anticoagulantului – rețineți că lungimile ramurilor sunt foarte scurte sau zero în cadrul acestui grup de secvențe, ceea ce susține noțiunea de ortologie între acestea.
Secvența noastră recent derivată de hirudină formează, de asemenea, un clan cu două variante arhetipale ale inhibitorului de trombină (LBS = 97%) (Fig. 3A) derivate din lipitoarea hirudinidă Poecilobdella viridis (Blanchard, 1864) și Hirudo verbana. Din nou, lungimile ramurilor sunt neglijabile. Mai mult, arborele coroborează rezultatele BLAST pentru factorul 3 asemănător hirudinei, în măsura în care secvența noastră recent derivată din H. medicinalis formează un clan (LBS = 87%) cu secvența arhetipală derivată din Hirudo orientalis.
În arborele bdellin (Fig. 3B), noua secvență formează un clan, deși cu un suport scăzut, (LBS = 26%) cu secvența arhetipală, precum și cu variantele secvențiate anterior de la Hirudo nipponia, Hirudo medicinalis și Macrobdella decora. Lungimea ramurii dintre noua secvență și secvența arhetipală este foarte scurtă, ceea ce coroborează determinarea homologiei pe bază de similaritate (a se vedea mai sus).
Pentru eglin C, noua secvență formează un clan (LBS < 75%) cu varianta arhetipală; rețineți că identitatea la nivel de specie a lipitoarei de la care a fost derivată secvența arhetipală este necunoscută. În plus, clanul include o secvență provenită dintr-un efort separat de secvențiere pentru Hirudo medicinalis (nepublicată), iar lungimile ramurilor în cadrul acestui clan sunt foarte scurte sau zero (fișier suplimentar 4A).
În arborele construit din membrii familiei de anticoagulante antistasinice (Supplementary File 4B), secvența noastră „ghilanten” de la H. medicinalis formează un clan (LBS < 75%) cu alte trei secvențe de la Heptacyclus cf. viridus, Placobdella kwetlumye și Pontobdella macrothela. Acest clan este grupul adiacent unui clan care include secvența arhetipală pentru terostasină, precum și mai multe variante ale acestei gene de la diferite specii de lipitori. În schimb, secvența arhetipală pentru ghilanten formează un clan (cu o lungime de ramură foarte scurtă) cu secvența arhetipală a antistasinei, într-o secțiune foarte îndepărtată a arborelui neînrădăcinat. Ca atare, identitatea secvenței ghilanten nou derivate este încă discutabilă, dar pare rezonabil să se sugereze că aceasta aparține mai degrabă terostasinului decât ghilantenului. Atunci când este comparată direct cu therostasin (datele nu sunt prezentate), noua secvență arată 43%, ceea ce reprezintă o îmbunătățire de 11% în comparație cu alinierea cu ghilanten (a se vedea mai sus). Fiecare dintre proteinele rămase din familia antistasinelor din setul de date H. medicinalis formează clanuri cu anticoagulantul lor arhetipal respectiv. Pentru bdellastasin, piguamerin și guamerin, fiecare dintre secvențele nou derivate se cuibărește ca secvență adiacentă la variantele arhetipale. Pentru antistasin, secvența noastră se plasează într-un clan mai mare, incluzând secvențe din mai multe specii de lipitori, precum și variantele arhetipale atât ale ghilantinei, cât și ale antistasinului.
Pentru cistatină, doar trei secvențe comparative suplimentare au fost disponibile ca bază pentru matrice. În ciuda acestei sărăcii de date, noua secvență formează un clan (LBS < 75%) cu secvența arhetipală, iar lungimea ramurii este comparabilă cu cele pentru celelalte terminale (Fișier suplimentar 4C).
În timp ce pentru ficolină nu este disponibilă o secvență arhetipală, derivată din lipitori, noua noastră secvență formează un clan împreună cu o variantă derivată anterior (nepublicată) de la H. medicinalis (LBS = 100%), cu o lungime de ramură zero care separă secvențele (Fișier suplimentar 4D).
Arborele pentru inhibitorii de serin protează de tip Kazal (Fișier suplimentar 4E) este unul dintre puținele construite vreodată pentru secvențele de lipitori și acest lucru se manifestă atât prin lipsa variantelor arhetipale derivate din lipitori, cât și prin lipsa datelor comparative (doar patru secvențe alcătuiesc matricea). Noua noastră secvență formează un clan (LBS = 51%) cu o variantă derivată din Haemadipsa interrupta.
În arborele lectinei de tip C (fișier suplimentar 4F), secvența pentru prima potrivire formează un clan nesusținut (LBS < 75%) cu variante derivate din lipitoarea medicinală africană Aliolimnatis fenestrata și Hirudo medicinalis. Acest clan, la rândul său, este grupul adiacent al secvenței arhetipale.
Coroborând determinarea ortologică bazată pe similaritate, secvența noastră de manilază nou derivată formează un clan cu secvența arhetipală și cu alte două secvențe derivate din praobdellidele Limnobdella mexicana și Haemadipsa interrupta. Având în vedere această plasare și lungimea ramurii care duce la secvența noastră, există puține îndoieli că aceasta reprezintă un ortolog al manilazei (Fișier suplimentar 4G).
Consumate, rezultatele analizelor BLAST, ale alinierii și ale arborelui genic sugerează că fiecare dintre următoarele produse proteice derivate din lipitori sunt reprezentate în secvența H. medicinalis: eglin C, destabilază I, ghilanten, inhibitor de triptază derivat de lipitori (LDTI), guamerină, cistatină, hirudină, ficolină, inhibitori de serin-protează de tip Kazal (serpine), lectină de tip C, manilază, bdellină, piguamerină, antistasină, bdellastasină și un inhibitor de trombină neidentificat.
Leave a Reply