Progetto del genoma della sanguisuga medicinale europea Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) con enfasi su anticoagulanti

Statistiche di assemblaggio e analisi BUSCO

Il genoma draft di Hirudo medicinalis ROMIZI 11733 è stato assemblato a 19.929 scaffold spanning 176.96 Mbps con una copertura mediana di 146.78×, un punteggio N50 di 50.382 bps e un punteggio L50 di 772 (le statistiche complete per l’assemblaggio del genoma draft possono essere trovate nel file supplementare 1). BUSCO ver. 4.0.526 è stato eseguito per valutare la completezza del genoma. L’analisi delle proteine predette rispetto al metazoa_odb10 ha portato a un punteggio di completezza del 94,2% (90,0% completo + 4,2% frammentato).

La dimensione dell’assemblaggio rappresenta il 78,67% della dimensione stimata del genoma (230 Mbps; http://genomesize.com). Un’annotazione a due passaggi con MAKER27 ha dato come risultato 35.166 proteine predette con 780 varianti di splice. Utilizzando tRNAscan-SE28, un totale di 429 geni tRNA sono stati predetti, così come altri 116 pseudogeni. Altri 535 geni/motivi di RNA non codificanti sono stati predetti usando Infernal29, che includeva 64 geni rRNA e 316 microRNA. Il contenuto ripetitivo del genoma è stato stimato al 24,71% (14,43% ripetizioni intersperse e 10,28% semplici) da RepeatModeler30, con l’unità più abbondante non classificata (6,14%). Tutti i file di annotazione sono stati depositati presso https://doi.org/10.5281/zenodo.3555585 (ultimo accesso 20 gennaio 2020). Le letture grezze, così come le sequenze assemblate sono state depositate nell’European Nucleotide Archive (ENA) sotto l’adesione di studio PRJEB35865.

Anticoagulanti del faggio, numero di copie e ripetizioni tandem

In totale, sono stati trovati prodotti genici nel genoma di Hirudo medicinalis che hanno mostrato adeguati successi BLASTp (superiori a 1E-5) contro 18 proteine ben caratterizzate derivate dalle sanguisughe con funzioni legate all’antiemostasi (Tabella 1). Questi includono eglin C, destabilase I, ghilanten, leech-derived tryptase inhibitor (LDTI), guamerin, cystatin, hirudin, hirudin-like factor 3, ficolin, Kazal-type serine protease inhibitors (serpins), C-type lectin, manillase, bdellin, piguamerin, antistasin, bdellastasin, lefaxin e un trombinibitore non identificato. La tabella 1 mostra i principali risultati del genoma di H. medicinalis, insieme ai risultati contro i tre database globali, il numero di copie del gene in tutto il genoma e la presenza o assenza di un peptide di segnale.

Tabella 1 Proteine note, derivate dalle sanguisughe, correlate all’emostasi con alti punteggi di corrispondenza nel genoma di Hirudo medicinalis.

Sette dei 18 anticoagulanti putativi sono presenti in una singola copia nei nostri dati (Tabella 1); si noti che c’è ancora la possibilità che più copie siano presenti nelle parti non sequenziate del genoma. Questi sono piguamerin, hirudin, ghilanten, hirudin-like factor 3, LDTI, l’inibitore della trombina non identificato e la cistatina. Il più alto numero di copie (n = 7) è stato trovato per eglin C e destabilase; mentre le copie per la prima sembravano sparse attraverso le impalcature (le sette copie si sono verificate su sei impalcature diverse), la seconda comprendeva tre copie sulla stessa impalcatura e un’altra impalcatura con due copie.

Se la maggior parte degli anticoagulanti presi di mira qui non sono posizionati uno accanto all’altro nella nostra bozza di genoma, le seguenti proteine sembrano verificarsi in array tandem come due o più copie: Lectina di tipo C (con una forte conservazione delle dimensioni degli esoni e degli introni tra le copie), guamerina (con solo una bassa conservazione delle dimensioni degli esoni e degli introni tra le copie), inibitore della serina proteasi di tipo Kazal (con solo una bassa conservazione delle dimensioni degli esoni e degli introni tra le copie) e bdellina (con dimensioni degli esoni relativamente conservate, ma dimensioni degli introni diverse tra le copie). Inoltre, LDTI e tutte e tre le copie tandem di bdellin sono adiacenti l’una all’altra sull’impalcatura 209471.

Altri peptidi bioattivi

Oltre ai risultati contro i fattori di anticoagulazione noti e derivati dalle sanguisughe, nel genoma di H. medicinalis; la funzione e i percorsi per la maggior parte di questi sono ancora sconosciuti e, come tale, ci concentreremo solo sulle proteine bioattive non sanguisughe che hanno dimostrato di essere coinvolte nell’anticoagulazione. Sono stati recuperati robusti successi (superiori a 1E-5) contro 23 diverse proteine che influenzano negativamente la cascata della coagulazione. Queste includono una disintegrina e metalloproteinasi con un motivo trombospondina (ADAMTS), apirasi, inibitore della serina proteasi di tipo Kunitz, fibrinogenasi, crisopina, bothrojaracina, ossido nitrico (vasodilatatore), agglucetina, snaclec, metalloproteinasi emorragica kaouthiagin, batroxstatin, inibitore della trombina (dalla zecca Lone Star Amblyomma americanum), annexina, tabserin, proteina inibitrice della trombina (da Rhodnius prolixus), serina proteasi da veleno di serpente, chimotripsina, brasiliensina, catepsina B, dipetalogastina, achelasi, halyxin e antitrombina-III (dal cobra reale Ophiophagus hannah). Il file supplementare 2 mostra i successi per questi peptidi, insieme con i loro reciproci successi BLAST e la previsione del peptide del segnale. Molti dei risultati reciproci BLAST erano contro i geni non annotati (cioè, “proteina ipotetica” o “proteina non caratterizzata”) nel genoma Helobdella robusta, in modo che poche informazioni possono essere dedotte per quanto riguarda l’identità delle partite. Tuttavia, abbiamo anche valutato i risultati inferiori (ma ancora superiori a 1E-5) rispetto ai geni ben annotati nei tre database globali. Dopo aver valutato tutte le informazioni disponibili, solo i seguenti prodotti proteici non potevano essere dedotti in modo robusto per essere presenti nel genoma di H. medicinalis (cioè, i restanti prodotti proteici sono tutti presenti): crisoptin, ossido nitrico, inibitore della trombina (da Amblyomma americanum), chimotripsina, dipelogastina e achelasi.

Similitudine della sequenza e allineamenti a coppie

Ognuna delle proteine legate all’anticoagulazione derivate da H. medicinalis sono state allineate con la loro controparte archetipica, e gli allineamenti sono presentati in Fig. 1 (per destabilase I, LDTI, hirudin e hirudin-like factor 3, e bdellin) e nel file supplementare 3 (per eglin C, ghilanten, guamerin, cystatin, ficolin, la serpina di tipo Kazal, lectina di tipo C, manillase, piguamerin, antistasin, bdellastasin e il trombinibitore non identificato). Si noti che la sequenza di H. medicinalis con un hit contro la lefaxina ha trovato un hit di gran lunga superiore contro l’emeritrina quando reciprocamente BLASTed e non è stato ulteriormente considerato un ortologo di lefaxina.

Figura 1
figura1

Allineamenti di aminoacidi basati su MAFFT degli ortologhi anticoagulanti putativi derivati dal genoma di Hirudo medicinalis e i rispettivi top BLASTp hits. (A) putativo destabilase I da H. medicinalis allineato con la sequenza nota della proteina bioattiva salivare (GenBank accession numero AAA96144); (B) putativo Leech Derived Tryptase Inhibitor (LDTI) da H. medicinalis allineato con la sequenza nota della proteina bioattiva salivare (GenBank accession numero AAB33769); (C) putativo hirudin (HV1) da H. medicinalis allineato con la sequenza nota della proteina bioattiva salivare (numero di adesione GenBank APA20833); (D) bdellin putativo da H. medicinalis allineato con la sequenza nota della proteina bioattiva salivare (numero di adesione GenBank P09865). Le caselle rosse denotano i residui di cisteina conservati e le ombreggiature blu rappresentano la conservazione dei residui tra le sequenze.

Per la destabilasi I, la sequenza appena derivata mostra il 78% di somiglianza nelle posizioni con aminoacidi condivisi (cioè, quando le lacune non sono contate) con l’anticoagulante noto (numero di accesso GenBank AAA9614431), che è stato anche originariamente derivato da Hirudo medicinalis. Inoltre, le posizioni di tutti i 14 residui di cisteina mostrano una conservazione completa, suggerendo una struttura di ripiegamento simile tra le proteine. Nessun caso di indelebilità è stato riscontrato nell’allineamento (Fig. 1A).

Nell’allineamento degli aminoacidi per LDTI, compresa la nuova sequenza e la sequenza archetipo derivata da Hirudo medicinalis (numero di accesso GenBank AAB3376932), le due sequenze mostrano il 99% di somiglianza di sequenza e piena conservazione delle posizioni dei sei residui di cisteina. Non sono stati riscontrati indel (Fig. 1B).

L’ortologo della hirudina sequenziato di recente mostra una conservazione quasi completa (somiglianza di sequenza 99,9%) rispetto alla sequenza archetipo (GenBank accession number APA2083333), originariamente derivata da Hirudo verbana. Inoltre, le posizioni dei sei residui di cisteina presenti nel peptide maturo sono completamente conservate (due cisteine sono conservate anche nella regione del peptide segnale). Nessun evento indel era presente nell’allineamento (Fig. 1C).

La sequenza bdellin recuperato dal genoma H. medicinalis mostra il 99,2% di somiglianza di sequenza con la sequenza archetipo (GenBank accession number P0986534) originariamente derivato da H. medicinalis, e le posizioni di tutti i residui di cisteina (n = 6) sono completamente conservati. Nessun indel era presente nell’allineamento (Fig. 1D).

Per eglin C, la nuova sequenza mostra il 99,9% di somiglianza di sequenza se confrontata con la sequenza archetipo (GenBank accession number 0905140 A35). Nessun residuo di cisteina è presente in entrambe le sequenze e non ci sono indel (File supplementare 3A).

La nuova sequenza acquisita di ghilanten mostra solo il 32% di somiglianza di sequenza rispetto alla sequenza archetipo (GenBank accession number AAB2123336) derivata dalla sanguisuga glossiphoniid Haementeria ghilianii (de Filippi, 1849). La bassa affinità tra le sequenze suggerisce che queste potrebbero non essere sequenze ortologhe. Indipendentemente da ciò, la nuova sequenza include 25 residui di cisteina nella proteina matura e le posizioni di 17 di questi sono conservate nell’allineamento. Eventi indel erano presenti in entrambe le sequenze, il più grande dei quali copre 25 residui (inserimento nella nuova sequenza o delezione nella sequenza archetipo), e solo brevi stringhe (massimo di n = 3) di omopolimeri sono stati identificati (File supplementare 3B).

Per la guamerina, la nuova sequenza mostra il 67% di somiglianza di sequenza con la proteina archetipo (GenBank accession number AAD0944237), che è stato originariamente derivato da Hirudo nipponia Whitman, 1886. Le posizioni di tutti i nove residui di cisteina presenti nell’allineamento sono completamente conservate. Non sono stati riscontrati eventi indel (File supplementare 3C).

La nuova sequenza per la cistatina mostra il 57% di similarità rispetto alla sua controparte archetipica (numero di accesso GenBank AAN2867938), dal glossiphoniide Theromyzon tessulatum (Müller, 1774); la posizione del singolo residuo di cisteina è conservata tra le sequenze. Nessun evento indel era presente nell’allineamento (Supplementary File 3D).

Per la ficolina, la somiglianza di sequenza è del 59% tra le posizioni di aminoacidi condivise tra la nostra nuova sequenza e la sequenza archetipo (ricavata dal dataset usato da Min et al.15), derivata dalla sanguisuga medicinale nordamericana Macrobdella decora (Say, 1824). Due dei tre residui di cisteina presenti nella sequenza derivata da M. decora sono presenti nella stessa posizione anche nella nuova sequenza. Un’inserzione piuttosto estesa è presente nella nuova sequenza (o, in alternativa, un evento di delezione nella sequenza archetipica) e copre 27 residui di aminoacidi (File supplementare 3E).

La serpina di tipo Kazal di nuova derivazione mostra solo il 26% di similarità di sequenza per i siti di aminoacidi condivisi se confrontata con la sequenza derivata da Macrobdella decora (dal dataset utilizzato da Min et al.15). Dei 13 residui di cisteina presenti nella sequenza “archetipo”, 12 mostrano posizioni conservate nella nuova sequenza. Brevi indel sono presenti in entrambe le sequenze (File supplementare 3F).

L’allineamento della lectina di tipo C indica che il 43% di similarità di sequenza esiste tra la nuova sequenza e il confronto archetipo derivato da M. decora (vedi15). Tredici residui di cisteina esistono nella sequenza archetipica e le posizioni per nove di questi sono conservate nella sequenza appena acquisita. Tre isolate, brevi delezioni sono presenti nella sequenza archetipica (o, in alternativa, queste rappresentano inserzioni nella nuova sequenza) (Supplementary File 3G).

Per la manillasi, l’83% dei residui aminoacidici condivisi sono identici tra la nuova sequenza e quella derivata da una domanda di brevetto USA (n. 2006 US 7.049.124 B1P09856) ed estratta dalla sanguisuga medicinale asiatica Hirudinaria manillensis Lesson, 1842. Notoriamente, la manillasi è completamente priva di residui di cisteina, e così la sequenza derivata da Hirudo medicinalis. Un’inserzione/cancellazione è presente nel mezzo dell’allineamento e si estende su 16 residui (File supplementare 3H).

Per l’inibitore della tripsina piguamerina, il nostro prodotto genico appena sequenziato mostra il 46% di somiglianza con la sequenza archetipo (numero di accesso GenBank P8149939), originariamente derivata da Hirudo nipponia. La sequenza archetipica include dieci residui di cisteina e sei di questi sono in posizioni conservate nella nuova sequenza. Nessun indel è presente nell’allineamento (File supplementare 3I).

Per l’antistasina, la sequenza derivata dal nostro esemplare di H. medicinalis mostra il 36% di somiglianza con la sequenza archetipo (numero di accesso GenBank P1535840) da Haementeria officinalis. Inoltre, la posizione di 18 delle 21 cisteine presenti nella sequenza archetipica sono conservate tra le sequenze (File supplementare 3J).

La nostra nuova sequenza derivata nell’allineamento della bdellastasina mostra una conservazione quasi completa (99,9% di somiglianza nei siti aminoacidici condivisi) rispetto alla variante archetipica (numero di accesso GenBank 1C9P41), anche da Hirudo medicinalis. Le posizioni delle 10 cisteine sono completamente conservate tra le sequenze (File supplementare 3K).

L’inibitore della trombina sconosciuto che qui serve come anticoagulante archetipo è stato originariamente derivato dal piscicolidio Pontobdella macrothela (Schmarda, 1861) (vedi16) a seguito di BLAST-based hits contro un inibitore putativo della trombina dalla sanguisuga emadipide Haemadipsa sylvestris Blanchard, 1894. La nostra sequenza Hirudo medicinalis-derivata mostra solo il 28% di somiglianza di sequenza per i siti aminoacidici condivisi, ma le posizioni per sette degli otto residui di cisteina presenti nella sequenza target sono completamente conservate nella sequenza appena acquisita. È interessante notare che una grande inserzione di 27 aminoacidi è presente nel mezzo della nuova sequenza; in alternativa, questa è una delezione nella sequenza archetipo (File supplementare 3L).

Alberi genetici

Per ciascuno dei 16 anticoagulanti putativi derivati dalle sanguisughe, descriviamo le topologie degli alberi senza radici usando la terminologia proposta da Wilkinson et al.42, in cui un “clan” in un albero senza radici è potenzialmente equivalente a un gruppo monofiletico in un albero radicato e “gruppo adiacente” è equivalente a gruppo sorella.

Nell’albero gene per destabilase I (Fig. 2A), la sequenza appena acquisita forma un clan, anche se con supporto piuttosto basso (probabilità supporto bootstrap = 72%), con la sequenza archetipo e diverse varianti recuperate da precedenti sforzi di sequenziamento per Hirudo medicinalis31.

Figura 2
figura2

Ipotesi filogenetiche risultanti dalle analisi di massima verosimiglianza di un insieme di ortologhi putativi per ogni anticoagulante o famiglia anticoagulante. (A) Destabilase I (ln L = -3340.015305); (B) LDTI (ln L = -640.341632). Le sfumature verdi indicano il clan più piccolo che include sia la sequenza di nuova derivazione che la variante archetipica dell’anticoagulante.

Per LDTI (Fig. 2B), la nuova sequenza forma un clan (LBS = 100%) con tutte le varianti archetipiche dell’anticoagulante – si noti che le lunghezze dei rami sono molto brevi o nulle all’interno di questo gruppo di sequenze, sostenendo la nozione di ortologia tra loro.

La nostra sequenza di hirudina appena derivata forma anche un clan con due varianti archetipiche dell’inibitore della trombina (LBS = 97%) (Fig. 3A) derivate dalla sanguisuga hirudinid Poecilobdella viridis (Blanchard, 1864) e Hirudo verbana. Anche in questo caso, le lunghezze dei rami sono trascurabili. Inoltre, l’albero conferma i risultati BLAST per il fattore 3 simile all’irudina, in quanto la nostra sequenza appena derivata da H. medicinalis forma un clan (LBS = 87%) con la sequenza archetipo derivata da Hirudo orientalis.

Figura 3
figura3

Ipotesi filogenetiche risultanti dalle analisi di massima verosimiglianza di un insieme di ortologhi putativi per ogni anticoagulante o famiglia anticoagulante. (A) Hirudin (ln L = -4750.252905); (B) bdellin (ln L = -1771.698797). I toni verdi indicano il clan più piccolo che include sia la sequenza appena derivata che la variante archetipica dell’anticoagulante.

Nell’albero della bdellina (Fig. 3B), la nuova sequenza forma un clan, anche se con basso supporto, (LBS = 26%) con la sequenza archetipica, così come le varianti precedentemente sequenziate da Hirudo nipponia, Hirudo medicinalis e Macrobdella decora. La lunghezza del ramo tra la nuova sequenza e la sequenza archetipo è molto breve, corroborando la determinazione dell’omologia basata sulla somiglianza (vedi sopra).

Per eglin C, la nuova sequenza forma un clan (LBS < 75%) con la variante archetipo; si noti che l’identità a livello di specie della sanguisuga da cui è stata derivata la sequenza archetipo è sconosciuta. Inoltre, il clan include una sequenza da uno sforzo di sequenziamento separato per Hirudo medicinalis (non pubblicato), e le lunghezze dei rami all’interno di questo clan sono molto brevi o nulle (File supplementare 4A).

Nell’albero costruito dai membri della famiglia degli anticoagulanti antistasin (File supplementare 4B), la nostra sequenza “ghilanten” di H. medicinalis forma un clan (LBS < 75%) con altre tre sequenze di Heptacyclus cf. viridus, Placobdella kwetlumye e Pontobdella macrothela. Questo clan è il gruppo adiacente ad un clan che include la sequenza archetipica per la therostasina, così come diverse varianti di questo gene da varie specie di sanguisughe. Al contrario, la sequenza archetipica per ghilanten forma un clan (con una lunghezza del ramo molto breve) con la sequenza archetipica di antistasina, in una sezione molto lontana dell’albero senza radici. Come tale, l’identità della sequenza di ghilanten appena derivata è ancora discutibile, ma sembra ragionevole suggerire che appartenga alla therostasin, piuttosto che a ghilanten. Se confrontata direttamente con la therostasin (dati non mostrati), la nuova sequenza mostra il 43%, che è un miglioramento dell’11% rispetto all’allineamento con ghilanten (vedi sopra). Ciascuna delle restanti proteine della famiglia antistasina nel set di dati di H. medicinalis forma dei clan con il loro rispettivo anticoagulante archetipo. Per bdellastasin, piguamerin e guamerin, ciascuna delle nuove sequenze derivate si annida come sequenza adiacente alle varianti archetipiche. Per l’antistasina, la nostra sequenza si colloca in un clan più grande, che include sequenze da diverse specie di sanguisughe, così come le varianti archetipiche sia di ghilanten che di antistasina.

Per la cistatina, solo tre sequenze aggiuntive e comparative erano disponibili come base della matrice. Nonostante questa scarsità di dati, la nuova sequenza forma un clan (LBS < 75%) con la sequenza archetipo e la lunghezza del ramo è paragonabile a quella degli altri terminali (File supplementare 4C).

Se per la ficolina non è disponibile una sequenza archetipo, derivata dalle sanguisughe, la nostra nuova sequenza forma un clan insieme a una variante precedentemente derivata (non pubblicata) da H. medicinalis (LBS = 100%). medicinalis (LBS = 100%), con zero lunghezza del ramo che separa le sequenze (File supplementare 4D).

L’albero per gli inibitori della serina proteasi di tipo Kazal (File supplementare 4E) è uno dei pochi mai costruiti per sequenze di sanguisughe e questo si manifesta sia nella mancanza di varianti archetipiche derivate da sanguisughe che nella mancanza di dati comparativi (solo quattro sequenze compongono la matrice). La nostra nuova sequenza forma un clan (LBS = 51%) con una variante derivata da Haemadipsa interrupta.

Nell’albero della lectina di tipo C (File supplementare 4F), la sequenza per il top hit forma un clan non supportato (LBS < 75%) con varianti derivate dalla sanguisuga medica africana Aliolimnatis fenestrata e Hirudo medicinalis. Questo clan, a sua volta, è il gruppo adiacente della sequenza archetipo.

Corroborando la determinazione dell’ortologia basata sulla somiglianza, la nostra sequenza di manillasi appena derivata forma un clan con la sequenza archetipo e altre due sequenze derivate dai praobdellidi Limnobdella mexicana e Haemadipsa interrupta. Data questa collocazione e la lunghezza del ramo che porta alla nostra sequenza, ci sono pochi dubbi che essa rappresenti un ortologo della manillasi (File supplementare 4G).

Insieme, i risultati delle analisi BLAST, dell’allineamento e dell’albero genico suggeriscono che ciascuno dei seguenti prodotti proteici derivati dalle sanguisughe è rappresentato nel genoma di H. medicinalis: eglin C, destabilase I, ghilanten, leech-derived tryptase inhibitor (LDTI), guamerin, cystatin, hirudin, ficolin, Kazal-type serine protease inhibitors (serpins), C-type lectin, manillase, bdellin, piguamerin, antistasin, bdellastasin e un non identificato thrombininhibitor.

Leave a Reply