Entwurf des Genoms des europäischen medizinischen Blutegels Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) mit Schwerpunkt auf Antikoagulantien
Assemblierungsstatistiken und BUSCO-Analyse
Der Genomentwurf von Hirudo medicinalis ROMIZI 11733 wurde zu 19.929 Gerüsten assembliert, die 176.96 Mbps mit einer medianen Abdeckung von 146,78×, einem N50-Score von 50.382 bps und einem L50-Score von 772 (vollständige Statistiken für den Genom-Entwurf finden sich in Supplementary File 1). BUSCO ver. 4.0.526 wurde ausgeführt, um die Vollständigkeit des Genoms zu bewerten. Die Analyse der vorhergesagten Proteine im Vergleich zur metazoa_odb10 ergab einen Vollständigkeitsgrad von 94,2 % (90,0 % vollständig + 4,2 % fragmentiert).
Die Assemblierungsgröße entspricht 78,67 % der geschätzten Genomgröße (230 Mbps; http://genomesize.com). Eine Annotation in zwei Durchgängen mit MAKER27 führte zu 35.166 vorhergesagten Proteinen mit 780 Spleißvarianten. Mit tRNAscan-SE28 wurden insgesamt 429 tRNA-Gene sowie weitere 116 Pseudogene vorhergesagt. Weitere 535 nicht codierende RNA-Gene/Motive wurden mit Infernal29 vorhergesagt, darunter 64 rRNA-Gene und 316 microRNAs. Der Gehalt an Wiederholungen im Genom wurde mit RepeatModeler30 auf 24,71 % geschätzt (14,43 % durchsetzte und 10,28 % einfache Wiederholungen), wobei die häufigste Einheit unklassifiziert ist (6,14 %). Alle Annotationsdateien wurden unter https://doi.org/10.5281/zenodo.3555585 hinterlegt (letzter Zugriff am 20. Januar 2020). Die Rohdaten sowie die assemblierten Sequenzen wurden im European Nucleotide Archive (ENA) unter dem Studienzugang PRJEB35865 hinterlegt.
Blutegel-Antikoagulanzien, Kopienzahl und Tandem-Repeats
Insgesamt wurden im Hirudo medicinalis-Genom Genprodukte gefunden, die ausreichende BLASTp-Treffer (über 1E-5) gegen 18 gut charakterisierte, von Blutegeln stammende Proteine mit Funktionen im Zusammenhang mit der Anti-Hämostase aufwiesen (Tabelle 1). Dazu gehören Eglin C, Destabilase I, Ghilanten, der aus Blutegeln gewonnene Tryptase-Inhibitor (LDTI), Guamerin, Cystatin, Hirudin, Hirudin-ähnlicher Faktor 3, Ficolin, Serinprotease-Inhibitoren vom Kazal-Typ (Serpine), C-Typ-Lectin, Manillase, Bdellin, Piguamerin, Antistasin, Bdellastasin, Lefaxin und ein nicht identifizierter Thrombininhibitor. Tabelle 1 zeigt die Top-Treffer aus dem Genom von H. medicinalis, zusammen mit den Treffern in den drei globalen Datenbanken, der Kopienzahl des Gens im gesamten Genom und dem Vorhandensein oder Fehlen eines Signalpeptids.
Sieben der 18 mutmaßlichen Antikoagulantien kommen in unseren Daten in einer einzigen Kopie vor (Tabelle 1); es besteht jedoch die Möglichkeit, dass in den nicht sequenzierten Teilen des Genoms noch weitere Kopien vorhanden sind. Dabei handelt es sich um Piguamerin, Hirudin, Ghilanten, Hirudin-ähnlichen Faktor 3, LDTI, den nicht identifizierten Thrombin-Inhibitor und Cystatin. Die höchste Kopienzahl (n = 7) wurde für Eglin C und Destabilase gefunden; während die Kopien für ersteres über die Gerüste verstreut zu sein schienen (die sieben Kopien kamen auf sechs verschiedenen Gerüsten vor), umfasste letzteres drei Kopien auf demselben Gerüst und ein weiteres Gerüst mit zwei Kopien.
Während die meisten der hier anvisierten Antikoagulanzien in unserem Genomentwurf nicht nebeneinander liegen, scheinen die folgenden Proteine in Tandem-Anordnungen als zwei oder mehr Kopien aufzutreten: C-Typ-Lectin (mit starker Erhaltung der Exon- und Intron-Größen zwischen den Kopien), Guamerin (mit nur geringer Erhaltung der Exon- und Intron-Größen zwischen den Kopien), Serinprotease-Inhibitor vom Kazal-Typ (mit nur geringer Erhaltung der Exon- und Intron-Größen zwischen den Kopien) und Bdellin (mit relativ konservierten Exon-Größen, aber unterschiedlichen Intron-Größen zwischen den Kopien). Außerdem liegen LDTI und drei Tandemkopien von Bdellin auf dem Gerüst 209471 nebeneinander.
Andere bioaktive Peptide
Zusätzlich zu den Treffern gegen bekannte, von Blutegeln stammende Antikoagulationsfaktoren wurden im H. medicinalis-Genom 1.176 Treffer gegen 227 verschiedene bioaktive Verbindungen gefunden, die aus blutfressenden Organismen isoliert wurden. medicinalis-Genom gefunden; die Funktion und die Wege für die meisten von ihnen sind nach wie vor unbekannt, so dass wir uns hier nur auf die bioaktiven Proteine konzentrieren, die keine Egel sind und die nachweislich an der Antikoagulation beteiligt sind. Für 23 verschiedene Proteine, die sich negativ auf die Gerinnungskaskade auswirken, wurden robuste Treffer (besser als 1E-5) gefunden. Dazu gehören eine Desintegrin- und Metalloproteinase mit Thrombospondin-Motiv (ADAMTS), Apyrase, Serinproteaseinhibitor vom Kunitz-Typ, Fibrinogenase, Chrysoptin, Bothrojaracin, Stickstoffmonoxid (Vasodilatator), Agglucetin, Snaclec, hämorrhagische Metalloproteinase Kaouthiagin, Batroxstatin, Thrombininhibitor (aus der Lone Star Zecke Amblyomma americanum), Annexin, Tabserin, Thrombininhibitorprotein (aus Rhodnius prolixus), Schlangengift-Serinprotease, Chymotrypsin, Brasiliensin, Cathepsin B, Dipetalogastin, Achelase, Halyxin und Antithrombin-III (aus der Königskobra Ophiophagus hannah). Ergänzungsdatei 2 zeigt die Treffer für diese Peptide, zusammen mit ihren reziproken BLAST-Treffern und der Signalpeptidvorhersage. Mehrere der reziproken BLAST-Treffer waren gegen nicht annotierte (d. h. „hypothetisches Protein“ oder „uncharakterisiertes Protein“) Gene im Genom von Helobdella robusta, so dass nur wenige Informationen über die Identität der Übereinstimmungen abgeleitet werden können. Wir haben jedoch auch weniger gute Treffer (aber immer noch mehr als 1E-5) mit gut annotierten Genen in den drei globalen Datenbanken verglichen. Nach Auswertung aller verfügbaren Informationen konnte nur bei den folgenden Proteinprodukten nicht sicher auf ein Vorhandensein im H. medicinalis-Genom geschlossen werden (d. h., die übrigen Proteinprodukte sind alle vorhanden): Chrysoptin, Stickstoffmonoxid, Thrombininhibitor (aus Amblyomma americanum), Chymotrypsin, Dipelogastin und Achelase.
Sequenzähnlichkeit und paarweise Alignments
Jedes der gerinnungshemmenden Proteine aus H. medicinalis wurde mit seinem Archipel abgeglichen. medicinalis abgeleiteten gerinnungshemmenden Proteine wurden mit ihrem archetypischen Gegenstück abgeglichen, und die Abgleiche sind in Abb. 1 (für Destabilase I, LDTI, Hirudin und Hirudin-ähnlicher Faktor 3 und Bdellin) und in der ergänzenden Datei 3 (für Eglin C, Ghilanten, Guamerin, Cystatin, Ficolin, den Kazal-Typ-Serpin, C-Typ-Lektin, Manillase, Piguamerin, Antistasin, Bdellastasin und den nicht identifizierten Thrombininhibitor) dargestellt. Man beachte, dass die H. medicinalis-Sequenz mit einem Treffer gegen Lefaxin beim reziproken BLAST einen weitaus besseren Treffer gegen Hemerythrin fand und nicht weiter als Ortholog von Lefaxin betrachtet wurde.
Für die Destabilase I zeigt die neu abgeleitete Sequenz eine 78%ige Ähnlichkeit in Positionen mit gemeinsamen Aminosäuren (d.h., wenn Lücken nicht mitgezählt werden) mit dem bekannten Antikoagulans (GenBank-Hinterlegungsnummer AAA9614431), das ebenfalls ursprünglich aus Hirudo medicinalis stammt. Darüber hinaus sind die Positionen aller 14 Cysteinreste vollständig konserviert, was auf eine ähnliche Faltungsstruktur der Proteine hindeutet. Im Alignment wurden keine Indels gefunden (Abb. 1A).
Im Aminosäure-Alignment für LDTI, einschließlich der neuen Sequenz und der archetypischen Sequenz aus Hirudo medicinalis (GenBank-Zugangsnummer AAB3376932), zeigen die beiden Sequenzen 99 % Sequenzähnlichkeit und eine vollständige Erhaltung der Positionen der sechs Cysteinreste. Es wurden keine Indels gefunden (Abb. 1B).
Das neu sequenzierte Hirudin-Ortholog zeigt eine fast vollständige Erhaltung (Sequenzähnlichkeit 99,9 %) im Vergleich zur archetypischen Sequenz (GenBank-Hinterlegungsnummer APA2083333), die ursprünglich von Hirudo verbana stammt. Darüber hinaus sind die Positionen der sechs Cysteinreste im reifen Peptid vollständig konserviert (zwei Cysteine sind auch in der Signalpeptidregion konserviert). Das Alignment enthielt keine Indel-Ereignisse (Abb. 1C).
Die aus dem Genom von H. medicinalis gewonnene Bdellin-Sequenz weist eine Sequenzähnlichkeit von 99,2 % mit der ursprünglich aus H. medicinalis stammenden archetypischen Sequenz (GenBank-Hinterlegungsnummer P0986534) auf, und die Positionen aller Cysteinreste (n = 6) sind vollständig konserviert. Im Alignment waren keine Indels vorhanden (Abb. 1D).
Für Eglin C zeigt die neue Sequenz 99,9 % Sequenzähnlichkeit im Vergleich zur Ursequenz (GenBank-Hinterlegungsnummer 0905140 A35). In beiden Sequenzen sind keine Cysteinreste vorhanden, und es wurden keine Indels gefunden (Supplementary File 3A).
Die neu erworbene Ghilanten-Sequenz zeigt nur 32 % Sequenzähnlichkeit im Vergleich zur archetypischen Sequenz (GenBank-Hinterlegungsnummer AAB2123336), die von dem glossiphoniiden Blutegel Haementeria ghilianii (de Filippi, 1849) stammt. Die geringe Affinität zwischen den Sequenzen deutet darauf hin, dass es sich möglicherweise nicht um orthologe Sequenzen handelt. Unabhängig davon enthält die neue Sequenz 25 Cysteinreste im reifen Protein, und die Positionen von 17 dieser Reste sind im Alignment konserviert. In beiden Sequenzen gab es Indel-Ereignisse, von denen das größte 25 Reste umfasst (Insertion in der neuen Sequenz oder Deletion in der archetypischen Sequenz), und es wurden nur kurze Stränge (maximal n = 3) von Homopolymeren identifiziert (Supplementary File 3B).
Für Guamerin zeigt die neue Sequenz 67 % Sequenzähnlichkeit mit dem archetypischen Protein (GenBank-Zugangsnummer AAD0944237), das ursprünglich aus Hirudo nipponia Whitman, 1886, stammt. Die Positionen aller neun Cysteinreste im Alignment sind vollständig konserviert. Es wurden keine Indel-Ereignisse gefunden (Supplementary File 3C).
Die neue Sequenz für Cystatin zeigt 57 % Ähnlichkeit im Vergleich zu seinem archetypischen Gegenstück (GenBank-Zugangsnummer AAN2867938) aus dem Glossiphoniiden Theromyzon tessulatum (Müller, 1774); die Position des einzelnen Cystein-Rests ist zwischen den Sequenzen konserviert. Es gab keine Indel-Ereignisse im Alignment (Supplementary File 3D).
Für Ficolin beträgt die Sequenzähnlichkeit 59 % zwischen gemeinsamen Aminosäurepositionen zwischen unserer neuen Sequenz und der archetypischen Sequenz (aus dem von Min et al.15 verwendeten Datensatz), die aus dem nordamerikanischen medizinischen Blutegel Macrobdella decora (Say, 1824) stammt. Zwei der drei Cysteinreste, die in der von M. decora stammenden Sequenz vorhanden sind, befinden sich auch in der neuen Sequenz an der gleichen Stelle. In der neuen Sequenz ist eine ziemlich umfangreiche Insertion vorhanden (oder alternativ ein Deletionsereignis in der archetypischen Sequenz), die 27 Aminosäurereste umfasst (Ergänzungsdatei 3E).
Das neu abgeleitete Serpin vom Kazal-Typ zeigt nur 26 % Sequenzähnlichkeit für gemeinsame Aminosäurestellen im Vergleich zu der von Macrobdella decora abgeleiteten Sequenz (aus dem von Min et al.15 verwendeten Datensatz). Von den 13 Cysteinresten in der „archetypischen“ Sequenz weisen 12 konservierte Positionen in der neuen Sequenz auf. Kurze Indels sind in beiden Sequenzen vorhanden (Supplementary File 3F).
Das C-Typ Lectin Alignment zeigt, dass 43% Sequenzähnlichkeit zwischen der neuen Sequenz und dem archetypischen Vergleich aus M. decora besteht (siehe15). Dreizehn Cysteinreste sind in der archetypischen Sequenz vorhanden, und die Positionen von neun dieser Reste sind in der neu erworbenen Sequenz konserviert. Drei isolierte, kurze Deletionen sind in der archetypischen Sequenz vorhanden (oder stellen alternativ Insertionen in der neuen Sequenz dar) (Supplementary File 3G).
Für Manillase sind 83 % der gemeinsamen Aminosäurereste zwischen der neuen Sequenz und der aus einer US-Patentanmeldung (Nr. 2006 US 7.049.124 B1P09856) abgeleiteten Sequenz identisch, die aus dem asiatischen medizinischen Blutegel Hirudinaria manillensis Lesson, 1842, gewonnen wurde. Manillase ist bekanntlich völlig frei von Cysteinresten, so auch die aus Hirudo medicinalis gewonnene Sequenz. In der Mitte des Alignments befindet sich eine Insertion/Deletion, die sich über 16 Reste erstreckt (Supplementary File 3H).
Für den Trypsininhibitor Piguamerin zeigt unser neu sequenziertes Genprodukt 46 % Ähnlichkeit mit der archetypischen Sequenz (GenBank-Zugangsnummer P8149939), die ursprünglich von Hirudo nipponia stammt. Die Ursequenz enthält zehn Cysteinreste, von denen sich sechs in der neuen Sequenz an konservierten Positionen befinden. Im Alignment sind keine Indels vorhanden (Supplementary File 3I).
Für Antistasin zeigt die von unserem Exemplar von H. medicinalis abgeleitete Sequenz eine 36%ige Ähnlichkeit mit der archetypischen Sequenz (GenBank-Hinterlegungsnummer P1535840) aus Haementeria officinalis. Darüber hinaus ist die Position von 18 der 21 Cysteine in der Ursequenz zwischen den Sequenzen konserviert (Supplementary File 3J).
Unsere neu abgeleitete Sequenz im bdellastasin-Alignment zeigt fast vollständige Konservierung (99,9 % Ähnlichkeit an gemeinsamen Aminosäurestellen) im Vergleich zur Urvariante (GenBank-Zugangsnummer 1C9P41), ebenfalls aus Hirudo medicinalis. Die Positionen der 10 Cysteine sind zwischen den Sequenzen vollständig konserviert (Supplementary File 3K).
Der unbekannte Thrombininhibitor, der hier als archetypisches Antikoagulans dient, wurde ursprünglich aus dem Piscicolid Pontobdella macrothela (Schmarda, 1861) (siehe16) nach BLAST-basierten Treffern gegen einen mutmaßlichen Thrombininhibitor aus dem Blutegel Haemadipsa sylvestris Blanchard, 1894 abgeleitet. Unsere von Hirudo medicinalis abgeleitete Sequenz weist nur 28 % Sequenzähnlichkeit für gemeinsame Aminosäurestellen auf, aber die Positionen für sieben der acht Cysteinreste in der Zielsequenz sind in der neu erworbenen Sequenz vollständig konserviert. Interessanterweise befindet sich in der Mitte der neuen Sequenz eine große Insertion von 27 Aminosäuren; alternativ dazu handelt es sich um eine Deletion in der Ursequenz (Ergänzungsdatei 3L).
Genbäume
Für jeden der 16 von Blutegeln abgeleiteten putativen Antikoagulantien beschreiben wir die unbewurzelten Baumtopologien unter Verwendung der von Wilkinson et al.42 vorgeschlagenen Terminologie, in der eine „Sippe“ in einem unverwurzelten Baum potenziell einer monophyletischen Gruppe in einem verwurzelten Baum entspricht und „benachbarte Gruppe“ einer Schwestergruppe.
Im Genbaum für Destabilase I (Abb. 2A) bildet die neu erworbene Sequenz eine Sippe, wenn auch mit eher geringer Unterstützung (likelihood bootstrap support = 72%), mit der archetypischen Sequenz und mehreren Varianten, die aus früheren Sequenzierungsversuchen für Hirudo medicinalis31 gewonnen wurden.
Für LDTI (Abb. 2B) bildet die neue Sequenz einen Clan (LBS = 100%) mit allen archetypischen Varianten des Gerinnungshemmers – man beachte, dass die Zweiglängen innerhalb dieses Clusters von Sequenzen sehr kurz oder null sind, was die Vorstellung von Orthologie zwischen ihnen unterstützt.
Unsere neu abgeleitete Hirudin-Sequenz bildet auch einen Clan mit zwei archetypischen Varianten des Thrombin-Inhibitors (LBS = 97%) (Abb. 3A), die aus dem hirudiniden Blutegel Poecilobdella viridis (Blanchard, 1864) und Hirudo verbana stammen. Auch hier sind die Zweiglängen vernachlässigbar. Darüber hinaus bestätigt der Baum die BLAST-Ergebnisse für den Hirudin-ähnlichen Faktor 3 insofern, als unsere neu abgeleitete Sequenz aus H. medicinalis einen Clan (LBS = 87%) mit der archetypischen Sequenz aus Hirudo orientalis bildet.
Im Bdellin-Baum (Abb. 3B) bildet die neue Sequenz einen Clan, wenn auch mit geringer Unterstützung (LBS = 26 %), mit der Ursequenz sowie mit zuvor sequenzierten Varianten von Hirudo nipponia, Hirudo medicinalis und Macrobdella decora. Die Zweiglänge zwischen der neuen Sequenz und der archetypischen Sequenz ist sehr kurz, was die auf Ähnlichkeit basierende Homologiebestimmung (siehe oben) bestätigt.
Für Eglin C bildet die neue Sequenz einen Clan (LBS < 75%) mit der archetypischen Variante; es ist zu beachten, dass die Artidentität des Egels, von dem die archetypische Sequenz abgeleitet wurde, unbekannt ist. Darüber hinaus enthält der Clan eine Sequenz aus einem separaten Sequenzierungsversuch für Hirudo medicinalis (unveröffentlicht), und die Zweiglängen innerhalb dieses Clans sind sehr kurz oder null (Supplementary File 4A).
In dem Baum, der aus Mitgliedern der Antistasin-Familie von Antikoagulantien konstruiert wurde (Supplementary File 4B), bildet unsere „ghilanten“-Sequenz aus H. medicinalis einen Clan (LBS < 75%) mit drei anderen Sequenzen aus Heptacyclus cf. viridus, Placobdella kwetlumye und Pontobdella macrothela. Dieser Clan ist die Nachbargruppe eines Clans, der die archetypische Sequenz für Therostasin sowie mehrere Varianten dieses Gens aus verschiedenen Egelarten umfasst. Im Gegensatz dazu bildet die archetypische Sequenz für Ghilanten eine Sippe (mit sehr kurzer Zweiglänge) mit der archetypischen Sequenz von Antistasin, in einem weit entfernten Abschnitt des unbewurzelten Baums. Daher ist die Identität der neu abgeleiteten Ghilanten-Sequenz noch umstritten, aber es liegt nahe, dass sie zu Therostasin und nicht zu Ghilanten gehört. Im direkten Vergleich mit Therostasin (Daten nicht gezeigt) liegt die neue Sequenz bei 43 %, was eine Verbesserung von 11 % im Vergleich zum Alignment mit Ghilanten darstellt (siehe oben). Jedes der verbleibenden Proteine der Antistasin-Familie im H. medicinalis-Datensatz bildet Clans mit ihrem jeweiligen archetypischen Antikoagulans. Bei bdellastasin, piguamerin und guamerin nistet sich jede der neu abgeleiteten Sequenzen als Nachbarsequenz zu den archetypischen Varianten ein. Für Antistasin reiht sich unsere Sequenz in einen größeren Clan ein, der Sequenzen von mehreren Blutegelarten sowie die archetypischen Varianten sowohl von Ghilanten als auch von Antistasin umfasst.
Für Cystatin waren nur drei zusätzliche, vergleichende Sequenzen als Grundlage für die Matrix verfügbar. Trotz dieses Mangels an Daten bildet die neue Sequenz einen Clan (LBS < 75%) mit der archetypischen Sequenz, und die Zweiglänge ist vergleichbar mit der für die anderen Terminale (Supplementary File 4C).
Während für Ficolin keine archetypische, von Blutegeln abgeleitete Sequenz verfügbar ist, bildet unsere neue Sequenz einen Clan zusammen mit einer Variante, die zuvor (unveröffentlicht) von H. medicinalis (LBS = 100%) einen Clan, wobei die Sequenzen durch eine Zweiglänge von Null getrennt sind (Supplementary File 4D).
Der Baum für Serinprotease-Inhibitoren vom Kazal-Typ (Supplementary File 4E) ist einer der wenigen, die jemals für Blutegelsequenzen erstellt wurden, und dies zeigt sich sowohl im Fehlen von archetypischen Varianten, die von Blutegeln stammen, als auch im Mangel an Vergleichsdaten (nur vier Sequenzen bilden die Matrix). Unsere neue Sequenz bildet einen Clan (LBS = 51 %) mit einer von Haemadipsa interrupta abgeleiteten Variante.
Im C-Typ-Lectin-Baum (Supplementary File 4F) bildet die Sequenz für den Top-Treffer einen ungestützten Clan (LBS < 75 %) mit Varianten, die von den afrikanischen medizinischen Blutegeln Aliolimnatis fenestrata und Hirudo medicinalis abgeleitet sind.
Unsere neu abgeleitete Manillase-Sequenz bildet einen Clan mit der archetypischen Sequenz und zwei anderen Sequenzen, die von den Praobdelliden Limnobdella mexicana und Haemadipsa interrupta stammen, was die auf Ähnlichkeit basierende Orthologiebestimmung bestätigt. Angesichts dieser Platzierung und der Länge des Zweiges, der zu unserer Sequenz führt, gibt es kaum Zweifel daran, dass es sich um ein Ortholog der Manillase handelt (Supplementary File 4G).
Zusammengenommen deuten die Ergebnisse der BLAST-, Alignment- und Genbaumanalysen darauf hin, dass jedes der folgenden von Blutegeln abgeleiteten Proteinprodukte im H. medicinalis-Genom vertreten sind: Eglin C, Destabilase I, Ghilanten, Blutegel-Tryptase-Inhibitor (LDTI), Guamerin, Cystatin, Hirudin, Ficolin, Serinprotease-Inhibitoren vom Kazal-Typ (Serpine), C-Typ-Lectin, Manillase, Bdellin, Piguamerin, Antistasin, Bdellastasin und ein nicht identifizierter Thrombininhibitor.
Leave a Reply