Draft genome of the European medicinal leech Hirudo medicinalis (Annelida, Clitellata, Hirudiniformes) z naciskiem na antykoagulanty
Statystyki montażu i analiza BUSCO
Projekt genomu Hirudo medicinalis ROMIZI 11733 został złożony do 19,929 rusztowań obejmujących 176.96 Mbps z medianą pokrycia 146.78×, wynikiem N50 50,382 bps, i wynikiem L50 772 (pełne statystyki dla projektu genomu można znaleźć w Supplementary File 1). BUSCO ver. 4.0.526 został uruchomiony w celu oceny kompletności genomu. Analiza przewidywanych białek vs. metazoa_odb10 dała wynik kompletności 94,2% (90,0% complete + 4,2% fragmented).
Rozmiar asemblacji stanowi 78,67% szacowanego rozmiaru genomu (230 Mbps; http://genomesize.com). Dwuprzebiegowa anotacja z MAKER27 dała 35 166 przewidywanych białek z 780 wariantami splice. Używając tRNAscan-SE28, przewidziano 429 genów tRNA oraz dodatkowo 116 pseudogenów. Przy użyciu Infernal29 przewidziano dodatkowo 535 niekodujących genów/motywów RNA, w tym 64 geny rRNA i 316 mikroRNA. Zawartość powtórzeń w genomie została oszacowana przez RepeatModeler30 na 24,71% (14,43% powtórzeń przeplatanych i 10,28% powtórzeń prostych), przy czym najliczniejszą jednostką są powtórzenia niesklasyfikowane (6,14%). Wszystkie pliki anotacji zostały zdeponowane na stronie https://doi.org/10.5281/zenodo.3555585 (ostatni dostęp 20 stycznia 2020). Surowe odczyty, jak również zmontowane sekwencje zostały zdeponowane w Europejskim Archiwum Nukleotydów (ENA) pod badanym akcesem PRJEB35865.
Przeciwzakrzepowe antykoagulanty pijawki lekarskiej, liczba kopii i powtórzenia tandemowe
W sumie w genomie Hirudo medicinalis znaleziono produkty genowe, które wykazywały odpowiednie trafienia BLASTp (przewyższające 1E-5) względem 18 dobrze scharakteryzowanych białek pochodzących od pijawki lekarskiej, których funkcje związane są z antyhemostazą (Tabela 1). Należą do nich: eglina C, destabilaza I, ghilanten, inhibitor tryptazy pochodzący od pijawki (LDTI), guameryna, cystatyna, hirudyna, czynnik 3 podobny do hirudyny, fikolina, inhibitory proteazy serynowej typu Kazal (serpiny), lektyna typu C, manilaza, bdellina, piguameryna, antystasina, bdellastasina, lefaksyna i niezidentyfikowany inhibitor trombiny. Tabela 1 przedstawia najwyższe trafienia z genomu H. medicinalis, wraz z trafieniami względem trzech globalnych baz danych, liczbą kopii genu w całym genomie oraz obecnością lub brakiem peptydu sygnałowego.
Siedem z 18 putatywnych antykoagulantów występuje w pojedynczej kopii w naszych danych (Tabela 1); zauważ, że nadal istnieje szansa, że więcej kopii jest obecnych w niesekwencjonowanych częściach genomu. Są to piguameryna, hirudyna, ghilanten, hirudinopodobny czynnik 3, LDTI, niezidentyfikowany inhibitor trombiny i cystatyna. Najwyższa liczba kopii (n = 7) została znaleziona dla egliny C i destabilaza; podczas gdy kopie dla pierwszego wydawały się rozproszone na rusztowaniach (siedem kopii wystąpiło na sześciu różnych rusztowaniach), drugi zawierał trzy kopie na tym samym rusztowaniu i innym rusztowaniu z dwoma kopiami.
Podczas gdy większość antykoagulantów, do których się tutaj odnosimy, nie jest umieszczona obok siebie w naszym projekcie genomu, następujące białka wydają się występować w tandemowych tablicach jako dwie lub więcej kopii: Lektyna typu C (z silnym zachowaniem wielkości eksonów i intronów między kopiami), guameryna (z tylko niskim zachowaniem wielkości eksonów i intronów między kopiami), inhibitor proteazy serynowej typu Kazal (z tylko niskim zachowaniem wielkości eksonów i intronów między kopiami) i bdellina (z wielkościami eksonów względnie konserwowanymi, ale wielkościami intronów różniącymi się między kopiami). Ponadto, LDTI i w pełni trzy tandemowe kopie bdelliny sąsiadują ze sobą na rusztowaniu 209471.
Inne bioaktywne peptydy
Oprócz trafień przeciwko znanym, pochodzącym od pijawek czynnikom antykoagulacyjnym, w genomie H. medicinalis; funkcja i szlaki dla większości z nich pozostają nieznane i jako takie, skupimy się tylko na bioaktywnych białkach nie pochodzących od pijawki, które, jak wykazano, są zaangażowane w antykoagulację. Uzyskano trafienia (powyżej 1E-5) w stosunku do 23 różnych białek, które negatywnie wpływają na kaskadę krzepnięcia. Należą do nich: dezintegrina i metaloproteinaza z motywem trombospondyny (ADAMTS), apyraza, inhibitor proteazy serynowej typu Kunitza, fibrynogenaza, chryzoptyna, bothrojaracyna, tlenek azotu (środek rozszerzający naczynia krwionośne), aglucetyna, snaclec, metaloproteinaza krwotoczna kaouthiagin, batroksstatyna, inhibitor trombiny (z kleszcza Lone Star Amblyomma americanum), aneksynę, tabserynę, białko hamujące trombinę (z Rhodnius prolixus), proteazę serynową z jadu węża, chymotrypsynę, brasiliensynę, katepsynę B, dipetalogastynę, achelazę, haliksynę i antytrombinę-III (z kobry królewskiej Ophiophagus hannah). Dodatkowy plik 2 pokazuje trafienia dla tych peptydów, wraz z ich wzajemnymi trafieniami BLAST i przewidywaniem peptydów sygnałowych. Kilka wzajemnych trafień BLAST dotyczyło niezanotowanych (tj. „białko hipotetyczne” lub „białko niescharakteryzowane”) genów w genomie Helobdella robusta, tak że niewiele informacji można wydedukować na temat tożsamości dopasowań. Jednakże, ocenialiśmy również gorsze trafienia (ale wciąż lepsze niż 1E-5) względem dobrze zanotowanych genów w trzech globalnych bazach danych. Po ocenie wszystkich dostępnych informacji, tylko następujące produkty białkowe nie mogły być solidnie wywnioskowane jako obecne w genomie H. medicinalis (tzn, wszystkie pozostałe produkty białkowe są obecne): chryzoptyna, tlenek azotu, inhibitor trombiny (z Amblyomma americanum), chymotrypsyna, dipelogastyna i achelaza.
Podobieństwo sekwencji i wyrównania parami
Każde z białek związanych z antykoagulacją pochodzących z H. medicinalis zostały dopasowane do ich archetypowych odpowiedników, a dopasowania są przedstawione na Rys. 1 (dla destabilazy I, LDTI, hirudyny i czynnika 3 podobnego do hirudyny oraz bdelliny) i w Dodatkowym Pliku 3 (dla egliny C, ghilantenu, guameryny, cystatyny, fikoliny, serpiny typu Kazal, lektyny typu C, manilazy, piguameryny, antystasiny, bdellastyny i niezidentyfikowanego inhibitora trombiny). Należy zauważyć, że sekwencja H. medicinalis z trafieniem przeciwko lefaksynie znalazła dużo lepsze trafienie przeciwko hemerytrynie przy wzajemnym BLASTowaniu i nie była dalej uważana za ortologa lefaksyny.
Dla destabilazy I, nowo uzyskana sekwencja wykazuje 78% podobieństwo w pozycjach ze wspólnymi aminokwasami (tj. gdy luki nie są liczone) ze znanym antykoagulantem (numer akcesyjny GenBank AAA9614431), który również został pierwotnie uzyskany z Hirudo medicinalis. Ponadto, pozycje wszystkich 14 reszt cysteinowych wykazują pełną konserwację, co sugeruje podobną strukturę fałdową pomiędzy białkami. W wyrównaniu nie napotkano żadnych indeli (Rys. 1A).
W wyrównaniu aminokwasowym dla LDTI, obejmującym nową sekwencję i archetypową sekwencję pochodzącą z Hirudo medicinalis (GenBank accession number AAB3376932), obie sekwencje wykazują 99% podobieństwo sekwencji i pełną konserwację pozycji sześciu reszt cysteinowych. Nie napotkano żadnych indeli (Ryc. 1B).
Nowo zsekwencjonowany ortolog hirudyny wykazuje niemal pełną konserwację (podobieństwo sekwencji 99,9%) w porównaniu z sekwencją archetypową (numer akcesyjny GenBank APA2083333), pochodzącą pierwotnie od Hirudo verbana. Ponadto, pozycje sześciu reszt cysteinowych obecnych w dojrzałym peptydzie są w pełni konserwowane (dwie cysteiny są również konserwowane w regionie peptydu sygnałowego). Sekwencja bdelliny odzyskana z genomu H. medicinalis wykazuje 99,2% podobieństwo sekwencji z sekwencją archetypową (numer akcesyjny GenBank P0986534) pierwotnie uzyskaną z H. medicinalis, a pozycje wszystkich reszt cysteinowych (n = 6) są w pełni konserwowane. Żadne indele nie były obecne w wyrównaniu (Rys. 1D).
Dla egliny C, nowa sekwencja wykazuje 99,9% podobieństwa sekwencji w porównaniu z sekwencją archetypową (numer akcesyjny GenBank 0905140 A35). Żadne reszty cysteinowe nie są obecne w żadnej z sekwencji i nie było żadnych indeli (Supplementary File 3A).
Nowo nabyta sekwencja ghilantenu wykazuje tylko 32% podobieństwo sekwencji w porównaniu z sekwencją archetypową (numer akcesyjny GenBank AAB2123336) pochodzącą od glossiphoniidalnej pijawki Haementeria ghilianii (de Filippi, 1849). Niskie pokrewieństwo między tymi sekwencjami sugeruje, że mogą to nie być sekwencje ortologiczne. Niezależnie od tego, nowa sekwencja zawiera 25 reszt cysteinowych w dojrzałym białku, a pozycje 17 z nich są konserwowane w wyrównaniu. Zdarzenia indel były obecne w obu sekwencjach, z których największa obejmuje 25 reszt (insercja w nowej sekwencji lub delecja w sekwencji archetypowej), i tylko krótkie ciągi (maksymalnie n = 3) homopolimerów zostały zidentyfikowane (Supplementary File 3B).
Dla guameryny, nowa sekwencja wykazuje 67% podobieństwo sekwencji z białkiem archetypowym (numer akcesyjny GenBank AAD0944237), które pierwotnie pochodzi z Hirudo nipponia Whitman, 1886. Pozycje wszystkich dziewięciu reszt cysteinowych obecnych w wyrównaniu są w pełni konserwowane. Nie napotkano żadnych zdarzeń indelowych (Supplementary File 3C).
Nowa sekwencja dla cystatyny wykazuje 57% podobieństwo w porównaniu z jej archetypowym odpowiednikiem (GenBank accession number AAN2867938), pochodzącym od glossiphoniida Theromyzon tessulatum (Müller, 1774); pozycja pojedynczej reszty cysteinowej jest zachowana pomiędzy sekwencjami. Żadne zdarzenia indel nie były obecne w wyrównaniu (Supplementary File 3D).
Dla fikoliny, podobieństwo sekwencji wynosi 59% pomiędzy współdzielonymi pozycjami aminokwasów pomiędzy naszą nową sekwencją a sekwencją archetypową (wykorzystaną z zestawu danych użytego przez Min i wsp.15), pochodzącą od północnoamerykańskiej pijawki lekarskiej Macrobdella decora (Say, 1824). Dwie z trzech reszt cysteinowych obecnych w sekwencji pochodzącej od M. decora są również obecne w tej samej pozycji w nowej sekwencji. Dość rozległa insercja jest obecna w nowej sekwencji (lub, alternatywnie, zdarzenie delecji w sekwencji archetypowej) i obejmuje 27 reszt aminokwasowych (Supplementary File 3E).
Nowo wyprowadzona serpina typu Kazal wykazuje tylko 26% podobieństwo sekwencji dla wspólnych miejsc aminokwasowych w porównaniu z sekwencją pochodzącą od Macrobdella decora (z zestawu danych użytego przez Min i wsp.15). Spośród 13 reszt cysteinowych obecnych w sekwencji „archetypowej”, 12 wykazuje konserwowane pozycje w nowej sekwencji. Krótkie indele są obecne w obu sekwencjach (Supplementary File 3F).
Równanie lektyny typu C wskazuje, że istnieje 43% podobieństwo sekwencji pomiędzy nową sekwencją a archetypowym porównaniem uzyskanym z M. decora (patrz15). Trzynaście reszt cysteinowych istnieje w archetypowej sekwencji, a pozycje dla dziewięciu z nich są zachowane w nowo nabytej sekwencji. Trzy izolowane, krótkie delecje są obecne w archetypowej sekwencji (lub, alternatywnie, reprezentują one insercje w nowej sekwencji) (Dodatkowy Plik 3G).
Dla manilazy, 83% wspólnych reszt aminokwasowych jest identycznych pomiędzy nową sekwencją a tą pochodzącą z amerykańskiego wniosku patentowego (nr 2006 US 7.049.124 B1P09856) i wyekstrahowaną z azjatyckiej pijawki lekarskiej Hirudinaria manillensis Lesson, 1842. Notorycznie, manilaza jest całkowicie pozbawiona reszt cysteiny, podobnie jak sekwencja uzyskana z Hirudo medicinalis. Insercja/delecja jest obecna w środku wyrównania i obejmuje 16 reszt (Supplementary File 3H).
Dla inhibitora trypsyny piguameryny, nasz nowo zsekwencjonowany produkt genowy wykazuje 46% podobieństwo do archetypowej sekwencji (GenBank accession number P8149939), pierwotnie pochodzącej z Hirudo nipponia. Sekwencja archetypowa zawiera dziesięć reszt cysteinowych, z których sześć znajduje się w konserwowanych pozycjach w nowej sekwencji. Żadne indele nie występują w wyrównaniu (Supplementary File 3I).
Dla antystazyny, sekwencja uzyskana z naszego okazu H. medicinalis wykazuje 36% podobieństwo do archetypowej sekwencji (GenBank accession number P1535840) z Haementeria officinalis. Dodatkowo, pozycje 18 z 21 cystein obecnych w archetypowej sekwencji są konserwowane pomiędzy sekwencjami (Supplementary File 3J).
Nasza nowo wyprowadzona sekwencja w wyrównaniu bdellastyny wykazuje prawie pełną konserwację (99.9% podobieństwa w miejscach wspólnych aminokwasów) w porównaniu z archetypowym wariantem (GenBank accession number 1C9P41), również z Hirudo medicinalis. Pozycje 10 cystein są w pełni konserwowane pomiędzy sekwencjami (Dodatkowy Plik 3K).
Nieznany inhibitor trombiny, który tutaj służy jako archetypowy antykoagulant, został pierwotnie uzyskany z piscicolid Pontobdella macrothela (Schmarda, 1861) (patrz16) po trafieniach opartych na BLAST przeciwko domniemanemu inhibitorowi trombiny z pijawki Haemadipsa sylvestris Blanchard, 1894. Nasza sekwencja pochodząca z Hirudo medicinalis wykazuje tylko 28% podobieństwo sekwencji dla wspólnych miejsc aminokwasowych, ale pozycje dla siedmiu z ośmiu reszt cysteinowych obecnych w sekwencji docelowej są w pełni zachowane w nowo nabytej sekwencji. Co ciekawe, w środku nowej sekwencji znajduje się duża insercja o długości 27 aminokwasów; alternatywnie jest to delecja w sekwencji archetypowej (Supplementary File 3L).
Drzewa genowe
Dla każdego z 16 pochodzących od pijawki putatywnych antykoagulantów opisujemy topologie drzew nieukorzenionych, stosując terminologię zaproponowaną przez Wilkinsona i wsp.42, w której „klan” w nieukorzenionym drzewie jest potencjalnie równoważny monofiletycznej grupie w ukorzenionym drzewie, a „sąsiednia grupa” jest równoważna grupie siostrzanej.
W drzewie genów dla destabilazy I (Fig. 2A), nowo nabyta sekwencja tworzy klan, aczkolwiek z raczej niskim wsparciem (wsparcie bootstrapowe prawdopodobieństwa = 72%), z archetypową sekwencją i kilkoma wariantami pobranymi z poprzednich wysiłków sekwencjonowania dla Hirudo medicinalis31.
Dla LDTI (Rys. 2B), nowa sekwencja tworzy klan (LBS = 100%) ze wszystkimi archetypowymi wariantami antykoagulantu – zauważmy, że długości gałęzi są bardzo krótkie lub zerowe w obrębie tego skupiska sekwencji, wspierając pojęcie ortologii między nimi.
Nasza nowo wyprowadzona sekwencja hirudyny również tworzy klan z dwoma archetypowymi wariantami inhibitora trombiny (LBS = 97%) (Ryc. 3A) pochodzącymi od hirudinidalnej pijawki Poecilobdella viridis (Blanchard, 1864) i Hirudo verbana. Ponownie, długości gałęzi są pomijalne. Co więcej, drzewo potwierdza wyniki BLAST dla 3 czynnika hirudynopodobnego, jako że nasza nowo uzyskana sekwencja z H. medicinalis tworzy klan (LBS = 87%) z archetypową sekwencją uzyskaną z Hirudo orientalis.
W drzewie bdelliny (Rys. 3B) nowa sekwencja tworzy klan, choć z niskim wsparciem (LBS = 26%), z archetypową sekwencją, a także wcześniej zsekwencjonowanymi wariantami z Hirudo nipponia, Hirudo medicinalis i Macrobdella decora. Długość gałęzi między nową sekwencją a sekwencją archetypową jest bardzo krótka, co potwierdza określenie homologii na podstawie podobieństwa (patrz wyżej).
Dla eglin C, nowa sekwencja tworzy klan (LBS < 75%) z wariantem archetypowym; należy zauważyć, że tożsamość gatunkowa pijawki, z której pochodzi sekwencja archetypowa jest nieznana. Dodatkowo, klan zawiera sekwencję z oddzielnego sekwencjonowania dla Hirudo medicinalis (niepublikowane), a długości gałęzi w obrębie tego klanu są bardzo krótkie lub zerowe (Supplementary File 4A).
W drzewie skonstruowanym z członków rodziny antyhistasyn antykoagulantów (Supplementary File 4B), nasza sekwencja „ghilanten” z H. medicinalis tworzy klan (LBS < 75%) z trzema innymi sekwencjami z Heptacyclus cf. viridus, Placobdella kwetlumye i Pontobdella macrothela. Klan ten jest grupą sąsiadującą z klanem, który zawiera archetypową sekwencję dla terostazyny, jak również kilka wariantów tego genu z różnych gatunków pijawek. Dla kontrastu, archetypowa sekwencja dla ghilantenu tworzy klan (o bardzo krótkiej długości gałęzi) z archetypową sekwencją dla antystasiny, w odległej części nieukorzenionego drzewa. Jako taka, tożsamość nowo wyprowadzonej sekwencji ghilanten jest wciąż dyskusyjna, ale rozsądne wydaje się sugerowanie, że należy ona raczej do therostasin niż ghilanten. W bezpośrednim porównaniu z terostazą (dane nie pokazane), nowa sekwencja wykazuje 43%, co stanowi 11% poprawę w porównaniu do wyrównania z ghilantenem (patrz wyżej). Każde z pozostałych białek rodziny antystasyn w zbiorze danych H. medicinalis tworzy klany z odpowiednim archetypowym antykoagulantem. Dla bdellastyny, piguameryny i guameryny, każda z nowo otrzymanych sekwencji zagnieżdża się jako sekwencja sąsiadująca z wariantami archetypowymi. Dla antistasin, nasza sekwencja umieszcza się w większym klanie, w tym sekwencje z kilku gatunków pijawek, jak również archetypowe warianty zarówno ghilanten i antistasin.
Dla cystatyny, tylko trzy dodatkowe, porównawcze sekwencje były dostępne jako podstawa matrycy. Pomimo tego niedostatku danych, nowa sekwencja tworzy klan (LBS < 75%) z sekwencją archetypową, a długość gałęzi jest porównywalna z tymi dla innych końcówek (Supplementary File 4C).
Gdy żadna archetypowa, pochodząca od pijawki sekwencja nie jest dostępna dla fikoliny, nasza nowa sekwencja tworzy klan wraz z wariantem wcześniej wyprowadzonym (niepublikowanym) z H. medicinalis (LBS = 100%), z zerową długością gałęzi oddzielającej sekwencje (Supplementary File 4D).
Drzewo dla inhibitorów proteaz serynowych typu Kazal (Supplementary File 4E) jest jednym z zaledwie kilku kiedykolwiek skonstruowanych dla sekwencji pijawkowych i przejawia się to zarówno w braku archetypowych wariantów pochodzących od pijawek, jak i braku danych porównawczych (tylko cztery sekwencje tworzą macierz). Nasza nowa sekwencja tworzy klan (LBS = 51%) z wariantem pochodzącym od Haemadipsa interrupta.
W drzewie lektyn typu C (Supplementary File 4F), sekwencja dla najlepszego trafienia tworzy niepodparty klan (LBS < 75%) z wariantami pochodzącymi od afrykańskiej pijawki lekarskiej Aliolimnatis fenestrata i Hirudo medicinalis. Ten klan, z kolei, jest sąsiednią grupą sekwencji archetypowej.
Potwierdzając oparte na podobieństwie określenie ortologii, nasza nowo wyprowadzona sekwencja manilazy tworzy klan z sekwencją archetypową i dwiema innymi sekwencjami pochodzącymi od praobdellid Limnobdella mexicana i Haemadipsa interrupta. Biorąc pod uwagę to umiejscowienie i długość gałęzi prowadzącej do naszej sekwencji, nie ma wątpliwości, że reprezentuje ona ortolog manilazy (Supplementary File 4G).
Podsumowując, wyniki analiz BLAST, dopasowania i drzewa genów sugerują, że każdy z następujących produktów białkowych pochodzących od pijawki jest reprezentowany w genomie H. medicinalis genom: eglina C, destabilaza I, ghilanten, inhibitor tryptazy pochodzący od pijawki (LDTI), guameryna, cystatyna, hirudyna, fikolina, inhibitory proteazy serynowej typu Kazal (serpiny), lektyna typu C, manilaza, bdellina, piguameryna, antystaszyna, bdellastaszyna i niezidentyfikowany inhibitor trombiny.
Leave a Reply