Draft genome of the leopard gecko, Eublepharis macularius
Sample collection and sequencing
Genomowe DNA zostało wyekstrahowane z tkanki ogonowej samca gekona lamparciego (Eublepharis macularius: NCBI taxonomy ID 481883; specimen ID TG1477) (Fig. 1). Wszystkie tkanki zostały pobrane zgodnie z protokołami użytkowania zwierząt 0810A50001 i 1108A03545 Uniwersytetu Minnesota. Zwierzę to urodziło się w niewoli w wyniku ponad 30 pokoleń chowu wsobnego szczepu pochodzącego od zwierząt pochodzenia indyjskiego w Woodland Park Zoo (Seattle) i importowanych z Pakistanu w National Zoo (Washington, DC). W sumie siedem sparowanych bibliotek o gradiencie wielkości insertów od 170 do 20 kb zostało skonstruowanych i sekwencjonowanych na platformie Illumina HiSeq 2000 zgodnie z instrukcjami producenta (Illumina, San Diego, California, USA). Dla bibliotek z długimi insertami (2, 5, 10 i 20 kb) długość odczytu sekwencjonowania wynosiła 49 bp, natomiast dla bibliotek z krótkimi insertami (170, 500 i 800 bp) długość odczytu sekwencjonowania wynosiła 100 i 150 bp (Tabela 1). Łącznie uzyskano 303 Gb (136X) surowych sekwencji (Tabela 1). Przed montażem przeprowadzono ścisłą kontrolę jakości surowych odczytów za pomocą SOAPfilter, programu w pakiecie SOAPdenovo , która obejmowała usunięcie odczytów niskiej jakości oraz zduplikowanych odczytów powstałych w wyniku amplifikacji PCR podczas konstruowania biblioteki. Błędy sekwencjonowania korygowano metodą częstotliwości k-mer w programie SOAPec (wersja 2.02) . Po filtracji i korekcji uzyskano 187 Gb (84X) wysokiej jakości sekwencji do złożenia genomu (Tabela 1).
Złożenie genomu
W pierwszej kolejności przeprowadziliśmy analizę 17-merową w celu oszacowania wielkości genomu gekona lamparciego przy użyciu 54 Gb czystych sekwencji z bibliotek o wielkości insertów 170 i 500 bp. Krótko mówiąc, odczyty zostały podzielone na przesuwające się krótkie sekwencje o długości 17 bp, nakładające się na siebie o 16 bp, z wyjątkiem pierwszej pary zasad. Rozkład liczebności 17-merów był zgodny z rozkładem Poissona (plik dodatkowy 1). Wielkość genomu oszacowano na 2,23 Gb dla E. macularius, dzieląc całkowitą liczbę 17-merów przez szczyt rozkładu (Tabela 2).
Następnie złożyliśmy wysokiej jakości genom gekona lamparciego przy użyciu SOAPdenovo (wersja 2.0) w trzech krokach: konstrukcji kontigów, scaffoldingu i wypełniania luk. W etapie konstruowania kontigów, SOAPdenovo został użyty do stworzenia grafu de Bruijn’a poprzez podzielenie wysokiej jakości odczytów z bibliotek z krótkimi wstawkami na kmery, w których informacje o sparowanych końcach zostały zignorowane, a następnie kmery zostały połączone, końcówki obcięte, pęcherzyki połączone, a łącza o niskim pokryciu usunięte. Następnie zbierano kontigi wykazujące jednoznaczne połączenia w grafach de Bruijna. Przetestowano szereg długości kmerów i wybrano 33-mer w celu wygenerowania złożenia kontigów o najdłuższej wartości N50. W kroku scaffoldingu, odczyty zarówno z małych jak i dużych bibliotek insertowych mapowano do sekwencji kontigów w celu skonstruowania rusztowań przy użyciu informacji o odległości par odczytów, przy czym wymagano, aby do utworzenia wiarygodnego połączenia między dwoma kontigami użyto co najmniej trzech par odczytów. W celu zamknięcia luk wewnątrz rusztowania (etap wypełniania luk), nakładające się sparowane odczyty z biblioteki insertów 170 bp zostały najpierw połączone przy użyciu COPE , a następnie zastosowano Kgf w celu zamknięcia luk, wykorzystując te połączone odczyty wraz z odczytami z innych bibliotek o krótkim rozmiarze insertów. Dodatkową lokalną asocjację dla odczytów, których jeden koniec był jednoznacznie wyrównany do kontigu, a drugi znajdował się w obrębie luki, przeprowadzono przy użyciu GapCloser . W rezultacie otrzymano genom gekona lamparciego o całkowitej długości 2,0 Gb i N50 rusztowania i kontinu odpowiednio 664 i 20 kb, co jest porównywalne z wcześniej opisanym genomem Gekko japonicus (Tabela 3). Porównanie N50 zespołu dla genomu gekona lamparciego z jedenastoma wcześniej opublikowanymi genomami gadów (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus , Crocodylus porosus , Chelonia mydas , Pelodiscus sinensis , Pogona vitticeps , i Chrysemys picta bellii ) dodatkowo potwierdziły, że nasze wyniki były porównywalnej lub lepszej jakości (Tabela 4).
Oszacowanie kompletności genomu
Oszacowaliśmy kompletność złożenia za pomocą CEGMA i BUSCO , które ilościowo oceniają kompletność genomu przy użyciu ewolucyjnie poinformowanych oczekiwań co do zawartości genów. Ocena CEGMA wykazała, że nasze złożenie obejmuje 225 (91%) z 248 ultra-zachowanych podstawowych genów eukariotycznych, z których 210 (85%) było kompletnych. Analiza BUSCO wykazała, że 58 i 18 % z 3023 oczekiwanych genów kręgowców zostało zidentyfikowanych odpowiednio jako kompletne i fragmentaryczne, podczas gdy 24 % uznano za brakujące w asemblacji. Obie metody oceny wykazały, że nasze złożenie było bardziej kompletne niż wcześniej zgłoszone złożenie genomu Gekko japonicus (Tabele 5 i 6).
Anotacja powtórzeń
Połączyliśmy metodę opartą na homologii i metodę de novo do identyfikacji elementów transpozycyjnych (TE) i innych elementów powtarzalnych w genomie gekona lamparciego. Stosując metodę opartą na homologii, zidentyfikowaliśmy znane TE używając RepeatMasker do przeszukiwania biblioteki Repbase TE (RepBase21.01) oraz RepeatProteinMask w pakiecie RepeatMasker do przeszukiwania bazy białek TE. W metodzie de novo, najpierw skonstruowaliśmy de novo bibliotekę powtórzeń gekona lamparciego używając RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, wersja 1.0.5) i Piler , a biblioteka de novo TE została następnie użyta przez RepeatMasker do anotacji powtórzeń w genomie gekona lamparciego. Wreszcie, użyliśmy TRF do przewidywania powtórzeń tandemowych, z następującymi parametrami: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. W sumie zidentyfikowaliśmy 851 Mb nieredundantnych, powtarzających się sekwencji, co stanowi 42% genomu gekona lamparciego. Najbardziej dominującymi elementami były długo przeplatające się elementy jądrowe (LINEs), które stanowiły 30% wszystkich sekwencji TE i 13% genomu (Tabela 7).
Przewidywanie genów
Połączyliśmy metody oparte na homologii, de novo i transkryptomie, aby przewidzieć geny kodujące białka w genomie gekona lamparciego.
W metodach opartych na homologii, pobraliśmy zestawy genów dla Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis i Xenopus tropicalis z bazy danych Ensembl (release-73). Najpierw wyrównaliśmy te homologiczne sekwencje białek do genomu gekona lamparciego przy użyciu TBLASTN z E-value cutoff 1e-5 i połączyliśmy trafienia BLAST w loci genów kandydujących przy użyciu GenBlastA . Następnie wyodrębniliśmy sekwencje genomowe kandydujących loci, wraz z sekwencjami 3 kb flankującymi, używając GeneWise do określenia modeli genów. Na koniec odfiltrowaliśmy pseudogeny, które miały tylko jeden ekson z błędami ramki, ponieważ te loci prawdopodobnie pochodziły z retrotranspozycji.
W metodzie de novo, losowo wybraliśmy 1000 genów gekona lamparciego z nienaruszonymi otwartymi ramkami odczytu (ORFs) i najwyższym wynikiem GeneWise z zestawu genów opartych na homologii, aby wytrenować narzędzie przewidywania genów Augustus z domyślnymi parametrami. Następnie Augustus został użyty do przewidywania genów de novo na sekwencjach genomu z maską powtórzeń. Modele genów z niekompletnymi ORF-ami i małymi genami o długości kodującej białko <150 bp zostały odfiltrowane. Na koniec przeprowadzono wyszukiwanie BLASTP przewidywanych genów w bazie danych SwissProt . Odfiltrowano geny z dopasowaniami do białek SwissProt zawierających jedno z następujących słów kluczowych: transpoza, transpozon, retro-transpozon, retrowirus, retrotranspozon, odwrotna transkryptaza, transpozaza i retrowirus.
Przewidywanie genów oparte na transkryptomie zostało następnie przeprowadzone przy użyciu danych RNA-seq gekona lamparciego pochodzących z tkanek wątroby, ślinianek, gruczołów zapachowych i skóry uzyskanych z bazy danych NCBI (numer akcesyjny SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 i ERR216306). Tophat (v1.3.3) został użyty do wyrównania odczytów RNA-seq z genomem gekona lamparciego w celu identyfikacji połączeń splice junctions, a cufflinks (v2.2.1) został użyty do złożenia transkryptów przy użyciu wyrównanych odczytów RNA-seq.
W końcu, wyniki analiz opartych na homologii, de novo- i transkryptomie zostały połączone w celu uzyskania nieredundantnego zestawu genów referencyjnych opartego na kolejności priorytetowej dowodów opartych na transkryptomie > dowodów opartych na homologii > dowodów opartych na de novo. Zastosowaliśmy wewnętrzny potok anotacji, aby połączyć dane genów w następujący sposób:
- (1)
Model Markowa został oszacowany z 1000 wysokiej jakości genów, które zostały wcześniej użyte do trenowania Augustusa, przy użyciu narzędzia trainGlimmerHMM zawartego w pakiecie oprogramowania GlimmerHMM . Potencjał kodujący każdego transkryptu zmontowanego z danych transkryptomu został następnie zidentyfikowany przy użyciu modelu Markowa. Transkrypty z kompletnymi ORF-ami zostały wyodrębnione, a wielokrotne izoformy z tego samego locus zostały zwinięte poprzez zachowanie najdłuższego ORF-u.
- (2)
Te nieredundantne ORF-y zostały następnie zintegrowane z modelami genów opartymi na homologii w celu utworzenia podstawowego zestawu genów przy użyciu niestandardowego skryptu. Jeśli model genu o wyższym priorytecie nakładał się na model o niższym priorytecie (długość nakładania się >100 bp), ten ostatni był usuwany. Jeśli nakładały się dwa modele genów o tym samym priorytecie, preferowany był ten z dłuższym ORF.
- (3)
Homologiczne modele genów niepoparte dowodami transkryptomicznymi, ale poparte dowodami homologicznymi z co najmniej dwóch gatunków, zostały dodane do podstawowego zestawu genów.
- (4)
Modele genów oparte de novo nie poparte dowodami opartymi na homologii i transkryptomie zostały dodane do podstawowego zestawu genów, gdy uzyskano znaczące trafienia (BLASTP E-value <1e-5) dla białek nietranspozonowych w bazie danych SwissProt.
W wyniku tych kroków, w sumie 24 755 nieredundantnych genów kodujących białka zostało zanotowanych w zespole genomu gekona lamparciego.
Anotacja funkcjonalna genów kodujących białka
Przypisaliśmy nazwy do 93,59% wszystkich genów kodujących białka gekona lamparciego, przeszukując funkcjonalne bazy danych TrEMBL i SwissProt przy użyciu BLASTP (Tabela 8). Następnie przeszukano sekwencje białek gekona lamparciego w bazie Kyoto Encyclopaedia of Genes and Genomes (KEGG) przy użyciu BLASTP w celu zidentyfikowania szlaków molekularnych, w które geny te mogą być zaangażowane. Domeny i motywy białkowe zostały zanotowane przy użyciu InterProScan (wersja 5.16) z wykorzystaniem siedmiu różnych modeli (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan i PatternScan). Ujawniło to, że 20,958 przewidywanych białek gekona lamparciego posiada konserwowane motywy funkcjonalne. Uzyskaliśmy również 1028 terminów Gene Ontology (GO), które zostały przypisane do 15 873 białek gekona lamparciego z odpowiedniego wpisu InterPro.
Dostępność i wymagania
-
Nazwa projektu: Leopard gecko genome annotation scripts
-
Strona domowa projektu: https://github.com/gigascience/paper-xiong2016
-
Systemy operacyjne: Linux
-
Język programowania: PERL
-
Inne wymagania: brak
-
Licencja: MIT
-
Wszelkie ograniczenia dotyczące używania przez osoby niebędące pracownikami naukowymi: brak
.
Leave a Reply