Návrh genomu gekona leopardího, Eublepharis macularius
Sběr vzorků a sekvenování
Genomická DNA byla získána z ocasní tkáně samce gekona leopardího (Eublepharis macularius: NCBI taxonomické ID 481883; ID vzorku TG1477) (obr. 1). Všechny tkáně byly odebrány v souladu s protokoly Minnesotské univerzity o použití zvířat 0810A50001 a 1108A03545. Toto zvíře se narodilo v zajetí z více než 30 generací inbreedingu kmene pocházejícího ze zvířat indického původu v Zoo Woodland Park (Seattle) a importu z Pákistánu v National Zoo (Washington, DC) . Bylo zkonstruováno celkem sedm párových knihoven s gradientní velikostí inzertu od 170 do 20 kb a sekvenováno na platformě Illumina HiSeq 2000 podle pokynů výrobce (Illumina, San Diego, Kalifornie, USA). U knihoven s dlouhou velikostí inzertu (2, 5, 10 a 20 kb) byla délka sekvenovaného čtení 49 bp, zatímco u knihoven s krátkou velikostí inzertu (170, 500 a 800 bp) byla délka sekvenovaného čtení 100 a 150 bp (tabulka 1). Celkem bylo nakonec získáno 303 Gb (136X) nezpracovaných sekvencí (tabulka 1). Před sestavením byla provedena přísná kontrola kvality surových čtení pomocí SOAPfilteru, softwarové aplikace v balíčku SOAPdenovo , která zahrnovala odstranění nekvalitních čtení a duplicitních čtení vzniklých amplifikací PCR při konstrukci knihovny. Chyby sekvenování byly opraveny pomocí metody frekvence k-merů v aplikaci SOAPec (verze 2.02) . Po filtraci a korekci bylo získáno 187 Gb (84X) vysoce kvalitních sekvencí pro sestavení genomu (tabulka 1).
Sestavení genomu
Nejdříve jsme provedli analýzu 17 merů pro odhad velikosti genomu gekona leopardího pomocí 54 Gb čistých sekvencí z knihoven o velikosti insertů 170 a 500 bp. Stručně řečeno, čtení byla rozdělena na klouzavé krátké sekvence o délce 17 bp, které se překrývaly o 16 bp, s výjimkou prvního páru bází. Rozdělení počtu 17-ti merů se řídilo Poissonovým rozdělením (doplňkový soubor 1). Velikost genomu byla pro E. macularius odhadnuta na 2,23 Gb vydělením celkového počtu 17-merů vrcholem rozdělení (tabulka 2).
Poté jsme sestavili vysoce kvalitní genom gekona leopardího pomocí SOAPdenovo (verze 2.0) ve třech krocích: konstrukce kontigů, scaffolding a vyplnění mezer. V kroku konstrukce kontigů byl pomocí SOAPdenovo vytvořen de Bruijnův graf rozdělením vysoce kvalitních čtení z krátkých insertních knihoven na kmery, ve kterých byly ignorovány informace o párových koncích, a kmery byly poté sloučeny, špičky oříznuty, bubliny sloučeny a odkazy s nízkým pokrytím odstraněny. Dále byly shromážděny kontigy, které vykazují jednoznačná spojení v de Bruijnových grafech. Byla testována řada délek kmerů a pro vytvoření sestavy kontigů s nejdelší hodnotou N50 byl vybrán 33-mer. V kroku skládání lešení byly čtení z malých i velkých knihoven inzercí mapovány na sekvence kontigů, aby bylo možné zkonstruovat skládání lešení pomocí informací o vzdálenosti z párů čtení, přičemž pro vytvoření spolehlivého spojení mezi dvěma kontigy bylo nutné použít alespoň tři páry čtení. K uzavření mezer uvnitř skeletů (krok vyplňování mezer) byla nejprve pomocí COPE spojena překrývající se párová čtení z knihovny 170 bp inzercí , poté byl použit Kgf k uzavření mezer pomocí těchto spojených čtení spolu se čteními z jiných knihoven s krátkou velikostí inzercí. Dodatečné lokální sestavení pro čtení s jedním koncem páru čtení jednoznačně zarovnaným ke kontigu a druhým koncem umístěným uvnitř mezery bylo provedeno pomocí GapCloser . Konečným výsledkem bylo sestavení genomu gekona leopardího o celkové délce 2,0 Gb a N50 scaffoldu a kontigu 664, resp. 20 kb, což je srovnatelné s dříve uvedeným sestavením genomu Gekko japonicus (tabulka 3) . Srovnání N50 sestavy genomu gekona leopardího s jedenácti dříve publikovanými genomy plazů (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis , Gavialis gangeticus , Crocodylus porosus , Chelonia mydas , Pelodiscus sinensis , Pogona vitticeps a Chrysemys picta bellii ) dále potvrdily, že naše výsledky jsou srovnatelné nebo lepší kvality (tabulka 4).
Odhad úplnosti genomu
Úplnost sestavy jsme hodnotili pomocí CEGMA a BUSCO , které kvantitativně hodnotí úplnost genomu pomocí evolučně informovaného očekávání obsahu genů. Hodnocení CEGMA ukázalo, že naše sestava zachytila 225 (91 %) z 248 ultrakonzervativních základních eukaryotických genů, z nichž 210 (85 %) bylo kompletních. Analýza BUSCO ukázala, že 58 % a 18 % z 3023 očekávaných genů obratlovců bylo identifikováno jako kompletní, resp. fragmentované, zatímco 24 % bylo považováno za chybějící v sestavě. Obě metody hodnocení ukázaly, že naše sestava je úplnější než dříve uvedená sestava genomu Gekko japonicus (tabulky 5 a 6).
Anotace repetitivních prvků
K identifikaci transpozabilních prvků (TE) a dalších repetitivních prvků v genomu gekona leopardího jsme použili kombinaci metody založené na homologii a metody de novo. Pomocí metody založené na homologii jsme identifikovali známé TE pomocí nástroje RepeatMasker k vyhledávání v knihovně Repbase TE (RepBase21.01) a RepeatProteinMask v rámci balíčku RepeatMasker k vyhledávání v databázi TE proteinů. Při metodě de novo jsme nejprve sestavili knihovnu repetic de novo gekona leopardího pomocí RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, verze 1.0.5) a Piler , a knihovna de novo TE byla následně použita pomocí RepeatMasker k anotaci repetic v genomu gekona leopardího. Nakonec jsme použili TRF k predikci tandemových repetic s následujícími parametry: Shoda = 2, Neshoda = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Celkem jsme identifikovali 851 Mb neredundantních repetitivních sekvencí, což představuje 42 % genomu gekona leopardího. Nejvíce převládajícími elementy byly dlouhé prokládané jaderné elementy (LINE), které tvořily 30 % všech TE sekvencí a 13 % genomu (tabulka 7).
Předpověď genů
K předpovědi genů kódujících proteiny v genomu gekona leopardího jsme kombinovali metody založené na homologii, de novo a transkriptomu.
U metod založených na homologii jsme z databáze Ensembl (release-73) stáhli soubory genů Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis a Xenopus tropicalis. Tyto homologické proteinové sekvence jsme nejprve zarovnali k sestavě genomu gekona leopardího pomocí TBLASTN s mezní hodnotou E 1e-5 a shody BLAST jsme spojili do kandidátních genových lokusů pomocí GenBlastA . Poté jsme extrahovali genomové sekvence kandidátních lokusů spolu s 3 kb doprovodnými sekvencemi pomocí programu GeneWise, abychom určili genové modely. Nakonec jsme odfiltrovali pseudogeny, které měly pouze jeden exon s chybami v rámci, protože tyto lokusy pravděpodobně vznikly retrotranspozicí.
Při metodě de novo jsme náhodně vybrali 1000 genů gekona leopardího s neporušenými otevřenými čtecími rámci (ORF) a nejvyšším skóre GeneWise ze souboru genů založených na homologii pro trénování nástroje pro predikci genů Augustus s výchozími parametry. Program Augustus byl poté použit k predikci genů de novo na sekvencích genomu maskovaných opakováním. Modely genů s neúplnými ORF a malé geny s délkou kódující protein <150 bp byly odfiltrovány. Nakonec bylo provedeno vyhledávání BLASTP předpovězených genů proti databázi SwissProt . Byly vyfiltrovány geny se shodami s proteiny SwissProt obsahujícími některé z následujících klíčových slov: transpozice, transpozon, retrotranspozon, retrovirus, retrotranspozon, reverzní transkriptáza, transpozáza a retrovir.
Předpověď genů na základě transkriptomu byla poté provedena pomocí údajů RNA-seq gekona leopardího z jater, slinných žláz, pachových žláz a kožních tkání získaných z databáze NCBI (přístupová čísla SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 a ERR216306) . Tophat (v1.3.3) byl použit k zarovnání čtení RNA-seq se sestavou genomu gekona leopardího za účelem identifikace sestřihů a cufflinks (v2.2.1) byl použit k sestavení transkriptů pomocí zarovnaných čtení RNA-seq .
Nakonec byly výsledky analýz založených na homologii, de novo a transkriptomu sloučeny, aby se získal neredundantní soubor referenčních genů založený na prioritním pořadí důkazů založených na transkriptomu > důkazů založených na homologii > důkazů založených na de novo. Ke sloučení genových dat jsme použili vlastní anotační pipeline takto:
- (1)
Markovův model byl odhadnut s 1000 vysoce kvalitními geny, které byly předtím použity k tréninku programu Augustus, pomocí nástroje trainGlimmerHMM, který je součástí softwarového balíčku GlimmerHMM . Kódovací potenciál každého transkriptu sestaveného z dat transkriptomu byl poté identifikován pomocí Markovova modelu. Transkripty s kompletními ORF byly extrahovány a více izoforem ze stejného lokusu bylo sbaleno tak, že byla ponechána nejdelší ORF.
- (2)
Tyto neredundantní ORF byly poté integrovány s modely genů založenými na homologii, aby vytvořily základní soubor genů pomocí vlastního skriptu. Pokud se model genu s vyšší prioritou překrýval s modelem s nižší prioritou (délka překrytí >100 bp), byl tento model odstraněn. Pokud se překrývaly dva modely genů se stejnou prioritou, byl upřednostněn ten s delším ORF.
- (3)
Do základní sady genů byly přidány modely genů založené na homologii, které nebyly podpořeny důkazy založenými na transkriptomu, ale byly podpořeny homologickými důkazy z alespoň dvou druhů.
- (4)
Do základního souboru genů byly přidány modely genů založené de novo, které nebyly podpořeny důkazy založenými na homologii a transkriptomu, pokud byly získány významné shody (BLASTP E-value <1e-5) pro netranspozonové proteiny v databázi SwissProt.
Výsledkem těchto kroků bylo v sestavě genomu gekona leopardího anotováno celkem 24 755 neredundantních protein-kódujících genů.
Funkční anotace protein-kódujících genů
Přiřadili jsme názvy 93,59 % všech protein-kódujících genů gekona leopardího vyhledáním v databázích funkcí TrEMBL a SwissProt pomocí BLASTP (tabulka 8). Poté jsme vyhledávali proteinové sekvence gekona leopardího v databázi Kjótské encyklopedie genů a genomů (KEGG) pomocí BLASTP, abychom identifikovali molekulární dráhy, kterých by se geny mohly účastnit. Proteinové domény a motivy byly anotovány pomocí programu InterProScan (verze 5.16) s využitím sedmi různých modelů (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan a PatternScan). Tím bylo zjištěno, že 20 958 předpovězených proteinů gekona leopardího má konzervované funkční motivy. Získali jsme také 1028 termínů genové ontologie (GO), které byly přiřazeny 15 873 proteinům gekona leopardího z odpovídajícího záznamu InterPro.
Dostupnost a požadavky
-
Název projektu: Skripty pro anotaci genomu gekona leopardího
-
Domovská stránka projektu: https://github.com/gigascience/paper-xiong2016
-
Operační systémy: Programovací jazyk: Linux
-
Programovací jazyk: Další požadavky: žádné
-
Další požadavky: žádné
-
Licence: MIT
-
Jakákoli omezení pro použití neakademickými pracovníky: žádná
.
Leave a Reply