Návrh genomu gekona leopardího, Eublepharis macularius

Sběr vzorků a sekvenování

Genomická DNA byla získána z ocasní tkáně samce gekona leopardího (Eublepharis macularius: NCBI taxonomické ID 481883; ID vzorku TG1477) (obr. 1). Všechny tkáně byly odebrány v souladu s protokoly Minnesotské univerzity o použití zvířat 0810A50001 a 1108A03545. Toto zvíře se narodilo v zajetí z více než 30 generací inbreedingu kmene pocházejícího ze zvířat indického původu v Zoo Woodland Park (Seattle) a importu z Pákistánu v National Zoo (Washington, DC) . Bylo zkonstruováno celkem sedm párových knihoven s gradientní velikostí inzertu od 170 do 20 kb a sekvenováno na platformě Illumina HiSeq 2000 podle pokynů výrobce (Illumina, San Diego, Kalifornie, USA). U knihoven s dlouhou velikostí inzertu (2, 5, 10 a 20 kb) byla délka sekvenovaného čtení 49 bp, zatímco u knihoven s krátkou velikostí inzertu (170, 500 a 800 bp) byla délka sekvenovaného čtení 100 a 150 bp (tabulka 1). Celkem bylo nakonec získáno 303 Gb (136X) nezpracovaných sekvencí (tabulka 1). Před sestavením byla provedena přísná kontrola kvality surových čtení pomocí SOAPfilteru, softwarové aplikace v balíčku SOAPdenovo , která zahrnovala odstranění nekvalitních čtení a duplicitních čtení vzniklých amplifikací PCR při konstrukci knihovny. Chyby sekvenování byly opraveny pomocí metody frekvence k-merů v aplikaci SOAPec (verze 2.02) . Po filtraci a korekci bylo získáno 187 Gb (84X) vysoce kvalitních sekvencí pro sestavení genomu (tabulka 1).

Obr. 1
obrázek1

Příklad gekona leopardího Eublepharis macularius (obrázek od Tonyho Gamblea)

Tabulka 1 Souhrnné statistiky sekvenčních dat gekona leopardího získaných z párových-end sekvenování sedmi knihoven insertů pomocí platformy Illumina HiSeq 2000

Sestavení genomu

Nejdříve jsme provedli analýzu 17 merů pro odhad velikosti genomu gekona leopardího pomocí 54 Gb čistých sekvencí z knihoven o velikosti insertů 170 a 500 bp. Stručně řečeno, čtení byla rozdělena na klouzavé krátké sekvence o délce 17 bp, které se překrývaly o 16 bp, s výjimkou prvního páru bází. Rozdělení počtu 17-ti merů se řídilo Poissonovým rozdělením (doplňkový soubor 1). Velikost genomu byla pro E. macularius odhadnuta na 2,23 Gb vydělením celkového počtu 17-merů vrcholem rozdělení (tabulka 2).

Tabulka 2 Statistika odhadu velikosti genomu pomocí analýzy 17-merů. Velikost genomu byla odhadnuta podle vzorce: Velikost genomu = # Kmers/Peak of depth

Poté jsme sestavili vysoce kvalitní genom gekona leopardího pomocí SOAPdenovo (verze 2.0) ve třech krocích: konstrukce kontigů, scaffolding a vyplnění mezer. V kroku konstrukce kontigů byl pomocí SOAPdenovo vytvořen de Bruijnův graf rozdělením vysoce kvalitních čtení z krátkých insertních knihoven na kmery, ve kterých byly ignorovány informace o párových koncích, a kmery byly poté sloučeny, špičky oříznuty, bubliny sloučeny a odkazy s nízkým pokrytím odstraněny. Dále byly shromážděny kontigy, které vykazují jednoznačná spojení v de Bruijnových grafech. Byla testována řada délek kmerů a pro vytvoření sestavy kontigů s nejdelší hodnotou N50 byl vybrán 33-mer. V kroku skládání lešení byly čtení z malých i velkých knihoven inzercí mapovány na sekvence kontigů, aby bylo možné zkonstruovat skládání lešení pomocí informací o vzdálenosti z párů čtení, přičemž pro vytvoření spolehlivého spojení mezi dvěma kontigy bylo nutné použít alespoň tři páry čtení. K uzavření mezer uvnitř skeletů (krok vyplňování mezer) byla nejprve pomocí COPE spojena překrývající se párová čtení z knihovny 170 bp inzercí , poté byl použit Kgf k uzavření mezer pomocí těchto spojených čtení spolu se čteními z jiných knihoven s krátkou velikostí inzercí. Dodatečné lokální sestavení pro čtení s jedním koncem páru čtení jednoznačně zarovnaným ke kontigu a druhým koncem umístěným uvnitř mezery bylo provedeno pomocí GapCloser . Konečným výsledkem bylo sestavení genomu gekona leopardího o celkové délce 2,0 Gb a N50 scaffoldu a kontigu 664, resp. 20 kb, což je srovnatelné s dříve uvedeným sestavením genomu Gekko japonicus (tabulka 3) . Srovnání N50 sestavy genomu gekona leopardího s jedenácti dříve publikovanými genomy plazů (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis , Gavialis gangeticus , Crocodylus porosus , Chelonia mydas , Pelodiscus sinensis , Pogona vitticeps a Chrysemys picta bellii ) dále potvrdily, že naše výsledky jsou srovnatelné nebo lepší kvality (tabulka 4).

Tabulka 3 Srovnání vlastností genomu mezi Eublepharis macularius a Gekko japonicus
Tabulka 4 Souhrnné statistiky klíčových parametrů pro 13 genomů plazů

Odhad úplnosti genomu

Úplnost sestavy jsme hodnotili pomocí CEGMA a BUSCO , které kvantitativně hodnotí úplnost genomu pomocí evolučně informovaného očekávání obsahu genů. Hodnocení CEGMA ukázalo, že naše sestava zachytila 225 (91 %) z 248 ultrakonzervativních základních eukaryotických genů, z nichž 210 (85 %) bylo kompletních. Analýza BUSCO ukázala, že 58 % a 18 % z 3023 očekávaných genů obratlovců bylo identifikováno jako kompletní, resp. fragmentované, zatímco 24 % bylo považováno za chybějící v sestavě. Obě metody hodnocení ukázaly, že naše sestava je úplnější než dříve uvedená sestava genomu Gekko japonicus (tabulky 5 a 6).

Tabulka 5 Pokrytí základních eukaryotických genů (CEG) v genomu gekona hodnocené pomocí CEGMA. Všechny CEG byly rozděleny do čtyř skupin na základě stupně zachování proteinových sekvencí. Skupina 1 obsahuje nejméně konzervované CEG a skupina 4 obsahuje nejvíce konzervované
Tabulka 6 Souhrnná měřítka při hodnocení BUSCO

Anotace repetitivních prvků

K identifikaci transpozabilních prvků (TE) a dalších repetitivních prvků v genomu gekona leopardího jsme použili kombinaci metody založené na homologii a metody de novo. Pomocí metody založené na homologii jsme identifikovali známé TE pomocí nástroje RepeatMasker k vyhledávání v knihovně Repbase TE (RepBase21.01) a RepeatProteinMask v rámci balíčku RepeatMasker k vyhledávání v databázi TE proteinů. Při metodě de novo jsme nejprve sestavili knihovnu repetic de novo gekona leopardího pomocí RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, verze 1.0.5) a Piler , a knihovna de novo TE byla následně použita pomocí RepeatMasker k anotaci repetic v genomu gekona leopardího. Nakonec jsme použili TRF k predikci tandemových repetic s následujícími parametry: Shoda = 2, Neshoda = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Celkem jsme identifikovali 851 Mb neredundantních repetitivních sekvencí, což představuje 42 % genomu gekona leopardího. Nejvíce převládajícími elementy byly dlouhé prokládané jaderné elementy (LINE), které tvořily 30 % všech TE sekvencí a 13 % genomu (tabulka 7).

Tabulka 7 Souhrnná statistika anotovaných repetic v sestavě genomu gekona leopardího

Předpověď genů

K předpovědi genů kódujících proteiny v genomu gekona leopardího jsme kombinovali metody založené na homologii, de novo a transkriptomu.

U metod založených na homologii jsme z databáze Ensembl (release-73) stáhli soubory genů Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis a Xenopus tropicalis. Tyto homologické proteinové sekvence jsme nejprve zarovnali k sestavě genomu gekona leopardího pomocí TBLASTN s mezní hodnotou E 1e-5 a shody BLAST jsme spojili do kandidátních genových lokusů pomocí GenBlastA . Poté jsme extrahovali genomové sekvence kandidátních lokusů spolu s 3 kb doprovodnými sekvencemi pomocí programu GeneWise, abychom určili genové modely. Nakonec jsme odfiltrovali pseudogeny, které měly pouze jeden exon s chybami v rámci, protože tyto lokusy pravděpodobně vznikly retrotranspozicí.

Při metodě de novo jsme náhodně vybrali 1000 genů gekona leopardího s neporušenými otevřenými čtecími rámci (ORF) a nejvyšším skóre GeneWise ze souboru genů založených na homologii pro trénování nástroje pro predikci genů Augustus s výchozími parametry. Program Augustus byl poté použit k predikci genů de novo na sekvencích genomu maskovaných opakováním. Modely genů s neúplnými ORF a malé geny s délkou kódující protein <150 bp byly odfiltrovány. Nakonec bylo provedeno vyhledávání BLASTP předpovězených genů proti databázi SwissProt . Byly vyfiltrovány geny se shodami s proteiny SwissProt obsahujícími některé z následujících klíčových slov: transpozice, transpozon, retrotranspozon, retrovirus, retrotranspozon, reverzní transkriptáza, transpozáza a retrovir.

Předpověď genů na základě transkriptomu byla poté provedena pomocí údajů RNA-seq gekona leopardího z jater, slinných žláz, pachových žláz a kožních tkání získaných z databáze NCBI (přístupová čísla SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 a ERR216306) . Tophat (v1.3.3) byl použit k zarovnání čtení RNA-seq se sestavou genomu gekona leopardího za účelem identifikace sestřihů a cufflinks (v2.2.1) byl použit k sestavení transkriptů pomocí zarovnaných čtení RNA-seq .

Nakonec byly výsledky analýz založených na homologii, de novo a transkriptomu sloučeny, aby se získal neredundantní soubor referenčních genů založený na prioritním pořadí důkazů založených na transkriptomu > důkazů založených na homologii > důkazů založených na de novo. Ke sloučení genových dat jsme použili vlastní anotační pipeline takto:

  1. (1)

    Markovův model byl odhadnut s 1000 vysoce kvalitními geny, které byly předtím použity k tréninku programu Augustus, pomocí nástroje trainGlimmerHMM, který je součástí softwarového balíčku GlimmerHMM . Kódovací potenciál každého transkriptu sestaveného z dat transkriptomu byl poté identifikován pomocí Markovova modelu. Transkripty s kompletními ORF byly extrahovány a více izoforem ze stejného lokusu bylo sbaleno tak, že byla ponechána nejdelší ORF.

  2. (2)

    Tyto neredundantní ORF byly poté integrovány s modely genů založenými na homologii, aby vytvořily základní soubor genů pomocí vlastního skriptu. Pokud se model genu s vyšší prioritou překrýval s modelem s nižší prioritou (délka překrytí >100 bp), byl tento model odstraněn. Pokud se překrývaly dva modely genů se stejnou prioritou, byl upřednostněn ten s delším ORF.

  3. (3)

    Do základní sady genů byly přidány modely genů založené na homologii, které nebyly podpořeny důkazy založenými na transkriptomu, ale byly podpořeny homologickými důkazy z alespoň dvou druhů.

  4. (4)

    Do základního souboru genů byly přidány modely genů založené de novo, které nebyly podpořeny důkazy založenými na homologii a transkriptomu, pokud byly získány významné shody (BLASTP E-value <1e-5) pro netranspozonové proteiny v databázi SwissProt.

Výsledkem těchto kroků bylo v sestavě genomu gekona leopardího anotováno celkem 24 755 neredundantních protein-kódujících genů.

Funkční anotace protein-kódujících genů

Přiřadili jsme názvy 93,59 % všech protein-kódujících genů gekona leopardího vyhledáním v databázích funkcí TrEMBL a SwissProt pomocí BLASTP (tabulka 8). Poté jsme vyhledávali proteinové sekvence gekona leopardího v databázi Kjótské encyklopedie genů a genomů (KEGG) pomocí BLASTP, abychom identifikovali molekulární dráhy, kterých by se geny mohly účastnit. Proteinové domény a motivy byly anotovány pomocí programu InterProScan (verze 5.16) s využitím sedmi různých modelů (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan a PatternScan). Tím bylo zjištěno, že 20 958 předpovězených proteinů gekona leopardího má konzervované funkční motivy. Získali jsme také 1028 termínů genové ontologie (GO), které byly přiřazeny 15 873 proteinům gekona leopardího z odpovídajícího záznamu InterPro.

Tabulka 8 Statistika funkční anotace

Dostupnost a požadavky

  • Název projektu: Skripty pro anotaci genomu gekona leopardího

  • Domovská stránka projektu: https://github.com/gigascience/paper-xiong2016

  • Operační systémy: Programovací jazyk: Linux

  • Programovací jazyk: Další požadavky: žádné

  • Další požadavky: žádné

  • Licence: MIT

  • Jakákoli omezení pro použití neakademickými pracovníky: žádná

.

Leave a Reply