Articles / augusti 22, 2021

Utkast till genom av leopardgecko, Eublepharis macularius

Provsamling och sekvensering

Genomiskt DNA extraherades från svansvävnad från en hane av en leopardgecko (Eublepharis macularius: NCBI taxonomy ID 481883; specimen ID TG1477) (fig. 1). Alla vävnader samlades in i enlighet med University of Minnesotas djuranvändningsprotokoll 0810A50001 och 1108A03545. Djuret föddes i fångenskap efter mer än 30 generationers inavel av en stam som härstammar från djur av indiskt ursprung vid Woodland Park Zoo (Seattle) och import från Pakistan vid National Zoo (Washington, DC). Sammanlagt sju bibliotek med parvisa ändar med en gradient av insatstorlek från 170 till 20 kb konstruerades och sekvenserades på en Illumina HiSeq 2000-plattform enligt tillverkarens anvisningar (Illumina, San Diego, Kalifornien, USA). För bibliotek med lång insatstorlek (2, 5, 10 och 20 kb) var den sekvenserade avläsningslängden 49 bp, medan den sekvenserade avläsningslängden för bibliotek med kort insatstorlek (170, 500 och 800 bp) var 100 och 150 bp (tabell 1). Totalt 303 Gb (136X) råsekvenser erhölls slutligen (tabell 1). Före sammansättningen utfördes en strikt kvalitetskontroll av råavläsningarna med hjälp av SOAPfilter, en programvara i SOAPdenovo-paketet, vilket innebar att man tog bort avläsningar av låg kvalitet och dubbla avläsningar som uppstod genom PCR-amplifiering under uppbyggnaden av biblioteken. Sekvenseringsfel korrigerades med hjälp av k-mer-frekvensmetoden i SOAPec (version 2.02) . Efter filtrering och korrigering erhölls 187 Gb (84X) högkvalitativa sekvenser för sammansättning av genomet (tabell 1).

Tabell 1 Sammanfattande statistik över sekvensdata från leopardgecko som härrör från parade-end sequencing of seven insert libraries using an Illumina HiSeq 2000 platform

Genome assembly

Vi utförde först en 17-mer-analys för att uppskatta leopardgeckos genomstorlek med hjälp av 54 Gb rena sekvenser från bibliotek med 170 och 500 bp insatsstorlek. Kortfattat delades avläsningarna upp i glidande korta sekvenser på 17 bp, som överlappar varandra med 16 bp, med undantag för det första basparet. Räkningsspridningen av 17-mers följde en Poisson-fördelning (Additional file 1). Genomstorleken uppskattades till 2,23 Gb för E. macularius genom att dividera det totala antalet 17-mers med fördelningens topp (tabell 2).

Tabell 2 Statistik för uppskattning av genomstorlek genom 17-mer-analys. Genomstorleken uppskattades enligt formeln: Genomstorlek = # Kmers/Peak of depth

Vi sammanställde sedan ett högkvalitativt leopardgecko-genom med hjälp av SOAPdenovo (version 2.0) i tre steg: contig-konstruktion, scaffolding och gap filling. I kontigkonstruktionssteget användes SOAPdenovo för att skapa en de Bruijn-graf genom att dela upp högkvalitativa läsningar från korta insättningsbibliotek i kmers där information om parade ändar ignorerades, och kmers slogs sedan samman, spetsar klipptes bort, bubblor slogs samman och länkar med låg täckning togs bort. Därefter samlades contigs som visade otvetydiga kopplingar i de Bruijn-graferna in. En rad kmer-längder testades och en 33-mer valdes ut för att generera en kontig sammansättning med det längsta N50-värdet. I scaffoldingsteget kartlades läsningar från både små och stora insättningsbibliotek till contig-sekvenser för att konstruera scaffolds med hjälp av avståndsinformation från läspar, med kravet att minst tre läspar användes för att bilda en tillförlitlig koppling mellan två contigs. För att täppa till luckor inom ställningen (steget för att fylla luckor) kopplades först överlappande parvisa läsningar från 170 bp-insatsbiblioteket samman med hjälp av COPE , sedan användes Kgf för att täppa till luckor med hjälp av dessa sammanlänkade läsningar tillsammans med läsningar från andra bibliotek med kort insatthetsstorlek. En ytterligare lokal sammansättning för läsningar där den ena änden av ett läspar är unikt anpassat till en contig och den andra änden är belägen inom luckan utfördes med hjälp av GapCloser . Slutresultatet blev en leopardgecko-genomsamling med en total längd på 2,0 Gb och N50 för scaffold och contigs på 664 respektive 20 kb, vilket är jämförbart med den tidigare rapporterade genomsamlingen av Gekko japonicus (tabell 3). Jämförelse av N50 för leopardgeckos genom med elva tidigare publicerade reptilgenom (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis , Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps och Chrysemys picta bellii ) bekräftade ytterligare att våra resultat var av jämförbar eller bättre kvalitet (tabell 4).

Tabell 3 Jämförelse av genomfunktioner mellan Eublepharis macularius och Gekko japonicus

Tabell 4 Sammanfattande statistik över nyckelparametrar för 13 reptilgenom

Uppskattning av genomets fullständighet

Vi utvärderade sammansättningens fullständighet med CEGMA och BUSCO , som kvantitativt bedömer genomets fullständighet med hjälp av evolutionärt informerade förväntningar på geninnehållet. CEGMA-bedömningen visade att vår samling fångade 225 (91 %) av de 248 ultrakonserverade eukaryotiska kärngenerna, varav 210 (85 %) var kompletta. BUSCO-analysen visade att 58 respektive 18 % av de 3023 förväntade vertebrata-generna identifierades som kompletta respektive fragmenterade, medan 24 % ansågs saknas i sammansättningen. Båda bedömningsmetoderna visade att vår sammansättning var mer komplett än den tidigare rapporterade sammansättningen av Gekko japonicus genom (tabellerna 5 och 6).

Tabell 5 Täckning av centrala eukaryotiska gener (CEGs) i geckos genom bedömd med CEGMA. Alla CEGs delades in i fyra grupper baserat på graden av bevarandet av proteinsekvenser. Grupp 1 innehåller de minst bevarade CEG:erna och grupp 4 innehåller de mest bevarade

Tabell 6 Sammanfattade riktmärken i BUSCO-bedömningen

Repeat annotation

Vi kombinerade en homologibaserad och en de novo-metod för att identifiera transposabla element (TE:er) och andra repetitiva element i leopardgeckos genom. Med hjälp av den homologibaserade metoden identifierade vi kända TE:er genom att använda RepeatMasker för att söka mot Repbase TE-biblioteket (RepBase21.01) och RepeatProteinMask inom RepeatMasker-paketet för att söka mot TE-proteindatabasen. I de novo-metoden konstruerade vi först ett de novo-bibliotek med upprepningar från leopardgecko med hjälp av RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, version 1.0.5) och Piler , och de novo TE-biblioteket användes därefter av RepeatMasker för att annotera upprepningar i leopardgecko-genomet. Slutligen använde vi TRF för att förutsäga tandemrepeat med följande parametrar: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Sammantaget identifierade vi totalt 851 Mb icke-redundanta, repetitiva sekvenser, vilket motsvarar 42 % av leopardgecko-genomet. De mest dominerande elementen var långa interspridda kärnelement (LINEs), som stod för 30 % av alla TE-sekvenser och 13 % av genomet (tabell 7).

Tabell 7 Sammanfattande statistik över annoterade upprepningar i leopardgeckos genomsamling

Genförutsägelse

Vi kombinerade homologibaserade, de novo- och transkriptombaserade metoder för att förutsäga proteinkodande gener i leopardgeckos genom.

I de homologibaserade metoderna hämtade vi genuppsättningar från Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis och Xenopus tropicalis från Ensembl-databasen (release-73). Vi anpassade först dessa homologa proteinsekvenser till leopardgeckos genomsammansättning med hjälp av TBLASTN med ett E-värde på 1e-5, och länkade BLAST-träffarna till kandidatgenloker med GenBlastA . Vi extraherade sedan genomsekvenser av kandidatloci, tillsammans med 3 kb flankerande sekvenser, med hjälp av GeneWise för att bestämma genmodeller. Slutligen filtrerade vi pseudogener som hade endast ett exon med ramfel, eftersom dessa loci troligen härrörde från retrotransposition.

I de novo-metoden valde vi slumpmässigt ut 1 000 leopardgecko-gener med intakta öppna läsramar (ORF:er) och den högsta GeneWise-poängen från den homologibaserade genuppsättningen för att träna Augustus genprediktionsverktyg med standardparametrar. Augustus användes sedan för att utföra en de novo-genprediktion på upprepade maskerade genomsekvenser. Genmodeller med ofullständiga ORF:er och små gener med en proteinkodande längd <150 bp filtrerades bort. Slutligen utfördes en BLASTP-sökning av förutsagda gener mot SwissProt-databasen . Gener med matchningar med SwissProt-proteiner som innehöll något av följande nyckelord filtrerades bort: transpose, transposon, retrotransposon, retrovirus, retrotransposon, reverse transcriptase, transposas och retroviral.

Transkriptombaserad genförutsägelse utfördes sedan med hjälp av leopardgeckos RNA-seq-data från lever, spottkörtlar, doftkörtlar och hudvävnader från NCBI-databasen (anslutningsnummer SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 och ERR216306) . Tophat (v1.3.3) användes för att anpassa RNA-seq-avläsningarna mot leopardgecko-genomblandningen för att identifiera skarvförgreningar, och cufflinks (v2.2.1) användes för att sammanställa transkript med hjälp av de anpassade RNA-seq-avläsningarna .

Slutligt slogs resultaten av homologi-, de novo- och transkriptombaserade analyser samman för att ge en icke redundant referensgenuppsättning baserad på en prioritetsordning av transkriptombaserade bevis > homologibaserade bevis > de novo-baserade bevis. Vi använde en egen annoteringspipeline för att slå samman gendata enligt följande:

(1)
En Markovmodell skattades med 1000 högkvalitativa gener, som tidigare använts för att träna Augustus, med hjälp av verktyget trainGlimmerHMM som ingår i mjukvarupaketet GlimmerHMM . Kodningspotentialen för varje transkript som samlats från transkriptomdata identifierades sedan med hjälp av Markovmodellen. Transkript med fullständiga ORF:er extraherades och flera isoformer från samma lokus sammanfattades genom att behålla den längsta ORF:n.
(2)
Dessa icke-redundanta ORF:er integrerades sedan med homologibaserade genmodeller för att bilda den centrala genuppsättningen med hjälp av ett anpassat skript. Om en genmodell med högre prioritet överlappade med en modell med lägre prioritet (överlappningslängd >100 bp) togs den senare bort. Om två genmodeller med samma prioritet överlappade varandra, föredrogs den med en längre ORF.
(3)
Homologibaserade genmodeller som inte stöds av transkriptombaserade bevis, men som stöds av homologa bevis från minst två arter, lades till den centrala genuppsättningen.
(4)
De novo-baserade genmodeller som inte stöds av homologibaserade och transkriptombaserade bevis lades till den centrala genuppsättningen där signifikanta träffar (BLASTP E-värde <1e-5) för icke-transposonproteiner i SwissProt-databasen erhölls.

Som ett resultat av dessa steg annoterades totalt 24 755 icke-redundanta proteinkodande gener i leopardgecko-genomsamlingen.

Funktionell annotering av proteinkodande gener

Vi tilldelade namn till 93,59 % av alla proteinkodande gener i leopardgecko genom att söka mot funktionsdatabaserna TrEMBL och SwissProt med hjälp av BLASTP (tabell 8). Vi sökte sedan leopardgeckos proteinsekvenser mot Kyoto Encyclopaedia of Genes and Genomes (KEGG) databasen med hjälp av BLASTP för att identifiera molekylära vägar som generna kan vara involverade i. Proteindomäner och motiv annoterades med InterProScan (version 5.16) med hjälp av sju olika modeller (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan och PatternScan). Detta visade att 20 958 av de förutspådda leopardgecko-proteinerna hade bevarade funktionella motiv. Vi fick också fram 1028 Gene Ontology (GO)-termer som tilldelades 15 873 leopardgecko-proteiner från motsvarande InterPro-post.

Tabell 8 Statistik för funktionell annotering

Tillgänglighet och krav

Projektnamn: Skripter för annotering av leopardgeckos genom
Projektets hemsida: https://github.com/gigascience/paper-xiong2016
Driftssystem: Linux
Programspråk: PERL
Andra krav: inga
Licens: MIT
Inskränkningar i användningen för icke-akademiker: inga

Universe