Udkast til genom af leopardgekko, Eublepharis macularius

Proveindsamling og sekventering

Genomisk DNA blev ekstraheret fra halevæv fra en leopardgekko han (Eublepharis macularius: NCBI taxonomy ID 481883; specimen ID TG1477) (Fig. 1). Alle væv blev indsamlet i overensstemmelse med University of Minnesota dyrebrugsprotokoller 0810A50001 og 1108A03545. Dette dyr blev født i fangenskab efter mere end 30 generationer af indavl af en stamme, der stammer fra dyr af indisk oprindelse i Woodland Park Zoo (Seattle) og importeret fra Pakistan i National Zoo (Washington, DC) . I alt syv parvis afsluttede biblioteker med en gradient af insertstørrelse fra 170 til 20 kb blev konstrueret og sekventeret på en Illumina HiSeq 2000-platform i henhold til producentens anvisninger (Illumina, San Diego, Californien, USA). For biblioteker med lang insertstørrelse (2, 5, 10 og 20 kb) var den sekventerede læselængde 49 bp, mens de sekventerede læselængder for biblioteker med kort insertstørrelse (170, 500 og 800 bp) var 100 og 150 bp (tabel 1). Der blev til sidst opnået i alt 303 Gb (136X) rå sekvenser (tabel 1). Før samling blev der udført en streng kvalitetskontrol af rå læsninger ved hjælp af SOAPfilter, et softwareprogram i SOAPdenovo-pakken , som omfattede fjernelse af læsninger af lav kvalitet og dubletter af læsninger fra PCR-amplifikation under opbygningen af biblioteket. Sekventeringsfejl blev korrigeret ved hjælp af k-mer-frekvensmetoden i SOAPec (version 2.02) . Efter filtrering og korrektion blev der opnået 187 Gb (84X) sekvenser af høj kvalitet til genomsamling (tabel 1).

Fig. 1
Figur1

Eksempel på en leopardgekko Eublepharis macularius (billede fra Tony Gamble)

Tabel 1 Sammenfattende statistik over leopardgekko sekvensdata afledt af parvise-end-sekventering af syv insert-biblioteker ved hjælp af en Illumina HiSeq 2000-platform

Genome assembly

Vi udførte først en 17-mer-analyse for at estimere leopardgecko-genomets størrelse ved hjælp af 54 Gb rene sekvenser fra biblioteker med 170 og 500 bp insert-størrelse. Kort fortalt blev læsninger opdelt i glidende korte sekvenser på 17 bp, der overlapper hinanden med 16 bp, med undtagelse af det første basepar. Tællingsfordelingen af 17-mers fulgte en Poisson-fordeling (Additional file 1). Genomstørrelsen blev anslået til 2,23 Gb for E. macularius ved at dividere det samlede antal 17-mere med fordelingstoppen (tabel 2).

Tabel 2 Statistik for estimering af genomstørrelsen ved hjælp af 17-mer-analyse. Genomstørrelsen blev estimeret i henhold til formlen: Genomstørrelse = # Kmers/Peak of depth

Vi sammensatte derefter et leopardgecko-genom af høj kvalitet ved hjælp af SOAPdenovo (version 2.0) i tre trin: contig-konstruktion, scaffolding og udfyldning af huller. I contig-konstruktionstrinnet blev SOAPdenovo brugt til en de Bruijn-graf ved at opdele højkvalitetslæsninger fra korte indsætningsbiblioteker i kmers, hvor parvis-end-informationer blev ignoreret, og kmers blev derefter slået sammen, spidser klippet, bobler slået sammen og lavdækkende links fjernet. Dernæst blev der indsamlet contigs, der viste entydige forbindelser i de Bruijn-graferne. En række kmer-længder blev testet, og en 33-mer blev udvalgt til at generere en contig assemblage med den længste N50-værdi. I scaffolding-trinnet blev læsninger fra både små og store indsætningsbiblioteker kortlagt til contig-sekvenser for at konstruere scaffolds ved hjælp af afstandsinformationer fra læsningspar med det krav, at der blev anvendt mindst tre læsningspar for at danne en pålidelig forbindelse mellem to contigs. For at lukke huller inden for stilladset (gap filling step) blev overlappende parvise læsninger fra 170 bp insert-biblioteket først forbundet ved hjælp af COPE , hvorefter Kgf blev anvendt til at lukke huller ved hjælp af disse forbundne læsninger sammen med læsninger fra andre biblioteker med kort insert-størrelse. En yderligere lokal samling af læsninger, hvor den ene ende af et læsningspar er unikt tilpasset en contig og den anden ende er placeret inden for hullet, blev udført ved hjælp af GapCloser . Slutresultatet var en leopardgekko-genomsamling med en samlet længde på 2,0 Gb og scaffold- og contig N50’er på henholdsvis 664 og 20 kb, hvilket er sammenligneligt med den tidligere rapporterede Gekko japonicus-genomsamling (tabel 3) . Sammenligning af N50’er for leopardgekko-genomet med elleve tidligere offentliggjorte reptilgenomer (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis , Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps , og Chrysemys picta bellii ) bekræftede yderligere, at vores resultater var af sammenlignelig eller bedre kvalitet (tabel 4).

Tabel 3 Sammenligning af genomfunktioner mellem Eublepharis macularius og Gekko japonicus
Tabel 4 Sammenfattende statistik over nøgleparametre for 13 reptilgenomer

Vurdering af genomets fuldstændighed

Vi evaluerede samlingens fuldstændighed ved hjælp af CEGMA og BUSCO , som kvantitativt vurderer genomets fuldstændighed ved hjælp af evolutionært informerede forventninger om genindholdet. CEGMA-vurderingen viste, at vores samling indfangede 225 (91 %) af de 248 ultrakonserverede eukaryote kernegener, hvoraf 210 (85 %) var komplette. BUSCO-analysen viste, at 58 og 18 % af de 3023 forventede vertebrata-gener blev identificeret som henholdsvis komplette og fragmenterede, mens 24 % blev anset for at mangle i samlingen. Begge vurderingsmetoder viste, at vores samling var mere komplet end den tidligere rapporterede samling af Gekko japonicus-genomet (tabel 5 og 6).

Tabel 5 Dækning af centrale eukaryote gener (CEG’er) i gekko-genomet vurderet ved hjælp af CEGMA. Alle CEG’er blev inddelt i fire grupper baseret på deres grad af bevarelse af proteinsekvensbevaring. Gruppe 1 indeholder de mindst bevarede CEG’er, og gruppe 4 indeholder de mest bevarede
Tabel 6 Sammenfattede benchmarks i BUSCO-vurderingen

Repeat annotation

Vi kombinerede en homologibaseret og de novo-metode til at identificere transposable elementer (TE’er) og andre repetitive elementer i leopardgecko-genomet. Ved hjælp af den homologibaserede metode identificerede vi kendte TE’er ved hjælp af RepeatMasker til at søge mod Repbase TE-biblioteket (RepBase21.01) og RepeatProteinMask inden for RepeatMasker-pakken til at søge mod TE-protein-databasen. I de novo-metoden konstruerede vi først et de novo-bibliotek af gentagelser fra leopardgekko ved hjælp af RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, version 1.0.5) og Piler , og de novo TE-biblioteket blev efterfølgende brugt af RepeatMasker til at annotere gentagelser i leopardgekko-genomet. Endelig brugte vi TRF til at forudsige tandemrepeats med følgende parametre: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Samlet set identificerede vi i alt 851 Mb ikke-redundante, repetitive sekvenser, hvilket svarer til 42 % af leopardgekkoens genom. De mest dominerende elementer var lange interspredte nukleare elementer (LINEs), som tegnede sig for 30 % af alle TE-sekvenser og 13 % af genomet (tabel 7).

Tabel 7 Sammenfattende statistik over annoterede gentagelser i leopardgecko-genomsamlingen

Genprædiktion

Vi kombinerede homologibaserede, de novo- og transkriptombaserede metoder til at forudsige protein-kodende gener i leopardgecko-genomet.

I de homologibaserede metoder hentede vi gensættene fra Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis og Xenopus tropicalis fra Ensembl-databasen (release-73). Vi justerede først disse homologe proteinsekvenser til leopardgekkoens genomsamling ved hjælp af TBLASTN med en E-værdi cutoff på 1e-5 og forbandt BLAST-hitsene til kandidatgenloci med GenBlastA . Vi ekstraherede derefter genomiske sekvenser af kandidatloci sammen med 3 kb flankerende sekvenser ved hjælp af GeneWise for at bestemme genmodeller. Endelig filtrerede vi pseudogener, der kun havde ét exon med rammefejl, da disse loci sandsynligvis var afledt af retrotransposition.

I de novo-metoden valgte vi tilfældigt 1000 leopardgekko-gener med intakte åbne læserammer (ORF’er) og den højeste GeneWise-score fra det homologibaserede gensæt for at træne Augustus-genprædiktionsværktøjet med standardparametre. Augustus blev derefter brugt til at udføre en de novo-genprædiktion på gentagelsesmaskerede genomsekvenser. Genmodeller med ufuldstændige ORF’er og små gener med en proteinkodningslængde <150 bp blev filtreret fra. Endelig blev der foretaget en BLASTP-søgning af de forudsagte gener mod SwissProt-databasen . Gener med match til SwissProt-proteiner, der indeholdt et af følgende nøgleord, blev filtreret: transpose, transposon, retro-transposon, retrovirus, retrotransposon, reverse transcriptase, transposase og retroviral.

Transkriptombaseret genprædiktion blev derefter udført ved hjælp af leopardgekko RNA-seq-data fra lever, spytkirtel, duftkirtel og hudvæv fra NCBI-databasen (adgangsnummer SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 og ERR216306) . Tophat (v1.3.3.3) blev brugt til at tilpasse RNA-seq-reads mod leopardgekko-genomsamlingen for at identificere splejsningsforbindelser, og cufflinks (v2.2.1) blev brugt til at samle transkripter ved hjælp af de tilpassede RNA-seq-reads .

Endeligt blev resultaterne af homologi-, de novo- og transkriptombaserede analyser slået sammen for at give et ikke-redundant referencegen-sæt baseret på en prioriteret rækkefølge af transkriptombaseret bevismateriale > homologibaseret bevismateriale > de novo-baseret bevismateriale. Vi anvendte en intern annotationspipeline til at sammenlægge gendataene som følger:

  1. (1)

    En Markov-model blev estimeret med 1000 gener af høj kvalitet, som tidligere blev brugt til at træne Augustus, ved hjælp af værktøjet trainGlimmerHMM, der er inkluderet i GlimmerHMM-softwarepakken . Det kodningspotentiale for hvert transkript, der er samlet fra transkriptomdataene, blev derefter identificeret ved hjælp af Markov-modellen. Transkripter med komplette ORF’er blev ekstraheret, og flere isoformer fra det samme locus blev sammenklappet ved at bibeholde den længste ORF.

  2. (2)

    Disse ikke-redundante ORF’er blev derefter integreret med homologibaserede genmodeller for at danne kernegen-sættet ved hjælp af et brugerdefineret script. Hvis en genmodel med en højere prioritet overlappede med en model med en lavere prioritet (overlappende længde >100 bp), blev sidstnævnte fjernet. Hvis to genmodeller med samme prioritet overlappede hinanden, blev den med en længere ORF foretrukket.

  3. (3)

    Homologibaserede genmodeller, der ikke understøttes af transkriptombaseret evidens, men som understøttes af homologe evidens fra mindst to arter, blev tilføjet til kernegen-sættet.

  4. (4)

    De novo-baserede genmodeller, der ikke understøttes af homologibaseret og transkriptombaseret evidens, blev føjet til kernegen-sættet, når der blev opnået signifikante hits (BLASTP E-værdi <1e-5) for ikke-transposonproteiner i SwissProt-databasen.

Som resultat af disse trin blev i alt 24 755 ikke-redundante proteinkodende gener annoteret i leopardgekko-genomsamlingen.

Funktionel annotation af proteinkodende gener

Vi tildelte navne til 93,59 % af alle leopardgekko-proteinkodende gener ved at søge mod funktionsdatabaserne TrEMBL og SwissProt ved hjælp af BLASTP (tabel 8). Vi søgte derefter leopardgekkoens proteinsekvenser mod Kyoto Encyclopaedia of Genes and Genomes (KEGG) databasen ved hjælp af BLASTP for at identificere de molekylære veje, som generne kunne være involveret i. Proteindomæner og -motiver blev annoteret ved hjælp af InterProScan (version 5.16) ved hjælp af syv forskellige modeller (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan og PatternScan). Dette afslørede, at 20.958 af de forudsagte leopardgecko-proteiner havde bevarede funktionelle motiver. Vi fik også 1028 Gene Ontology (GO)-termer, som blev tildelt 15.873 leopardgecko-proteiner fra den tilsvarende InterPro-post.

Tabel 8 Statistik for funktionel annotation

Adgang og krav

  • Projektnavn: Leopard gecko genome annotation scripts

  • Projekthjemmeside: https://github.com/gigascience/paper-xiong2016

  • Operationssystemer: https://github.com/gigascience/paper-xiong2016

  • Operationssystemer: Linux

  • Programmeringssprog: Linux

  • Programmeringssprog: PERL

  • Andre krav: ingen

  • Licens: MIT

  • Indskrænkninger i brugen af ikke-akademikere: ingen

Leave a Reply