Ontwerp-genoom van de luipaardgekko, Eublepharis macularius
Bemonstering en sequencing
Genomisch DNA werd gewonnen uit het staartweefsel van een mannelijke luipaardgekko (Eublepharis macularius: NCBI taxonomie ID 481883; specimen ID TG1477) (fig. 1). Alle weefsels werden verzameld in overeenstemming met de Universiteit van Minnesota protocollen voor dierlijk gebruik 0810A50001 en 1108A03545. Dit dier werd in gevangenschap geboren uit meer dan 30 generaties inteelt van een stam afkomstig van dieren van Indiase oorsprong in de Woodland Park Zoo (Seattle) en import uit Pakistan in de National Zoo (Washington, DC) . In totaal werden zeven paired-end bibliotheken met een gradiënt insertgrootte variërend van 170 tot 20 kb geconstrueerd en gesequeneerd op een Illumina HiSeq 2000-platform volgens de instructies van de fabrikant (Illumina, San Diego, Californië, VS). Voor bibliotheken met een lange insertgrootte (2, 5, 10 en 20 kb) bedroeg de sequenceduur 49 bp, terwijl voor bibliotheken met een korte insertgrootte (170, 500 en 800 bp) de sequenceduur 100 en 150 bp bedroeg (tabel 1). Uiteindelijk werden in totaal 303 Gb (136X) ruwe sequenties verkregen (Tabel 1). Vóór de assemblage werd een strikte kwaliteitscontrole uitgevoerd op ruwe sequenties met behulp van SOAPfilter, een softwaretoepassing in het SOAPdenovo pakket, dat het verwijderen van lage-kwaliteits reads en dubbele reads als gevolg van PCR amplificatie tijdens de bouw van de bibliotheek omvatte. Sequencing fouten werden gecorrigeerd met behulp van de k-mer frequentie methode in SOAPec (versie 2.02) . Na filtering en correctie werden 187 Gb (84X) sequenties van hoge kwaliteit verkregen voor genoomassemblage (Tabel 1).
Genoom-assemblage
We hebben eerst een 17-mer-analyse uitgevoerd om de grootte van het genoom van de luipaardgekko te schatten aan de hand van 54 Gb zuivere sequenties uit bibliotheken met een insertgrootte van 170 en 500 bp. Kort gezegd, werden de gelezen sequenties verdeeld in glijdende korte sequenties van 17 bp, overlappend met 16 bp, met uitzondering van het eerste basepaar. De tellingsverdeling van 17-mers volgde een Poisson-verdeling (Additional file 1). De genoomgrootte werd voor E. macularius geschat op 2,23 Gb door het totale aantal 17-mers te delen door de piek van de verdeling (Tabel 2).
Wij hebben vervolgens een genoom van luipaardgekko van hoge kwaliteit geassembleerd met behulp van SOAPdenovo (versie 2.0) in drie stappen: contigconstructie, scaffolding, en gap filling. In de contig constructie stap, werd SOAPdenovo gebruikt om een de Bruijn grafiek door het verdelen van hoge kwaliteit leest van korte insert bibliotheken in kmers waarin gepaarde-end informatie werd genegeerd, en kmers werden vervolgens samengevoegd, tips geknipt, bubbels samengevoegd, en lage dekking links verwijderd. Vervolgens werden contigs verzameld die ondubbelzinnige verbindingen in de Bruijn-grafieken vertoonden. Een reeks van kmer lengtes werden getest en een 33-mer werd geselecteerd om een contig assemblage met de langste N50 waarde te genereren. In de scaffolding stap, werden gelezen van zowel kleine als grote insert bibliotheken in kaart gebracht om contig sequenties te construeren met behulp van afstandsinformatie van gelezen paren, met de eis dat ten minste drie gelezen paren werden gebruikt om een betrouwbare verbinding tussen twee contigs te vormen. Om intra-scaffold lacunes (de gap filling stap) te sluiten, overlappende gepaarde-end leest van de 170 bp insert bibliotheek werden eerst verbonden met behulp van COPE, dan Kgf werd gebruikt om lacunes met behulp van deze verbonden leest samen met leest van andere korte insert grootte bibliotheken te sluiten. Een extra lokale assemblage voor gelezen met een uiteinde van een gelezen paar uniek uitgelijnd met een contig en het andere uiteinde gelegen binnen de kloof werd uitgevoerd met behulp van GapCloser . Het eindresultaat was een luipaardgekko-genoomassemblage met een totale lengte van 2,0 Gb en scaffold en contig N50s van 664 en 20 kb, respectievelijk, wat vergelijkbaar is met de eerder gerapporteerde Gekko japonicus-genoomassemblage (Tabel 3). Vergelijking van de assemblage N50s voor het luipaardgekko-genoom met elf eerder gepubliceerde reptielengenomen (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps , en Chrysemys picta bellii ) bevestigden verder dat onze resultaten van vergelijkbare of betere kwaliteit waren (Tabel 4).
Raming van de volledigheid van het genoom
We evalueerden de volledigheid van de assemblage met behulp van CEGMA en BUSCO , die kwantitatief genoom volledigheid beoordelen met behulp van evolutionair geïnformeerde verwachtingen van gen inhoud. CEGMA-beoordeling toonde aan dat onze assemblage 225 (91%) van de 248 ultrageconserveerde kerneukaryotische genen omvatte, waarvan 210 (85%) volledig waren. BUSCO-analyse toonde aan dat 58 en 18 % van de 3023 verwachte vertebrata-genen als volledig respectievelijk gefragmenteerd werden geïdentificeerd, terwijl 24 % als ontbrekend in de assemblage werd beschouwd. Uit beide beoordelingsmethoden bleek dat onze assemblage completer was dan de eerder gerapporteerde Gekko japonicus-genoomassemblage (tabellen 5 en 6).
Herhalingsannotatie
We combineerden een op homologie gebaseerde en de novo-methode om transposable elementen (TE’s) en andere repetitieve elementen in het luipaardgekko-genoom te identificeren. Met de homologie-gebaseerde methode identificeerden we bekende TEs met behulp van RepeatMasker om te zoeken tegen de Repbase TE bibliotheek (RepBase21.01) en RepeatProteinMask binnen het RepeatMasker pakket om te zoeken tegen de TE eiwit database. In de de novo methode, hebben we eerst een de novo luipaardgekko herhalingsbibliotheek geconstrueerd met behulp van RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, versie 1.0.5) en Piler , en de de novo TE bibliotheek werd vervolgens gebruikt door RepeatMasker om herhalingen in het luipaardgekko-genoom te annoteren. Tenslotte gebruikten we TRF om tandem herhalingen te voorspellen, met de volgende parameters: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. In totaal hebben we 851 Mb aan niet-redundante, repetitieve sequenties geïdentificeerd, die 42 % van het luipaardgekko-genoom uitmaken. De meest voorkomende elementen waren lange afgewisselde nucleaire elementen (LINE’s), die 30 % van alle TE-sequenties en 13 % van het genoom uitmaakten (tabel 7).
Genvoorspelling
We combineerden homologie-gebaseerde, de novo, en transcriptoom-gebaseerde methoden om eiwit-coderende genen in het luipaardgekko-genoom te voorspellen.
Bij de op homologie gebaseerde methoden hebben we de genensets van Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis en Xenopus tropicalis uit de Ensembl-database (release-73) gedownload. We hebben eerst deze homologe eiwitsequenties uitgelijnd met het luipaardgekko-genoom met behulp van TBLASTN met een E-waarde cutoff van 1e-5, en de BLAST-hits gekoppeld aan kandidaat-genloci met GenBlastA . Vervolgens extraheerden we genomische sequenties van kandidaat loci, samen met 3 kb flankerende sequenties, met GeneWise om genmodellen te bepalen. Tenslotte filterden we pseudogenen die slechts één exon met frame fouten hadden, omdat deze loci waarschijnlijk afkomstig waren van retrotranspositie.
In de de novo methode selecteerden we willekeurig 1000 luipaardgekko-genen met intacte open leesramen (ORFs) en de hoogste GeneWise score uit de homologie-gebaseerde genenset om het Augustus genvoorspellingstool te trainen met standaard parameters. Augustus werd vervolgens gebruikt om een de novo genvoorspelling uit te voeren op herhaal-gemaskerde genoomsequenties. Genmodellen met onvolledige ORFs en kleine genen met een eiwit-coderende lengte <150 bp werden uitgefilterd. Tenslotte werd een BLASTP-search van voorspelde genen uitgevoerd tegen de SwissProt database . Genen met overeenkomsten met SwissProt-eiwitten die een van de volgende trefwoorden bevatten, werden gefilterd: transpose, transposon, retro-transposon, retrovirus, retrotransposon, reverse transcriptase, transposase, en retroviraal.
Transcriptoom-gebaseerde genvoorspelling werd vervolgens uitgevoerd met behulp van luipaardgekko RNA-seq gegevens van lever, speekselklier, geurklier, en huidweefsels verkregen uit de NCBI database (toetredingsnummer SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 en ERR216306) . Tophat (v1.3.3) werd gebruikt om de RNA-seq leest uitlijnen tegen de luipaardgekko genoom-assemblage om splice junctions te identificeren, en manchetknopen (v2.2.1) werd gebruikt om transcripten assembleren met behulp van de uitgelijnde RNA-seq leest .
Ten slotte werden de resultaten van de homologie-, de novo-, en transcriptoom-gebaseerde analyses samengevoegd om een niet-redundante referentie-gen set op te leveren, gebaseerd op een prioriteitsvolgorde van transcriptoom-gebaseerd bewijs > homologie-gebaseerd bewijs > de novo gebaseerd bewijs. We gebruikten een in-house annotatie pijplijn om de gen data als volgt samen te voegen:
- (1)
Een Markov model werd geschat met 1000 genen van hoge kwaliteit, die eerder werden gebruikt om Augustus te trainen, met behulp van de trainGlimmerHMM tool opgenomen in het GlimmerHMM software pakket. Het coderingspotentieel van elk transcript geassembleerd uit de transcriptoom gegevens werd vervolgens geïdentificeerd met behulp van het Markov model. Transcripten met volledige ORFs werden geëxtraheerd en meerdere isovormen van dezelfde locus werden samengevoegd door behoud van de langste ORF.
- (2)
Deze niet-redundante ORFs werden vervolgens geïntegreerd met homologie-gebaseerde gen modellen om de kern gen set te vormen met behulp van een aangepast script. Als een genmodel met een hogere prioriteit overlapte met een model met een lagere prioriteit (overlappende lengte >100 bp), werd het laatste verwijderd. Als twee genmodellen met dezelfde prioriteit elkaar overlapten, werd de voorkeur gegeven aan het model met de langere ORF.
- (3)
Genmodellen op basis van homologie die niet door bewijsmateriaal op basis van transcriptomen worden ondersteund, maar wel door homoloog bewijsmateriaal uit ten minste twee soorten, werden aan de core gene set toegevoegd.
- (4)
De novo-gebaseerde genmodellen die niet door bewijsmateriaal op basis van homologie en transcriptoom worden ondersteund, werden aan de kerngenenverzameling toegevoegd wanneer significante treffers (BLASTP E-waarde <1e-5) voor niet-transposon-eiwitten in de SwissProt-databank werden verkregen.
Als resultaat van deze stappen werden in totaal 24.755 niet-redundante eiwit-coderende genen geannoteerd in de luipaardgekko-genoomassemblage.
Functionele annotatie van eiwit-coderende genen
We kenden namen toe aan 93,59 % van alle luipaardgekko-eiwit-coderende genen door te zoeken tegen de functiedatabases TrEMBL en SwissProt met behulp van BLASTP (tabel 8). Vervolgens hebben we de luipaardgekko-eiwitsequenties met behulp van BLASTP vergeleken met de Kyoto Encyclopaedia of Genes and Genomes (KEGG) database om moleculaire routes te identificeren waar de genen bij betrokken zouden kunnen zijn. Eiwitdomeinen en -motieven werden geannoteerd met behulp van InterProScan (versie 5.16), waarbij zeven verschillende modellen werden gebruikt (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan en PatternScan). Hieruit bleek dat 20.958 van de voorspelde luipaardgekko-eiwitten geconserveerde functionele motieven hadden. We verkregen ook 1028 Gene Ontology (GO) termen die werden toegewezen aan 15.873 luipaardgekko-eiwitten uit de overeenkomstige InterPro entry.
Beschikbaarheid en vereisten
-
Projectnaam: Leopard gecko genome annotation scripts
-
Project home page: https://github.com/gigascience/paper-xiong2016
-
Besturingssystemen: Linux
-
Programmeertaal: PERL
-
Andere vereisten: geen
-
Licentie: MIT
-
Erkende beperkingen voor gebruik door niet-academici: geen
Leave a Reply