Leopardigeckon, Eublepharis macularius, genomiluonnos
Näytteiden keruu ja sekvensointi
Genomista DNA:ta uutettiin urospuolisen leopardigeckon häntäkudoksesta (Eublepharis macularius: NCBI:n taksonomiatunniste 481883; näytetunniste TG1477) (kuva 1). Kaikki kudokset kerättiin Minnesotan yliopiston eläinkäyttöprotokollien 0810A50001 ja 1108A03545 mukaisesti. Tämä eläin oli syntynyt vankeudessa yli 30 sukupolven sisäsiitoskannasta, joka oli peräisin intialaista alkuperää olevista eläimistä Woodland Parkin eläintarhassa (Seattle) ja Pakistanista tuoduista eläimistä kansallisessa eläintarhassa (Washington, DC). Yhteensä seitsemän pareittain päättyvää kirjastoa, joiden inserttikoko vaihteli 170-20 kb:n välillä, rakennettiin ja sekvensoitiin Illumina HiSeq 2000 -alustalla valmistajan ohjeiden mukaisesti (Illumina, San Diego, Kalifornia, Yhdysvallat). Pitkän insertin kokoisten kirjastojen (2, 5, 10 ja 20 kb) sekvensoidun lukupituuden pituus oli 49 bp, kun taas lyhyen insertin kokoisten kirjastojen (170, 500 ja 800 bp) sekvensoidun lukupituuden pituus oli 100 ja 150 bp (taulukko 1). Raakasekvenssejä saatiin lopulta yhteensä 303 Gb (136X) (taulukko 1). Ennen assosiointia raakalukemille suoritettiin tiukka laadunvalvonta SOAPfilter-ohjelmistolla, joka on SOAPdenovo-pakettiin kuuluva ohjelmistosovellus ja johon sisältyi huonolaatuisten lukemien ja kirjaston rakentamisen aikana tapahtuneesta PCR-monistuksesta johtuvien päällekkäislukemien poistaminen. Sekvensointivirheet korjattiin käyttämällä SOAPec-ohjelman (versio 2.02) k-mer-taajuusmenetelmää. Suodatuksen ja korjauksen jälkeen saatiin 187 Gb (84X) korkealaatuisia sekvenssejä genomin kokoamista varten (taulukko 1).
Genome assembly
Suoritimme ensin 17-mer-analyysin leopardigeckon genomin koon arvioimiseksi käyttäen 54 Gb:n puhtaita sekvenssejä 170 ja 500 bp:n insert-kokoisista kirjastoista. Lyhyesti sanottuna lukemat jaettiin liukuviksi lyhyiksi 17 bp:n sekvensseiksi, jotka olivat päällekkäisiä 16 bp:n verran ensimmäistä emäsparia lukuun ottamatta. 17-merkkisten jaksojen lukumäärän jakauma noudatti Poisson-jakaumaa (Additional file 1). E. maculariuksen genomin kooksi arvioitiin 2,23 Gb jakamalla 17-merien kokonaislukumäärä jakauman huipulla (taulukko 2).
Kokooimme sitten laadukkaan leopardigeckon genomin käyttäen SOAPdenovoa (versio 2.0) kolmessa vaiheessa: contigin rakentaminen, scaffolding ja aukkojen täyttäminen. Kontigin rakentamisvaiheessa SOAPdenovoa käytettiin de Bruijnin graafin muodostamiseen jakamalla lyhyistä inserttikirjastoista saadut korkealaatuiset lukemat kmereihin, joissa pareittainen tieto jätettiin huomiotta, ja kmerit yhdistettiin, kärjet leikattiin, kuplat yhdistettiin ja matalan kattavuuden linkit poistettiin. Seuraavaksi kerättiin kontigit, joilla oli yksiselitteisiä yhteyksiä de Bruijnin graafissa. Useita kmerin pituuksia testattiin, ja 33-meri valittiin tuottamaan kontigikokoonpano, jolla oli pisin N50-arvo. Scaffolding-vaiheessa sekä pienten että suurten insert-kirjastojen lukemat kartoitettiin contig-sekvensseihin scaffoldien muodostamiseksi lukuparien etäisyystiedon avulla, ja edellytyksenä oli, että vähintään kolmea lukuparia käytettiin luotettavan yhteyden muodostamiseksi kahden contigin välille. Telineen sisäisten aukkojen sulkemiseksi (aukkojen täyttämisvaihe) 170 bp:n inserttikirjastosta saadut päällekkäiset parilukemat yhdistettiin ensin COPE:n avulla, minkä jälkeen Kgf:tä käytettiin aukkojen sulkemiseen käyttämällä näitä yhdistettyjä lukemia yhdessä muista lyhyen inserttikoon kirjastoista saatujen lukemien kanssa. GapCloser -ohjelmalla suoritettiin paikallinen lisäkokoonpano sellaisille lukusuureille, joiden lukuparin toinen pää oli kohdistettu yksiselitteisesti kontigiin ja toinen pää sijaitsi aukon sisällä. Lopputuloksena saatiin leopardigeckon genomikokoonpano, jonka kokonaispituus oli 2,0 Gb ja scaffoldin N50-arvo 664 ja contigin N50-arvo 20 kb, mikä on verrattavissa aiemmin raportoituun Gekko japonicus -genomikokoonpanoon (taulukko 3) . Leopardigeckon genomin kokoonpanon N50-arvojen vertailu yhteentoista aiemmin julkaistuun matelijoiden genomiin (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus , Crocodylus porosus , Chelonia mydas , Pelodiscus sinensis , Pogona vitticeps ja Chrysemys picta bellii ) vahvistivat edelleen, että tuloksemme olivat laadultaan vertailukelpoisia tai parempia (taulukko 4).
Genomin täydellisyyden arviointi
Arvioimme kokoonpanon täydellisyyden CEGMA- ja BUSCO-ohjelmilla , jotka arvioivat genomin täydellisyyttä kvantitatiivisesti käyttämällä evoluutioon perustuvia odotuksia geenien sisällöstä. CEGMA-arviointi osoitti, että kokoonpanomme kattoi 225 (91 %) 248 erittäin konservoituneesta eukaryoottisesta ydingeenistä, joista 210 (85 %) oli täydellisiä. BUSCO-analyysi osoitti, että selkärankaisten 3023:sta odotetusta geenistä 58 prosenttia tunnistettiin täydelliseksi ja 18 prosenttia pirstaleiseksi, kun taas 24 prosenttia katsottiin puuttuvaksi kokoonpanosta. Molemmat arviointimenetelmät osoittivat, että kokoonpanomme oli täydellisempi kuin aiemmin raportoitu Gekko japonicuksen genomikokoonpano (taulukot 5 ja 6).
toistuvien elementtien annotaatio
Yhdistimme homologiaan perustuvan ja de novo -menetelmän transponoituvien elementtien (TE:t) ja muiden toistuvien elementtien identifioimiseksi leopardi gekkojenomin genomissa. Homologiaan perustuvalla menetelmällä tunnistimme tunnetut TE:t käyttämällä RepeatMasker-ohjelmaa Repbase TE-kirjaston (RepBase21.01) ja RepeatMasker-paketin RepeatProteinMask-ohjelmaa TE-proteiinitietokannan etsimiseen. De novo -menetelmässä rakensimme ensin de novo leopardigeckon toistokirjaston käyttäen RepeatModeleria (http://www.repeatmasker.org/RepeatModeler.html, versio 1.0.5) ja Pileriä , ja de novo TE-kirjastoa käytettiin sen jälkeen RepeatMaskerilla toistojen merkitsemiseen leopardigeckon genomissa. Lopuksi käytimme TRF:ää tandemtoistojen ennustamiseen seuraavilla parametreilla: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Kaiken kaikkiaan tunnistimme yhteensä 851 Mb ei-redundantteja, toistuvia sekvenssejä, jotka muodostavat 42 prosenttia leopardigeckon genomista. Yleisimpiä elementtejä olivat pitkät lomittuneet ydinalueet (LINE), joiden osuus oli 30 % kaikista TE-sekvensseistä ja 13 % genomista (taulukko 7).
geenien ennustaminen
Yhdistimme homologiaan perustuvia, de novo -menetelmiä ja transkriptomiin perustuvia menetelmiä ennustaaksemme proteiineja koodaavia geenejä leopardigeckon genomissa.
Homologiapohjaisissa menetelmissä latasimme Ensembl-tietokannasta (julkaisu-73) Taeniopygia guttatan, Homo sapiensin, Anolis carolinensiksen, Pelodiscus sinensiksen ja Xenopus tropicaliksen geenisarjat. Kohdistimme ensin nämä homologiset proteiinisekvenssit leopardigeckon genomikokoonpanoon käyttäen TBLASTN:ää, jonka E value cutoff oli 1e-5, ja yhdistimme BLAST-osumat ehdokasgeenilokeroiksi GenBlastA:n avulla. Tämän jälkeen poimimme ehdokaslokusten genomisekvenssit yhdessä 3 kb:n flanking-sekvenssien kanssa GeneWise-ohjelmalla geenimallien määrittämiseksi. Lopuksi suodatimme pseudogeenit, joissa oli vain yksi kehysvirheitä sisältävä eksoni, koska nämä lokukset olivat todennäköisesti peräisin retrotranspositiosta.
De novo -menetelmässä valitsimme satunnaisesti homologiaan perustuvasta geenijoukosta 1000 leopardigeckon geeniä, joilla oli ehjiä avoimia lukukehyksiä (ORF) ja korkein GeneWise-pistemäärä, ja harjoittelimme Augustus-geenin ennustustyökalua oletusarvoparametreilla. Sen jälkeen Augustusta käytettiin de novo -geeniennusteen tekemiseen toistomaskattujen genomisekvenssien perusteella. Geenimallit, joissa ORF:t olivat epätäydellisiä, ja pienet geenit, joiden proteiinia koodaava pituus oli <150 bp, suodatettiin pois. Lopuksi ennustetuille geeneille tehtiin BLASTP-haku SwissProt-tietokannasta . Geenit, joiden vastaavuudet SwissProt-proteiinien kanssa sisälsivät jonkin seuraavista avainsanoista, suodatettiin: transpose, transposon, retro-transposon, retrovirus, retrotransposon, käänteistranskriptaasi, transposaasi ja retrovirus.
Transkriptomipohjainen geenien ennustaminen suoritettiin tämän jälkeen käyttämällä NCBI:n tietokannasta (liittymisnumerot SRR629643, ERR216315, ERR216315, ERR216315, ERR216316, ERR216322, ERR216325, ERR216325, ERR216304, ERR216316 ja ERR216306) saatujen maksan, sylkirauhasen, hajurauhasen ja nahan kudoksista saatujen leopardigekkojen RNA-seq-tietojen avulla . Tophatia (v1.3.3) käytettiin RNA-seq-lukujen kohdistamiseen leopardigeckon genomikokoonpanoon liitoskohtausten tunnistamiseksi, ja cufflinksia (v2.2.1) käytettiin transkriptien kokoamiseen kohdistettujen RNA-seq-lukujen perusteella.
Loppujen lopuksi homologia-, de novo- ja transkriptomipohjaisten analyysien tulokset yhdistettiin, jotta saatiin ei-redundantti referenssigeenijoukko, joka perustui prioriteettijärjestykseen transkriptomipohjainen todistusaineisto > homologiapohjainen todistusaineisto > de novopohjainen todistusaineisto. Käytimme sisäistä annotaatioputkea geenidatan yhdistämiseen seuraavasti:
- (1)
Markov-malli estimoitiin 1000 laadukkaan geenin avulla, joita oli aiemmin käytetty Augustuksen kouluttamiseen, käyttäen GlimmerHMM-ohjelmistopakettiin sisältyvää trainGlimmerHMM-työkalua . Kunkin transkriptomitiedoista kootun transkriptin koodauspotentiaali tunnistettiin sitten Markov-mallin avulla. Transkriptit, joilla oli täydelliset ORF:t, poimittiin, ja samasta lokuksesta peräisin olevat useat isomuodot yhdistettiin säilyttämällä pisin ORF.
- (2)
Nämä ei-redundantit ORF:t integroitiin sitten homologiaan perustuviin geenimalleihin, jotta saatiin muodostettua ydingeenijoukko mukautettua skriptiä käyttäen. Jos korkeamman prioriteetin geenimalli oli päällekkäinen alemman prioriteetin mallin kanssa (päällekkäisyyden pituus >100 bp), jälkimmäinen poistettiin. Jos kaksi geenimallia, joilla oli sama prioriteetti, olivat päällekkäisiä, etusijalle asetettiin se, jonka ORF oli pidempi.
- (3)
Ydingeenijoukkoon lisättiin homologiaan perustuvat geenimallit, joita ei tuettu transkriptomiin perustuvalla todistusaineistolla, mutta joita tuettiin homologisella todistusaineistolla vähintään kahdesta lajista.
- (4)
De novo -pohjaiset geenimallit, joita ei tuettu homologiaan perustuvalla ja transkriptomiin perustuvalla todistusaineistolla, lisättiin ydingeenijoukkoon, jos SwissProt-tietokannasta saatiin merkittäviä osumia (BLASTP E-value <1e-5) muille kuin transposoniproteiineille.
Näiden vaiheiden tuloksena leopardigeckon genomikokoonpanossa annotoitiin yhteensä 24 755 ei-redundanttia proteiineja koodaavaa geeniä.
Proteiineja koodaavien geenien funktionaalinen annotaatio
Annotoimme nimet 93,59 %:lle kaikista leopardigeckon proteiineja koodaavista geeneistä etsimällä nimiä funktiotietokannoista TrEMBL:stä ja SwissProt:sta BLASTP:llä (taulukko 8). Sen jälkeen haimme leopardigekkojen proteiinisekvenssejä Kyoto Encyclopaedia of Genes and Genomes (KEGG) -tietokannasta BLASTP:n avulla, jotta tunnistaisimme molekulaariset polut, joihin geenit saattavat osallistua. Proteiinidomeenit ja motiivit annotoitiin InterProScanilla (versio 5.16) käyttäen seitsemää eri mallia (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan ja PatternScan). Tämä paljasti, että 20 958 ennustetusta leopardigeckon proteiinista oli konservoituja toiminnallisia motiiveja. Saimme myös 1028 Gene Ontology (GO) -termiä, jotka osoitettiin 15 873 leopardigeckon proteiinille vastaavasta InterPro-merkinnästä.
Saatavuus ja vaatimukset
-
Projektin nimi: Leopardigecko genome annotation scripts
-
Projektin kotisivu: https://github.com/gigascience/paper-xiong2016
-
Operating systems: https://github.com/gigascience/paper-xiong2016
-
Operating systems:
-
Ohjelmointikieli: MIT
-
Mahdolliset rajoitukset muiden kuin akateemisten käyttöön: ei mitään
Leave a Reply