A leopárd gekkó, Eublepharis macularius genomtervezete

Mintagyűjtés és szekvenálás

Genomi DNS-t egy hím leopárd gekkó (Eublepharis macularius: NCBI taxonómiai azonosító 481883; példány azonosító TG1477) farokszövetéből nyertük (1. ábra). Minden szövetet a Minnesotai Egyetem 0810A50001 és 1108A03545 állatfelhasználási protokolljainak megfelelően gyűjtöttünk. Ez az állat fogságban született a Woodland Park Zoo (Seattle) indiai eredetű állataiból származó törzs több mint 30 generációs beltenyésztéséből és a Nemzeti Állatkert (Washington, DC) pakisztáni importjából. Összesen hét párosított végű, 170 és 20 kb közötti gradiens inzertmérettel rendelkező könyvtárat készítettünk és szekvenáltunk Illumina HiSeq 2000 platformon a gyártó utasításainak megfelelően (Illumina, San Diego, Kalifornia, USA). A hosszú inzertméretű könyvtárak (2, 5, 10 és 20 kb) esetében a szekvenált olvasás hossza 49 bp volt, míg a rövid inzertméretű könyvtárak (170, 500 és 800 bp) esetében a szekvenált olvasás hossza 100 és 150 bp volt (1. táblázat). Végül összesen 303 Gb (136X) nyers szekvenciát kaptunk (1. táblázat). Az összerakás előtt a SOAPdenovo csomagban található SOAPfilter szoftver alkalmazással szigorú minőségellenőrzést végeztünk a nyers leolvasásokon, amely magában foglalta a rossz minőségű leolvasások és a könyvtárépítés során a PCR-amplifikációból származó duplikált leolvasások eltávolítását. A szekvenálási hibákat a SOAPec (2.02-es verzió) k-mer gyakorisági módszerével korrigáltuk. A szűrés és korrekció után 187 Gb (84X) jó minőségű szekvenciát kaptunk a genom összeállításához (1. táblázat).

Fig. 1
figure1

Egy leopárd gekkó Eublepharis macularius példája (a kép Tony Gamble-től származik)

Táblázat 1 A párosításból származó leopárd gekkó szekvenciaadatok összefoglaló statisztikája.Illumina HiSeq 2000 platformon végzett hét inzertkönyvtár páronkénti szekvenálásából

Genom összerakás

Először 17-mer elemzést végeztünk a leopárd gekkó genom méretének becslésére 170 és 500 bp inzertméretű könyvtárakból származó 54 Gb tiszta szekvenciák felhasználásával. Röviden, a leolvasásokat 17 bp hosszúságú csúszó rövid szekvenciákra osztottuk, amelyek az első bázispár kivételével 16 bp átfedéssel rendelkeztek. A 17-merek számának eloszlása Poisson-eloszlást követett (Additional file 1). A genom méretét 2,23 Gb-ra becsültük az E. macularius esetében úgy, hogy a 17-merek teljes számát elosztottuk az eloszlás csúcsával (2. táblázat).

2. táblázat A genom méretének 17-meres elemzéssel történő becslésének statisztikája. A genom méretét a képlet szerint becsültük: Genomméret = # Kmers/Mélységcsúcs

Ezután a SOAPdenovo (2.0 verzió) segítségével három lépésben állítottuk össze a jó minőségű leopárd gekkó genomot: kontigkonstrukció, scaffolding és hézagkitöltés. A kontigkonstrukciós lépésben a SOAPdenovo segítségével de Bruijn-gráfot készítettünk úgy, hogy a rövid inzertkönyvtárakból származó kiváló minőségű olvasatokat kmerekre osztottuk, amelyekben a páros végű információkat figyelmen kívül hagytuk, majd a kmereket egyesítettük, a csúcsokat levágtuk, a buborékokat egyesítettük, és az alacsony lefedettségű linkeket eltávolítottuk. Ezután összegyűjtöttük a de Bruijn-gráfban egyértelmű kapcsolatokat mutató kontigokat. Egy sor kmer-hosszúságot teszteltünk, és egy 33-mer-t választottunk ki a leghosszabb N50 értékkel rendelkező kontig-összeállítás létrehozásához. A scaffolding lépésben mind a kis, mind a nagy insert könyvtárakból származó olvasatokat leképeztük a kontig szekvenciákra, hogy a leolvasópárok távolsági információinak felhasználásával scaffoldokat építsünk, azzal a követelménnyel, hogy két kontig közötti megbízható kapcsolat kialakításához legalább három leolvasópárt kell használni. Az állványzaton belüli hézagok bezárásához (a hézagkitöltési lépés) először a 170 bp-os inzertkönyvtárból származó átfedő páros végű olvasatokat kapcsoltuk össze a COPE segítségével, majd a Kgf-t alkalmaztuk a hézagok bezárására ezen összekapcsolt olvasatok és más rövid inzertméretű könyvtárakból származó olvasatok felhasználásával. A GapCloser segítségével további helyi összeszerelést végeztünk olyan leolvasásokhoz, amelyek egyik vége egyértelműen egy kontighoz igazodott, a másik vége pedig a résen belül helyezkedett el. A végeredmény egy 2,0 Gb összhosszúságú leopárd gekkó genom-összeállítás lett, amelynek a scaffold és a contig N50-értéke 664, illetve 20 kb, ami összehasonlítható a korábban bejelentett Gekko japonicus genom-összeállítással (3. táblázat) . A leopárd gekkó genomjának N50-értékeinek összehasonlítása tizenegy korábban közzétett hüllőgenommal (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus , Crocodylus porosus , Chelonia mydas , Pelodiscus sinensis , Pogona vitticeps , és Chrysemys picta bellii ) további megerősítést nyert, hogy eredményeink hasonló vagy jobb minőségűek (4. táblázat).

3. táblázat Az Eublepharis macularius és a Gekko japonicus genomjellemzőinek összehasonlítása
4. táblázat A 13 hüllőgenom legfontosabb paramétereinek összefoglaló statisztikái

A genom teljességének becslése

A CEGMA és BUSCO segítségével értékeltük az összeállítás teljességét, amelyek kvantitatív módon értékelik a genom teljességét a géntartalom evolúciósan megalapozott elvárásai alapján. A CEGMA értékelése azt mutatta, hogy az összeállításunk a 248 ultrakonzervált eukarióta maggénből 225-öt (91 %) tartalmazott, amelyek közül 210 (85 %) teljes volt. A BUSCO-elemzés azt mutatta, hogy a 3023 elvárt gerinces gén 58 %-át teljesnek, illetve 18 %-át töredezettnek azonosítottuk, míg 24 %-át az összeállításból hiányzónak tekintettük. Mindkét értékelési módszer azt mutatta, hogy az összeállításunk teljesebb, mint a korábban közölt Gekko japonicus genom összeállítása (5. és 6. táblázat).

5. táblázat A CEGMA-val értékelt alapvető eukarióta gének (CEG) lefedettsége a gekkó genomban. Az összes CEG-t négy csoportba osztottuk a fehérjeszekvencia-konzerváltságuk mértéke alapján. Az 1. csoport tartalmazza a legkevésbé konzervált CEG-eket, a 4. csoport pedig a leginkább konzerváltakat
Táblázat 6 Összefoglalt referenciaértékek a BUSCO értékelésben

ismétlődő elemek annotálása

Homológia alapú és de novo módszert kombináltunk a transzpozíciós elemek (TE-k) és más ismétlődő elemek azonosítására a leopárd gekkó genomban. A homológia-alapú módszerrel ismert TE-ket azonosítottunk a RepeatMasker segítségével a Repbase TE könyvtár (RepBase21.01) és a RepeatMasker csomagon belüli RepeatProteinMask segítségével a TE fehérje adatbázisban történő kereséshez. A de novo módszer során először a RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, 1.0.5 verzió) és a Piler segítségével egy de novo leopárd gekkó ismétlődési könyvtárat hoztunk létre, majd a de novo TE könyvtárat a RepeatMasker segítségével a leopárd gekkó genomban található ismétlődések annotálására használtuk. Végül a TRF-et használtuk a tandem ismétlődések előrejelzésére, a következő paraméterekkel: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Összességében összesen 851 Mb nem redundáns, ismétlődő szekvenciát azonosítottunk, ami a leopárd gekkó genom 42%-át teszi ki. A legelterjedtebb elemek a hosszú interspersed nukleáris elemek (LINE-k) voltak, amelyek az összes TE-szekvencia 30 %-át és a genom 13 %-át tették ki (7. táblázat).

7. táblázat A leopárd gekkó genom-összeállításában található annotált ismétlődések összefoglaló statisztikája

Gén-előrejelzés

A leopárd gekkó genomjában található fehérjekódoló gének előrejelzésére homológia-alapú, de novo és transzkriptom-alapú módszereket kombináltunk.

A homológia-alapú módszerekhez a Taeniopygia guttata, a Homo sapiens, az Anolis carolinensis, a Pelodiscus sinensis és a Xenopus tropicalis génkészleteit töltöttük le az Ensembl adatbázisból (release-73). Először ezeket a homológ fehérjeszekvenciákat igazítottuk a leopárd gekkó genom-összeállításához TBLASTN segítségével, 1e-5 E értékű cutoff értékkel, majd a BLAST találatokat GenBlastA segítségével jelölt génlokuszokká kapcsoltuk. Ezután a génmodellek meghatározásához a GeneWise segítségével kivontuk a jelölt lókuszok genomi szekvenciáit a 3 kb-os flankáló szekvenciákkal együtt. Végül kiszűrtük azokat a pszeudogéneket, amelyek csak egy exont tartalmaztak kerethibával, mivel ezek a lókuszok valószínűleg retrotranszpozícióból származtak.

A de novo módszerben véletlenszerűen kiválasztottunk 1000 leopárd gekkó gént ép nyitott olvasókerettel (ORF) és a legmagasabb GeneWise pontszámmal a homológia alapú génkészletből, hogy alapértelmezett paraméterekkel betanítsuk az Augustus génjósló eszközt. Ezt követően az Augustus segítségével de novo génpredikciót végeztünk az ismétléssel maszkolt genomszekvenciákon. A hiányos ORF-ekkel rendelkező génmodelleket és a <150 bp fehérjekódoló hosszúságú kis géneket kiszűrtük. Végül a prediktált gének BLASTP keresését végeztük el a SwissProt adatbázisban . A SwissProt-fehérjékkel egyező géneket, amelyek a következő kulcsszavak valamelyikét tartalmazzák, kiszűrtük: transzpozíció, transzpozon, retrotranszpozon, retrovírus, retrotranszpozon, reverz transzkriptáz, transzpozáz és retrovírus.

A transzkriptom-alapú gén-előrejelzést ezután az NCBI adatbázisából származó máj, nyálmirigy, illatmirigy és bőr szövetekből származó leopárd gekkó RNS-seq adatok felhasználásával végeztük el (hozzáférési számok: SRR629643, ERR216315, ERR216316, ERR216316, ERR216322, ERR216325, ERR216304 és ERR216306) . Tophat (v1.3.3) segítségével igazítottuk az RNS-seq olvasatokat a leopárd gekkó genom-összeállításhoz a splice-összeköttetések azonosítása érdekében, és cufflinks (v2.2.1) segítségével állítottuk össze a transzkripteket az igazított RNS-seq olvasatok alapján .

Végül a homológia-, de novo- és transzkriptom-alapú elemzések eredményeit egyesítettük, hogy egy nem redundáns referencia-génkészletet kapjunk a transzkriptom-alapú bizonyítékok > homológia-alapú bizonyítékok > de novo-alapú bizonyítékok prioritási sorrendje alapján. A génadatok egyesítéséhez egy házon belüli annotációs csővezetéket alkalmaztunk az alábbiak szerint:

  1. (1)

    A Markov-modellt 1000 jó minőségű génnel becsültük meg, amelyeket korábban az Augustus tréningjéhez használtunk, a GlimmerHMM szoftvercsomagban található trainGlimmerHMM eszközzel . Ezután a Markov-modell segítségével azonosítottuk a transzkriptom-adatokból összeállított minden egyes transzkriptum kódolási potenciálját. A teljes ORF-ekkel rendelkező transzkripteket kivontuk, és az ugyanabból a lokuszból származó többszörös izoformákat a leghosszabb ORF megtartásával összevontuk.

  2. (2)

    Ezeket a nem redundáns ORF-eket ezután homológiaalapú génmodellekkel integráltuk, hogy egy egyedi szkript segítségével kialakítsuk az alapvető génkészletet. Ha egy magasabb prioritású génmodell átfedésben volt egy alacsonyabb prioritású modellel (átfedési hossz >100 bp), akkor az utóbbit eltávolítottuk. Ha két azonos prioritású génmodell átfedésben volt, akkor a hosszabb ORF-fel rendelkező modellt részesítettük előnyben.

  3. (3)

    A core génkészlethez hozzáadtuk azokat a homológián alapuló génmodelleket, amelyeket nem támogatott transzkriptom-alapú bizonyíték, de legalább két fajból származó homológ bizonyítékkal alátámasztottunk.

  4. (4)

    De novo alapú, homológia alapú és transzkriptom alapú bizonyítékokkal nem alátámasztott génmodelleket adtunk hozzá az alapvető génkészlethez, amennyiben a SwissProt adatbázisban jelentős találatokat (BLASTP E érték <1e-5) kaptunk nem transzpozon fehérjékre.

Ezek a lépések eredményeként összesen 24 755 nem redundáns fehérjekódoló gént annotáltunk a leopárd gekkó genom összeállításában.

A fehérjekódoló gének funkcionális annotációja

A leopárd gekkó fehérjekódoló génjeinek 93,59%-ához rendeltünk nevet a TrEMBL és SwissProt funkciós adatbázisokban BLASTP segítségével végzett kereséssel (8. táblázat). Ezután a leopárd gekkó fehérje szekvenciáit a Kyoto Encyclopaedia of Genes and Genomes (KEGG) adatbázisban kerestük a BLASTP segítségével, hogy azonosítsuk azokat a molekuláris útvonalakat, amelyekben a gének részt vehetnek. A fehérjetartományokat és motívumokat az InterProScan (5.16-os verzió) segítségével annotáltuk hét különböző modell (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan és PatternScan) segítségével. Ez azt mutatta, hogy a leopárd gekkó előrejelzett fehérjéi közül 20 958 konzervált funkcionális motívummal rendelkezik. A megfelelő InterPro-bejegyzésből 1028 Gene Ontology (GO) kifejezést is kaptunk, amelyeket 15 873 leopárd gekkófehérjéhez rendeltünk hozzá.

8. táblázat A funkcionális annotáció statisztikái

A rendelkezésre állás és követelmények

  • Projekt neve: Leopard gecko genom annotation scripts

  • Projekt honlapja: https://github.com/gigascience/paper-xiong2016

  • Működő rendszerek: https://github.com/gigascience/paper-xiong2016

  • A projekt honlapja: https://github.com/gigascience/paper-xiong2016

  • Működő rendszerek:

  • Programozási nyelv: Linux

  • Programozási nyelv:

  • Egyéb követelmények: Nincs

  • Licenc: PERL

  • Licenc: MIT

  • A nem akadémikusok általi használatra vonatkozó korlátozások: nincs

Leave a Reply