Proiectul de genom al gecko leopard, Eublepharis macularius

Colectarea și secvențierea probelor

DNA genomic a fost extras din țesutul cozii unui gecko leopard mascul (Eublepharis macularius: NCBI taxonomy ID 481883; specimen ID TG1477) (Fig. 1). Toate țesuturile au fost colectate în conformitate cu protocoalele de utilizare a animalelor de la Universitatea din Minnesota 0810A50001 și 1108A03545. Acest animal a fost născut în captivitate din peste 30 de generații de consangvinizare a unei tulpini provenite de la animale de origine indiană de la Woodland Park Zoo (Seattle) și de la animale importate din Pakistan de la National Zoo (Washington, DC). În total, au fost construite și secvențiate șapte biblioteci de tip paired-end cu un gradient de inserție de dimensiuni cuprinse între 170 și 20 kb pe o platformă Illumina HiSeq 2000, în conformitate cu instrucțiunile producătorului (Illumina, San Diego, California, SUA). Pentru bibliotecile cu inserții lungi (2, 5, 10 și 20 kb), lungimea citirilor secvențiate a fost de 49 pb, în timp ce pentru bibliotecile cu inserții scurte (170, 500 și 800 pb), lungimile citirilor secvențiate au fost de 100 și 150 pb (tabelul 1). În cele din urmă s-a obținut un total de 303 Gb (136X) de secvențe brute (tabelul 1). Înainte de asamblare, s-a efectuat un control strict al calității pentru citirile brute folosind SOAPfilter, o aplicație software din pachetul SOAPdenovo , care a inclus eliminarea citirilor de calitate scăzută și a citirilor duplicate rezultate din amplificarea PCR în timpul construcției bibliotecii. Erorile de secvențiere au fost corectate utilizând metoda frecvenței k-mer în SOAPec (versiunea 2.02) . După filtrare și corecție, s-au obținut 187 Gb (84X) de secvențe de înaltă calitate pentru asamblarea genomului (tabelul 1).

Fig. 1
figura1

Exemplu de gecko leopard Eublepharis macularius (imagine de la Tony Gamble)

Tabel 1 Statistici rezumative ale datelor de secvență ale gecko leopard derivate din secvențe împerecheate.end secvențiere împerecheată a șapte biblioteci de inserții cu ajutorul unei platforme Illumina HiSeq 2000

Asamblarea genomului

Am efectuat mai întâi o analiză a 17 meri pentru a estima dimensiunea genomului gecko leopard folosind secvențe curate de 54 Gb din biblioteci cu inserții de 170 și 500 bp. Pe scurt, citirile au fost împărțite în secvențe scurte glisante de 17 pb, care se suprapun cu 16 pb, cu excepția primei perechi de baze. Distribuția numărului de 17 memeri a urmat o distribuție Poisson (fișier suplimentar 1). Dimensiunea genomului a fost estimată la 2,23 Gb pentru E. macularius prin împărțirea numărului total de 17-meri la vârful distribuției (tabelul 2).

Tabel 2 Statisticile de estimare a dimensiunii genomului prin analiza 17-meri. Dimensiunea genomului a fost estimată conform formulei: Dimensiunea genomului = # Kmers/Pic de adâncime

Apoi am asamblat un genom de gecko leopard de înaltă calitate folosind SOAPdenovo (versiunea 2.0) în trei etape: construcția contigurilor, scheletul și umplerea golurilor. În etapa de construire a contigurilor, SOAPdenovo a fost utilizat pentru a realiza un grafic de Bruijn prin împărțirea citirilor de înaltă calitate din bibliotecile de inserții scurte în kmeri în care informațiile de tip paired-end au fost ignorate, iar kmerii au fost apoi uniți, vârfurile au fost tăiate, bulele au fost unite și legăturile cu acoperire redusă au fost eliminate. În continuare, au fost colectate contigurile care prezentau conexiuni neambigue în graficele de Bruijn. Au fost testate o serie de lungimi de kmer și a fost selectat un polimer de 33 pentru a genera un ansamblu de contig-uri cu cea mai lungă valoare N50. În etapa de scheletare, citirile din bibliotecile de inserții mici și mari au fost cartografiate la secvențele de contig pentru a construi schelere folosind informațiile de distanță din perechile de citire, cu cerința ca cel puțin trei perechi de citire să fie folosite pentru a forma o conexiune fiabilă între două contig-uri. Pentru a închide decalajele din interiorul schelei (etapa de umplere a decalajelor), citirile suprapuse de tip paired-end din biblioteca de inserții de 170 bp au fost mai întâi conectate cu ajutorul COPE , apoi s-a utilizat Kgf pentru a închide decalajele folosind aceste citiri conectate împreună cu citirile din alte biblioteci de inserții scurte. S-a efectuat o asamblare locală suplimentară pentru citirile cu un capăt al unei perechi de citiri aliniat în mod unic la un contig și cu celălalt capăt situat în decalaj cu ajutorul GapCloser . Rezultatul final a fost o asamblare a genomului de gecko leopard cu o lungime totală de 2,0 Gb și cu N50 de 664 și, respectiv, 20 kb, comparabil cu asamblarea genomului Gekko japonicus raportată anterior (tabelul 3). Comparația dintre N50 de asamblare pentru genomul gecko leopard cu unsprezece genomuri de reptile publicate anterior (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps și Chrysemys picta bellii ) a confirmat și mai mult că rezultatele noastre au fost de o calitate comparabilă sau mai bună (tabelul 4).

Tabel 3 Compararea caracteristicilor genomului între Eublepharis macularius și Gekko japonicus
Tabel 4 Statistici rezumative ale parametrilor cheie pentru 13 genomuri de reptile

Estimarea completitudinii genomului

Am evaluat completitudinea ansamblului folosind CEGMA și BUSCO , care evaluează cantitativ caracterul complet al genomului folosind așteptări informate din punct de vedere evolutiv privind conținutul de gene. Evaluarea CEGMA a arătat că ansamblul nostru a capturat 225 (91 %) din cele 248 de gene eucariote de bază ultraconservate, dintre care 210 (85 %) erau complete. Analiza BUSCO a arătat că 58 % și 18 % din cele 3023 de gene vertebrate așteptate au fost identificate ca fiind complete și, respectiv, fragmentate, în timp ce 24 % au fost considerate lipsă în ansamblu. Ambele metode de evaluare au arătat că ansamblul nostru a fost mai complet decât ansamblul genomului Gekko japonicus raportat anterior (Tabelele 5 și 6).

Tabelul 5 Acoperirea genelor eucariote de bază (CEGs) în genomul gecko, evaluată prin CEGMA. Toate CEG-urile au fost împărțite în patru grupe în funcție de gradul de conservare a secvenței proteice. Grupul 1 conține CEG-urile cel mai puțin conservate, iar grupul 4 conține CEG-urile cele mai conservate
Tabelul 6 Repere rezumate în evaluarea BUSCO

Anotare repetată

Am combinat o metodă bazată pe homologie și o metodă de novo pentru a identifica elementele transpozabile (TE) și alte elemente repetitive în genomul gecko leopard. Folosind metoda bazată pe homologie, am identificat TE cunoscuți folosind RepeatMasker pentru a căuta în biblioteca TE Repbase (RepBase21.01) și RepeatProteinMask din cadrul pachetului RepeatMasker pentru a căuta în baza de date cu proteine TE. În metoda de novo, am construit mai întâi o bibliotecă de novo de repetări de leopard gecko folosind RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, versiunea 1.0.5) și Piler , iar biblioteca TE de novo a fost utilizată ulterior de RepeatMasker pentru a adnota repetările din genomul leopard gecko. În cele din urmă, am folosit TRF pentru a prezice repetările în tandem, cu următorii parametri: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. În total, am identificat un total de 851 Mb de secvențe repetitive non-redundante, reprezentând 42 % din genomul gecko leopard. Cele mai predominante elemente au fost elementele nucleare lungi intercalate (LINE), care au reprezentat 30 % din toate secvențele TE și 13 % din genom (tabelul 7).

Tabel 7 Statistici recapitulative ale repetițiilor adnotate în ansamblul genomului gecko leopard

Predicerea genelor

Am combinat metode bazate pe homologie, de novo și bazate pe transcriptom pentru a prezice genele care codifică proteine în genomul gecko leopard.

În cadrul metodelor bazate pe homologie, am descărcat seturile de gene ale Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis și Xenopus tropicalis din baza de date Ensembl (versiunea 73). Am aliniat mai întâi aceste secvențe proteice omologe la ansamblul genomului de gecko leopard folosind TBLASTN cu o valoare E de 1e-5, și am legat rezultatele BLAST în loci de gene candidate cu GenBlastA . Apoi am extras secvențele genomice ale lociilor candidați, împreună cu secvențe flancate de 3 kb, folosind GeneWise pentru a determina modelele de gene. În cele din urmă, am filtrat pseudogenele care aveau doar un exon cu erori de cadru, deoarece acești loci au fost probabil derivați din retrotranspunere.

În metoda de novo, am selectat aleatoriu 1000 de gene de gecko leopard cu cadre deschise de lectură (ORF) intacte și cel mai mare scor GeneWise din setul de gene bazate pe homologie pentru a antrena instrumentul de predicție genetică Augustus cu parametrii impliciți. Augustus a fost apoi utilizat pentru a efectua o predicție genetică de novo pe secvențe de genom mascate cu repetiții. Modelele de gene cu ORF-uri incomplete și genele mici cu o lungime de codificare a proteinelor <150 bp au fost filtrate. În cele din urmă, s-a efectuat o căutare BLASTP a genelor prezise în baza de date SwissProt . Au fost filtrate genele cu corespondențe cu proteinele SwissProt care conțineau oricare dintre următoarele cuvinte cheie: transpose, transposon, retro-transposon, retrovirus, retrotransposon, transcriptază inversă, transpoză și retroviral.

Predicția genelor pe bază de transcriptom a fost apoi realizată utilizând date RNA-seq de leopard gecko din ficat, glande salivare, glande olfactive și țesuturi cutanate obținute din baza de date NCBI (număr de acces SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 și ERR216306) . Tophat (v1.3.3.3) a fost utilizat pentru a alinia citirile RNA-seq cu ansamblul genomului leopard gecko pentru a identifica joncțiunile de îmbinare, iar cufflinks (v2.2.1) a fost utilizat pentru a asambla transcripții folosind citirile RNA-seq aliniate .

În cele din urmă, rezultatele analizelor bazate pe homologie, de novo și transcriptom au fost fuzionate pentru a obține un set de gene de referință neredundant bazat pe o ordine de prioritate a dovezilor bazate pe transcriptom > dovezi bazate pe homologie > dovezi bazate pe de novo. Am utilizat un pipeline intern de adnotare pentru a fuziona datele privind genele, după cum urmează:

  1. (1)

    Un model Markov a fost estimat cu 1000 de gene de înaltă calitate, care au fost utilizate anterior pentru antrenarea lui Augustus, utilizând instrumentul trainGlimmerHMM inclus în pachetul software GlimmerHMM . Potențialul de codificare al fiecărui transcript asamblat din datele transcriptomului a fost apoi identificat cu ajutorul modelului Markov. Transcriptele cu ORF-uri complete au fost extrase, iar izoformele multiple din același locus au fost colapsate prin reținerea celui mai lung ORF.

  2. (2)

    Aceste ORF-uri nedundante au fost apoi integrate cu modele de gene bazate pe homologie pentru a forma setul de gene de bază, utilizând un script personalizat. În cazul în care un model de genă cu o prioritate mai mare se suprapunea cu un model cu o prioritate mai mică (lungime de suprapunere >100 bp), acesta din urmă a fost eliminat. În cazul în care două modele de gene cu aceeași prioritate se suprapuneau, a fost preferat cel cu un ORF mai lung.

  3. (3)

    Modelele de gene bazate pe omologie care nu sunt susținute de dovezi bazate pe transcriptom, dar care sunt susținute de dovezi omologe de la cel puțin două specii au fost adăugate la setul de gene de bază.

  4. (4)

    Modelele de gene bazate de novo care nu sunt susținute de dovezi bazate pe homologie și pe transcriptom au fost adăugate la setul de gene de bază în cazul în care au fost obținute rezultate semnificative (BLASTP E-value <1e-5) pentru proteine netranspozonice în baza de date SwissProt.

În urma acestor etape, un total de 24 755 de gene codificatoare de proteine neredundante au fost adnotate în ansamblul genomului de gecko leopard.

Anotarea funcțională a genelor codificatoare de proteine

Am atribuit nume la 93,59 % din toate genele codificatoare de proteine din gecko leopard prin căutarea în bazele de date funcționale TrEMBL și SwissProt utilizând BLASTP (tabelul 8). Apoi am căutat secvențele proteice ale gecko leopard în baza de date Kyoto Encyclopaedia of Genes and Genomes (KEGG) folosind BLASTP pentru a identifica căile moleculare în care ar putea fi implicate genele. Domeniile și motivele proteice au fost adnotate cu ajutorul InterProScan (versiunea 5.16) folosind șapte modele diferite (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan și PatternScan). Acest lucru a arătat că 20 958 dintre proteinele prezise ale leopardului gecko aveau motive funcționale conservate. Am obținut, de asemenea, 1028 de termeni Gene Ontology (GO) care au fost atribuiți la 15 873 de proteine de leopard gecko din intrarea InterPro corespunzătoare.

Tabelul 8 Statistici pentru adnotarea funcțională

Disponibilitate și cerințe

  • Numele proiectului: Leopard gecko genome annotation scripts

  • Pagina de pornire a proiectului: Leopard gecko genome annotation scripts

  • Project home page: https://github.com/gigascience/paper-xiong2016

  • Sisteme de operare: Linux

  • Limbaj de programare: PERL

  • Alte cerințe: niciuna

  • Licență: PERL

  • : MIT

  • Restricții de utilizare de către non-academici: niciuna

.

Leave a Reply