Genoma di bozza del geco leopardo, Eublepharis macularius

Raccolta dei campioni e sequenziamento

Il DNA genomico è stato estratto dal tessuto della coda di un geco leopardo maschio (Eublepharis macularius: NCBI taxonomy ID 481883; campione ID TG1477) (Fig. 1). Tutti i tessuti sono stati raccolti in conformità con l’Università del Minnesota protocolli di utilizzo degli animali 0810A50001 e 1108A03545. Questo animale è nato in cattività da 30 + generazioni di inbreeding di un ceppo originario di animali di origine indiana presso lo Zoo di Woodland Park (Seattle) e le importazioni dal Pakistan presso lo Zoo Nazionale (Washington, DC) . Un totale di sette librerie paired-end con un gradiente di dimensioni degli inserti che vanno da 170 a 20 kb sono stati costruiti e sequenziati su una piattaforma Illumina HiSeq 2000 secondo le istruzioni del produttore (Illumina, San Diego, California, USA). Per le librerie con inserti lunghi (2, 5, 10 e 20 kb), la lunghezza della lettura sequenziata era di 49 bp, mentre per le librerie con inserti corti (170, 500 e 800 bp), la lunghezza della lettura sequenziata era di 100 e 150 bp (Tabella 1). Un totale di 303 Gb (136X) di sequenze grezze è stato infine ottenuto (Tabella 1). Prima dell’assemblaggio, è stato eseguito un rigoroso controllo di qualità per le letture grezze utilizzando SOAPfilter, un’applicazione software nel pacchetto SOAPdenovo, che comprendeva la rimozione delle letture di bassa qualità e delle letture duplicate derivanti dall’amplificazione PCR durante la costruzione della libreria. Gli errori di sequenziamento sono stati corretti utilizzando il metodo di frequenza k-mer in SOAPec (versione 2.02). Dopo il filtraggio e la correzione, 187 Gb (84X) sequenze di alta qualità sono stati ottenuti per l’assemblaggio del genoma (Tabella 1).

Fig. 1
figura1

Esempio di un geco leopardo Eublepharis macularius (immagine di Tony Gamble)

Tabella 1 Statistiche riassuntive dei dati di sequenza del geco leopardo derivati dal paired-end sequencing di sette librerie di inserti usando una piattaforma Illumina HiSeq 2000

Assemblaggio del genoma

Abbiamo prima eseguito un’analisi di 17-mer per stimare le dimensioni del genoma del geco leopardo usando 54 Gb di sequenze pulite da librerie di inserti di 170 e 500 bp. In breve, le letture sono state divise in brevi sequenze scorrevoli di 17 bp, sovrapposte di 16 bp, ad eccezione della prima coppia di basi. La distribuzione del conteggio di 17 meri ha seguito una distribuzione di Poisson (file aggiuntivo 1). La dimensione del genoma è stata stimata come 2,23 Gb per E. macularius dividendo il numero totale di 17-meri per il picco della distribuzione (Tabella 2).

Tabella 2 Statistiche di stima della dimensione del genoma tramite l’analisi dei 17-mer. La dimensione del genoma è stata stimata secondo la formula: Dimensione del genoma = # Kmers/picco di profondità

Abbiamo poi assemblato un genoma di alta qualità del geco leopardo usando SOAPdenovo (versione 2.0) in tre fasi: costruzione di contig, scaffolding e riempimento di gap. Nella fase di costruzione dei contig, SOAPdenovo è stato utilizzato per un grafico di de Bruijn dividendo le letture di alta qualità da librerie di inserti brevi in kmers in cui le informazioni di paired-end sono state ignorate, e i kmers sono stati poi uniti, le punte tagliate, le bolle unite e i collegamenti a bassa copertura rimossi. Successivamente, sono stati raccolti i contig che mostravano connessioni non ambigue nei grafici di de Bruijn. Una serie di lunghezze di kmer sono state testate e un 33-mer è stato selezionato per generare un gruppo di contig con il valore N50 più lungo. Nella fase di scaffolding, ha letto da entrambe le piccole e grandi librerie di inserti sono stati mappati alle sequenze contig per costruire scaffold utilizzando le informazioni di distanza da coppie di lettura, con il requisito che almeno tre coppie di lettura sono stati utilizzati per formare una connessione affidabile tra due contig. Per chiudere le lacune intra-scaffold (il passo di riempimento delle lacune), le letture sovrapposte paired-end della libreria di inserti da 170 bp sono state prima collegate usando COPE, poi Kgf è stato impiegato per chiudere le lacune utilizzando queste letture collegate insieme alle letture di altre biblioteche di dimensioni brevi. Un ulteriore assemblaggio locale per le letture con un’estremità di una coppia di letture allineata in modo univoco a un contig e l’altra estremità situata all’interno del gap è stato eseguito utilizzando GapCloser. Il risultato finale è stato un assemblaggio del genoma del geco leopardo con una lunghezza totale di 2,0 Gb e scaffold e contig N50s di 664 e 20 kb, rispettivamente, che è paragonabile all’assemblaggio del genoma di Gekko japonicus precedentemente riportato (Tabella 3). Il confronto degli N50 di assemblaggio per il genoma del geco leopardo con undici genomi di rettili precedentemente pubblicati (Anolis carolinensis, Python molurus bivittatus, Ophiophagus hannah, Alligator sinensis, Alligator mississippiensis, Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps , e Chrysemys picta bellii ) ha ulteriormente confermato che i nostri risultati erano di qualità comparabile o migliore (Tabella 4).

Tabella 3 Confronto delle caratteristiche del genoma tra Eublepharis macularius e Gekko japonicus
Tabella 4 Statistiche riassuntive dei parametri chiave per 13 genomi di rettili

Stima della completezza del genoma

Abbiamo valutato la completezza dell’assieme usando CEGMA e BUSCO , che valutano quantitativamente la completezza del genoma usando aspettative evolutivamente informate del contenuto genico. La valutazione CEGMA ha mostrato che il nostro assemblaggio ha catturato 225 (91%) dei 248 geni eucarioti di base ultra-conservati, di cui 210 (85%) erano completi. L’analisi BUSCO ha mostrato che il 58 e il 18% dei 3023 geni vertebrati attesi sono stati identificati come completi e frammentati, rispettivamente, mentre il 24% è stato considerato mancante nell’assemblaggio. Entrambi i metodi di valutazione hanno mostrato che il nostro assemblaggio era più completo dell’assemblaggio del genoma di Gekko japonicus precedentemente riportato (Tabelle 5 e 6).

Tabella 5 Copertura dei geni eucarioti di base (CEGs) nel genoma del geco valutata da CEGMA. Tutti i CEG sono stati divisi in quattro gruppi in base al loro grado di conservazione della sequenza proteica. Il gruppo 1 contiene i CEG meno conservati e il gruppo 4 contiene i più conservati
Tabella 6 Parametri di riferimento riassunti nella valutazione BUSCO

Annotazione ripetitiva

Abbiamo combinato un metodo basato sull’omologia e uno de novo per identificare gli elementi trasponibili (TE) e altri elementi ripetitivi nel genoma del geco leopardo. Usando il metodo basato sull’omologia, abbiamo identificato i TE conosciuti usando RepeatMasker per cercare nella libreria Repbase TE (RepBase21.01) e RepeatProteinMask nel pacchetto RepeatMasker per cercare nel database delle proteine TE. Nel metodo de novo, abbiamo prima costruito una libreria di ripetizioni de novo del geco leopardo usando RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, versione 1.0.5) e Piler, e la libreria de novo TE è stata successivamente utilizzata da RepeatMasker per annotare le ripetizioni nel genoma del geco leopardo. Infine, abbiamo usato TRF per prevedere le ripetizioni in tandem, con i seguenti parametri: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Nel complesso, abbiamo identificato un totale di 851 Mb di sequenze ripetitive non ridondanti, che rappresentano il 42% del genoma del geco leopardo. Gli elementi più predominanti erano elementi nucleari lunghi interspersi (LINEs), che rappresentavano il 30% di tutte le sequenze TE e il 13% del genoma (Tabella 7).

Tabella 7 Statistiche riassuntive delle ripetizioni annotate nell’assemblaggio del genoma del geco leopardo

Previsione del gene

Abbiamo combinato metodi basati sull’omologia, de novo e sul trascrittoma per predire i geni codificanti proteine nel genoma del geco leopardo.

Nei metodi basati sull’omologia, abbiamo scaricato i set di geni di Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis e Xenopus tropicalis dal database Ensembl (release-73). Abbiamo prima allineato queste sequenze di proteine omologhe all’insieme del genoma del geco leopardo usando TBLASTN con un cutoff di valore E di 1e-5, e abbiamo collegato i risultati di BLAST in loci genici candidati con GenBlastA . Abbiamo poi estratto le sequenze genomiche dei loci candidati, insieme a 3 kb di sequenze laterali, usando GeneWise per determinare i modelli genici. Infine, abbiamo filtrato gli pseudogeni che avevano solo un esone con errori di frame, poiché questi loci erano probabilmente derivati dalla retrotrasposizione.

Nel metodo de novo, abbiamo selezionato a caso 1000 geni del geco leopardo con open reading frame (ORF) intatti e il più alto punteggio GeneWise dal set di geni basato sull’omologia per addestrare lo strumento di predizione genica Augustus con parametri predefiniti. Augustus è stato poi utilizzato per eseguire una predizione genica de novo sulle sequenze del genoma mascherate da ripetizioni. I modelli genici con ORF incomplete e piccoli geni con una lunghezza di codifica proteica <150 bp sono stati filtrati. Infine, una ricerca BLASTP dei geni predetti è stata eseguita contro il database SwissProt. I geni con corrispondenze a proteine SwissProt contenenti una delle seguenti parole chiave sono stati filtrati: trasporre, trasposone, retro-trasposone, retrovirus, retrotrasposone, trascrittasi inversa, trasposasi e retrovirale.

La predizione dei geni basata sul trascrittoma è stata quindi eseguita utilizzando i dati RNA-seq del geco leopardo da fegato, ghiandola salivare, ghiandola odorosa e tessuti della pelle ottenuti dal database NCBI (numero di adesione SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 e ERR216306). Tophat (v1.3.3) è stato utilizzato per allineare le letture RNA-seq contro l’assemblaggio del genoma del geco leopardo per identificare le giunzioni di splice, e cufflinks (v2.2.1) è stato utilizzato per assemblare i trascritti utilizzando le letture RNA-seq allineate.

Infine, i risultati delle analisi basate sull’omologia, sul de novo e sul trascrittoma sono stati fusi per produrre un set di geni di riferimento non ridondante basato su un ordine di priorità di prove basate sul trascrittoma > prove basate sull’omologia > prove basate sul de novo. Abbiamo impiegato una pipeline di annotazione interna per unire i dati del gene come segue:

  1. (1)

    Un modello di Markov è stato stimato con 1000 geni di alta qualità, che sono stati precedentemente utilizzati per formare Augustus, utilizzando lo strumento trainGlimmerHMM incluso nel pacchetto software GlimmerHMM. Il potenziale di codifica di ogni trascrizione assemblata dai dati del trascrittoma è stato quindi identificato utilizzando il modello di Markov. Le trascrizioni con ORF complete sono state estratte e le isoforme multiple dallo stesso locus sono state collassate mantenendo l’ORF più lunga.

  2. (2)

    Queste ORF non ridondanti sono state poi integrate con modelli di geni basati sull’omologia per formare il core set di geni utilizzando uno script personalizzato. Se un modello genico con una priorità più alta si sovrapponeva ad un modello con una priorità più bassa (lunghezza della sovrapposizione >100 bp), quest’ultimo veniva rimosso. Se due modelli di gene con la stessa priorità si sovrapponevano, quello con un ORF più lungo era preferito.

  3. (3)

    I modelli di gene basati sull’omologia non supportati da prove basate sul trascrittoma ma supportati da prove omologhe da almeno due specie sono stati aggiunti al set di geni principale.

  4. (4)

    I modelli di geni basati sull’omologia non supportati da prove basate sull’omologia e sul trascrittoma sono stati aggiunti al set di geni di base quando sono stati ottenuti risultati significativi (BLASTP E-value <1e-5) per proteine non-transposon nel database SwissProt.

Come risultato di questi passaggi, un totale di 24.755 geni codificanti proteine non ridondanti sono stati annotati nell’assemblaggio del genoma del geco leopardo.

Annotazione funzionale dei geni codificanti proteine

Abbiamo assegnato nomi al 93,59% di tutti i geni codificanti proteine del geco leopardo cercando nei database delle funzioni TrEMBL e SwissProt usando BLASTP (Tabella 8). Abbiamo poi cercato le sequenze proteiche del geco leopardo nel database della Kyoto Encyclopaedia of Genes and Genomes (KEGG) usando BLASTP per identificare i percorsi molecolari in cui i geni potrebbero essere coinvolti. I domini proteici e i motivi sono stati annotati usando InterProScan (versione 5.16) utilizzando sette diversi modelli (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan e PatternScan). Questo ha rivelato che 20.958 delle proteine predette del geco leopardo avevano motivi funzionali conservati. Abbiamo anche ottenuto 1028 termini Gene Ontology (GO) che sono stati assegnati a 15.873 proteine del geco leopardo dalla voce InterPro corrispondente.

Tabella 8 Statistiche per l’annotazione funzionale

Disponibilità e requisiti

  • Nome del progetto: Leopard gecko genome annotation scripts

  • Home page del progetto: https://github.com/gigascience/paper-xiong2016

  • Sistema operativo: Linux

  • Linguaggio di programmazione: PERL

  • Altri requisiti: nessuno

  • Licenza: MIT

  • Eventuali restrizioni all’uso da parte di non accademici: nessuna

Leave a Reply