Ebauche du génome du gecko léopard, Eublepharis macularius
Collecte des échantillons et séquençage
L’ADN génomique a été extrait du tissu de la queue d’un gecko léopard mâle (Eublepharis macularius : NCBI taxonomy ID 481883 ; spécimen ID TG1477) (Fig. 1). Tous les tissus ont été collectés conformément aux protocoles d’utilisation des animaux 0810A50001 et 1108A03545 de l’Université du Minnesota. Cet animal est né en captivité de plus de 30 générations de consanguinité d’une souche provenant d’animaux d’origine indienne au Woodland Park Zoo (Seattle) et d’importations du Pakistan au National Zoo (Washington, DC). Un total de sept librairies en paires avec un gradient de taille d’insertion allant de 170 à 20 kb ont été construites et séquencées sur une plateforme Illumina HiSeq 2000 selon les instructions du fabricant (Illumina, San Diego, Californie, USA). Pour les bibliothèques à longue taille d’insertion (2, 5, 10 et 20 kb), la longueur de lecture séquencée était de 49 pb, tandis que pour les bibliothèques à courte taille d’insertion (170, 500 et 800 pb), les longueurs de lecture séquencées étaient de 100 et 150 pb (tableau 1). Un total de 303 Go (136X) de séquences brutes a finalement été obtenu (tableau 1). Avant l’assemblage, un contrôle strict de la qualité a été effectué pour les lectures brutes à l’aide de SOAPfilter, une application logicielle du paquet SOAPdenovo, qui comprenait l’élimination des lectures de mauvaise qualité et des lectures en double résultant de l’amplification PCR pendant la construction de la bibliothèque. Les erreurs de séquençage ont été corrigées en utilisant la méthode de fréquence k-mer dans SOAPec (version 2.02) . Après filtrage et correction, 187 Go (84X) de séquences de haute qualité ont été obtenus pour l’assemblage du génome (tableau 1).
Genome assembly
Nous avons d’abord effectué une analyse 17-mer pour estimer la taille du génome du gecko léopard en utilisant 54 Go de séquences propres provenant de bibliothèques de 170 et 500 pb de taille d’insertion. En bref, les lectures ont été divisées en courtes séquences glissantes de 17 pb, se chevauchant de 16 pb, à l’exception de la première paire de bases. La distribution du nombre de 17-mères a suivi une distribution de Poisson (fichier additionnel 1). La taille du génome a été estimée à 2,23 Gb pour E. macularius en divisant le nombre total de 17-mers par le pic de distribution (tableau 2).
Nous avons ensuite assemblé un génome de gecko léopard de haute qualité en utilisant SOAPdenovo (version 2.0) en trois étapes : construction de contigs, échafaudage et comblement des lacunes. Au cours de l’étape de construction des contigs, SOAPdenovo a été utilisé pour créer un graphe de Bruijn en divisant les lectures de haute qualité provenant de bibliothèques d’insertions courtes en kmers dans lesquels les informations d’appairage ont été ignorées. Les kmers ont ensuite été fusionnés, les extrémités coupées, les bulles fusionnées et les liens de faible couverture supprimés. Ensuite, les contigs présentant des connexions non ambiguës dans les graphiques de Bruijn ont été collectés. Une série de longueurs de kmer a été testée et un 33-mer a été sélectionné pour générer un assemblage de contigs avec la plus longue valeur N50. Au cours de l’étape d’échafaudage, les lectures des bibliothèques d’insertions, petites et grandes, ont été mises en correspondance avec les séquences de contigs pour construire des échafaudages en utilisant les informations de distance des paires de lectures, avec la condition qu’au moins trois paires de lectures soient utilisées pour former une connexion fiable entre deux contigs. Pour combler les lacunes intra-échafaudage (l’étape de comblement des lacunes), les lectures en paires chevauchantes de la bibliothèque d’insertions de 170 pb ont d’abord été connectées à l’aide de COPE, puis Kgf a été utilisé pour combler les lacunes en utilisant ces lectures connectées avec des lectures provenant d’autres bibliothèques à insertions courtes. Un assemblage local supplémentaire pour les lectures dont une extrémité est alignée de manière unique sur un contig et dont l’autre extrémité est située dans l’espace a été effectué à l’aide de GapCloser . Le résultat final a été un assemblage du génome du gecko léopard avec une longueur totale de 2,0 Go et des N50 d’échafaudage et de contiguïté de 664 et 20 Ko, respectivement, ce qui est comparable à l’assemblage du génome du Gekko japonicus rapporté précédemment (tableau 3). Comparaison des N50 de l’assemblage du génome du gecko léopard avec onze génomes de reptiles publiés précédemment (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus , Crocodylus porosus , Chelonia mydas , Pelodiscus sinensis , Pogona vitticeps , et Chrysemys picta bellii ) ont encore confirmé que nos résultats étaient de qualité comparable ou supérieure (tableau 4).
Estimation de la complétude du génome
Nous avons évalué la complétude de l’assemblage en utilisant CEGMA et BUSCO , qui évaluent quantitativement la complétude du génome en utilisant des attentes informées sur l’évolution du contenu des gènes. L’évaluation CEGMA a montré que notre assemblage a capturé 225 (91 %) des 248 gènes de base eucaryotes ultra-conservés, dont 210 (85 %) étaient complets. L’analyse BUSCO a montré que 58 et 18 % des 3023 gènes de vertébrés attendus ont été identifiés comme complets et fragmentés, respectivement, tandis que 24 % ont été considérés comme manquants dans l’assemblage. Les deux méthodes d’évaluation ont montré que notre assemblage était plus complet que l’assemblage du génome de Gekko japonicus précédemment rapporté (tableaux 5 et 6).
Anotation répétitive
Nous avons combiné une méthode basée sur l’homologie et une méthode de novo pour identifier les éléments transposables (TE) et d’autres éléments répétitifs dans le génome du gecko léopard. En utilisant la méthode basée sur l’homologie, nous avons identifié les TE connus en utilisant RepeatMasker pour effectuer une recherche dans la bibliothèque de TE Repbase (RepBase21.01) et RepeatProteinMask dans le package RepeatMasker pour effectuer une recherche dans la base de données des protéines TE. Dans la méthode de novo, nous avons d’abord construit une bibliothèque de répétitions de novo du gecko léopard en utilisant RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, version 1.0.5) et Piler, et la bibliothèque TE de novo a ensuite été utilisée par RepeatMasker pour annoter les répétitions dans le génome du gecko léopard. Enfin, nous avons utilisé TRF pour prédire les répétitions en tandem, avec les paramètres suivants : Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Globalement, nous avons identifié un total de 851 Mb de séquences répétitives non redondantes, représentant 42 % du génome du gecko léopard. Les éléments les plus prédominants étaient les longs éléments nucléaires intercalés (LINE), qui représentaient 30 % de toutes les séquences TE et 13 % du génome (tableau 7).
Prédiction des gènes
Nous avons combiné des méthodes basées sur l’homologie, de novo et sur le transcriptome pour prédire les gènes codant pour les protéines dans le génome du gecko léopard.
Dans les méthodes basées sur l’homologie, nous avons téléchargé les ensembles de gènes de Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis et Xenopus tropicalis de la base de données Ensembl (release-73). Nous avons d’abord aligné ces séquences protéiques homologues sur l’assemblage du génome du gecko léopard à l’aide de TBLASTN avec un seuil de valeur E de 1e-5, puis nous avons lié les résultats de BLAST en loci de gènes candidats avec GenBlastA . Nous avons ensuite extrait les séquences génomiques des loci candidats, ainsi que les séquences flanquantes de 3 kb, en utilisant GeneWise pour déterminer les modèles de gènes. Enfin, nous avons filtré les pseudogènes qui ne comportaient qu’un seul exon avec des erreurs de cadre, car ces loci étaient probablement issus d’une rétrotransposition.
Dans la méthode de novo, nous avons sélectionné au hasard 1000 gènes de gecko léopard avec des cadres de lecture ouverts (ORF) intacts et le score GeneWise le plus élevé à partir de l’ensemble de gènes basés sur l’homologie pour entraîner l’outil de prédiction de gènes Augustus avec des paramètres par défaut. Augustus a ensuite été utilisé pour effectuer une prédiction génique de novo sur des séquences génomiques masquées par répétition. Les modèles de gènes avec des ORF incomplets et les petits gènes avec une longueur de codage de protéine <150 bp ont été filtrés. Enfin, une recherche BLASTP des gènes prédits a été effectuée dans la base de données SwissProt . Les gènes présentant des correspondances avec des protéines SwissProt contenant l’un des mots-clés suivants ont été filtrés : transpose, transposon, rétro-transposon, rétrovirus, rétrotransposon, transcriptase inverse, transposase et rétroviral.
La prédiction de gènes basée sur le transcriptome a ensuite été réalisée à l’aide des données RNA-seq du gecko léopard provenant des tissus du foie, de la glande salivaire, de la glande odorante et de la peau obtenus à partir de la base de données NCBI (numéro d’accession SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 et ERR216306) . Tophat (v1.3.3) a été utilisé pour aligner les lectures ARN-seq par rapport à l’assemblage du génome du gecko léopard afin d’identifier les jonctions d’épissage, et cufflinks (v2.2.1) a été utilisé pour assembler les transcriptions en utilisant les lectures ARN-seq alignées .
Enfin, les résultats des analyses basées sur l’homologie, le de novo et le transcriptome ont été fusionnés pour donner un ensemble de gènes de référence non redondant basé sur un ordre de priorité de preuves basées sur le transcriptome > preuves basées sur l’homologie > preuves basées sur le de novo. Nous avons employé un pipeline d’annotation interne pour fusionner les données génétiques comme suit :
- (1)
Un modèle de Markov a été estimé avec 1000 gènes de haute qualité, qui ont été précédemment utilisés pour entraîner Augustus, en utilisant l’outil trainGlimmerHMM inclus dans le progiciel GlimmerHMM . Le potentiel codant de chaque transcrit assemblé à partir des données du transcriptome a ensuite été identifié à l’aide du modèle de Markov. Les transcrits avec des ORF complets ont été extraits et les isoformes multiples du même locus ont été regroupés en retenant l’ORF le plus long.
- (2)
Ces ORF non redondants ont ensuite été intégrés avec des modèles de gènes basés sur l’homologie pour former l’ensemble de gènes de base en utilisant un script personnalisé. Si un modèle de gène avec une priorité supérieure chevauchait un modèle avec une priorité inférieure (longueur de chevauchement >100 pb), ce dernier était supprimé. Si deux modèles de gènes avec la même priorité se chevauchaient, celui avec un ORF plus long était préféré.
- (3)
Les modèles de gènes basés sur l’homologie non soutenus par des preuves basées sur le transcriptome mais soutenus par des preuves homologues d’au moins deux espèces ont été ajoutés à l’ensemble de gènes de base.
- (4)
Des modèles de gènes basés sur l’homologie de novo non soutenus par des preuves basées sur l’homologie et le transcriptome ont été ajoutés à l’ensemble de gènes de base lorsque des correspondances significatives (valeur E de BLASTP <1e-5) pour des protéines non-transposons dans la base de données SwissProt ont été obtenues.
A la suite de ces étapes, un total de 24 755 gènes codant pour des protéines non redondantes ont été annotés dans l’assemblage du génome du gecko léopard.
Anotation fonctionnelle des gènes codant pour des protéines
Nous avons attribué des noms à 93,59 % de tous les gènes codant pour des protéines du gecko léopard en effectuant des recherches dans les bases de données de fonctions TrEMBL et SwissProt en utilisant BLASTP (tableau 8). Nous avons ensuite recherché les séquences protéiques du gecko léopard dans la base de données de l’encyclopédie des gènes et des génomes de Kyoto (KEGG) en utilisant BLASTP pour identifier les voies moléculaires dans lesquelles les gènes pourraient être impliqués. Les domaines et motifs protéiques ont été annotés à l’aide d’InterProScan (version 5.16) en utilisant sept modèles différents (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan et PatternScan). Cela a révélé que 20 958 des protéines prédites du gecko léopard avaient des motifs fonctionnels conservés. Nous avons également obtenu 1028 termes d’ontologie génétique (GO) qui ont été attribués à 15 873 protéines de gecko léopard à partir de l’entrée InterPro correspondante.
Disponibilité et exigences
-
Nom du projet : scripts d’annotation du génome du gecko léopard
-
Page d’accueil du projet : https://github.com/gigascience/paper-xiong2016
-
Systèmes d’exploitation : Linux
-
Langage de programmation : PERL
-
Autres exigences : aucune
-
Licence : MIT
-
Restrictions éventuelles à l’utilisation par des non-universitaires : aucune
.
Leave a Reply