Borrador del genoma del gecko leopardo, Eublepharis macularius
Recogida de muestras y secuenciación
Se extrajo ADN genómico del tejido de la cola de un gecko leopardo macho (Eublepharis macularius: NCBI taxonomy ID 481883; specimen ID TG1477) (Fig. 1). Todos los tejidos se recogieron de acuerdo con los protocolos de uso de animales de la Universidad de Minnesota 0810A50001 y 1108A03545. Este animal nació en cautividad a partir de más de 30 generaciones de endogamia de una cepa procedente de animales de origen indio en el zoológico de Woodland Park (Seattle) y de importaciones de Pakistán en el zoológico nacional (Washington, DC) . Se construyeron un total de siete bibliotecas de extremo emparejado con un gradiente de tamaño de inserción que iba de 170 a 20 kb y se secuenciaron en una plataforma Illumina HiSeq 2000 según las instrucciones del fabricante (Illumina, San Diego, California, EE.UU.). Para las bibliotecas de tamaño de inserción largo (2, 5, 10 y 20 kb), la longitud de lectura secuenciada fue de 49 pb, mientras que para las bibliotecas de tamaño de inserción corto (170, 500 y 800 pb), la longitud de lectura secuenciada fue de 100 y 150 pb (Tabla 1). Finalmente se obtuvo un total de 303 Gb (136X) de secuencias brutas (Tabla 1). Antes del ensamblaje, se realizó un estricto control de calidad de las lecturas brutas utilizando SOAPfilter, una aplicación de software del paquete SOAPdenovo , que incluía la eliminación de las lecturas de baja calidad y de las lecturas duplicadas derivadas de la amplificación por PCR durante la construcción de la biblioteca. Los errores de secuenciación se corrigieron mediante el método de frecuencia de k-mer en SOAPec (versión 2.02) . Tras el filtrado y la corrección, se obtuvieron 187 Gb (84X) de secuencias de alta calidad para el ensamblaje del genoma (Tabla 1).
Ensamblaje del genoma
En primer lugar, realizamos un análisis de 17 marcadores para estimar el tamaño del genoma del gecko leopardo utilizando secuencias limpias de 54 Gb de bibliotecas de 170 y 500 pb de tamaño de inserción. Brevemente, las lecturas se dividieron en secuencias cortas deslizantes de 17 pb, superpuestas en 16 pb, con la excepción del primer par de bases. La distribución del recuento de 17 mers siguió una distribución de Poisson (archivo adicional 1). El tamaño del genoma se estimó en 2,23 Gb para E. macularius dividiendo el número total de 17-mers por el pico de la distribución (Tabla 2).
A continuación, ensamblamos un genoma de alta calidad del gecko leopardo utilizando SOAPdenovo (versión 2.0) en tres pasos: construcción de contig, andamiaje y relleno de huecos. En el paso de construcción de contigs, SOAPdenovo se utilizó para crear un gráfico de Bruijn dividiendo las lecturas de alta calidad de las bibliotecas de inserción corta en kmers en los que se ignoró la información de los extremos emparejados, y los kmers se fusionaron, se recortaron las puntas, se fusionaron las burbujas y se eliminaron los enlaces de baja cobertura. A continuación, se recogieron los contigs que mostraban conexiones inequívocas en los gráficos de Bruijn. Se probó una serie de longitudes de kmer y se seleccionó una de 33 para generar un ensamblaje de contigs con el valor N50 más largo. En el paso de andamiaje, se mapearon las lecturas de las bibliotecas de inserción pequeñas y grandes a las secuencias de contigs para construir andamiajes utilizando la información de distancia de los pares de lecturas, con el requisito de que se utilizaran al menos tres pares de lecturas para formar una conexión fiable entre dos contigs. Para cerrar los huecos dentro de los andamios (el paso de llenado de huecos), se conectaron primero las lecturas pareadas superpuestas de la biblioteca de inserción de 170 pb utilizando COPE, y luego se empleó Kgf para cerrar los huecos utilizando estas lecturas conectadas junto con las lecturas de otras bibliotecas de tamaño de inserción corto. Se realizó un ensamblaje local adicional para las lecturas con un extremo de un par de lecturas alineado de forma única con un contig y el otro extremo situado dentro de la brecha utilizando GapCloser . El resultado final fue un ensamblaje del genoma del gecko leopardo con una longitud total de 2,0 Gb y unos N50 del andamio y del contig de 664 y 20 kb, respectivamente, lo que es comparable al ensamblaje del genoma del Gekko japonicus previamente reportado (Tabla 3). La comparación de los N50 del ensamblaje del genoma del geco leopardo con once genomas de reptiles publicados anteriormente (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps , y Chrysemys picta bellii ) confirmaron además que nuestros resultados eran de calidad comparable o superior (Tabla 4).
Estimación de la completitud del genoma
Evaluamos la completitud del ensamblaje utilizando CEGMA y BUSCO , que evalúan cuantitativamente la integridad del genoma utilizando expectativas evolutivamente informadas del contenido génico. La evaluación CEGMA mostró que nuestro ensamblaje capturó 225 (91 %) de los 248 genes eucariotas básicos ultraconservados, de los cuales 210 (85 %) estaban completos. El análisis BUSCO mostró que el 58 y el 18 % de los 3023 genes de vertebrados previstos se identificaron como completos y fragmentados, respectivamente, mientras que el 24 % se consideraron ausentes en el ensamblaje. Ambos métodos de evaluación mostraron que nuestro ensamblaje era más completo que el ensamblaje del genoma de Gekko japonicus reportado previamente (Tablas 5 y 6).
Anotación de repeticiones
Combinamos un método basado en la homología y otro de novo para identificar elementos transponibles (TEs) y otros elementos repetitivos en el genoma del geco leopardo. Usando el método basado en la homología, identificamos TEs conocidos usando RepeatMasker para buscar contra la biblioteca Repbase TE (RepBase21.01) y RepeatProteinMask dentro del paquete RepeatMasker para buscar contra la base de datos de proteínas TE. En el método de novo, primero construimos una biblioteca de repeticiones de novo del geco leopardo utilizando RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, versión 1.0.5) y Piler , y la biblioteca TE de novo fue posteriormente utilizada por RepeatMasker para anotar las repeticiones en el genoma del geco leopardo. Finalmente, utilizamos TRF para predecir las repeticiones en tándem, con los siguientes parámetros Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. En general, identificamos un total de 851 Mb de secuencias repetitivas no redundantes, que representan el 42% del genoma del geco leopardo. Los elementos más predominantes fueron los elementos nucleares intercalados largos (LINEs), que representaron el 30 % de todas las secuencias TE y el 13 % del genoma (Tabla 7).
Predicción de genes
Combinamos métodos basados en la homología, de novo y basados en el transcriptoma para predecir los genes codificadores de proteínas en el genoma del geco leopardo.
En los métodos basados en la homología, descargamos los conjuntos de genes de Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis y Xenopus tropicalis de la base de datos Ensembl (release-73). Primero alineamos estas secuencias de proteínas homólogas con el ensamblaje del genoma del gecko leopardo utilizando TBLASTN con un valor E de corte de 1e-5, y enlazamos los resultados de BLAST en loci de genes candidatos con GenBlastA . A continuación, extrajimos las secuencias genómicas de los loci candidatos, junto con las secuencias flanqueantes de 3 kb, utilizando GeneWise para determinar los modelos de genes. Por último, filtramos los pseudogenes que tenían sólo un exón con errores de marco, ya que estos loci eran probablemente derivados de la retrotransposición.
En el método de novo, seleccionamos aleatoriamente 1000 genes del gecko leopardo con marcos de lectura abiertos (ORF) intactos y la puntuación más alta de GeneWise del conjunto de genes basados en la homología para entrenar la herramienta de predicción de genes Augustus con parámetros por defecto. A continuación, Augustus se utilizó para realizar una predicción génica de novo en secuencias genómicas con máscara de repetición. Se filtraron los modelos de genes con ORFs incompletos y genes pequeños con una longitud de codificación de proteínas <150 pb. Por último, se realizó una búsqueda BLASTP de los genes predichos en la base de datos SwissProt. Se filtraron los genes con coincidencias con proteínas de SwissProt que contenían alguna de las siguientes palabras clave: transponer, transposón, retrotransposón, retrovirus, retrotransposón, transcriptasa inversa, transposasa y retroviral.
La predicción de genes basada en el transcriptoma se llevó a cabo utilizando los datos de RNA-seq de la salamanquesa leopardo de los tejidos del hígado, la glándula salival, la glándula del olor y la piel obtenidos de la base de datos del NCBI (número de acceso SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 y ERR216306) . Tophat (v1.3.3) se utilizó para alinear las lecturas de RNA-seq con el ensamblaje del genoma del gecko leopardo para identificar las uniones de empalme, y cufflinks (v2.2.1) se utilizó para ensamblar transcripciones utilizando las lecturas de RNA-seq alineadas .
Por último, los resultados de los análisis basados en la homología, de novo y transcriptoma se fusionaron para obtener un conjunto de genes de referencia no redundante basado en un orden de prioridad de las pruebas basadas en el transcriptoma > pruebas basadas en la homología > pruebas basadas en de novo. Empleamos una línea de anotación interna para fusionar los datos de los genes de la siguiente manera:
- (1)
Se estimó un modelo de Markov con 1000 genes de alta calidad, que se utilizaron previamente para entrenar a Augustus, utilizando la herramienta trainGlimmerHMM incluida en el paquete de software GlimmerHMM . A continuación, se identificó el potencial de codificación de cada transcrito ensamblado a partir de los datos del transcriptoma mediante el modelo de Markov. Se extrajeron los transcritos con ORFs completos y se colapsaron las isoformas múltiples del mismo locus reteniendo el ORF más largo.
- (2)
Estos ORFs no redundantes se integraron entonces con modelos de genes basados en la homología para formar el conjunto de genes centrales utilizando un script personalizado. Si un modelo genético con una prioridad más alta se solapaba con un modelo con una prioridad más baja (longitud de solapamiento >100 pb), se eliminaba este último. Si dos modelos de genes con la misma prioridad se superponían, se prefería el que tenía un ORF más largo.
- (3)
Los modelos de genes basados en la homología que no estaban respaldados por las pruebas basadas en el transcriptoma, pero que sí lo estaban por las pruebas homólogas de al menos dos especies, se añadieron al conjunto de genes principales.
- (4)
Los modelos de genes basados en la homología y en el transcriptoma se añadieron al conjunto de genes principales cuando se obtuvieron coincidencias significativas (valor E de BLASTP <1e-5) para proteínas no transposónicas en la base de datos SwissProt.
Como resultado de estos pasos, se anotaron un total de 24.755 genes codificadores de proteínas no redundantes en el ensamblaje del genoma de la salamanquesa leopardo.
Anotación funcional de los genes codificadores de proteínas
Asignamos nombres al 93,59% de todos los genes codificadores de proteínas de la salamanquesa leopardo buscando en las bases de datos funcionales TrEMBL y SwissProt utilizando BLASTP (Tabla 8). A continuación, buscamos las secuencias de proteínas del geco leopardo en la base de datos de la Enciclopedia de Genes y Genomas de Kyoto (KEGG) utilizando BLASTP para identificar las vías moleculares en las que podrían estar implicados los genes. Los dominios y motivos proteicos se anotaron con InterProScan (versión 5.16) utilizando siete modelos diferentes (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan y PatternScan). Esto reveló que 20.958 de las proteínas predichas del geco leopardo tenían motivos funcionales conservados. También obtuvimos 1028 términos de la Ontología Genética (GO) que fueron asignados a 15.873 proteínas del geco leopardo a partir de la correspondiente entrada de InterPro.
Disponibilidad y requisitos
-
Nombre del proyecto: Leopard gecko genome annotation scripts
-
Página principal del proyecto: https://github.com/gigascience/paper-xiong2016
-
Sistemas operativos: Linux
-
Lenguaje de programación: PERL
-
Otros requisitos: ninguno
-
Licencia: MIT
-
Restricciones de uso para no académicos: ninguna
Leave a Reply