Projecto genoma da osga leopardo, Eublepharis macularius
Recolha de amostras e sequenciação
DN genómico foi extraído do tecido caudal de uma osga leopardo macular (Eublepharis macularius: NCBI taxonomy ID 481883; espécime ID TG1477) (Fig. 1). Todos os tecidos foram coletados de acordo com os protocolos de uso animal 0810A50001 e 1108A03545 da Universidade de Minnesota. Este animal nasceu em cativeiro de mais de 30 gerações de consanguinidade de uma linhagem originária de animais de origem indiana no Woodland Park Zoo (Seattle) e importados do Paquistão no Zoo Nacional (Washington, DC). Um total de sete bibliotecas de ponta de pizza com um tamanho de inserção gradiente variando de 170 a 20 kb foram construídas e sequenciadas em uma plataforma Illumina HiSeq 2000 de acordo com as instruções do fabricante (Illumina, San Diego, Califórnia, EUA). Para bibliotecas de tamanho de encarte longo (2, 5, 10 e 20 kb), o comprimento de leitura sequenciado foi de 49 bp, enquanto que para bibliotecas de tamanho de encarte curto (170, 500 e 800 bp), os comprimentos de leitura sequenciados foram de 100 e 150 bp (Tabela 1). Um total de 303 Gb (136X) sequências em bruto foram eventualmente obtidas (Tabela 1). Antes da montagem, foi realizado um rigoroso controlo de qualidade para leituras em bruto usando o SOAPfilter, uma aplicação de software no pacote SOAPdenovo , que incluiu a remoção de leituras de baixa qualidade e leituras duplicadas resultantes da amplificação PCR durante a construção da biblioteca. Os erros de sequenciamento foram corrigidos usando o método de frequência k-mer no SOAPec (versão 2.02) . Após filtragem e correcção, foram obtidas 187 Gb (84X) sequências de alta qualidade para a montagem do genoma (Tabela 1).
Montagem do genoma
Fizemos primeiramente uma análise de 17 mers para estimar o tamanho do genoma da osga do leopardo usando sequências limpas de 54 Gb de bibliotecas de tamanho de inserção de 170 e 500 bp. Resumidamente, as leituras foram divididas em sequências curtas deslizantes de 17 bp, sobrepostas por 16 bp, com a exceção do primeiro par de bases. A distribuição de contagem de 17 mers seguiu uma distribuição de Poisson (arquivo adicional 1). O tamanho do genoma foi estimado como 2,23 Gb para E. macularius, dividindo o número total de 17 mers pelo pico de distribuição (Tabela 2).
Antes montamos um genoma leopardo gecko de alta qualidade usando SOAPdenovo (versão 2.0) em três etapas: construção de contigentes, andaimes e preenchimento de lacunas. Na etapa de construção do contig, o SOAPdenovo foi usado para um gráfico de Bruijn, dividindo leituras de alta qualidade de pequenas bibliotecas de inserção em kmers, nos quais informações de ponta de pizza foram ignoradas, e kmers foram então fundidos, pontas cortadas, bolhas fundidas, e links de baixa cobertura removidos. Em seguida, contigs exibindo conexões inequívocas nos gráficos de Bruijn foram coletados. Uma série de kmers de comprimento foi testada e uma série de 33 mers foi selecionada para gerar uma montagem de contig com o valor mais longo de N50. No passo do andaime, leituras de pequenas e grandes bibliotecas de inserção foram mapeadas para sequências de contigentes para construir andaimes usando informações de distância dos pares de leitura, com a exigência de que pelo menos três pares de leitura fossem usados para formar uma conexão confiável entre dois contigentes. Para fechar lacunas intra-cafoldes (a etapa de preenchimento da lacuna), as leituras sobrepostas de pontas de cigarro da biblioteca de inserção de 170 bp foram primeiro conectadas usando COPE , depois Kgf foi empregado para fechar lacunas usando estas leituras conectadas juntamente com leituras de outras bibliotecas de tamanho reduzido de inserção. Uma montagem local adicional para leituras com uma extremidade de um par de leitura alinhada exclusivamente a um contig e a outra extremidade localizada dentro da lacuna foi realizada usando o GapCloser . O resultado final foi um conjunto genômico de gecko leopardo com comprimento total de 2,0 Gb e andaime e contig N50s de 664 e 20 kb, respectivamente, que é comparável ao conjunto genômico de Gekko japonicus anteriormente relatado (Tabela 3) . Comparação do conjunto N50s para o genoma do leopardo gecko com onze genomas de répteis previamente publicados (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps , e Chrysemys picta bellii ) confirmaram ainda que nossos resultados foram de qualidade comparável ou melhor (Tabela 4).
Estimativa da completitude do genoma
Avaliamos a completitude da montagem usando CEGMA e BUSCO , que avaliam quantitativamente a integridade do genoma usando expectativas evolutivamente informadas sobre o conteúdo genético. A avaliação do CEGMA mostrou que nossa montagem captou 225 (91%) dos 248 genes eucarióticos de núcleo ultra-conservado, dos quais 210 (85%) estavam completos. A análise BUSCO mostrou que 58 e 18 % dos 3023 genes de vertebrados esperados foram identificados como completos e fragmentados, respectivamente, enquanto 24 % foram considerados como faltando na montagem. Ambos os métodos de avaliação mostraram que nossa montagem foi mais completa que a montagem do genoma Gekko japonicus anteriormente relatada (Tabelas 5 e 6).
Anotação de repetição
Combinamos um método baseado na homologia e de novo método para identificar elementos transponíveis (ET) e outros elementos repetitivos no genoma da osga leopardo. Usando o método baseado em homologia, identificamos ETs conhecidas usando o RepeatMasker para pesquisar contra a biblioteca de ETs Repbase (RepBase21.01) e RepeatProteinMask dentro do pacote RepeatMasker para pesquisar contra a base de dados de proteínas de ETs. No método de novo, primeiro construímos uma biblioteca de novo leopard gecko repeat usando RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, versão 1.0.5) e Piler , e a biblioteca de novo TE foi posteriormente usada pelo RepeatMasker para anotar repetidas no genoma gecko do leopardo. Finalmente, usamos a TRF para prever repetições em tandem, com os seguintes parâmetros: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. No total, identificamos um total de 851 Mb de seqüências não redundantes e repetitivas, representando 42% do genoma da osga leopardo. Os elementos mais predominantes foram os elementos nucleares de longa intercalação (LINEs), que representaram 30% de todas as seqüências de TE e 13% do genoma (Tabela 7).
Previsão do genoma
Combinamos métodos baseados na homologia, de novo e transcriptome-based para prever genes codificadores de proteínas no genoma da osga leopardo.
Nos métodos baseados em homologia, nós baixamos os conjuntos de genes de Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis e Xenopus tropicalis do banco de dados Ensembl (release-73). Nós primeiro alinhamos estas seqüências proteicas homólogas com o conjunto genético de gecko leopardo usando TBLASTN com um corte de valor E de 1e-5, e ligamos o BLAST em loci gênico candidato com GenBlastA . Em seguida, extraímos sequências genómicas de loci candidatos, juntamente com sequências de flanco de 3 kb, usando o GeneWise para determinar modelos genéticos. Finalmente, filtramos pseudogenes que tinham apenas um exon com erros de frames, pois estes loci eram provavelmente derivados de retrotransposição.
No método de novo, selecionamos aleatoriamente 1000 genes de gecko leopardo com frames de leitura abertos intactos (ORFs) e o escore GeneWise mais alto do conjunto de genes baseado em homologia para treinar a ferramenta de predição de genes Augustus com parâmetros padrão. Augustus foi então usado para realizar uma previsão de novo gene em seqüências de genoma com marcas de repetição. Modelos de genes com ORFs incompletas e pequenos genes com um comprimento de codificação de proteína <150 bp foram filtrados. Finalmente, uma busca BLASTP de genes previstos foi realizada contra a base de dados SwissProt . Genes com correspondência às proteínas SwissProt contendo qualquer uma das seguintes palavras-chave foram filtrados: transpose, transposon, retro-transposon, retrovirus, retrotransposon, transcriptase reversa, transposase, e retroviral.
Previsão genética baseada em transcritores foi então realizada usando dados de RNA-seq de gecko leopardo do fígado, glândula salivar, glândula olfativa e tecidos cutâneos obtidos da base de dados NCBI (número de acesso SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 e ERR216306) . Tophat (v1.3.3) foi usado para alinhar as leituras do RNA-seq com o conjunto do genoma da osga leopardo para identificar junções de emendas, e botões de punho (v2.2.1) foi usado para montar transcrições usando as leituras alinhadas do RNA-seq .
Finalmente, os resultados das análises baseadas em homólogos, de novo- e transcriptomas foram fundidos para produzir um conjunto de genes de referência não redundantes baseados em uma ordem de prioridade de evidência baseada em transcriptomas > evidência baseada em homologia > evidência baseada em novo-. Utilizamos um pipeline interno de anotações para fundir os dados dos genes da seguinte forma:
- (1)
Um modelo Markov foi estimado com 1000 genes de alta qualidade, que foram usados anteriormente para treinar Augustus, usando a ferramenta trainGlimmerHMM incluída no pacote de software GlimmerHMM . O potencial de codificação de cada transcriptoma montado a partir dos dados do transcriptoma foi então identificado usando o modelo Markov. Transcrições com ORFs completas foram extraídas e múltiplas isoformas do mesmo locus foram colapsadas retendo o ORF mais longo.
- (2)
Estes ORFs não redundantes foram então integrados com modelos genéticos baseados em homologia para formar o conjunto principal de genes usando um script personalizado. Se um modelo genético com maior prioridade se sobrepôs a um modelo com menor prioridade (comprimento sobreposto >100 bp), este último foi removido. Se dois modelos de genes com a mesma prioridade se sobrepusessem, aquele com um ORF mais longo seria preferível.
- (3)
Modelos de genes baseados em homólogos não suportados por evidências baseadas em transcriptomas mas suportados por evidências homólogas de pelo menos duas espécies foram adicionados ao conjunto de genes do núcleo.
- (4)
Modelos gênicos baseados em novo-não suportados por evidências baseadas em homologia e transcriptome-based evidence foram adicionados ao conjunto genético central onde foram obtidos hits significativos (valor E BLASTP <1e-5) para proteínas não-transposicionais no banco de dados SwissProt.
Como resultado destes passos, um total de 24.755 genes codificadores de proteína não redundantes foram anotados no conjunto genoma da osga leopardo.
Anotação funcional dos genes codificadores de proteína
Atribuímos nomes a 93,59 % de todos os genes codificadores de proteína da osga leopardo, pesquisando nos bancos de dados de funções TrEMBL e SwissProt usando BLASTP (Tabela 8). Em seguida, pesquisamos as sequências de proteínas da osga leopardo contra a Enciclopédia de Genes e Genomas de Quioto (KEGG) usando BLASTP para identificar as vias moleculares nas quais os genes podem estar envolvidos. Os domínios e motivos proteicos foram anotados usando InterProScan (versão 5.16) usando sete modelos diferentes (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan e PatternScan). Isto revelou que 20.958 das proteínas previstas da osga leopardo tinham conservado os motivos funcionais. Também obtivemos 1028 termos da Gene Ontology (GO) que foram atribuídos a 15.873 proteínas de osga leopardo da entrada correspondente da InterPro.
Availability and requirements
-
Nome do projeto: Leopard gecko genome annotation scripts
-
Página inicial do projeto: https://github.com/gigascience/paper-xiong2016
-
Sistemas operacionais: Linux
-
Linguagem de programação: PERL
-
Outros requisitos: nenhum
-
Licença: MIT
>
-
Ainda restrições ao uso por não-académicos: nenhuma
Leave a Reply