Entwurf des Genoms des Leopardgeckos, Eublepharis macularius

Probensammlung und Sequenzierung

Genomische DNA wurde aus dem Schwanzgewebe eines männlichen Leopardgeckos (Eublepharis macularius: NCBI taxonomy ID 481883; specimen ID TG1477) extrahiert (Abb. 1). Alle Gewebe wurden in Übereinstimmung mit den Tierverwendungsprotokollen 0810A50001 und 1108A03545 der Universität von Minnesota entnommen. Dieses Tier wurde in Gefangenschaft geboren und ist das Ergebnis von mehr als 30 Generationen Inzucht eines Stammes, der aus Tieren indischer Herkunft aus dem Woodland Park Zoo (Seattle) und aus Importen aus Pakistan aus dem National Zoo (Washington, DC) stammt. Insgesamt wurden sieben Paired-End-Bibliotheken mit einer Gradienten-Insertgröße von 170 bis 20 kb erstellt und auf einer Illumina HiSeq 2000-Plattform gemäß den Anweisungen des Herstellers sequenziert (Illumina, San Diego, Kalifornien, USA). Bei Bibliotheken mit langer Insert-Größe (2, 5, 10 und 20 kb) betrug die sequenzierte Leselänge 49 bp, während bei Bibliotheken mit kurzer Insert-Größe (170, 500 und 800 bp) die sequenzierte Leselänge 100 und 150 bp betrug (Tabelle 1). Insgesamt wurden 303 Gb (136X) Rohsequenzen erhalten (Tabelle 1). Vor der Assemblierung wurde eine strenge Qualitätskontrolle der Rohsequenzen mit SOAPfilter, einer Softwareanwendung des SOAPdenovo-Pakets, durchgeführt, bei der minderwertige Sequenzen und doppelte Sequenzen aus der PCR-Amplifikation während des Bibliotheksaufbaus entfernt wurden. Sequenzierungsfehler wurden mit der k-mer Frequenzmethode in SOAPec (Version 2.02) korrigiert. Nach der Filterung und Korrektur wurden 187 Gb (84X) qualitativ hochwertige Sequenzen für die Genomassemblierung erhalten (Tabelle 1).

Abb. 1
Abbildung1

Beispiel eines Leopardgeckos Eublepharis macularius (Bild von Tony Gamble)

Tabelle 1 Zusammenfassende Statistik der Leopardgecko-Sequenzdaten, die aus der paired-end sequencing of seven insert libraries using an Illumina HiSeq 2000 platform

Genome assembly

Wir führten zunächst eine 17-Mer-Analyse durch, um die Leopardgecko-Genomgröße unter Verwendung von 54 Gb sauberer Sequenzen aus Bibliotheken mit 170 und 500 bp Insertgröße zu schätzen. Kurz gesagt wurden die Reads in gleitende kurze Sequenzen von 17 bp unterteilt, die sich mit Ausnahme des ersten Basenpaares um 16 bp überlappen. Die Verteilung der Anzahl der 17-Mere folgte einer Poisson-Verteilung (Additional file 1). Die Genomgröße wurde für E. macularius auf 2,23 Gb geschätzt, indem die Gesamtzahl der 17-Mere durch die Spitze der Verteilung geteilt wurde (Tabelle 2).

Tabelle 2 Statistiken zur Schätzung der Genomgröße durch 17-Mer-Analyse. Die Genomgröße wurde nach der folgenden Formel geschätzt: Genomgröße = # Kmers/Peak der Tiefe

Wir haben dann ein hochwertiges Leopardgecko-Genom mit SOAPdenovo (Version 2.0) in drei Schritten assembliert: Contig-Konstruktion, Gerüstbildung und Lückenfüllung. Im Schritt der Contig-Konstruktion wurde SOAPdenovo verwendet, um einen de Bruijn-Graphen zu erstellen, indem hochwertige Reads aus kurzen Insert-Bibliotheken in kmers unterteilt wurden, bei denen die Paired-End-Informationen ignoriert wurden. Als nächstes wurden Contigs gesammelt, die eindeutige Verbindungen in de Bruijn-Graphen aufwiesen. Es wurde eine Reihe von kmer-Längen getestet, und ein 33-mer wurde ausgewählt, um eine Contig-Assembly mit dem längsten N50-Wert zu erzeugen. Im Scaffolding-Schritt wurden Reads sowohl aus kleinen als auch aus großen Insert-Bibliotheken auf Contig-Sequenzen gemappt, um Scaffolds unter Verwendung von Abstandsinformationen aus Read-Paaren zu konstruieren, wobei mindestens drei Read-Paare verwendet werden mussten, um eine zuverlässige Verbindung zwischen zwei Contigs herzustellen. Um Lücken innerhalb des Gerüsts zu schließen (der Schritt des Lückenfüllens), wurden überlappende Paired-End-Reads aus der 170-Bp-Insert-Bibliothek zunächst mit COPE verbunden, dann wurde Kgf eingesetzt, um Lücken zu schließen, indem diese verbundenen Reads zusammen mit Reads aus anderen Bibliotheken mit kurzer Insertgröße verwendet wurden. Ein zusätzliches lokales Assembly für Reads, bei denen ein Ende eines Read-Paares eindeutig an einem Contig ausgerichtet ist und das andere Ende innerhalb der Lücke liegt, wurde mit GapCloser durchgeführt. Das Endergebnis war eine Leopardgecko-Genomassemblierung mit einer Gesamtlänge von 2,0 Gb und Scaffold- und Contig-N50s von 664 bzw. 20 kb, was mit der zuvor berichteten Gekko japonicus-Genomassemblierung vergleichbar ist (Tabelle 3). Der Vergleich der N50-Werte für das Leopardgecko-Genom mit elf zuvor veröffentlichten Reptiliengenomen (Anolis carolinensis , Python molurus bivittatus , Ophiophagus hannah , Alligator sinensis , Alligator mississippiensis, Gavialis gangeticus, Crocodylus porosus , Chelonia mydas, Pelodiscus sinensis , Pogona vitticeps und Chrysemys picta bellii ) bestätigten ebenfalls, dass unsere Ergebnisse von vergleichbarer oder besserer Qualität waren (Tabelle 4).

Tabelle 3 Vergleich der Genomeigenschaften von Eublepharis macularius und Gekko japonicus
Tabelle 4 Zusammenfassende Statistik der Schlüsselparameter für 13 Reptiliengenome

Schätzung der Genom-Vollständigkeit

Wir bewerteten die Vollständigkeit der Assemblierung mit CEGMA und BUSCO , die die Vollständigkeit des Genoms anhand von evolutionär begründeten Erwartungen an den Gengehalt quantitativ bewerten. Die CEGMA-Bewertung zeigte, dass unsere Assemblierung 225 (91 %) der 248 ultrakonservierten eukaryotischen Kerngene erfasste, von denen 210 (85 %) vollständig waren. Die BUSCO-Analyse ergab, dass 58 bzw. 18 % der 3023 erwarteten Wirbeltiergene als vollständig bzw. fragmentiert identifiziert wurden, während 24 % als in der Assemblierung fehlend betrachtet wurden. Beide Bewertungsmethoden zeigten, dass unsere Zusammenstellung vollständiger war als die zuvor gemeldete Gekko japonicus-Genomzusammenstellung (Tabellen 5 und 6).

Tabelle 5 Abdeckung der wichtigsten eukaryotischen Gene (CEGs) im Gecko-Genom, bewertet durch CEGMA. Alle CEGs wurden auf der Grundlage ihres Erhaltungsgrades der Proteinsequenz in vier Gruppen unterteilt. Gruppe 1 enthält die am wenigsten konservierten CEGs und Gruppe 4 die am meisten konservierten
Tabelle 6 Zusammengefasste Benchmarks in der BUSCO-Bewertung

Wiederholungsannotation

Wir kombinierten eine homologiebasierte und eine de novo-Methode, um transponierbare Elemente (TEs) und andere repetitive Elemente im Leopardengecko-Genom zu identifizieren. Mit der homologiebasierten Methode identifizierten wir bekannte TEs, indem wir mit RepeatMasker die Repbase TE-Bibliothek (RepBase21.01) und mit RepeatProteinMask aus dem RepeatMasker-Paket die TE-Protein-Datenbank durchsuchten. Bei der De-novo-Methode haben wir zunächst mit RepeatModeler (http://www.repeatmasker.org/RepeatModeler.html, Version 1.0.5) und Piler eine De-novo-Bibliothek von Leopardgecko-Wiederholungen erstellt, und die De-novo-TE-Bibliothek wurde anschließend von RepeatMasker zur Annotation von Wiederholungen im Leopardgecko-Genom verwendet. Schließlich verwendeten wir TRF zur Vorhersage von Tandem-Repeats mit den folgenden Parametern: Match = 2, Mismatch = 7, Delta = 7, PM = 80, PI = 10, Minscore = 50. Insgesamt identifizierten wir 851 Mb nicht redundanter, repetitiver Sequenzen, die 42 % des Leopardgecko-Genoms ausmachen. Die vorherrschenden Elemente waren lange durchsetzte Kernelemente (LINEs), die 30 % aller TE-Sequenzen und 13 % des Genoms ausmachten (Tabelle 7).

Tabelle 7 Zusammenfassende Statistik der annotierten Wiederholungen im Leopardgecko-Genomassemble

Genvorhersage

Wir kombinierten homologiebasierte, de novo und transkriptombasierte Methoden zur Vorhersage von proteinkodierenden Genen im Leopardgecko-Genom.

Bei den homologiebasierten Methoden luden wir die Gensätze von Taeniopygia guttata, Homo sapiens, Anolis carolinensis, Pelodiscus sinensis und Xenopus tropicalis aus der Ensembl-Datenbank (Release-73) herunter. Zunächst haben wir diese homologen Proteinsequenzen mit Hilfe von TBLASTN mit einem E-Wert von 1e-5 an das Leopardgecko-Genom angeglichen und die BLAST-Treffer mit GenBlastA zu Kandidatengenorten verknüpft. Anschließend extrahierten wir die genomischen Sequenzen der Kandidatenloci zusammen mit 3 kb flankierenden Sequenzen mit GeneWise, um Genmodelle zu bestimmen. Schließlich filterten wir Pseudogene heraus, die nur ein Exon mit Rahmenfehlern aufwiesen, da diese Loci wahrscheinlich aus einer Retrotransposition stammten.

Bei der De-novo-Methode wählten wir nach dem Zufallsprinzip 1000 Leopardgecko-Gene mit intakten offenen Leserahmen (ORFs) und dem höchsten GeneWise-Score aus dem homologiebasierten Gensatz aus, um das Augustus-Genvorhersagetool mit Standardparametern zu trainieren. Augustus wurde dann verwendet, um eine De-novo-Genvorhersage auf durch Wiederholungen maskierten Genomsequenzen durchzuführen. Genmodelle mit unvollständigen ORFs und kleinen Genen mit einer Protein-codierenden Länge <150 bp wurden herausgefiltert. Schließlich wurde eine BLASTP-Suche der vorhergesagten Gene mit der SwissProt-Datenbank durchgeführt. Gene mit Übereinstimmungen mit SwissProt-Proteinen, die eines der folgenden Schlüsselwörter enthielten, wurden herausgefiltert: transpose, transposon, retro-transposon, retrovirus, retrotransposon, reverse transcriptase, transposase und retroviral.

Die transkriptom-basierte Genvorhersage wurde dann anhand von Leopardgecko-RNA-seq-Daten aus Leber-, Speicheldrüsen-, Duftdrüsen- und Hautgeweben aus der NCBI-Datenbank durchgeführt (Zugangsnummer SRR629643, ERR216315, ERR216316, ERR216322, ERR216325, ERR216304 und ERR216306). Tophat (v1.3.3) wurde verwendet, um die RNA-seq-Reads gegen die Leopardgecko-Genomassemblierung zu alignieren, um Spleißverbindungen zu identifizieren, und cufflinks (v2.2.1) wurde verwendet, um Transkripte anhand der alignierten RNA-seq-Reads zu assemblieren.

Schließlich wurden die Ergebnisse der homologie-, de novo- und transkriptombasierten Analysen zusammengeführt, um einen nicht-redundanten Referenzgensatz auf der Grundlage einer Prioritätsreihenfolge von transkriptombasierten Beweisen > homologiebasierten Beweisen > de novo-basierten Beweisen zu erhalten. Wir setzten eine interne Annotationspipeline ein, um die Gendaten wie folgt zusammenzuführen:

  1. (1)

    Ein Markov-Modell wurde mit 1000 qualitativ hochwertigen Genen geschätzt, die zuvor verwendet wurden, um Augustus zu trainieren, indem das trainGlimmerHMM-Tool aus dem GlimmerHMM-Softwarepaket verwendet wurde. Das kodierende Potenzial jedes Transkripts, das aus den Transkriptomdaten zusammengestellt wurde, wurde dann mithilfe des Markov-Modells identifiziert. Transkripte mit vollständigen ORFs wurden extrahiert, und mehrere Isoformen desselben Locus wurden zusammengefasst, indem der längste ORF beibehalten wurde.

  2. (2)

    Diese nicht redundanten ORFs wurden dann mit homologiebasierten Genmodellen integriert, um mit Hilfe eines benutzerdefinierten Skripts den Kerngensatz zu bilden. Wenn sich ein Genmodell mit einer höheren Priorität mit einem Modell mit einer niedrigeren Priorität überschnitt (Überschneidungslänge >100 bp), wurde letzteres entfernt. Wenn sich zwei Genmodelle mit der gleichen Priorität überschnitten, wurde das Modell mit dem längeren ORF bevorzugt.

  3. (3)

    Homologie-basierte Genmodelle, die nicht durch transkriptom-basierte Beweise unterstützt wurden, aber durch homologe Beweise von mindestens zwei Arten unterstützt wurden, wurden dem Kerngensatz hinzugefügt.

  4. (4)

    De novo-basierte Genmodelle, die nicht durch homologie- und transkriptombasierte Nachweise unterstützt werden, wurden dem Kerngensatz hinzugefügt, wenn signifikante Treffer (BLASTP E-Wert <1e-5) für Nicht-Transposon-Proteine in der SwissProt-Datenbank erzielt wurden.

Als Ergebnis dieser Schritte wurden insgesamt 24.755 nicht-redundante proteinkodierende Gene in der Leopardgecko-Genomassemblierung annotiert.

Funktionelle Annotation proteinkodierender Gene

Wir ordneten 93,59 % aller proteinkodierenden Gene des Leopardgeckos Namen zu, indem wir die Funktionsdatenbanken TrEMBL und SwissProt mit BLASTP abglichen (Tabelle 8). Anschließend durchsuchten wir die Leopardgecko-Proteinsequenzen mit der Kyoto Encyclopaedia of Genes and Genomes (KEGG) Datenbank unter Verwendung von BLASTP, um molekulare Pfade zu identifizieren, an denen die Gene beteiligt sein könnten. Proteindomänen und -motive wurden mit InterProScan (Version 5.16) unter Verwendung von sieben verschiedenen Modellen (Profilescan, blastprodom, HmmSmart, HmmPanther, HmmPfam, FPrintScan und PatternScan) annotiert. Dies ergab, dass 20.958 der vorhergesagten Leopardgecko-Proteine konservierte funktionelle Motive aufweisen. Wir erhielten auch 1028 Gene Ontology (GO)-Terme, die 15.873 Leopardgecko-Proteinen aus dem entsprechenden InterPro-Eintrag zugeordnet wurden.

Tabelle 8 Statistiken zur funktionellen Annotation

Verfügbarkeit und Anforderungen

  • Projektname: Leopard gecko genome annotation scripts

  • Projekthomepage: https://github.com/gigascience/paper-xiong2016

  • Betriebssysteme: Linux

  • Programmiersprache: PERL

  • Weitere Voraussetzungen: keine

  • Lizenz: MIT

  • Einschränkungen für die Nutzung durch Nicht-Akademiker: keine

Leave a Reply