ヨーロッパ産薬用ヒルHirudo medicinalis(Annelida.Critellata.Hirudiniformes)のゲノムドラフトを公開。 Clitellata, Hirudiniformes) with emphasis on anticoagulants

アセンブリ統計とBUSCO解析

Hirudo medicinalis ROMIZI 11733のドラフトゲノムは、176スパンの19929スキャフォールドにアセンブリされました。96 Mbps、カバレッジ中央値146.78×、N50スコア50,382 bps、L50スコア772であった(ゲノムドラフト配列の全統計はSupplement File 1に掲載)。 BUSCO ver. 4.0.526 を実行し、ゲノムの完全性を評価しました。 予測されるタンパク質とmetazoa_odb10との比較解析の結果、完全性スコアは94.2%(90.0%完全+4.2%断片化)となりました。

アセンブリサイズは推定ゲノムサイズ(230Mbps;http://genomesize.com)の78.67%に相当しました。 MAKER27による2パスアノテーションの結果、35,166個の予測タンパク質と780個のスプライスバリアントが得られた。 tRNAscan-SE28により、合計429のtRNA遺伝子と、さらに116の偽遺伝子が予測された。 Infernal29を用いると、さらに535の非コードRNA遺伝子/モチーフが予測され、これには64のrRNA遺伝子と316のマイクロRNAが含まれていた。 RepeatModeler30により、ゲノム中の反復配列は24.71%(インタースパースドリピート14.43%、シンプルリピート10.28%)と推定され、最も多いユニットはunclassified(6.14%)であった。 すべてのアノテーションファイルはhttps://doi.org/10.5281/zenodo.3555585に寄託されている(最終アクセスは2020年1月20日)。 生リードおよびアセンブルした配列は、研究アクセッションPRJEB35865でEuropean Nucleotide Archive(ENA)に寄託されている。

ヒル抗凝固剤、コピー数およびタンデムリピート

合計、ヒル由来タンパク質で抗血栓に関する機能が十分に特徴付けられる18種類に対してBLASTpヒットする(1E-5に優れる)遺伝子生成物がヒルズメディスゲノムから発見された(Table 1)。 これらは、エグリンC、デスタビラーゼI、ギランテン、ヒル由来トリプターゼ阻害剤(LDTI)、グアメリン、シスタチン、ヒルディン、ヒルディン様因子3、フィコリン、カザル型セリンプロテアーゼ阻害剤(セルピン)、C型レクチン、マニラーゼ、bdellin、ピグアメリン、アンチスタシン、bdellastasin、レファキシンおよび未確認トロンビニン阻害剤であった。 表1には、H. medicinalisゲノムからのトップヒットを、3つのグローバルデータベースに対するヒット、ゲノム全体の遺伝子のコピー数、シグナルペプチドの有無とともに示した。

18の推定抗凝固物質のうち7つは、我々のデータ全体で1コピーで発生している(表1);ゲノムの未シークエンス部分には、より多くのコピーが存在する可能性がまだあることに注意されたい。 これらは、ピグアメリン、ヒルジン、ギランテン、ヒルジン様因子3、LDTI、未同定のトロンビンインヒビター、シスタチンである。 最もコピー数が多かったのはエグリンCとデスタビラーゼで、前者は足場に分散しているように見えるが(7つのコピーが6つの異なる足場に存在する)、後者は同じ足場に3つのコピーと別の足場に2つのコピーを含んでいた。

今回対象としたほとんどの抗凝固剤はドラフトゲノムで互いに隣接して配置されていないが、次のタンパク質は二つ以上のコピーとしてタンデムアレーで発生していると思われる。 C型レクチン(コピー間でエクソンとイントロンのサイズが強く保存されている)、グアメリン(コピー間でエクソンとイントロンのサイズが低く保存されている)、カザール型セリンプロテアーゼ阻害剤(コピー間でエクソンとイントロンのサイズが低く保存されている)、bdellin(エクソンサイズは比較的保存されているがイントロンサイズはコピー間で異なっている)である。 さらに、LDTIとbdellinの3つのタンデムコピーはscaffold 209471上で互いに隣接している。

その他の生理活性ペプチド

既知のヒル由来の抗凝固因子に対するヒットに加え、血液供給生物から分離した227種類の生理活性物質に対する1,176のヒットがH. medicinalisゲノムから227種類の生理活性物質に対する1,176件のヒットが得られた。これらのほとんどは機能および経路が不明であるため、ここでは抗凝固に関与することが示されているヒル以外の生理活性タンパク質にのみ焦点を当てることにする。 凝固カスケードに悪影響を及ぼす23種類のタンパク質に対して、1E-5以上のロバストヒットを確認しました。 これらには、トロンボスポンジモチーフを持つジスインテグリンとメタロプロテアーゼ(ADAMTS)、アピラーゼ、クニッツ型セリンプロテアーゼ阻害剤、フィブリノゲナーゼ、クリソプチン、ボロジャラシン、一酸化窒素(血管拡張剤)、アグルケチン、スナクレック、出血性メタロタンパク質酵素カウチアギン、バトロックススタチンが含まれる。 トロンビン阻害剤(Lone Star tick Amblyomma americanum由来)、アネキシン、タブセリン、トロンビン阻害蛋白(Rhodnius prolixus由来)、蛇毒セリン蛋白、キモトリプシン、ブラジレンシン、カテプシンB、ジペトロガスチン、アケラーゼ、ハリキシン、アンチトロンビンIII(キングコブラ Ophiophagus hannah由来)。 補足ファイル2には、これらのペプチドのヒットと、その相互BLASTヒット、シグナルペプチドの予測を示しています。 相互BLASTヒットのいくつかは、Helobdella robustaゲノムの未注釈(すなわち、「仮説的タンパク質」または「未特性タンパク質」)遺伝子に対するものであり、マッチのアイデンティティに関する情報はほとんど推論できない。 しかし、我々は、3つのグローバルデータベースで十分に注釈付けされた遺伝子に対する劣るヒット(それでも1E-5より優れている)も評価した。 すべての利用可能な情報を評価した結果、以下のタンパク質産物のみがH. medicinalisゲノムに存在すると頑健に推論することができなかった(すなわち。 8367>

配列類似度とペアワイズアラインメント

H.メディシナリス由来の抗凝固関連タンパク質は、各々、配列類似度とペアワイズアラインメント

に基づき、H.メディシナリスゲノムに存在しないと推定された(すなわち、残りのタンパク質製品は全て存在している):クリソプチン、一酸化窒素、トロンビン阻害剤(アンブリョンマ・アメリカノム由来)、キモトリプシン、ダイペロスチンおよびアチェラーゼ。 medicinalis由来の各抗凝固関連タンパク質について、その原型となるタンパク質とのアラインメントを図1(デスタビラーゼI、LDTI、ヒルジン、ヒルジン様因子3、bdellin)および補足ファイル3(eglin C、ギランテン、グアメリン、シスタチン、フィコリン、カザル型セルピン、C型レクチン、マニラーゼ、ピグアメリン、アンチスタシン、bdellastasinおよびトロンビン阻害剤)に提示した。 なお、レファキシンに対してヒットしたH. medicinalisの配列は、相互BLASTしたところ、ヘメリトリンに対してはるかに優れたヒットを見つけ、さらにレファキシンのオーソログとはみなされなかった。

Figure 1
figure1

MAFFTによるヒルードメディシナリスのゲノムから得た推定抗凝固剤オルソログとそれぞれのBLASTpトップヒットのアミノ酸アライメントを示した。 (A) H. medicinalis由来の推定デスタビラーゼIと唾液生理活性タンパク質の既知の配列(GenBankアクセッション番号AAA96144)とのアラインメント、(B) H. medicinalis由来の推定Leech Derived Tryptase Inhibitor (LDTI) と唾液生理活性タンパク質の既知の配列(GenBankアクセッション番号AAB33769)とのアラインメント、 (C) H.の推定Hirudin (HV1) と唾液生理活性タンパク質(GenBank Accessional番号AAA7614)とのアラインメント。 medicinalis由来の推定ヒルジン(HV1)。唾液生物活性タンパク質の既知配列(GenBankアクセッション番号APA20833)と共に配列決定された。 赤枠は保存されたシステイン残基を、青の網掛けは配列間の残基の保存性を表す。

デスタビラーゼIについて、新たに得られた配列は、同じくヒルド・メディシナリス由来の既知の抗凝固剤(GenBankアクセッション番号AAA9614431)とアミノ酸が共有できる位置(つまり、ギャップ分を含まない場合)で78%の類似性を示すことがわかった。 また、14個のシステイン残基の位置はすべて完全に保存されており、両蛋白質の間で類似したフォールディング構造を持つことが示唆された。 8367>

LDTIのアミノ酸アラインメントでは、新しい配列とHirudo medicinalis由来の典型的な配列(GenBankアクセッション番号AAB3376932)を含めて、2つの配列は99%の配列類似性を示し、6つのシステイン残基の位置が完全に保存されていることが示された。 8367>

今回新たに決定したヒルジン正体配列は、もともとHirudo verbana由来の典型的な配列(GenBank accession number APA2083333)と比較すると、ほぼ完全に保存(配列類似度99.9%)されていることが分かる。 また、成熟ペプチドに存在する6つのシステイン残基の位置は完全に保存されている(シグナルペプチド領域にも2つのシステインが保存されている)。 8367>

メディシナリスゲノムから回収したbdellin配列は、メディシナリス由来の原型配列(GenBankアクセッション番号P0986534)と99.2%の配列類似性を示し、すべてのシステイン残基(n = 6)の位置は完全に保存されている。 8367>

エグリンCについては、原型配列(GenBank accession number 0905140 A35)と比較すると、新しい配列は99.9%の配列類似性を示している。

新たに取得したギランテンの配列は、グロッシフォニドヒルHaementeria ghilianii (de Filippi, 1849) 由来の典型的な配列(GenBank accession number AAB212336)と比較すると、32%の配列類似度しか示さなかった。 配列間の親和性が低いことから、これらはオーソログ配列でない可能性がある。 それにもかかわらず、新しい配列は成熟タンパク質に25個のシステイン残基を含み、これらのうち17個の位置はアラインメントで保存されている。 グアメリンについては、Hirudo nipponia Whitman, 1886に由来する原型タンパク質(GenBankアクセッション番号AAD0944237)と67%の配列類似性を示している。 アラインメントに存在する9つのシステイン残基の位置はすべて完全に保存されている。 8367>

シスタチンの新しい配列は、グロサイフォン類のTheromyzon tessulatum (Müller, 1774) 由来の原型となる配列 (GenBank accession number AAN2867938) と比較して57%の類似性を示し、システイン1つの位置は両者の配列間で保存されていることが示された。 また、Ficolinについては、北米の薬用ヒルMacrobdella decora (Say, 1824)由来の典型的な配列(Minらによるデータセットから作成)と我々の新しい配列とのアミノ酸の共有位置の類似性は59%であった。 M. decora由来の配列に存在する3つのシステイン残基のうち2つは、新しい配列の同じ位置にも存在する。 8367>

新たに得られたKazal型セルピンは、Macrobdella decora由来の配列(Minら15が用いたデータセット)と比較すると、共有アミノ酸部位について26%の配列類似性を示すにとどまった。 また、「典型的な」配列に存在する13個のシステイン残基のうち、12個は新しい配列で保存された位置を示している。 8367>

C型レクチンのアラインメントでは、M. decora由来の雛形配列との間に43%の配列類似性が存在することが示された(15参照)。 原型配列には13個のシステイン残基が存在し、そのうち9個の位置は今回取得した配列でも保存されている。 8367>

マニラーゼについては、新しい配列と米国特許出願(番号2006 US 7.049.124 B1P09856)から得た、アジアの薬用ヒル Hirudinaria manillensis Lesson, 1842から抽出した配列との間で、共有アミノ酸残基の83%が同一であった。 有名な話だが、マニラーゼはシステイン残基を全く含まないので、ヒルド・メディシナリス由来の配列も同様である。 8367>

トリプシン阻害剤ピグアメリンについて、今回決定した遺伝子産物は、もともとHirudo nipponia由来の典型的な配列(GenBankアクセッション番号P8149939)と46%の類似性を示している。 原型配列は10個のシステイン残基を含んでおり、そのうち6個は新配列でも保存された位置にある。 8367>

アンチスタシンについては、我々の標本由来の配列は、Haementeria officinalis由来の典型的な配列(GenBank accession number P1535840)と36%の類似性を示した。 また、原型配列に存在する21個のシステインのうち18個の位置が配列間で保存されていた(補足ファイル3J)。

bdellastasinのアライメントにおいて我々が新たに得た配列は、同じくヒルード・メディキナリスの原型変異体(GenBank accession number 1C9P41)と比較してほぼ完全に保存(共有アミノ酸部位での類似度99.9%)されていることが確認された。 また、10個のシステインの位置は両配列間で完全に保存されている(補足ファイル3K)。

ここで典型的な抗凝固剤となる未知のトロンビン阻害剤は、もともとはヒルのPontobdella macrothela (Schmarda, 1861) から得られたものである(参照16)、BLASTによるHemadipid leech Haemadipsa sylvestris Blanchard, 1894の推定のトロンビン阻害剤のヒットに基づいている。 その結果、Hirudo medicinalis由来の配列は、共有アミノ酸部位について28%の配列類似性しか示さなかったが、標的配列に存在する8つのシステイン残基のうち7つの位置は、新たに取得した配列で完全に保存されていた。 興味深いことに、新規配列の中央部には27アミノ酸の大きな挿入が存在する。あるいは、これは原型配列の欠失である(補足ファイル3L)。

遺伝子樹

16種類のヒル由来推定抗凝固剤について、Wilkinsonらが提案した用語を使って、非根拠木のトポロジーを記述した42。 8367>

デスタビラーゼIの遺伝子樹(図2A)において、新たに取得した配列は、Hirudo medicinalis31の以前の配列決定作業から取得した典型配列といくつかの変種と、かなり低い支持(尤度ブートストラップ支持=72%)ではあるが、一族を形成している。

Figure 2
figure 2

各抗凝固剤または抗凝固剤ファミリーに対する推定正ローグのセットの最尤分析から得られた系統学的仮説。 (A) Destabilase I (ln L = -3340.015305); (B) LDTI (ln L = -640.341632)。 LDTI(図2B)については、新しい配列は、抗凝固剤の原型となる変種のすべてとクラン(LBS = 100%)を形成している-この配列のクラスター内で分岐長が非常に短いかゼロであることに注意し、それらの間の正相性の概念を裏付ける。

私たちが新たに導き出したヒルジン配列も、ヒルジン類のヒル Poecilobdella viridis (Blanchard, 1864) と Hirudo verbana 由来のトロンビン阻害剤の2つの典型的な変異体 (LBS = 97%) (図3A)とともにクランを形成しています。 ここでも、枝の長さはごくわずかである。 さらに、ヒルジン様因子3のBLASTの結果を裏付けるように、H. medicinalisから新たに得られた配列は、Hirudo orientalisから得られた典型的な配列と一族(LBS = 87%)を形成している。

Figure 3
figure3

各抗凝固剤または抗凝固剤ファミリーに対する推定正相の集合の最尤分析から得られた系統仮説。 (A)ヒルジン(ln L = -4750.252905)、(B)bdellin(ln L = -1771.698797)。 8367>

bdellinの木(図3B)では、新しい配列は、低い支持ではあるが、原型配列と、Hirudo nipponia, Hirudo medicinalisおよびMacrobdella decoraから以前に配列決定された変種を含む一族(LBS=26%)を形成している。 8367>

エグリンCについては、新しい配列は典型的な変種とクラン(LBS < 75%)を形成しており、典型的な配列が由来するヒルの種レベルの同一性は不明であることに注意。 また、このクランにはHirudo medicinalis(未発表)の別の配列決定作業から得られた配列が含まれており、このクラン内の分岐長は非常に短いかゼロである(補足ファイル4A)。

抗凝固剤のアンチスタシンファミリーのメンバーから構築した木(補足ファイル4B)では、H. medicinalisからの我々の「ギランテン」配列は、Heptacyclus cf. viridus、Placobdella kwetlumye、Pontobdella macrothelaからの3つの配列と一族(LBS < 75%)を形成している。 このクランは、therostasinの典型的な配列と、様々なヒル種からのこの遺伝子のいくつかの変種を含むクランに隣接するグループである。 対照的に、ギランテンの典型的な配列は、アンチスタシンの典型的な配列と、根のない木の離れた部分に(非常に短い枝の長さで)氏族を形成している。 このため、新たに得られたギランテン配列の正体についてはまだ議論の余地があるが、ギランテンではなく、セロスタシンに属するとするのが妥当であると思われる。 therostasinと直接比較した場合(データは示していない)、新しい配列は43%を示し、これはghilantenとのアラインメント(上記参照)と比較して11%の改善である。 H. medicinalisのデータセットに含まれる残りのアンチスタシンファミリーの各タンパク質は、それぞれの典型的な抗凝固剤とクランを形成しています。 bdellastasin、piguamerin、guamerinについては、新たに得られた配列のそれぞれが、典型的な変異体に隣接する配列として入れ子になっています。 アンチスタシンについては、私たちの配列は、ギランテンおよびアンチスタシンの両方の原型となる変種と同様に、いくつかのヒル種からの配列を含む、より大きな一族に位置する。 このようにデータが少ないにもかかわらず、新しい配列は典型的な配列とクランを形成し(LBS < 75%)、分岐長は他の端末のものと同等である(補足ファイル4C)。 8367>

カザール型セリンプロテアーゼ阻害剤の木(補足ファイル4E)は、ヒルの配列で構築された数少ないものの一つで、これはヒルに由来する典型的な変異体の欠如と比較データの欠如(わずか4配列でマトリックスを構成)の両方に現れています。 C型レクチン樹(補足ファイル4F)では、トップヒットの配列はアフリカの薬用ヒルAliolimnatis fenestrataとHirudo medicinalisに由来する変異体と支持されないクラン(LBS < 75%)を形成している。 8367>

類似性に基づくオーソロジーの決定を裏付けるように、我々の新しく得られたマニラーゼ配列は、原型配列と、プラオブデリドのLimnobdella mexicanaとHaemadipsa interrupta由来の他の二つの配列とクランを形成している。 この配置と我々の配列に至る枝の長さを考えると、マニラーゼのオーソログであることは疑いない(補足ファイル4G)。

BLAST、アラインメント、遺伝子ツリーの解析結果を総合すると、以下の各ヒル由来のタンパク質産物がH. medicinalisゲノムには、エグリンC、デスタビラーゼI、ギランテン、ヒル由来トリプターゼ阻害剤(LDTI)、グアメリン、シスタチン、ヒルジン、フィコリン、カザル型セリンプロテアーゼ阻害剤(セルピン)、C型レクチン、マニラーゼ、ブデリン、ピグアメリン、アンチスタジン、ブデラスタジンおよび未確認のトロンビニン阻害剤、が含まれていることが示唆された

Leave a Reply