RaRe-Technologies / gensim

Gensimは大規模なコーパスに対してトピックモデル、ドキュメントインデックス、類似性検索を行うPythonライブラリである。 921>

特徴

  • 全てのアルゴリズムはメモリに依存しない。 直感的なインターフェース
    • 独自の入力コーパス/データストリームを簡単にプラグインできる (簡単なストリーミング API)
    • 他の Vector Space アルゴリズムで簡単に拡張できる (簡単な変換 API)
  • 人気の高いアルゴリズムのマルチコア実装を効率的に行うことが可能です。 オンライン潜在意味解析(LSA/LSI/SVD)、潜在ディリクレ配分(LDA)、ランダム投影(RP)、階層ディリクレ過程(HDP)、ワード2ベックディープラーニングなど。

  • 分散コンピューティング: Latent Semantic Analysis および Latent Dirichlet Allocation をコンピュータのクラスタ上で実行することができます。

この機能リストで頭をかきむしったなら、まず Wikipedia で Vector Space Model と教師なし文書分析についてもっと読むことができます。

また、NumPy をインストールする前に、高速な BLAS ライブラリをインストールすることをお勧めします。 これはオプションですが、ATLAS や OpenBLAS のような最適化された BLAS を使用すると、1桁も性能が向上することが知られています。 OS X では、NumPy は付属の BLAS を自動的に選択するので、特別なことは必要ありません。

Gensim の最新バージョンをインストールする。Python 2.7 のサポートは gensim 4.0.0 で打ち切られました – Python 2.7 を使う必要があるなら、gensim 3.8.3 をインストールしてください。 純粋な Python であり、Python は遅くて貪欲ではないのでしょうか。

多くの科学的アルゴリズムは、大きな行列演算で表現できます (上記の BLAS の記述を参照してください)。 Gensim は NumPy に依存することで、これらの低レベルの BLAS ライブラリを利用します。 トップレベルのコードは純粋な Python ですが、実際にはマルチスレッド (BLAS がそのように設定されている場合) を含む高度に最適化された Fortran/C が裏で実行されます。 メモリ効率は gensim の設計目標の 1 つであり、後付けされたものというよりは、むしろ gensim の中心的な機能です。

Documentation

  • QuickStart
  • Tutorials
  • Official API Documentation

Support

Gensim Mailing List でオープンエンドまたはリサーチの質問をすることが可能です。 バグでない、または課題テンプレートに従わない課題は、検査されずに閉じられます。

Adopters

ML & NLPコンサルティング

Health

Security

法律文書の類似性

メディア

ハイタッチ採用における候補者マッチング。

会社 ロゴ 業界 Gensimの使用
RARE Technologies Gensimのクリエーター – これが私たちです!
Amazon Retail ドキュメント類似性。
国立衛生研究所 グラントと出版物を word2vec で処理することです。
Cisco Security 大規模な不正検知を行う。
Mindseye Legal
Channel 4 Recommended engine.
Talentpair HR
Juju HR 明白ではない関連求人の示唆を与えることです。
Tailwind Media Pinterest に興味深い、関連するコンテンツをポストする。
Isuu Media Gensim の LDA モジュールは、アップロードした各出版物が何について書かれているかを把握する分析の中核に位置しているのです。
Search Metrics Content Marketing Gensim word2vec は検索エンジン最適化において、エンティティ曖昧さ回避に使用されました。
12K Research Media Media articleのドキュメントの類似性分析に使用。
Stillwater Supercomputing Hardware word2vec による文書理解と関連付けを実施しました。
SiteGround Web hosting word2vec, WMD, LDAなどの異なる埋め込みモデルや類似度を使っているアンサンブル検索エンジンの紹介。
Capital One Finance Topic modeling for customer complaints exploration.

Citing gensim

When cited gensim in academic papers and thesis, please use thisBibTeX entry:

(英語版のみ)※日本語訳はありません。

Leave a Reply