RaRe-Technologies / gensim
Gensimは大規模なコーパスに対してトピックモデル、ドキュメントインデックス、類似性検索を行うPythonライブラリである。 921>
特徴
- 全てのアルゴリズムはメモリに依存しない。 直感的なインターフェース
- 独自の入力コーパス/データストリームを簡単にプラグインできる (簡単なストリーミング API)
- 他の Vector Space アルゴリズムで簡単に拡張できる (簡単な変換 API)
- 分散コンピューティング: Latent Semantic Analysis および Latent Dirichlet Allocation をコンピュータのクラスタ上で実行することができます。
人気の高いアルゴリズムのマルチコア実装を効率的に行うことが可能です。 オンライン潜在意味解析(LSA/LSI/SVD)、潜在ディリクレ配分(LDA)、ランダム投影(RP)、階層ディリクレ過程(HDP)、ワード2ベックディープラーニングなど。
この機能リストで頭をかきむしったなら、まず Wikipedia で Vector Space Model と教師なし文書分析についてもっと読むことができます。
また、NumPy をインストールする前に、高速な BLAS ライブラリをインストールすることをお勧めします。 これはオプションですが、ATLAS や OpenBLAS のような最適化された BLAS を使用すると、1桁も性能が向上することが知られています。 OS X では、NumPy は付属の BLAS を自動的に選択するので、特別なことは必要ありません。
Gensim の最新バージョンをインストールする。Python 2.7 のサポートは gensim 4.0.0 で打ち切られました – Python 2.7 を使う必要があるなら、gensim 3.8.3 をインストールしてください。 純粋な Python であり、Python は遅くて貪欲ではないのでしょうか。
多くの科学的アルゴリズムは、大きな行列演算で表現できます (上記の BLAS の記述を参照してください)。 Gensim は NumPy に依存することで、これらの低レベルの BLAS ライブラリを利用します。 トップレベルのコードは純粋な Python ですが、実際にはマルチスレッド (BLAS がそのように設定されている場合) を含む高度に最適化された Fortran/C が裏で実行されます。 メモリ効率は gensim の設計目標の 1 つであり、後付けされたものというよりは、むしろ gensim の中心的な機能です。
Documentation
- QuickStart
- Tutorials
- Official API Documentation
Support
Gensim Mailing List でオープンエンドまたはリサーチの質問をすることが可能です。 バグでない、または課題テンプレートに従わない課題は、検査されずに閉じられます。
Adopters
会社 | ロゴ | 業界 | Gensimの使用 |
---|---|---|---|
RARE Technologies | Gensimのクリエーター – これが私たちです! | ||
Amazon | Retail | ドキュメント類似性。 | |
国立衛生研究所 | グラントと出版物を word2vec で処理することです。 | ||
Cisco Security | 大規模な不正検知を行う。 | ||
Mindseye | Legal | ||
Channel 4 | Recommended engine. | ||
Talentpair | HR | ||
Juju | HR | 明白ではない関連求人の示唆を与えることです。 | |
Tailwind | Media | Pinterest に興味深い、関連するコンテンツをポストする。 | |
Isuu | Media | Gensim の LDA モジュールは、アップロードした各出版物が何について書かれているかを把握する分析の中核に位置しているのです。 | |
Search Metrics | Content Marketing | Gensim word2vec は検索エンジン最適化において、エンティティ曖昧さ回避に使用されました。 | |
12K Research | Media | Media articleのドキュメントの類似性分析に使用。 | |
Stillwater Supercomputing | Hardware | word2vec による文書理解と関連付けを実施しました。 | |
SiteGround | Web hosting | word2vec, WMD, LDAなどの異なる埋め込みモデルや類似度を使っているアンサンブル検索エンジンの紹介。 | |
Capital One | Finance | Topic modeling for customer complaints exploration. |
Citing gensim
When cited gensim in academic papers and thesis, please use thisBibTeX entry:
(英語版のみ)※日本語訳はありません。
Leave a Reply