RaRe-Technologies / gensim

Gensim ist eine Python-Bibliothek für Topic Modelling, Dokumentenindexierung und Ähnlichkeitsrecherche mit großen Korpora. Zielpublikum ist die Gemeinschaft der natürlichen Sprachverarbeitung (NLP) und des Information Retrieval (IR).

Eigenschaften

  • Alle Algorithmen sind speicherunabhängig in Bezug auf der Korpusgröße (kann Eingaben verarbeiten, die größer als der RAM sind, gestreamt, außerhalb des Kerns),
  • Intuitive Schnittstellen
    • Einfaches Einfügen eigener Eingabekorpusse/Datenströme (triviales Streaming-API)
    • Einfache Erweiterung mit anderen Vektorraum-Algorithmen (triviales Transformations-API)
  • Effiziente Multicore-Implementierungen beliebter Algorithmen, wieonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP),Hierarchical Dirichlet Process (HDP) oder word2vec deeplearning.
  • Verteiltes Rechnen: kann Latent Semantic Analysis und Latent Dirichlet Allocation auf einem Cluster von Computern ausführen.
  • Umfassende Dokumentation und Jupyter Notebook Tutorials.

Wenn Sie sich bei dieser Funktionsliste den Kopf zerbrochen haben, können Sie zunächst mehr über das Vector Space Model und die unüberwachte Dokumentenanalyse auf Wikipedia lesen.

Installation

Diese Software hängt von NumPy und Scipy ab, zwei Python-Paketen für wissenschaftliche Berechnungen. Sie müssen vor der Installation vongensim installiert sein.

Es wird auch empfohlen, eine schnelle BLAS-Bibliothek vor der Installation vonNumPy zu installieren. Dies ist optional, aber es ist bekannt, dass die Verwendung einer optimierten BLAS wie ATLAS oderOpenBLAS die Leistung um bis zu einer Größenordnung verbessert. Unter OS X wählt NumPy die mitgelieferte BLAS automatisch aus, so dass Sie nichts Besonderes tun müssen.

Installieren Sie die neueste Version von gensim:

 pip install --upgrade gensim

Oder, wenn Sie stattdessen das Quellpaket tar.gzpackage:

 python setup.py install

Alternative Installationsmethoden finden Sie in der Dokumentation.

Gensim wird kontinuierlich unter Python 3.6, 3.7 und 3.8 getestet. Die Unterstützung für Python 2.7 wurde in gensim 4.0.0 eingestellt – installieren Sie gensim 3.8.3, wenn Sie Python 2.7 verwenden müssen.

Warum ist gensim so schnell und speichereffizient? Ist es nicht reines Python, und ist Python nicht langsam und gefräßig?

Viele wissenschaftliche Algorithmen können in Form von großen Matrixoperationen ausgedrückt werden (siehe die BLAS-Notiz oben). Gensim greift auf diese Low-Level-BLAS-Bibliotheken zurück, indem es von NumPy abhängig ist. Während also der Top-Level-Code von Gensim reines Python ist, führt es unter der Haube hochoptimiertes Fortran/C aus, einschließlich Multithreading (wenn IhreBLAS so konfiguriert ist).

Speichermäßig macht Gensim großen Gebrauch von Pythons eingebauten Generatoren und Zählern für die Verarbeitung von Datenströmen. Speichereffizienz war eines der Entwicklungsziele von gensim und ist ein zentrales Merkmal von gensim, und nicht etwas, das nachträglich hinzugefügt wurde.

Dokumentation

  • QuickStart
  • Tutorials
  • Offizielle API-Dokumentation

Support

Fragen mit offenem Ende oder zu Forschungszwecken auf der Gensim-Mailingliste stellen.

Bugs auf Github aufwerfen, aber sicherstellen, dass man der Issue-Vorlage folgt. Issues, die keine Bugs sind oder der Issue-Vorlage nicht folgen, werden ohne Prüfung geschlossen.

Adopters

Firma Logo Industrie Verwendung von Gensim
RARE Technologies ML & NLP Beratung Schöpfer von Gensim – das sind wir!
Amazon Einzelhandel Dokumentenähnlichkeit
National Institutes of Health Gesundheit Bearbeitung von Zuschüssen und Veröffentlichungen mit word2vec.
Cisco Security Security Betrugserkennung im großen Stil.
Mindseye Rechtliches Ähnlichkeiten in Rechtsdokumenten.
Channel 4 Media Empfehlungsmaschine.
Talentpair HR Kandidatenabgleich im High-Touch-Recruiting.
Juju HR Bieten Sie nicht offensichtliche verwandte Jobvorschläge.
Tailwind Media Poste interessante und relevante Inhalte auf Pinterest.
Issuu Media Das LDA-Modul von Gensim ist das Herzstück der Analyse, die wir bei jeder hochgeladenen Veröffentlichung durchführen, um herauszufinden, worum es geht.
Search Metrics Content Marketing Gensim word2vec wird für die Disambiguierung von Entitäten bei der Suchmaschinenoptimierung verwendet.
12K Research Media Document similarity analysis on media articles.
Stillwater Supercomputing Hardware Dokumentenverstehen und Assoziation mit word2vec.
SiteGround Webhosting Eine Ensemble-Suchmaschine, die verschiedene Einbettungsmodelle und Ähnlichkeiten verwendet, darunter word2vec, WMD und LDA.
Capital One Finance Topic Modelling for customer complaints exploration.

Citing gensim

Wenn Sie gensim in akademischen Arbeiten und Dissertationen zitieren, verwenden Sie bitte diesenBibTeX-Eintrag:

Leave a Reply