Articles / August 31, 2021

RaRe-Technologies / gensim

Gensim ist eine Python-Bibliothek für Topic Modelling, Dokumentenindexierung und Ähnlichkeitsrecherche mit großen Korpora. Zielpublikum ist die Gemeinschaft der natürlichen Sprachverarbeitung (NLP) und des Information Retrieval (IR).

Eigenschaften

Alle Algorithmen sind speicherunabhängig in Bezug auf der Korpusgröße (kann Eingaben verarbeiten, die größer als der RAM sind, gestreamt, außerhalb des Kerns),
Intuitive Schnittstellen
- Einfaches Einfügen eigener Eingabekorpusse/Datenströme (triviales Streaming-API)
- Einfache Erweiterung mit anderen Vektorraum-Algorithmen (triviales Transformations-API)
Effiziente Multicore-Implementierungen beliebter Algorithmen, wieonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP),Hierarchical Dirichlet Process (HDP) oder word2vec deeplearning.
Verteiltes Rechnen: kann Latent Semantic Analysis und Latent Dirichlet Allocation auf einem Cluster von Computern ausführen.
Umfassende Dokumentation und Jupyter Notebook Tutorials.

Wenn Sie sich bei dieser Funktionsliste den Kopf zerbrochen haben, können Sie zunächst mehr über das Vector Space Model und die unüberwachte Dokumentenanalyse auf Wikipedia lesen.

Installation

Diese Software hängt von NumPy und Scipy ab, zwei Python-Paketen für wissenschaftliche Berechnungen. Sie müssen vor der Installation vongensim installiert sein.

Es wird auch empfohlen, eine schnelle BLAS-Bibliothek vor der Installation vonNumPy zu installieren. Dies ist optional, aber es ist bekannt, dass die Verwendung einer optimierten BLAS wie ATLAS oderOpenBLAS die Leistung um bis zu einer Größenordnung verbessert. Unter OS X wählt NumPy die mitgelieferte BLAS automatisch aus, so dass Sie nichts Besonderes tun müssen.

Installieren Sie die neueste Version von gensim:

 pip install --upgrade gensim

Oder, wenn Sie stattdessen das Quellpaket tar.gzpackage:

 python setup.py install

Alternative Installationsmethoden finden Sie in der Dokumentation.

Gensim wird kontinuierlich unter Python 3.6, 3.7 und 3.8 getestet. Die Unterstützung für Python 2.7 wurde in gensim 4.0.0 eingestellt – installieren Sie gensim 3.8.3, wenn Sie Python 2.7 verwenden müssen.

Warum ist gensim so schnell und speichereffizient? Ist es nicht reines Python, und ist Python nicht langsam und gefräßig?

Viele wissenschaftliche Algorithmen können in Form von großen Matrixoperationen ausgedrückt werden (siehe die BLAS-Notiz oben). Gensim greift auf diese Low-Level-BLAS-Bibliotheken zurück, indem es von NumPy abhängig ist. Während also der Top-Level-Code von Gensim reines Python ist, führt es unter der Haube hochoptimiertes Fortran/C aus, einschließlich Multithreading (wenn IhreBLAS so konfiguriert ist).

Speichermäßig macht Gensim großen Gebrauch von Pythons eingebauten Generatoren und Zählern für die Verarbeitung von Datenströmen. Speichereffizienz war eines der Entwicklungsziele von gensim und ist ein zentrales Merkmal von gensim, und nicht etwas, das nachträglich hinzugefügt wurde.

Dokumentation

QuickStart
Tutorials
Offizielle API-Dokumentation

Support

Fragen mit offenem Ende oder zu Forschungszwecken auf der Gensim-Mailingliste stellen.

Bugs auf Github aufwerfen, aber sicherstellen, dass man der Issue-Vorlage folgt. Issues, die keine Bugs sind oder der Issue-Vorlage nicht folgen, werden ohne Prüfung geschlossen.

Adopters

Firma	Industrie	Verwendung von Gensim
RARE Technologies	ML & NLP Beratung	Schöpfer von Gensim – das sind wir!
Amazon	Einzelhandel	Dokumentenähnlichkeit
National Institutes of Health	Gesundheit	Bearbeitung von Zuschüssen und Veröffentlichungen mit word2vec.
Cisco Security	Security	Betrugserkennung im großen Stil.
Mindseye	Rechtliches	Ähnlichkeiten in Rechtsdokumenten.
Channel 4	Media	Empfehlungsmaschine.
Talentpair	HR	Kandidatenabgleich im High-Touch-Recruiting.
Juju	HR	Bieten Sie nicht offensichtliche verwandte Jobvorschläge.
Tailwind	Media	Poste interessante und relevante Inhalte auf Pinterest.
Issuu	Media	Das LDA-Modul von Gensim ist das Herzstück der Analyse, die wir bei jeder hochgeladenen Veröffentlichung durchführen, um herauszufinden, worum es geht.
Search Metrics	Content Marketing	Gensim word2vec wird für die Disambiguierung von Entitäten bei der Suchmaschinenoptimierung verwendet.
12K Research	Media	Document similarity analysis on media articles.
Stillwater Supercomputing	Hardware	Dokumentenverstehen und Assoziation mit word2vec.
SiteGround	Webhosting	Eine Ensemble-Suchmaschine, die verschiedene Einbettungsmodelle und Ähnlichkeiten verwendet, darunter word2vec, WMD und LDA.
Capital One	Finance	Topic Modelling for customer complaints exploration.