RaRe-Technologies / gensim
Gensim ist eine Python-Bibliothek für Topic Modelling, Dokumentenindexierung und Ähnlichkeitsrecherche mit großen Korpora. Zielpublikum ist die Gemeinschaft der natürlichen Sprachverarbeitung (NLP) und des Information Retrieval (IR).
Eigenschaften
- Alle Algorithmen sind speicherunabhängig in Bezug auf der Korpusgröße (kann Eingaben verarbeiten, die größer als der RAM sind, gestreamt, außerhalb des Kerns),
- Intuitive Schnittstellen
- Einfaches Einfügen eigener Eingabekorpusse/Datenströme (triviales Streaming-API)
- Einfache Erweiterung mit anderen Vektorraum-Algorithmen (triviales Transformations-API)
- Effiziente Multicore-Implementierungen beliebter Algorithmen, wieonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP),Hierarchical Dirichlet Process (HDP) oder word2vec deeplearning.
- Verteiltes Rechnen: kann Latent Semantic Analysis und Latent Dirichlet Allocation auf einem Cluster von Computern ausführen.
- Umfassende Dokumentation und Jupyter Notebook Tutorials.
Wenn Sie sich bei dieser Funktionsliste den Kopf zerbrochen haben, können Sie zunächst mehr über das Vector Space Model und die unüberwachte Dokumentenanalyse auf Wikipedia lesen.
Installation
Diese Software hängt von NumPy und Scipy ab, zwei Python-Paketen für wissenschaftliche Berechnungen. Sie müssen vor der Installation vongensim installiert sein.
Es wird auch empfohlen, eine schnelle BLAS-Bibliothek vor der Installation vonNumPy zu installieren. Dies ist optional, aber es ist bekannt, dass die Verwendung einer optimierten BLAS wie ATLAS oderOpenBLAS die Leistung um bis zu einer Größenordnung verbessert. Unter OS X wählt NumPy die mitgelieferte BLAS automatisch aus, so dass Sie nichts Besonderes tun müssen.
Installieren Sie die neueste Version von gensim:
pip install --upgrade gensim
Oder, wenn Sie stattdessen das Quellpaket tar.gzpackage:
python setup.py install
Alternative Installationsmethoden finden Sie in der Dokumentation.
Gensim wird kontinuierlich unter Python 3.6, 3.7 und 3.8 getestet. Die Unterstützung für Python 2.7 wurde in gensim 4.0.0 eingestellt – installieren Sie gensim 3.8.3, wenn Sie Python 2.7 verwenden müssen.
Warum ist gensim so schnell und speichereffizient? Ist es nicht reines Python, und ist Python nicht langsam und gefräßig?
Viele wissenschaftliche Algorithmen können in Form von großen Matrixoperationen ausgedrückt werden (siehe die BLAS-Notiz oben). Gensim greift auf diese Low-Level-BLAS-Bibliotheken zurück, indem es von NumPy abhängig ist. Während also der Top-Level-Code von Gensim reines Python ist, führt es unter der Haube hochoptimiertes Fortran/C aus, einschließlich Multithreading (wenn IhreBLAS so konfiguriert ist).
Speichermäßig macht Gensim großen Gebrauch von Pythons eingebauten Generatoren und Zählern für die Verarbeitung von Datenströmen. Speichereffizienz war eines der Entwicklungsziele von gensim und ist ein zentrales Merkmal von gensim, und nicht etwas, das nachträglich hinzugefügt wurde.
Dokumentation
- QuickStart
- Tutorials
- Offizielle API-Dokumentation
Support
Fragen mit offenem Ende oder zu Forschungszwecken auf der Gensim-Mailingliste stellen.
Bugs auf Github aufwerfen, aber sicherstellen, dass man der Issue-Vorlage folgt. Issues, die keine Bugs sind oder der Issue-Vorlage nicht folgen, werden ohne Prüfung geschlossen.
Adopters
Firma | Logo | Industrie | Verwendung von Gensim |
---|---|---|---|
RARE Technologies | ML & NLP Beratung | Schöpfer von Gensim – das sind wir! | |
Amazon | Einzelhandel | Dokumentenähnlichkeit | |
National Institutes of Health | Gesundheit | Bearbeitung von Zuschüssen und Veröffentlichungen mit word2vec. | |
Cisco Security | Security | Betrugserkennung im großen Stil. | |
Mindseye | Rechtliches | Ähnlichkeiten in Rechtsdokumenten. | |
Channel 4 | Media | Empfehlungsmaschine. | |
Talentpair | HR | Kandidatenabgleich im High-Touch-Recruiting. | |
Juju | HR | Bieten Sie nicht offensichtliche verwandte Jobvorschläge. | |
Tailwind | Media | Poste interessante und relevante Inhalte auf Pinterest. | |
Issuu | Media | Das LDA-Modul von Gensim ist das Herzstück der Analyse, die wir bei jeder hochgeladenen Veröffentlichung durchführen, um herauszufinden, worum es geht. | |
Search Metrics | Content Marketing | Gensim word2vec wird für die Disambiguierung von Entitäten bei der Suchmaschinenoptimierung verwendet. | |
12K Research | Media | Document similarity analysis on media articles. | |
Stillwater Supercomputing | Hardware | Dokumentenverstehen und Assoziation mit word2vec. | |
SiteGround | Webhosting | Eine Ensemble-Suchmaschine, die verschiedene Einbettungsmodelle und Ähnlichkeiten verwendet, darunter word2vec, WMD und LDA. | |
Capital One | Finance | Topic Modelling for customer complaints exploration. |
Citing gensim
Wenn Sie gensim in akademischen Arbeiten und Dissertationen zitieren, verwenden Sie bitte diesenBibTeX-Eintrag:
Leave a Reply