RaRe-Technologies / gensim

Gensim is een Python-bibliotheek voor topic modelling, document indexing en similarity retrieval met grote corpora. Doelpubliek is de natuurlijke taalverwerking (NLP) en informatie retrieval (IR)-gemeenschap.

Eigenschappen

  • Alle algoritmen zijn geheugenonafhankelijk t.o.v. de corpusgrootte(kan input verwerken groter dan RAM, gestreamd, out-of-core),
  • Intuïtieve interfaces
    • gemakkelijk om uw eigen input corpus/datastream in te pluggen (trivialstreaming API)
    • gemakkelijk uit te breiden met andere Vector Space algoritmes (trivialtransformation API)
  • Efficiënte multicore implementaties van populaire algoritmes, zoalsonline Latente Semantische Analyse (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) of word2vec deeplearning.
  • Distributed computing: kan Latente Semantische Analyse en Latente Dirichlet Allocatie op een cluster van computers draaien.
  • Uitgebreide documentatie en Jupyter Notebook tutorials.

Als deze lijst met functies u het hoofd heeft gekrabd, kunt u eerst meer lezen over het Vector Space Model en unsupervised document analysis op Wikipedia.

Installatie

Deze software is afhankelijk van NumPy en Scipy, twee Python-pakketten voor wetenschappelijke berekeningen. U moet ze geïnstalleerd hebben voordat u NumPy installeert.

Het is ook aan te raden om een snelle BLAS bibliotheek te installeren voordat u NumPy installeert. Dit is optioneel, maar het is bekend dat het gebruik van een geoptimaliseerde BLAS zoals ATLAS ofOpenBLAS de prestaties met een orde van grootte kan verbeteren. Op OS X pakt NumPy automatisch de BLAS die wordt meegeleverd, dus je hoeft niets speciaals te doen.

Installeer de laatste versie van gensim:

 pip install --upgrade gensim

Of, als je in plaats daarvan de bron tar hebt gedownload en uitgepakt.gzpackage:

 python setup.py install

Voor alternatieve manieren van installeren, zie de documentatie.

Gensim wordt continu getest onder Python 3.6, 3.7 en 3.8.Ondersteuning voor Python 2.7 is vervallen in gensim 4.0.0 – installeer gensim 3.8.3 als u Python 2.7 moet gebruiken.

Hoe komt het dat gensim zo snel en geheugen efficiënt is? Is het niet puur Python, en is Python niet traag en hebzuchtig?

Vele wetenschappelijke algoritmen kunnen worden uitgedrukt in termen van grote matrixoperaties (zie de BLAS notitie hierboven). Gensim maakt gebruik van deze low-levelBLAS bibliotheken, door middel van zijn afhankelijkheid van NumPy. Dus terwijl Gensim-de-top-level-code puur Python is, voert het eigenlijk hoog-geoptimaliseerd Fortran/C uit onder de motorkap, inclusief multithreading (als uwBLAS zo is geconfigureerd).

Gensim maakt zwaar gebruik van Python’s ingebouwde generators eniterators voor gestroomlijnde dataverwerking. Geheugenefficiëntie was een van de ontwerpdoelen van gensim, en is een centraal kenmerk van gensim, in plaats van iets dat er als een bijzaak is bijgeschroefd.

Documentatie

  • QuickStart
  • Tutorials
  • Officiële API Documentatie

Support

Stel open vragen of onderzoeksvragen op de Gensim Mailing List.

Stel bugs op Github, maar zorg ervoor dat u de issue template volgt. Issues die geen bugs zijn of het issue sjabloon niet volgen zullen zonder inspectie worden gesloten.

Adopters

Bedrijf Logo Industrie Gebruik van Gensim
RARE Technologies ML & NLP consulting Bedenkers van Gensim – dit zijn wij!
Amazon Retail Document gelijkenis.
National Institutes of Health Health Verwerking van subsidies en publicaties met word2vec.
Cisco Security Security Opsporing van fraude op grote schaal.
Mindseye Legal Gelijkenissen in juridische documenten.
Channel 4 Media Aanbevelingsengine.
Talentpair HR Candidate matching in high-touch recruiting.
Juju HR Geef niet voor de hand liggende gerelateerde functievoorstellen.
Tailwind Media Plaats interessante en relevante inhoud op Pinterest.
Issuu Media Gensim’s LDA-module staat aan de basis van de analyse die we op elke geüploade publicatie uitvoeren om erachter te komen waar het over gaat.
Search Metrics Content Marketing Gensim word2vec gebruikt voor de disambiguatie van entiteiten bij zoekmachineoptimalisatie.
12K Research Media Document similarity analysis op media-artikelen.
Stillwater Supercomputing Hardware Documentbegrip en -associatie met word2vec.
SiteGround Web hosting Een ensemble-zoekmachine die gebruik maakt van verschillende embeddingsmodellen en overeenkomsten, waaronder word2vec, WMD, en LDA.
Capital One Finance Topic modeling for customer complaints exploration.

Citing gensim

Wanneer u gensim citeert in academische papers en scripties, gelieve dan dezeBibTeX entry te gebruiken:

Leave a Reply