RaRe-Technologies / gensim

Gensim är ett Pythonbibliotek för ämnesmodellering, indexering av dokument och sökning efter likheter i stora korpusar. Målgruppen är NLP (Natural Language Processing) och IR (Information Retrieval).

Funktioner

  • Alla algoritmer är minnesoberoende med avseende på minnet. korpusstorleken (kan bearbeta indata som är större än RAM, strömmat, utanför kärnan),
  • Intuitiva gränssnitt
    • Enkla att koppla in din egen indatakorpus/dataström (trivialt strömmings-API)
    • Enkla att utöka med andra Vector Space-algoritmer (trivialtransformations-API)
  • Effektiva flerkärniga implementeringar av populära algoritmer, såsom latent semantisk analys online (LSA/LSI/SVD), latent dirichletallokering (LDA), slumpmässiga projektioner (RP), hierarkisk dirichletprocess (HDP) eller word2vec deeplearning.
  • Distribuerad databehandling: kan köra Latent Semantic Analysis och Latent Dirichlet Allocation på ett kluster av datorer.
  • Uttömmande dokumentation och Jupyter Notebook-tutorials.

Om den här funktionslistan fick dig att klia dig i huvudet kan du först läsa mer om Vector Space Model och oövervakad dokumentanalys på Wikipedia.

Installation

Den här programvaran är beroende av NumPy och Scipy, två Python-paket förvetenskapliga beräkningar. Du måste ha dem installerade innan du installerargensim.

Det rekommenderas också att du installerar ett snabbt BLAS-bibliotek innan du installerarNumPy. Detta är frivilligt, men om du använder ett optimerat BLAS-bibliotek som ATLAS ellerOpenBLAS är det känt att det förbättrar prestandan med så mycket som en storleksordning. På OS X plockar NumPy upp den BLAS som följer med automatiskt, så du behöver inte göra något speciellt.

Installera den senaste versionen av gensim:

 pip install --upgrade gensim

Och, om du istället har laddat ner och packat upp källkoden tar.gzpackage:

 python setup.py install

För alternativa installationssätt, se dokumentationen.

Gensim testas kontinuerligt under Python 3.6, 3.7 och 3.8. Stödet för Python 2.7 togs bort i gensim 4.0.0 – installera gensim 3.8.3 om du måste använda Python 2.7.

Hur kommer det sig att gensim är så snabbt och minnessnålt? Är det inte rent Python, och är inte Python långsamt och girigt?

Många vetenskapliga algoritmer kan uttryckas i termer av stora matrisoperationer (se anmärkningen om BLAS ovan). Gensim utnyttjar dessa BLAS-bibliotek på låg nivå genom sitt beroende av NumPy. Så även om Gensim-koden på toppnivå är ren Python, körs i själva verket högoptimerad Fortran/C under huven, inklusive multithreading (om dinBLAS är så konfigurerad).

Minnesmässigt använder sig Gensim flitigt av Pythons inbyggda generatorer ochiteratorer för strömmad databehandling. Minneseffektivitet var ett av gensims konstruktionsmål och är en central funktion i gensim, snarare än något som är påbyggt i efterhand.

Dokumentation

  • QuickStart
  • Tutorials
  • Official API Documentation

Support

Ställ öppna frågor eller forskningsfrågor på Gensim Mailing List.

Skapa felrapporter på Github, men se till att du följer mall för problem. Frågor som inte är buggar eller som inte följer frågemallen kommer att stängas utan inspektion.

Adopters

Företag Logo Industri Användning av Gensim
RARE Technologies ML & NLP-konsultationer Skapare av Gensim – det är vi!
Amazon detaljhandel Dokumentlikhet.
National Institutes of Health Hälsa Bearbetning av bidrag och publikationer med word2vec.
Cisco Security Säkerhet Skydd i stor skala.
Mindseye Juridik Similariteter i juridiska dokument.
Channel 4 Media Rekommendationsmotor.
Talentpair HR Kandidatmatchning i högkvalitativ rekrytering.
Juju HR Ge icke uppenbara relaterade jobbförslag.
Tailwind Media Posta intressant och relevant innehåll på Pinterest.
Issuu Media Gensims LDA-modul ligger i själva kärnan av den analys vi utför på varje uppladdad publikation för att ta reda på vad den handlar om.
Sökmätningar Innehållsmarknadsföring Gensim word2vec används för disambiguering av enheter vid sökmotoroptimering.
12K Research Media Dokumentliknande analys av medieartiklar.
Stillwater Supercomputing Hårdvara Dokumentförståelse och association med word2vec.
SiteGround Webbhotell En ensemble-sökmotor som använder sig av olika inbäddningsmodeller och likheter, bland annat word2vec, WMD och LDA.
Capital One Finans Tematisk modellering för utforskning av kundklagomål.

Citerar gensim

När du citerar gensim i akademiska artiklar och avhandlingar, använd den härBibTeX-posten:

Leave a Reply