RaRe-Technologies / gensim
Gensim är ett Pythonbibliotek för ämnesmodellering, indexering av dokument och sökning efter likheter i stora korpusar. Målgruppen är NLP (Natural Language Processing) och IR (Information Retrieval).
Funktioner
- Alla algoritmer är minnesoberoende med avseende på minnet. korpusstorleken (kan bearbeta indata som är större än RAM, strömmat, utanför kärnan),
- Intuitiva gränssnitt
- Enkla att koppla in din egen indatakorpus/dataström (trivialt strömmings-API)
- Enkla att utöka med andra Vector Space-algoritmer (trivialtransformations-API)
- Effektiva flerkärniga implementeringar av populära algoritmer, såsom latent semantisk analys online (LSA/LSI/SVD), latent dirichletallokering (LDA), slumpmässiga projektioner (RP), hierarkisk dirichletprocess (HDP) eller word2vec deeplearning.
- Distribuerad databehandling: kan köra Latent Semantic Analysis och Latent Dirichlet Allocation på ett kluster av datorer.
- Uttömmande dokumentation och Jupyter Notebook-tutorials.
Om den här funktionslistan fick dig att klia dig i huvudet kan du först läsa mer om Vector Space Model och oövervakad dokumentanalys på Wikipedia.
Installation
Den här programvaran är beroende av NumPy och Scipy, två Python-paket förvetenskapliga beräkningar. Du måste ha dem installerade innan du installerargensim.
Det rekommenderas också att du installerar ett snabbt BLAS-bibliotek innan du installerarNumPy. Detta är frivilligt, men om du använder ett optimerat BLAS-bibliotek som ATLAS ellerOpenBLAS är det känt att det förbättrar prestandan med så mycket som en storleksordning. På OS X plockar NumPy upp den BLAS som följer med automatiskt, så du behöver inte göra något speciellt.
Installera den senaste versionen av gensim:
pip install --upgrade gensim
Och, om du istället har laddat ner och packat upp källkoden tar.gzpackage:
python setup.py install
För alternativa installationssätt, se dokumentationen.
Gensim testas kontinuerligt under Python 3.6, 3.7 och 3.8. Stödet för Python 2.7 togs bort i gensim 4.0.0 – installera gensim 3.8.3 om du måste använda Python 2.7.
Hur kommer det sig att gensim är så snabbt och minnessnålt? Är det inte rent Python, och är inte Python långsamt och girigt?
Många vetenskapliga algoritmer kan uttryckas i termer av stora matrisoperationer (se anmärkningen om BLAS ovan). Gensim utnyttjar dessa BLAS-bibliotek på låg nivå genom sitt beroende av NumPy. Så även om Gensim-koden på toppnivå är ren Python, körs i själva verket högoptimerad Fortran/C under huven, inklusive multithreading (om dinBLAS är så konfigurerad).
Minnesmässigt använder sig Gensim flitigt av Pythons inbyggda generatorer ochiteratorer för strömmad databehandling. Minneseffektivitet var ett av gensims konstruktionsmål och är en central funktion i gensim, snarare än något som är påbyggt i efterhand.
Dokumentation
- QuickStart
- Tutorials
- Official API Documentation
Support
Ställ öppna frågor eller forskningsfrågor på Gensim Mailing List.
Skapa felrapporter på Github, men se till att du följer mall för problem. Frågor som inte är buggar eller som inte följer frågemallen kommer att stängas utan inspektion.
Adopters
Företag | Logo | Industri | Användning av Gensim |
---|---|---|---|
RARE Technologies | ML & NLP-konsultationer | Skapare av Gensim – det är vi! | |
Amazon | detaljhandel | Dokumentlikhet. | |
National Institutes of Health | Hälsa | Bearbetning av bidrag och publikationer med word2vec. | |
Cisco Security | Säkerhet | Skydd i stor skala. | |
Mindseye | Juridik | Similariteter i juridiska dokument. | |
Channel 4 | Media | Rekommendationsmotor. | |
Talentpair | HR | Kandidatmatchning i högkvalitativ rekrytering. | |
Juju | HR | Ge icke uppenbara relaterade jobbförslag. | |
Tailwind | Media | Posta intressant och relevant innehåll på Pinterest. | |
Issuu | Media | Gensims LDA-modul ligger i själva kärnan av den analys vi utför på varje uppladdad publikation för att ta reda på vad den handlar om. | |
Sökmätningar | Innehållsmarknadsföring | Gensim word2vec används för disambiguering av enheter vid sökmotoroptimering. | |
12K Research | Media | Dokumentliknande analys av medieartiklar. | |
Stillwater Supercomputing | Hårdvara | Dokumentförståelse och association med word2vec. | |
SiteGround | Webbhotell | En ensemble-sökmotor som använder sig av olika inbäddningsmodeller och likheter, bland annat word2vec, WMD och LDA. | |
Capital One | Finans | Tematisk modellering för utforskning av kundklagomål. |
Citerar gensim
När du citerar gensim i akademiska artiklar och avhandlingar, använd den härBibTeX-posten:
Leave a Reply