Articles / augusti 31, 2021

RaRe-Technologies / gensim

Gensim är ett Pythonbibliotek för ämnesmodellering, indexering av dokument och sökning efter likheter i stora korpusar. Målgruppen är NLP (Natural Language Processing) och IR (Information Retrieval).

Funktioner

Alla algoritmer är minnesoberoende med avseende på minnet. korpusstorleken (kan bearbeta indata som är större än RAM, strömmat, utanför kärnan),
Intuitiva gränssnitt
- Enkla att koppla in din egen indatakorpus/dataström (trivialt strömmings-API)
- Enkla att utöka med andra Vector Space-algoritmer (trivialtransformations-API)
Effektiva flerkärniga implementeringar av populära algoritmer, såsom latent semantisk analys online (LSA/LSI/SVD), latent dirichletallokering (LDA), slumpmässiga projektioner (RP), hierarkisk dirichletprocess (HDP) eller word2vec deeplearning.
Distribuerad databehandling: kan köra Latent Semantic Analysis och Latent Dirichlet Allocation på ett kluster av datorer.
Uttömmande dokumentation och Jupyter Notebook-tutorials.

Om den här funktionslistan fick dig att klia dig i huvudet kan du först läsa mer om Vector Space Model och oövervakad dokumentanalys på Wikipedia.

Installation

Den här programvaran är beroende av NumPy och Scipy, två Python-paket förvetenskapliga beräkningar. Du måste ha dem installerade innan du installerargensim.

Det rekommenderas också att du installerar ett snabbt BLAS-bibliotek innan du installerarNumPy. Detta är frivilligt, men om du använder ett optimerat BLAS-bibliotek som ATLAS ellerOpenBLAS är det känt att det förbättrar prestandan med så mycket som en storleksordning. På OS X plockar NumPy upp den BLAS som följer med automatiskt, så du behöver inte göra något speciellt.

Installera den senaste versionen av gensim:

 pip install --upgrade gensim

Och, om du istället har laddat ner och packat upp källkoden tar.gzpackage:

 python setup.py install

För alternativa installationssätt, se dokumentationen.

Gensim testas kontinuerligt under Python 3.6, 3.7 och 3.8. Stödet för Python 2.7 togs bort i gensim 4.0.0 – installera gensim 3.8.3 om du måste använda Python 2.7.

Hur kommer det sig att gensim är så snabbt och minnessnålt? Är det inte rent Python, och är inte Python långsamt och girigt?

Många vetenskapliga algoritmer kan uttryckas i termer av stora matrisoperationer (se anmärkningen om BLAS ovan). Gensim utnyttjar dessa BLAS-bibliotek på låg nivå genom sitt beroende av NumPy. Så även om Gensim-koden på toppnivå är ren Python, körs i själva verket högoptimerad Fortran/C under huven, inklusive multithreading (om dinBLAS är så konfigurerad).

Minnesmässigt använder sig Gensim flitigt av Pythons inbyggda generatorer ochiteratorer för strömmad databehandling. Minneseffektivitet var ett av gensims konstruktionsmål och är en central funktion i gensim, snarare än något som är påbyggt i efterhand.

Dokumentation

QuickStart
Tutorials
Official API Documentation

Support

Ställ öppna frågor eller forskningsfrågor på Gensim Mailing List.

Skapa felrapporter på Github, men se till att du följer mall för problem. Frågor som inte är buggar eller som inte följer frågemallen kommer att stängas utan inspektion.

Adopters

Företag	Industri	Användning av Gensim
RARE Technologies	ML & NLP-konsultationer	Skapare av Gensim – det är vi!
Amazon	detaljhandel	Dokumentlikhet.
National Institutes of Health	Hälsa	Bearbetning av bidrag och publikationer med word2vec.
Cisco Security	Säkerhet	Skydd i stor skala.
Mindseye	Juridik	Similariteter i juridiska dokument.
Channel 4	Media	Rekommendationsmotor.
Talentpair	HR	Kandidatmatchning i högkvalitativ rekrytering.
Juju	HR	Ge icke uppenbara relaterade jobbförslag.
Tailwind	Media	Posta intressant och relevant innehåll på Pinterest.
Issuu	Media	Gensims LDA-modul ligger i själva kärnan av den analys vi utför på varje uppladdad publikation för att ta reda på vad den handlar om.
Sökmätningar	Innehållsmarknadsföring	Gensim word2vec används för disambiguering av enheter vid sökmotoroptimering.
12K Research	Media	Dokumentliknande analys av medieartiklar.
Stillwater Supercomputing	Hårdvara	Dokumentförståelse och association med word2vec.
SiteGround	Webbhotell	En ensemble-sökmotor som använder sig av olika inbäddningsmodeller och likheter, bland annat word2vec, WMD och LDA.
Capital One	Finans	Tematisk modellering för utforskning av kundklagomål.