RaRe-Technologies / gensim
A gensim egy Python könyvtár témamodellezéshez, dokumentumindexeléshez és hasonlóságkereséshez nagy testületek segítségével. Célközönsége a természetes nyelvfeldolgozó (NLP) és információkereső (IR) közösség.
Jellemzők
- Minden algoritmus memóriafüggetlen. a korpusz méretétől(képes feldolgozni a RAM-nál nagyobb bemenetet, streaming, out-of-core),
- Intuitív interfészek
- egyszerűen csatlakoztatható a saját bemeneti korpusz/datastream (triviális streaming API)
- egyszerűen bővíthető más Vector Space algoritmusokkal (triviális transzformációs API)
- Egyszerű többmagos implementációk népszerű algoritmusokra, mint azonline latens szemantikai elemzés (LSA/LSI/SVD), latensDirichlet allokáció (LDA), véletlenszerű vetületek (RP), hierarchikus Dirichlet-folyamat (HDP) vagy word2vec deeplearning.
- Elosztott számítástechnika: a Latent Semantic Analysis és aLatent Dirichlet Allocation számítógépek klaszterén is futtatható.
- Kiterjedt dokumentáció és Jupyter Notebook oktatóanyagok.
Ha ez a funkciólista megkarmolta a fejét, akkor először a Wikipédián olvashat többet a vektortér modellről és a felügyelet nélküli dokumentumelemzésről.
Telepítés
Ez a szoftver a NumPy és a Scipy, két Python csomagtól függ a tudományos számításokhoz. Agensim telepítése előtt telepíteni kell őket.
A NumPy telepítése előtt ajánlott egy gyors BLAS könyvtár telepítése is. Ez opcionális, de egy optimalizált BLAS, például az ATLAS vagy azOpenBLAS használata közismerten akár egy nagyságrenddel is javítja a teljesítményt. OS X-en a NumPy automatikusan felveszi a hozzá tartozó BLAS-t, így semmi különöset nem kell tennie.
Telepítse a gensim legújabb verzióját:
pip install --upgrade gensim
Vagy, ha ehelyett letöltötte és kicsomagolta a forrás tar.gzpackage:
python setup.py install
A telepítés alternatív módjairól lásd a dokumentációt.
A gensimet folyamatosan teszteljük Python 3.6, 3.7 és 3.8 alatt.A Python 2.7 támogatása a gensim 4.0.0-ban megszűnt – telepítse a gensim 3.8.3-at, ha mindenképpen Python 2.7-et használ.
Hogyhogy a gensim ilyen gyors és memóriahatékony? Nem tiszta Python, és a Python nem lassú és mohó?
Néhány tudományos algoritmus kifejezhető nagy mátrixoperációkkal (lásd a fenti BLAS megjegyzést). A Gensim a NumPy-tól való függősége révén használja ezeket az alacsony szintűBLAS könyvtárakat. Így, bár a gensim-felső szintű kódja tiszta Python, a motorháztető alatt valójában erősen optimalizált Fortran/C-t hajt végre, beleértve a többszálú futást is (ha aBLAS így van konfigurálva).
Memória szempontjából a gensim nagymértékben használja a Python beépített generátorait ésiterátorait az áramló adatfeldolgozáshoz. A memóriahatékonyság a gensim egyik tervezési célja volt, és ez a gensim központi jellemzője, nem pedig valami utólag rácsavarozott dolog.
Dokumentáció
- QuickStart
- Tutorials
- Official API Documentation
Support
Tegyél fel nyílt végű vagy kutatási kérdéseket a Gensim levelezőlistán.
Hibákat a Githubon, de mindenképpen kövesd a probléma sablont. Azokat a kérdéseket, amelyek nem hibák, vagy nem követik a kérdéssablont, vizsgálat nélkül lezárjuk.
Elfogadók
Cég | Logo | Iparág | A Gensim használata |
---|---|---|---|
RARE Technologies | ML & NLP tanácsadás | A Gensim megalkotói – ez vagyunk mi! | |
Amazon | Kiskereskedelem | Dokumentum hasonlóság. | |
National Institutes of Health | Egészségügy | A támogatások és publikációk feldolgozása word2vec segítségével. | |
Cisco Security | Security | Nagyszabású csalások felderítése. | |
Mindseye | Legal | Hasonlóságok jogi dokumentumokban. | |
Channel 4 | Media | Recommendation engine. | |
Talentpair | HR | Jelöltek egyeztetése a magas szintű toborzás során. | |
Juju | HR | Nem nyilvánvalóan kapcsolódó állásajánlatok nyújtása. | |
Tailwind | Média | Posztolj érdekes és releváns tartalmakat a Pinterestre. | |
Issuu | Media | Gensim LDA modulja áll a középpontjában annak az elemzésnek, amelyet minden feltöltött publikáción végzünk, hogy kiderítsük, miről van szó. | |
Keresési mérőszámok | Content Marketing | Gensim word2vec, amelyet a keresőoptimalizálásban az entitások disambigualizálására használunk. | |
12K Research | Média | Dokumentum hasonlóságelemzés médiacikkeken. | |
Stillwater Supercomputing | Hardware | Dokumentumok megértése és társítása word2vec segítségével. | |
SiteGround | Web hosting | Egy együttes keresőmotor, amely különböző beágyazási modelleket és hasonlóságokat használ, többek között word2vec, WMD és LDA. | |
Capital One | Finance | Topic modeling for customer complaints exploration. |
Citing gensim
When citating gensim in academic papers and theses, please use thisBibTeX entry:
.
Leave a Reply