RaRe-Technologies / gensim
A gensim egy Python könyvtár témamodellezéshez, dokumentumindexeléshez és hasonlóságkereséshez nagy testületek segítségével. Célközönsége a természetes nyelvfeldolgozó (NLP) és információkereső (IR) közösség.
Jellemzők
- Minden algoritmus memóriafüggetlen. a korpusz méretétől(képes feldolgozni a RAM-nál nagyobb bemenetet, streaming, out-of-core),
-  Intuitív interfészek
- egyszerűen csatlakoztatható a saját bemeneti korpusz/datastream (triviális streaming API)
- egyszerűen bővíthető más Vector Space algoritmusokkal (triviális transzformációs API)
 
- Egyszerű többmagos implementációk népszerű algoritmusokra, mint azonline latens szemantikai elemzés (LSA/LSI/SVD), latensDirichlet allokáció (LDA), véletlenszerű vetületek (RP), hierarchikus Dirichlet-folyamat (HDP) vagy word2vec deeplearning.
- Elosztott számítástechnika: a Latent Semantic Analysis és aLatent Dirichlet Allocation számítógépek klaszterén is futtatható.
- Kiterjedt dokumentáció és Jupyter Notebook oktatóanyagok.
Ha ez a funkciólista megkarmolta a fejét, akkor először a Wikipédián olvashat többet a vektortér modellről és a felügyelet nélküli dokumentumelemzésről.
Telepítés
Ez a szoftver a NumPy és a Scipy, két Python csomagtól függ a tudományos számításokhoz. Agensim telepítése előtt telepíteni kell őket.
A NumPy telepítése előtt ajánlott egy gyors BLAS könyvtár telepítése is. Ez opcionális, de egy optimalizált BLAS, például az ATLAS vagy azOpenBLAS használata közismerten akár egy nagyságrenddel is javítja a teljesítményt. OS X-en a NumPy automatikusan felveszi a hozzá tartozó BLAS-t, így semmi különöset nem kell tennie.
Telepítse a gensim legújabb verzióját:
pip install --upgrade gensim
Vagy, ha ehelyett letöltötte és kicsomagolta a forrás tar.gzpackage:
python setup.py install
A telepítés alternatív módjairól lásd a dokumentációt.
A gensimet folyamatosan teszteljük Python 3.6, 3.7 és 3.8 alatt.A Python 2.7 támogatása a gensim 4.0.0-ban megszűnt – telepítse a gensim 3.8.3-at, ha mindenképpen Python 2.7-et használ.
Hogyhogy a gensim ilyen gyors és memóriahatékony? Nem tiszta Python, és a Python nem lassú és mohó?
Néhány tudományos algoritmus kifejezhető nagy mátrixoperációkkal (lásd a fenti BLAS megjegyzést). A Gensim a NumPy-tól való függősége révén használja ezeket az alacsony szintűBLAS könyvtárakat. Így, bár a gensim-felső szintű kódja tiszta Python, a motorháztető alatt valójában erősen optimalizált Fortran/C-t hajt végre, beleértve a többszálú futást is (ha aBLAS így van konfigurálva).
Memória szempontjából a gensim nagymértékben használja a Python beépített generátorait ésiterátorait az áramló adatfeldolgozáshoz. A memóriahatékonyság a gensim egyik tervezési célja volt, és ez a gensim központi jellemzője, nem pedig valami utólag rácsavarozott dolog.
Dokumentáció
- QuickStart
- Tutorials
- Official API Documentation
Support
Tegyél fel nyílt végű vagy kutatási kérdéseket a Gensim levelezőlistán.
Hibákat a Githubon, de mindenképpen kövesd a probléma sablont. Azokat a kérdéseket, amelyek nem hibák, vagy nem követik a kérdéssablont, vizsgálat nélkül lezárjuk.
Elfogadók
| Cég | Logo | Iparág | A Gensim használata | 
|---|---|---|---|
| RARE Technologies |  | ML & NLP tanácsadás | A Gensim megalkotói – ez vagyunk mi! | 
| Amazon |  | Kiskereskedelem | Dokumentum hasonlóság. | 
| National Institutes of Health |  | Egészségügy | A támogatások és publikációk feldolgozása word2vec segítségével. | 
| Cisco Security |  | Security | Nagyszabású csalások felderítése. | 
| Mindseye |  | Legal | Hasonlóságok jogi dokumentumokban. | 
| Channel 4 |  | Media | Recommendation engine. | 
| Talentpair |  | HR | Jelöltek egyeztetése a magas szintű toborzás során. | 
| Juju |  | HR | Nem nyilvánvalóan kapcsolódó állásajánlatok nyújtása. | 
| Tailwind |  | Média | Posztolj érdekes és releváns tartalmakat a Pinterestre. | 
| Issuu |  | Media | Gensim LDA modulja áll a középpontjában annak az elemzésnek, amelyet minden feltöltött publikáción végzünk, hogy kiderítsük, miről van szó. | 
| Keresési mérőszámok |  | Content Marketing | Gensim word2vec, amelyet a keresőoptimalizálásban az entitások disambigualizálására használunk. | 
| 12K Research |   | Média | Dokumentum hasonlóságelemzés médiacikkeken. | 
| Stillwater Supercomputing |  | Hardware | Dokumentumok megértése és társítása word2vec segítségével. | 
| SiteGround |  | Web hosting | Egy együttes keresőmotor, amely különböző beágyazási modelleket és hasonlóságokat használ, többek között word2vec, WMD és LDA. | 
| Capital One |  | Finance | Topic modeling for customer complaints exploration. | 
Citing gensim
When citating gensim in academic papers and theses, please use thisBibTeX entry:
.
Leave a Reply