RaRe-Technologies / gensim

A gensim egy Python könyvtár témamodellezéshez, dokumentumindexeléshez és hasonlóságkereséshez nagy testületek segítségével. Célközönsége a természetes nyelvfeldolgozó (NLP) és információkereső (IR) közösség.

Jellemzők

  • Minden algoritmus memóriafüggetlen. a korpusz méretétől(képes feldolgozni a RAM-nál nagyobb bemenetet, streaming, out-of-core),
  • Intuitív interfészek
    • egyszerűen csatlakoztatható a saját bemeneti korpusz/datastream (triviális streaming API)
    • egyszerűen bővíthető más Vector Space algoritmusokkal (triviális transzformációs API)
  • Egyszerű többmagos implementációk népszerű algoritmusokra, mint azonline latens szemantikai elemzés (LSA/LSI/SVD), latensDirichlet allokáció (LDA), véletlenszerű vetületek (RP), hierarchikus Dirichlet-folyamat (HDP) vagy word2vec deeplearning.
  • Elosztott számítástechnika: a Latent Semantic Analysis és aLatent Dirichlet Allocation számítógépek klaszterén is futtatható.
  • Kiterjedt dokumentáció és Jupyter Notebook oktatóanyagok.

Ha ez a funkciólista megkarmolta a fejét, akkor először a Wikipédián olvashat többet a vektortér modellről és a felügyelet nélküli dokumentumelemzésről.

Telepítés

Ez a szoftver a NumPy és a Scipy, két Python csomagtól függ a tudományos számításokhoz. Agensim telepítése előtt telepíteni kell őket.

A NumPy telepítése előtt ajánlott egy gyors BLAS könyvtár telepítése is. Ez opcionális, de egy optimalizált BLAS, például az ATLAS vagy azOpenBLAS használata közismerten akár egy nagyságrenddel is javítja a teljesítményt. OS X-en a NumPy automatikusan felveszi a hozzá tartozó BLAS-t, így semmi különöset nem kell tennie.

Telepítse a gensim legújabb verzióját:

 pip install --upgrade gensim

Vagy, ha ehelyett letöltötte és kicsomagolta a forrás tar.gzpackage:

 python setup.py install

A telepítés alternatív módjairól lásd a dokumentációt.

A gensimet folyamatosan teszteljük Python 3.6, 3.7 és 3.8 alatt.A Python 2.7 támogatása a gensim 4.0.0-ban megszűnt – telepítse a gensim 3.8.3-at, ha mindenképpen Python 2.7-et használ.

Hogyhogy a gensim ilyen gyors és memóriahatékony? Nem tiszta Python, és a Python nem lassú és mohó?

Néhány tudományos algoritmus kifejezhető nagy mátrixoperációkkal (lásd a fenti BLAS megjegyzést). A Gensim a NumPy-tól való függősége révén használja ezeket az alacsony szintűBLAS könyvtárakat. Így, bár a gensim-felső szintű kódja tiszta Python, a motorháztető alatt valójában erősen optimalizált Fortran/C-t hajt végre, beleértve a többszálú futást is (ha aBLAS így van konfigurálva).

Memória szempontjából a gensim nagymértékben használja a Python beépített generátorait ésiterátorait az áramló adatfeldolgozáshoz. A memóriahatékonyság a gensim egyik tervezési célja volt, és ez a gensim központi jellemzője, nem pedig valami utólag rácsavarozott dolog.

Dokumentáció

  • QuickStart
  • Tutorials
  • Official API Documentation

Support

Tegyél fel nyílt végű vagy kutatási kérdéseket a Gensim levelezőlistán.

Hibákat a Githubon, de mindenképpen kövesd a probléma sablont. Azokat a kérdéseket, amelyek nem hibák, vagy nem követik a kérdéssablont, vizsgálat nélkül lezárjuk.

Elfogadók

.

Cég Logo Iparág A Gensim használata
RARE Technologies ML & NLP tanácsadás A Gensim megalkotói – ez vagyunk mi!
Amazon Kiskereskedelem Dokumentum hasonlóság.
National Institutes of Health Egészségügy A támogatások és publikációk feldolgozása word2vec segítségével.
Cisco Security Security Nagyszabású csalások felderítése.
Mindseye Legal Hasonlóságok jogi dokumentumokban.
Channel 4 Media Recommendation engine.
Talentpair HR Jelöltek egyeztetése a magas szintű toborzás során.
Juju HR Nem nyilvánvalóan kapcsolódó állásajánlatok nyújtása.
Tailwind Média Posztolj érdekes és releváns tartalmakat a Pinterestre.
Issuu Media Gensim LDA modulja áll a középpontjában annak az elemzésnek, amelyet minden feltöltött publikáción végzünk, hogy kiderítsük, miről van szó.
Keresési mérőszámok Content Marketing Gensim word2vec, amelyet a keresőoptimalizálásban az entitások disambigualizálására használunk.
12K Research Média Dokumentum hasonlóságelemzés médiacikkeken.
Stillwater Supercomputing Hardware Dokumentumok megértése és társítása word2vec segítségével.
SiteGround Web hosting Egy együttes keresőmotor, amely különböző beágyazási modelleket és hasonlóságokat használ, többek között word2vec, WMD és LDA.
Capital One Finance Topic modeling for customer complaints exploration.

Citing gensim

When citating gensim in academic papers and theses, please use thisBibTeX entry:

.

Leave a Reply