RaRe-Technologies / gensim

Gensim on Python-kirjasto aihepiirien mallintamiseen, dokumenttien indeksointiin ja samankaltaisuuksien hakemiseen suurilla korpuksilla. Kohderyhmänä on luonnollisen kielen käsittely (NLP) ja tiedonhaku (IR) -yhteisö.

Ominaisuudet

  • Kaikki algoritmit ovat muistista riippumattomia. korpuksen koosta(voi käsitellä RAM-muistia suurempaa syötettä, streamed, out-of-core),
  • Intuitiiviset käyttöliittymät
    • helppo liittää oma syötekorpus/datavirta (triviaali streaming API)
    • helppo laajentaa muilla Vector Space -algoritmeilla (triviaali transformaatio API)
  • Tehokkaat moniytimiset toteutukset suosituista algoritmeista, kutenonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP),Hierarchical Dirichlet Process (HDP) tai word2vec deeplearning.
  • Hajautettu tietojenkäsittely: voi ajaa Latent Semantic Analysis jaLatent Dirichlet Allocation -ohjelmia tietokoneiden klusterissa.
  • Laaja dokumentaatio ja Jupyter Notebook -oppaat.

Jos tämä ominaisuusluettelo jätti sinut raapimaan päätäsi, voit ensin lukeaWikipediasta lisää vektoriavaruusmallista ja valvomattomasta dokumenttianalyysistä.

Asennus

Tämä ohjelmisto on riippuvainen NumPy:stä ja Scipy:stä, kahdesta Python-paketista tieteelliseen laskentaan. Ne on asennettava ennengensimin asentamista.

Suositellaan myös nopean BLAS-kirjaston asentamista ennen NumPy:n asentamista. Tämä on valinnaista, mutta optimoidun BLAS:n, kuten ATLAS:n taiOpenBLAS:n, käytön tiedetään parantavan suorituskykyä jopa suuruusluokkaa. OS X:ssä NumPy poimii mukana tulevan BLASin automaattisesti, joten sinun ei tarvitse tehdä mitään erityistä.

Asenna gensimin uusin versio:

 pip install --upgrade gensim

Vai jos olet sen sijaan ladannut ja purkanut lähdekoodin tar.gzpackage:

 python setup.py install

Vaihtoehtoisia asennustapoja löydät dokumentaatiosta.

Gensimiä testataan jatkuvasti Python 3.6, 3.7 ja 3.8:lla.Tuki Python 2.7:lle poistettiin gensim 4.0.0:sta – asenna gensim 3.8.3, jos sinun on pakko käyttää Python 2.7:ää.

Miten gensim on niin nopea ja muistitehokas? Eikö se ole puhdasta Pythonia, ja eikö Python ole hidas ja ahne?

Monet tieteelliset algoritmit voidaan ilmaista suurten matriisioperaatioiden avulla (ks. BLAS-huomautus yllä). Gensim hyödyntää näitä matalan tasonBLAS-kirjastoja NumPy-riippuvuutensa avulla. Joten vaikka gensimin ylimmän tason koodi on puhdasta Pythonia, se itse asiassa suorittaa erittäin optimoitua Fortran/C:tä konepellin alla, mukaan lukien monisäikeistäminen (josBLAS on niin konfiguroitu).

Muistia ajatellen gensim käyttää paljon Pythonin sisäänrakennettuja generaattoreita ja iteraattoreita suoratoistodatan käsittelyyn. Muistitehokkuus oli yksi gensimin suunnittelutavoitteista, ja se on gensimin keskeinen ominaisuus, eikä mikään jälkikäteen päälle pultattu asia.

Dokumentaatio

  • QuickStart
  • Tutorials
  • Official API Documentation

Support

Kysy avoimia tai tutkimuksellisia kysymyksiä Gensimin sähköpostilistalla.

Kerro vikoja Githubissa, mutta varmista, että noudatat ongelman syntymiselle annettua mallia. Kysymykset, jotka eivät ole vikoja tai jotka eivät noudata kysymysmallia, suljetaan ilman tarkastusta.

Käyttöönottajat

Yritys Logo Toimiala Gensimin käyttö
RARE Technologies ML & NLP-konsultointi Creators of Gensim – this is us!
Amazon Vähittäiskauppa Dokumenttien samankaltaisuus.
National Institutes of Health Terveysala Apurahojen ja julkaisuiden työstäminen word2vec:llä.
Cisco Security Security Petosten laajamittainen havaitseminen.
Mindseye Legal Yhtäläisyyksiä oikeudellisissa asiakirjoissa.
Channel 4 Media Suositusmoottori.
Talentpair HR Kandidaattien yhteensovittaminen korkean kosketuksen rekrytoinnissa.
Juju HR Tarjoa ei-selviä, toisiinsa liittyviä työpaikkaehdotuksia.
Tailwind Media Posta mielenkiintoista ja merkityksellistä sisältöä Pinterestiin.
Issuu Media Gensimin LDA-moduuli on ytimessä analyysissä, jonka suoritamme jokaiselle ladatulle julkaisulle selvittääksemme, mistä siinä on kyse.
Hakumetriikka Sisältömarkkinointi Gensimin word2vec:tä käytetään entiteettien disambiguointiin hakukoneoptimoinnissa.
12K Research Media Dokumenttien samankaltaisuusanalyysi media-artikkeleille.
Stillwater Supercomputing Hardware Dokumenttien ymmärtäminen ja yhdistäminen word2vec:llä.
SiteGround Web-hosting Ensemble-hakukone, joka käyttää erilaisia embeddings-malleja ja samankaltaisuuksia, kuten word2vec, WMD ja LDA.
Capital One Finanssi Teemamallinnus asiakasvalitusten tutkimiseen.

Viittaus gensimiin

Kun viittaat gensimiin akateemisissa artikkeleissa ja opinnäytetöissäsi käytä tätäBibTeX-merkintää:

Leave a Reply