RaRe-Technologies / gensim
Gensim on Python-kirjasto aihepiirien mallintamiseen, dokumenttien indeksointiin ja samankaltaisuuksien hakemiseen suurilla korpuksilla. Kohderyhmänä on luonnollisen kielen käsittely (NLP) ja tiedonhaku (IR) -yhteisö.
Ominaisuudet
- Kaikki algoritmit ovat muistista riippumattomia. korpuksen koosta(voi käsitellä RAM-muistia suurempaa syötettä, streamed, out-of-core),
- Intuitiiviset käyttöliittymät
- helppo liittää oma syötekorpus/datavirta (triviaali streaming API)
- helppo laajentaa muilla Vector Space -algoritmeilla (triviaali transformaatio API)
- Tehokkaat moniytimiset toteutukset suosituista algoritmeista, kutenonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP),Hierarchical Dirichlet Process (HDP) tai word2vec deeplearning.
- Hajautettu tietojenkäsittely: voi ajaa Latent Semantic Analysis jaLatent Dirichlet Allocation -ohjelmia tietokoneiden klusterissa.
- Laaja dokumentaatio ja Jupyter Notebook -oppaat.
Jos tämä ominaisuusluettelo jätti sinut raapimaan päätäsi, voit ensin lukeaWikipediasta lisää vektoriavaruusmallista ja valvomattomasta dokumenttianalyysistä.
Asennus
Tämä ohjelmisto on riippuvainen NumPy:stä ja Scipy:stä, kahdesta Python-paketista tieteelliseen laskentaan. Ne on asennettava ennengensimin asentamista.
Suositellaan myös nopean BLAS-kirjaston asentamista ennen NumPy:n asentamista. Tämä on valinnaista, mutta optimoidun BLAS:n, kuten ATLAS:n taiOpenBLAS:n, käytön tiedetään parantavan suorituskykyä jopa suuruusluokkaa. OS X:ssä NumPy poimii mukana tulevan BLASin automaattisesti, joten sinun ei tarvitse tehdä mitään erityistä.
Asenna gensimin uusin versio:
pip install --upgrade gensim
Vai jos olet sen sijaan ladannut ja purkanut lähdekoodin tar.gzpackage:
python setup.py install
Vaihtoehtoisia asennustapoja löydät dokumentaatiosta.
Gensimiä testataan jatkuvasti Python 3.6, 3.7 ja 3.8:lla.Tuki Python 2.7:lle poistettiin gensim 4.0.0:sta – asenna gensim 3.8.3, jos sinun on pakko käyttää Python 2.7:ää.
Miten gensim on niin nopea ja muistitehokas? Eikö se ole puhdasta Pythonia, ja eikö Python ole hidas ja ahne?
Monet tieteelliset algoritmit voidaan ilmaista suurten matriisioperaatioiden avulla (ks. BLAS-huomautus yllä). Gensim hyödyntää näitä matalan tasonBLAS-kirjastoja NumPy-riippuvuutensa avulla. Joten vaikka gensimin ylimmän tason koodi on puhdasta Pythonia, se itse asiassa suorittaa erittäin optimoitua Fortran/C:tä konepellin alla, mukaan lukien monisäikeistäminen (josBLAS on niin konfiguroitu).
Muistia ajatellen gensim käyttää paljon Pythonin sisäänrakennettuja generaattoreita ja iteraattoreita suoratoistodatan käsittelyyn. Muistitehokkuus oli yksi gensimin suunnittelutavoitteista, ja se on gensimin keskeinen ominaisuus, eikä mikään jälkikäteen päälle pultattu asia.
Dokumentaatio
- QuickStart
- Tutorials
- Official API Documentation
Support
Kysy avoimia tai tutkimuksellisia kysymyksiä Gensimin sähköpostilistalla.
Kerro vikoja Githubissa, mutta varmista, että noudatat ongelman syntymiselle annettua mallia. Kysymykset, jotka eivät ole vikoja tai jotka eivät noudata kysymysmallia, suljetaan ilman tarkastusta.
Käyttöönottajat
Yritys | Logo | Toimiala | Gensimin käyttö | |
---|---|---|---|---|
RARE Technologies | ML & NLP-konsultointi | Creators of Gensim – this is us! | ||
Amazon | Vähittäiskauppa | Dokumenttien samankaltaisuus. | ||
National Institutes of Health | Terveysala | Apurahojen ja julkaisuiden työstäminen word2vec:llä. | ||
Cisco Security | Security | Petosten laajamittainen havaitseminen. | ||
Mindseye | Legal | Yhtäläisyyksiä oikeudellisissa asiakirjoissa. | ||
Channel 4 | Media | Suositusmoottori. | ||
Talentpair | HR | Kandidaattien yhteensovittaminen korkean kosketuksen rekrytoinnissa. | ||
Juju | HR | Tarjoa ei-selviä, toisiinsa liittyviä työpaikkaehdotuksia. | ||
Tailwind | Media | Posta mielenkiintoista ja merkityksellistä sisältöä Pinterestiin. | ||
Issuu | Media | Gensimin LDA-moduuli on ytimessä analyysissä, jonka suoritamme jokaiselle ladatulle julkaisulle selvittääksemme, mistä siinä on kyse. | ||
Hakumetriikka | Sisältömarkkinointi | Gensimin word2vec:tä käytetään entiteettien disambiguointiin hakukoneoptimoinnissa. | ||
12K Research | Media | Dokumenttien samankaltaisuusanalyysi media-artikkeleille. | ||
Stillwater Supercomputing | Hardware | Dokumenttien ymmärtäminen ja yhdistäminen word2vec:llä. | ||
SiteGround | Web-hosting | Ensemble-hakukone, joka käyttää erilaisia embeddings-malleja ja samankaltaisuuksia, kuten word2vec, WMD ja LDA. | ||
Capital One | Finanssi | Teemamallinnus asiakasvalitusten tutkimiseen. |
Viittaus gensimiin
Kun viittaat gensimiin akateemisissa artikkeleissa ja opinnäytetöissäsi käytä tätäBibTeX-merkintää:
Leave a Reply