RaRe-Technologies / gensim

Gensim este o bibliotecă Python pentru modelare tematică, indexare de documente și regăsire de similarități cu corpusuri mari. Publicul țintă este comunitatea de procesare a limbajului natural (NLP) și de regăsire a informațiilor (IR).

Caracteristici

  • Toți algoritmii sunt independenți de memorie w.r.t. dimensiunea corpusului (poate procesa intrări mai mari decât memoria RAM, în flux, în afara nucleului),
  • Interfețe intuitive
    • ușor de conectat propriul corpus/dateam de intrare (trivial streaming API)
    • ușor de extins cu alți algoritmi Vector Space (trivialtransformation API)
  • Implementații multicore eficiente ale algoritmilor populari, cum ar fi Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) sau word2vec deeplearning.
  • Calcul distribuit: poate rula Latent Semantic Analysis șiLatent Dirichlet Allocation pe un cluster de calculatoare.
  • Documentație extinsă și tutoriale Jupyter Notebook.

Dacă această listă de caracteristici v-a lăsat să vă zgâriați pe cap, puteți citi mai întâi mai multe despre Vector Space Model și analiza nesupravegheată a documentelor pe Wikipedia.

Instalare

Acest software depinde de NumPy și Scipy, două pachete Python pentru calcul științific. Trebuie să le aveți instalate înainte de a instalagensim.

Se recomandă, de asemenea, să instalați o bibliotecă BLAS rapidă înainte de a instalaNumPy. Acest lucru este opțional, dar se știe că utilizarea unei BLAS optimizate, cum ar fi ATLAS sauOpenBLAS, îmbunătățește performanța cu până la un ordin de mărime. Pe OS X, NumPy preia automat BLAS-ul care vine cu el, așa că nu trebuie să faceți nimic special.

Instalați cea mai recentă versiune de gensim:

 pip install --upgrade gensim

Sau, dacă în schimb ați descărcat și dezarhivat sursa tar.gzpackage:

 python setup.py install

Pentru moduri alternative de instalare, consultați documentația.

Gensim este testat în permanență sub Python 3.6, 3.7 și 3.8.Suportul pentru Python 2.7 a fost abandonat în gensim 4.0.0 – instalați gensim 3.8.3 dacă trebuie să folosiți Python 2.7.

Cum se face că gensim este atât de rapid și eficient în memorie? Nu este Python pur, iar Python nu este lent și lacom?

Mulți algoritmi științifici pot fi exprimați în termeni de operații matriciale mari (vezi nota BLAS de mai sus). Gensim exploatează aceste biblioteci BLAS de nivel scăzut, prin intermediul dependenței sale de NumPy. Astfel, în timp ce codul de nivel superior al lui Gensim este pur Python, el execută de fapt Fortran/C foarte optimizat sub capotă, inclusiv multithreading (dacăBLAS-ul dvs. este astfel configurat).

În ceea ce privește memoria, Gensim utilizează intensiv generatoarele șiiteratorii încorporați de Python pentru procesarea datelor în flux. Eficiența memoriei a fost unul dintre obiectivele de proiectare ale gensim și este o caracteristică centrală a gensim, mai degrabă decât ceva înșurubat ca o gândire ulterioară.

Documentație

  • QuickStart
  • Tutoriale
  • Documentație API oficială

Asistență

Puneți întrebări deschise sau de cercetare pe Gensim Mailing List.

Puneți bug-uri pe Github, dar asigurați-vă că urmați modelul de problemă. Problemele care nu sunt bug-uri sau care nu respectă șablonul de problemă vor fi închise fără inspecție.

Adoptatori

.

Companie Logo Industrie Utilizarea Gensim
RARE Technologies ML & Consultanță NLP Creatorii Gensim – aceștia suntem noi!
Amazon Retail Similitudinea documentelor.
National Institutes of Health Sănătate Procesarea granturilor și publicațiilor cu word2vec.
Cisco Security Security Detectarea fraudelor pe scară largă.
Mindseye Legal Similitudini în documentele legale.
Canalul 4 Media Motor de recomandare.
Talentpair HR Ajustarea candidaților în recrutarea high-touch.
Juju HR Furnizează sugestii de locuri de muncă conexe care nu sunt evidente.
Tailwind Media Postă conținut interesant și relevant pe Pinterest.
Issuu Media Modul LDA de la Gensim se află chiar în centrul analizei pe care o efectuăm asupra fiecărei publicații încărcate pentru a ne da seama despre ce este vorba.
Search Metrics Content Marketing Gensim word2vec folosit pentru dezambiguizarea entităților în optimizarea motoarelor de căutare.
12K Research Media Analiză de similaritate a documentelor pe articole media.
Stillwater Supercomputing Hardware Comprehensiunea și asocierea documentelor cu word2vec.
SiteGround Găzduire web Un motor de căutare de ansamblu care utilizează diferite modele de încorporare și similitudini, inclusiv word2vec, WMD și LDA.
Capital One Finanțe Modelarea subiectelor pentru explorarea plângerilor clienților.

Citând gensim

Când citați gensim în lucrări academice și teze, vă rugăm să folosiți această intrareBibTeX:

.

Leave a Reply