RaRe-Technologies / gensim

Gensim è una libreria Python per la modellazione di argomenti, indicizzazione di documenti e recupero di similarità con grandi corpora. Il pubblico di riferimento è la comunità di elaborazione del linguaggio naturale (NLP) e di recupero delle informazioni (IR).

Caratteristiche

  • Tutti gli algoritmi sono indipendenti dalla memoria rispetto alla la dimensione del corpus (può elaborare input più grandi della RAM, in streaming, out-of-core),
  • Interfacce intuitive
    • facile inserire il proprio corpus/datastream di input (banalestreaming API)
    • facile da estendere con altri algoritmi Vector Space (banalealtransformation API)
  • Efficienti implementazioni multicore di algoritmi popolari, comeonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) o word2vec deeplearning.
  • Computing distribuito: può eseguire Latent Semantic Analysis e Latent Dirichlet Allocation su un cluster di computer.
  • Estesa documentazione e tutorial su Jupyter Notebook.

Se questa lista di caratteristiche ti ha lasciato a grattarti la testa, puoi prima leggere di più sul Vector Space Model e sull’analisi non supervisionata dei documenti su Wikipedia.

Installazione

Questo software dipende da NumPy e Scipy, due pacchetti Python per il calcolo scientifico. È necessario averli installati prima di installaregensim.

Si raccomanda inoltre di installare una libreria BLAS veloce prima di installareNumPy. Questo è opzionale, ma l’uso di un BLAS ottimizzato come ATLAS o OpenBLAS è noto per migliorare le prestazioni di un ordine di grandezza. Su OS X, NumPy prende il BLAS che viene fornito automaticamente, quindi non c’è bisogno di fare nulla di speciale.

Installate l’ultima versione di gensim:

 pip install --upgrade gensim

O, se invece avete scaricato e decompresso il tar.gzpackage:

 python setup.py install

Per modalità alternative di installazione, vedi la documentazione.

Gensim viene continuamente testato sotto Python 3.6, 3.7 e 3.8. Il supporto per Python 2.7 è stato abbandonato in gensim 4.0.0 – installa gensim 3.8.3 se devi usare Python 2.7.

Come mai gensim è così veloce ed efficiente nella memoria? Non è puro Python, e Python non è lento e avido?

Molti algoritmi scientifici possono essere espressi in termini di grandi operazioni matriciali (vedi la nota BLAS sopra). Gensim attinge a queste librerie BLAS di basso livello, attraverso la sua dipendenza da NumPy. Così, mentre il codice di Gensim a livello superiore è puro Python, in realtà esegue Fortran/C altamente ottimizzato sotto il cofano, incluso il multithreading (se la vostraBLAS è così configurata).

Per quanto riguarda la memoria, Gensim fa largo uso dei generatori e degli iteratori integrati in Python per l’elaborazione dei dati in flusso. L’efficienza della memoria era uno degli obiettivi di progettazione di gensim, ed è una caratteristica centrale di gensim, piuttosto che una cosa aggiunta come un ripensamento.

Documentazione

  • QuickStart
  • Tutorials
  • Documentazione ufficiale API

Supporto

Fai domande aperte o di ricerca sulla Mailing List di Gensim.

Segnala un bug su Github ma assicurati di seguire il modello del problema. I problemi che non sono bug o che non seguono il modello di problema saranno chiusi senza ispezione.

Adottatori

Azienda Logo Industria Uso di Gensim
RARE Technologies ML & Consulenza PNL Creatori di Gensim – siamo noi!
Amazon Retail Document similarity.
National Institutes of Health Health Processing grants and publications with word2vec.
Cisco Security Security Rilevamento frodi su larga scala.
Mindseye Legale Similitudine nei documenti legali.
Channel 4 Media Motore di raccomandazione.
Talentpair HR Candidate matching in high-touch recruiting.
Juju HR Fornire suggerimenti non ovvi di lavoro correlati.
Tailwind Media Posta contenuti interessanti e rilevanti su Pinterest.
Issuu Media Il modulo LDA di Gensim è al centro dell’analisi che effettuiamo su ogni pubblicazione caricata per capire di cosa si tratta.
Metriche di ricerca Content Marketing Gensim word2vec usato per la disambiguazione delle entità nell’ottimizzazione dei motori di ricerca.
12K Research Media Analisi di similarità dei documenti sugli articoli dei media.
Stillwater Supercomputing Hardware Comprensione e associazione di documenti con word2vec.
SiteGround Web hosting Un motore di ricerca ensemble che usa diversi modelli di embeddings e similitudini, incluso word2vec, WMD e LDA.
Capital One Finanza Modellazione di argomenti per l’esplorazione dei reclami dei clienti.

Citare gensim

Quando si cita gensim in articoli accademici e tesi, usare questa voce di BibTeX:

Leave a Reply