Articles / Agosto 31, 2021

RaRe-Technologies / gensim

Gensim è una libreria Python per la modellazione di argomenti, indicizzazione di documenti e recupero di similarità con grandi corpora. Il pubblico di riferimento è la comunità di elaborazione del linguaggio naturale (NLP) e di recupero delle informazioni (IR).

Caratteristiche

Tutti gli algoritmi sono indipendenti dalla memoria rispetto alla la dimensione del corpus (può elaborare input più grandi della RAM, in streaming, out-of-core),
Interfacce intuitive
- facile inserire il proprio corpus/datastream di input (banalestreaming API)
- facile da estendere con altri algoritmi Vector Space (banalealtransformation API)
Efficienti implementazioni multicore di algoritmi popolari, comeonline Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) o word2vec deeplearning.
Computing distribuito: può eseguire Latent Semantic Analysis e Latent Dirichlet Allocation su un cluster di computer.
Estesa documentazione e tutorial su Jupyter Notebook.

Se questa lista di caratteristiche ti ha lasciato a grattarti la testa, puoi prima leggere di più sul Vector Space Model e sull’analisi non supervisionata dei documenti su Wikipedia.

Installazione

Questo software dipende da NumPy e Scipy, due pacchetti Python per il calcolo scientifico. È necessario averli installati prima di installaregensim.

Si raccomanda inoltre di installare una libreria BLAS veloce prima di installareNumPy. Questo è opzionale, ma l’uso di un BLAS ottimizzato come ATLAS o OpenBLAS è noto per migliorare le prestazioni di un ordine di grandezza. Su OS X, NumPy prende il BLAS che viene fornito automaticamente, quindi non c’è bisogno di fare nulla di speciale.

Installate l’ultima versione di gensim:

 pip install --upgrade gensim

O, se invece avete scaricato e decompresso il tar.gzpackage:

 python setup.py install

Per modalità alternative di installazione, vedi la documentazione.

Gensim viene continuamente testato sotto Python 3.6, 3.7 e 3.8. Il supporto per Python 2.7 è stato abbandonato in gensim 4.0.0 – installa gensim 3.8.3 se devi usare Python 2.7.

Come mai gensim è così veloce ed efficiente nella memoria? Non è puro Python, e Python non è lento e avido?

Molti algoritmi scientifici possono essere espressi in termini di grandi operazioni matriciali (vedi la nota BLAS sopra). Gensim attinge a queste librerie BLAS di basso livello, attraverso la sua dipendenza da NumPy. Così, mentre il codice di Gensim a livello superiore è puro Python, in realtà esegue Fortran/C altamente ottimizzato sotto il cofano, incluso il multithreading (se la vostraBLAS è così configurata).

Per quanto riguarda la memoria, Gensim fa largo uso dei generatori e degli iteratori integrati in Python per l’elaborazione dei dati in flusso. L’efficienza della memoria era uno degli obiettivi di progettazione di gensim, ed è una caratteristica centrale di gensim, piuttosto che una cosa aggiunta come un ripensamento.

Documentazione

QuickStart
Tutorials
Documentazione ufficiale API

Supporto

Fai domande aperte o di ricerca sulla Mailing List di Gensim.

Segnala un bug su Github ma assicurati di seguire il modello del problema. I problemi che non sono bug o che non seguono il modello di problema saranno chiusi senza ispezione.

Adottatori

Azienda	Industria	Uso di Gensim
RARE Technologies	ML & Consulenza PNL	Creatori di Gensim – siamo noi!
Amazon	Retail	Document similarity.
National Institutes of Health	Health	Processing grants and publications with word2vec.
Cisco Security	Security	Rilevamento frodi su larga scala.
Mindseye	Legale	Similitudine nei documenti legali.
Channel 4	Media	Motore di raccomandazione.
Talentpair	HR	Candidate matching in high-touch recruiting.
Juju	HR	Fornire suggerimenti non ovvi di lavoro correlati.
Tailwind	Media	Posta contenuti interessanti e rilevanti su Pinterest.
Issuu	Media	Il modulo LDA di Gensim è al centro dell’analisi che effettuiamo su ogni pubblicazione caricata per capire di cosa si tratta.
Metriche di ricerca	Content Marketing	Gensim word2vec usato per la disambiguazione delle entità nell’ottimizzazione dei motori di ricerca.
12K Research	Media	Analisi di similarità dei documenti sugli articoli dei media.
Stillwater Supercomputing	Hardware	Comprensione e associazione di documenti con word2vec.
SiteGround	Web hosting	Un motore di ricerca ensemble che usa diversi modelli di embeddings e similitudini, incluso word2vec, WMD e LDA.
Capital One	Finanza	Modellazione di argomenti per l’esplorazione dei reclami dei clienti.