RaRe-Technologies / gensim

Gensim est une bibliothèque Python pour la modélisation de sujets, l’indexation de documents et la recherche de similarités avec de grands corpus. Le public cible est la communauté du traitement du langage naturel (NLP) et de la recherche d’information (IR).

Caractéristiques

  • Tous les algorithmes sont indépendants de la mémoire par rapport à la taille du corpus. la taille du corpus(peut traiter une entrée plus grande que la RAM, en streaming, hors du cœur),
  • Interfaces intuitives
    • facile de brancher votre propre corpus d’entrée/flux de données (API de streaming trivial)
    • facile d’étendre avec d’autres algorithmes d’espace vectoriel (API de transformation trivial)
  • Mise en œuvre multicœur efficace d’algorithmes populaires, tels que l’analyse sémantique latente en ligne (LSA/LSI/SVD), l’allocation de dichlet latent (LDA), les projections aléatoires (RP), le processus de dichlet hiérarchique (HDP) ou le deeplearning word2vec.
  • Informatique distribuée : peut exécuter l’analyse sémantique latente et l’allocation latente de Dirichlet sur un cluster d’ordinateurs.
  • Documentation étendue et tutoriels Jupyter Notebook.

Si cette liste de fonctionnalités vous a laissé en plan, vous pouvez d’abord en lire plus sur le modèle d’espace vectoriel et l’analyse non supervisée de documents sur Wikipédia.

Installation

Ce logiciel dépend de NumPy et Scipy, deux paquets Python pour le calcul scientifique. Vous devez les avoir installés avant d’installergensim.

Il est également recommandé d’installer une bibliothèque BLAS rapide avant d’installerNumPy. C’est facultatif, mais l’utilisation d’un BLAS optimisé tel que ATLAS ouOpenBLAS est connue pour améliorer les performances jusqu’à un ordre de grandeur. Sous OS X, NumPy récupère le BLAS qui lui est fourniautomatiquement, donc vous n’avez pas besoin de faire quoi que ce soit de spécial.

Installer la dernière version de gensim:

 pip install --upgrade gensim

Ou, si vous avez plutôt téléchargé et décompressé le tar source.gzpackage:

 python setup.py install

Pour d’autres modes d’installation, voir la documentation.

Gensim est testé en continu sous Python 3.6, 3.7 et 3.8.Le support de Python 2.7 a été abandonné dans gensim 4.0.0 – installez gensim 3.8.3 si vous devez utiliser Python 2.7.

Comment se fait-il que gensim soit si rapide et efficace en mémoire ? N’est-ce pas du pur Python, et Python n’est-il pas lent et gourmand ?

De nombreux algorithmes scientifiques peuvent être exprimés en termes de grandes opérations matricielles (voir la note BLAS ci-dessus). Gensim exploite ces bibliothèques BLAS de bas niveau, par le biais de sa dépendance à NumPy. Ainsi, alors quegensim-le-code-de-haut-niveau est pur Python, il exécute en fait Fortran/C hautement optimisé sous le capot, y compris le multithreading (si votreBLAS est ainsi configuré).

Mémoire-sage, gensim fait un usage intensif des générateurs et des itérateurs intégrés de Python pour le traitement des données en continu. L’efficacité de la mémoire était l’un des objectifs de conception de gensim, et est une caractéristique centrale de gensim, plutôt que quelque chose de boulonné après coup.

Documentation

  • QuickStart
  • Tutoriels
  • Documentation officielle de l’API

Support

Posez des questions ouvertes ou de recherche sur la liste de diffusion de Gensim.

Soulevez des bugs sur Github mais assurez-vous de suivre le modèle de problème. Les problèmes qui ne sont pas des bogues ou qui ne suivent pas le modèle de problème seront fermés sans inspection.

Adopteurs

.

Entreprise Logo Industrie Utilisation de Gensim
RARE Technologies ML &Conseil en PNL Créateurs de Gensim – c’est nous !
Amazon Vente au détail Similitude de documents.
National Institutes of Health Santé Traitement des subventions et des publications avec word2vec.
Cisco Security Sécurité Détection de fraude à grande échelle.
Mindseye Juridique Similitudes dans les documents juridiques.
Channel 4 Média Moteur de recommandations.
Talentpair HR Candidate matching in high-touch recruiting.
Juju HR Proviser des suggestions d’emplois connexes non évidents.
Tailwind Media Poster du contenu intéressant et pertinent sur Pinterest.
Issuu Media Le module LDA de Gensim est au cœur même de l’analyse que nous effectuons sur chaque publication téléchargée pour comprendre de quoi il s’agit.
Métriques de recherche Marketing de contenu Gensim word2vec utilisé pour la désambiguïsation des entités dans l’optimisation des moteurs de recherche.
12K Research Média Analyse de similarité de documents sur des articles de médias.
Stillwater Supercomputing Hardware Compréhension et association de documents avec word2vec.
SiteGround Hébergement web Un moteur de recherche d’ensemble qui utilise différents modèles d’embeddings et de similarités, notamment word2vec, WMD et LDA.
Capital One Finance Modélisation de sujets pour l’exploration des plaintes des clients.

Citer gensim

Lorsque vous citez gensim dans des articles académiques et des thèses, veuillez utiliser cette entréeBibTeX:

.

Leave a Reply