RaRe-Technologies / gensim

Gensim es una biblioteca de Python para el modelado de temas, la indexación de documentos y la recuperación de similitudes con grandes corpus. El público objetivo es la comunidad de procesamiento del lenguaje natural (PNL) y la recuperación de información (RI).

Características

  • Todos los algoritmos son independientes de la memoria en relación con el tamaño del corpus (pueden procesar entradas mayores que la RAM, en streaming, fuera del núcleo),
  • Interfaces intuitivas
    • fácil de enchufar su propio corpus/flujo de datos de entrada (API de streaming trivial)
    • fácil de extender con otros algoritmos de Espacio Vectorial (API de transformación trivial)
  • Eficientes implementaciones multinúcleo de algoritmos populares, como el análisis semántico latente en línea (LSA/LSI/SVD), la asignación latente de Dirichlet (LDA), las proyecciones aleatorias (RP), el proceso jerárquico de Dirichlet (HDP) o el aprendizaje profundo de word2vec.
  • Computación distribuida: puede ejecutar Latent Semantic Analysis yLatent Dirichlet Allocation en un clúster de ordenadores.
  • Extensa documentación y tutoriales de Jupyter Notebook.

Si esta lista de características le dejó rascándose la cabeza, primero puede leer más sobre el Modelo de Espacio Vectorial y el análisis de documentos sin supervisión en Wikipedia.

Instalación

Este software depende de NumPy y Scipy, dos paquetes de Python para la computación científica. Debe tenerlos instalados antes de instalargensim.

También se recomienda instalar una biblioteca BLAS rápida antes de instalarNumPy. Esto es opcional, pero el uso de un BLAS optimizado como ATLAS u OpenBLAS es conocido por mejorar el rendimiento hasta en un orden de magnitud. En OS X, NumPy recoge el BLAS que viene con élautomáticamente, por lo que no es necesario hacer nada especial.

Instalar la última versión de gensim:

 pip install --upgrade gensim

O, si en su lugar ha descargado y descomprimido el tar fuente.gzpackage:

 python setup.py install

Para modos alternativos de instalación, vea la documentación.

Gensim está siendo probado continuamente bajo Python 3.6, 3.7 y 3.8.El soporte para Python 2.7 fue eliminado en gensim 4.0.0 – instale gensim 3.8.3 si debe usar Python 2.7.

¿Cómo es que gensim es tan rápido y eficiente en memoria? ¿No es puro Python, y no es Python lento y codicioso?

Muchos algoritmos científicos pueden ser expresados en términos de grandes operaciones matriciales (ver la nota de BLAS más arriba). Gensim aprovecha estas bibliotecas BLAS de bajo nivel, mediante su dependencia de NumPy. Así que mientras el código de nivel superior degensim es puro Python, en realidad ejecuta Fortran/C altamente optimizado bajo el capó, incluyendo el multithreading (si suBLAS está configurado así).

En cuanto a la memoria, gensim hace un gran uso de los generadores y los iteradores incorporados de Python para el procesamiento de datos en flujo. La eficiencia de la memoria fue uno de los objetivos de diseño de gensim, y es una característica central de gensim, en lugar de algo atornillado como una idea tardía.

Documentación

  • Inicio rápido
  • Tutoriales
  • Documentación oficial de la API

Soporte

Pregunta abierta o de investigación en la lista de correo de Gensim.

Crea bugs en Github pero asegúrate de seguir la plantilla de issues. Las cuestiones que no sean bugs o que no sigan la plantilla de cuestiones se cerrarán sin inspección.

Adoptantes

Empresa Logo Sector Uso de Gensim
Tecnologías Raras LM &Consultoría de PNL Creadores de Gensim – ¡somos nosotros!
Amazon Retail Similaridad de documentos.
Institutos Nacionales de Salud Salud Procesamiento de becas y publicaciones con word2vec.
Seguridad Cisco Seguridad Detección de fraudes a gran escala.
Mindseye Legal Similitudes en documentos legales.
Canal 4 Medios de comunicación Motor de recomendaciones.
Talentpair HR Consulta de candidatos en reclutamiento de alto nivel.
Juju HR Proporcionar sugerencias de trabajo relacionadas no obvias.
Tailwind Medios Publicar contenido interesante y relevante en Pinterest.
Issuu Media El módulo LDA de Gensim se encuentra en el núcleo del análisis que realizamos de cada publicación subida para averiguar de qué se trata.
Métricas de búsqueda Marketing de contenidos Gensim word2vec utilizado para la desambiguación de entidades en la optimización de motores de búsqueda.
12K Research Medios de comunicación Análisis de similitud de documentos en artículos de medios de comunicación.
Stillwater Supercomputing Hardware Comprensión y asociación de documentos con word2vec.
SiteGround Alojamiento web Un motor de búsqueda conjunto que utiliza diferentes modelos de incrustación y similitudes, incluyendo word2vec, WMD y LDA.
Capital One Finanzas Modelación de temas para la exploración de quejas de clientes.

Citando gensim

Cuando cite gensim en trabajos académicos y tesis, por favor utilice esta entrada deBibTeX:

Leave a Reply