RaRe-Technologies / gensim

Gensim é uma biblioteca Python para modelagem de tópicos, indexação de documentos e recuperação de semelhanças com grandes corpora. O público-alvo é a comunidade de processamento de linguagem natural (PNL) e recuperação de informação (RI).

Características

  • Todos os algoritmos são independentes da memória, w.r.t. o tamanho do corpus(pode processar entrada maior que RAM, streamed, out-of-core),
  • Interfaces intuitivas
    • Fácil de conectar seu próprio corpus/datastream de entrada (trivialstreaming API)
    • Fácil de estender com outros algoritmos Vetor Espacial (trivialtransformation API)
  • Eficientes implementações multi-núcleo de algoritmos populares, como a Análise Semântica Latente (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) ou word2vec deeplearning.
  • Computação distribuída: pode executar Análise Semântica Latente e Alocação de Dirichlet Latente em um cluster de computadores.
  • Documentação extensiva e tutoriais de Jupyter Notebook.

Se esta lista de recursos deixou você coçando a cabeça, você pode primeiro ler mais sobre o Vector Space Model e análise de documentos sem supervisão na Wikipedia.

Instalação

Este software depende de NumPy e Scipy, dois pacotes Python para computação científica. Você deve tê-los instalados antes de instalaringgensim.

Também é recomendado instalar uma biblioteca BLAS rápida antes de instalarNumPy. Isto é opcional, mas usando um BLAS otimizado como o ATLAS ouOpenBLAS é conhecido por melhorar a performance tanto quanto uma ordem de magnitude. No OS X, NumPy pega o BLAS que vem com ele automaticamente, então você não precisa fazer nada de especial.

Instalar a última versão do gensim:

 pip install --upgrade gensim

Or, se ao invés disso você baixou e descompactou o tar do código fonte.gzpackage:

 python setup.py install

Para modos alternativos de instalação, veja a documentação.

Gensim está sendo continuamente testado sob Python 3.6, 3.7 e 3.8.O suporte para Python 2.7 foi descartado no gensim 4.0.0 – instale o gensim 3.8.3 se você precisa usar o Python 2.7.

Como o gensim é tão rápido e eficiente em termos de memória? Não é puro Python, e não é Python lento e ganancioso?

Muitos algoritmos científicos podem ser expressos em termos de grandes operações de matriz (veja a nota BLAS acima). Gensim bate nestas bibliotecas de baixo nível daBLAS, por meio da sua dependência da NumPy. Assim, enquanto o código de nível superior é puro Python, ele realmente executa Fortran/C altamente otimizado sob a capa, incluindo multithreading (se a suaBLAS estiver assim configurada).

Memory-wise, o gensim faz uso pesado dos geradores incorporados ao Python para processamento de dados streamed. A eficiência da memória foi um dos objetivos do projeto do gensim, e é uma característica central do gensim, algo aparafusado como um pensamento posterior.

Documentação

  • QuickStart
  • Tutoriais
  • Documentação oficial da API

Suporte

Perguntas abertas ou de pesquisa na Lista de Discussão do Gensim.

Elevantar bugs no Github, mas certifique-se de seguir o modelo de problema. Questões que não sejam bugs ou que não sigam o modelo de problema serão fechadas sem inspeção.

Adotantes

Empresa Logo Indústria Uso de Gensim
RARE Technologies ML & Consultoria em PNL Criadores de Gensim – este somos nós!
Amazônia Retalho Similaridade de documentos.
Institutos Nacionais de Saúde > Saúde Prestados de processamento e publicações com word2vec.
Segurança da Cisco Segurança Detecção de fraude em grande escala.
Mindseye > Legal Similitudes em documentos legais.
Canal 4 > Media Motor de recomendações.
Talentpair HR Candidatar-se ao recrutamento de alto toque.
Juju > HR Fornecer sugestões de trabalho não óbvias relacionadas.
Tailwind Media Pós conteúdo interessante e relevante para o Pinterest.
Issuuu Media Módulo LDA do Gensim está no centro da análise que realizamos em cada publicação carregada para descobrir do que se trata.
Métricas de Pesquisa > Conteúdo de Marketing Gensim word2vec usado para desambiguação de entidades em Optimização de Motores de Busca.
12K Pesquisa Media Análise de similaridade de documentos em artigos de mídia.
Supercomputação de água parada Hardware Compreensão e associação do documento com a palavra2vec.
SiteGround Alojamento Web Um motor de busca de conjuntos que usa diferentes modelos de incorporação e semelhanças, incluindo word2vec, WMD, e LDA.
Capital Um Finance Modelagem tópica para exploração de reclamações de clientes.

Citando gensim

Ao citar gensim em trabalhos acadêmicos e teses, por favor use esta entradaBibTeX:

Leave a Reply