RaRe-Technologies / gensim
Gensim é uma biblioteca Python para modelagem de tópicos, indexação de documentos e recuperação de semelhanças com grandes corpora. O público-alvo é a comunidade de processamento de linguagem natural (PNL) e recuperação de informação (RI).
Características
- Todos os algoritmos são independentes da memória, w.r.t. o tamanho do corpus(pode processar entrada maior que RAM, streamed, out-of-core),
- Interfaces intuitivas
- Fácil de conectar seu próprio corpus/datastream de entrada (trivialstreaming API)
- Fácil de estender com outros algoritmos Vetor Espacial (trivialtransformation API)
- Eficientes implementações multi-núcleo de algoritmos populares, como a Análise Semântica Latente (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) ou word2vec deeplearning.
- Computação distribuída: pode executar Análise Semântica Latente e Alocação de Dirichlet Latente em um cluster de computadores.
- Documentação extensiva e tutoriais de Jupyter Notebook.
Se esta lista de recursos deixou você coçando a cabeça, você pode primeiro ler mais sobre o Vector Space Model e análise de documentos sem supervisão na Wikipedia.
Instalação
Este software depende de NumPy e Scipy, dois pacotes Python para computação científica. Você deve tê-los instalados antes de instalaringgensim.
Também é recomendado instalar uma biblioteca BLAS rápida antes de instalarNumPy. Isto é opcional, mas usando um BLAS otimizado como o ATLAS ouOpenBLAS é conhecido por melhorar a performance tanto quanto uma ordem de magnitude. No OS X, NumPy pega o BLAS que vem com ele automaticamente, então você não precisa fazer nada de especial.
Instalar a última versão do gensim:
pip install --upgrade gensim
Or, se ao invés disso você baixou e descompactou o tar do código fonte.gzpackage:
python setup.py install
Para modos alternativos de instalação, veja a documentação.
Gensim está sendo continuamente testado sob Python 3.6, 3.7 e 3.8.O suporte para Python 2.7 foi descartado no gensim 4.0.0 – instale o gensim 3.8.3 se você precisa usar o Python 2.7.
Como o gensim é tão rápido e eficiente em termos de memória? Não é puro Python, e não é Python lento e ganancioso?
Muitos algoritmos científicos podem ser expressos em termos de grandes operações de matriz (veja a nota BLAS acima). Gensim bate nestas bibliotecas de baixo nível daBLAS, por meio da sua dependência da NumPy. Assim, enquanto o código de nível superior é puro Python, ele realmente executa Fortran/C altamente otimizado sob a capa, incluindo multithreading (se a suaBLAS estiver assim configurada).
Memory-wise, o gensim faz uso pesado dos geradores incorporados ao Python para processamento de dados streamed. A eficiência da memória foi um dos objetivos do projeto do gensim, e é uma característica central do gensim, algo aparafusado como um pensamento posterior.
Documentação
- QuickStart
- Tutoriais
- Documentação oficial da API
Suporte
Perguntas abertas ou de pesquisa na Lista de Discussão do Gensim.
Elevantar bugs no Github, mas certifique-se de seguir o modelo de problema. Questões que não sejam bugs ou que não sigam o modelo de problema serão fechadas sem inspeção.
Adotantes
Empresa | Logo | Indústria | Uso de Gensim | |
---|---|---|---|---|
RARE Technologies | ML & Consultoria em PNL | Criadores de Gensim – este somos nós! | ||
Amazônia | Retalho | Similaridade de documentos. | ||
Institutos Nacionais de Saúde | > | Saúde | Prestados de processamento e publicações com word2vec. | |
Segurança da Cisco | Segurança | Detecção de fraude em grande escala. | ||
Mindseye | > | Legal | Similitudes em documentos legais. | |
Canal 4 | > | Media | Motor de recomendações. | |
Talentpair | HR | Candidatar-se ao recrutamento de alto toque. | ||
Juju | > | HR | Fornecer sugestões de trabalho não óbvias relacionadas. | |
Tailwind | Media | Pós conteúdo interessante e relevante para o Pinterest. | ||
Issuuu | Media | Módulo LDA do Gensim está no centro da análise que realizamos em cada publicação carregada para descobrir do que se trata. | ||
Métricas de Pesquisa | > | Conteúdo de Marketing | Gensim word2vec usado para desambiguação de entidades em Optimização de Motores de Busca. | |
12K Pesquisa | Media | Análise de similaridade de documentos em artigos de mídia. | ||
Supercomputação de água parada | Hardware | Compreensão e associação do documento com a palavra2vec. | ||
SiteGround | Alojamento Web | Um motor de busca de conjuntos que usa diferentes modelos de incorporação e semelhanças, incluindo word2vec, WMD, e LDA. | ||
Capital Um | Finance | Modelagem tópica para exploração de reclamações de clientes. |
Citando gensim
Ao citar gensim em trabalhos acadêmicos e teses, por favor use esta entradaBibTeX:
Leave a Reply