RaRe-Technologies / gensim

Gensim jest biblioteką Pythona do modelowania tematów, indeksowania dokumentów i wyszukiwania podobieństw w dużych korpusach. Docelowym odbiorcą jest społeczność zajmująca się przetwarzaniem języka naturalnego (NLP) i wyszukiwaniem informacji (IR).

Cechy

  • Wszystkie algorytmy są niezależne od pamięci w stosunku do rozmiaru korpusu (mogą przetwarzać dane wejściowe). rozmiaru korpusu (mogą przetwarzać dane wejściowe większe niż RAM, strumieniowo, poza rdzeniem),
  • Intuicyjne interfejsy
    • łatwe do podłączenia własnego korpusu wejściowego/strumienia danych (trivialstreaming API)
    • łatwe do rozszerzenia o inne algorytmy Vector Space (trivialtransformation API)
  • Wydajne wielordzeniowe implementacje popularnych algorytmów, takich jak analiza semantyczna latentna online (LSA/LSI/SVD), alokacja latentna dirichleta (LDA), rzutowanie losowe (RP), hierarchiczny proces dirichleta (HDP) czy uczenie głębokie word2vec.
  • Obliczenia rozproszone: można uruchomić Latent Semantic Analysis iLatent Dirichlet Allocation na klastrze komputerów.
  • Duża dokumentacja i samouczki Jupyter Notebook.

Jeśli ta lista funkcji nie daje ci spokoju, możesz najpierw przeczytać więcej o Vector Space Model i nienadzorowanej analizie dokumentów w Wikipedii.

Instalacja

To oprogramowanie zależy od NumPy i Scipy, dwóch pakietów Pythona do obliczeń naukowych. Musisz mieć je zainstalowane przed zainstalowaniemgensim.

Zaleca się również zainstalowanie szybkiej biblioteki BLAS przed zainstalowaniemNumPy. Jest to opcjonalne, ale przy użyciu zoptymalizowanego BLAS, takich jak ATLAS lubOpenBLAS jest znany do poprawy wydajności aż o rząd wielkości. Na OS X, NumPy automatycznie pobiera BLAS, który jest z nim dostarczany, więc nie musisz robić nic specjalnego.

Zainstaluj najnowszą wersję gensim:

 pip install --upgrade gensim

Albo, jeśli zamiast tego pobrałeś i rozpakowałeś źródło tar.gzpackage:

 python setup.py install

Inne sposoby instalacji, zobacz dokumentację.

Gensim jest ciągle testowany pod Pythonem 3.6, 3.7 i 3.8.Wsparcie dla Pythona 2.7 zostało porzucone w gensim 4.0.0 – zainstaluj gensim 3.8.3, jeśli musisz używać Pythona 2.7.

Jak to się dzieje, że gensim jest tak szybki i wydajny pamięciowo? Czyż nie jest to czysty Python, a Python nie jest powolny i chciwy?

Wiele algorytmów naukowych można wyrazić w kategoriach dużych operacji na macierzach (patrz uwaga o BLAS-ie powyżej). Gensim sięga do tych niskopoziomowych bibliotek BLAS, poprzez swoją zależność od NumPy. Tak więc podczas gdy kod gensim-the-top-level jest czystym Pythonem, w rzeczywistości wykonuje wysoce zoptymalizowany Fortran/C pod maską, w tym wielowątkowość (jeśli twójBLAS jest tak skonfigurowany).

Memory-wise, gensim mocno wykorzystuje wbudowane generatory Pythona iiteratory do przetwarzania danych strumieniowych. Wydajność pamięciowa była jednym z celów projektowych gensima i jest jego centralną cechą, a nie czymś, co zostało dodane po fakcie.

Dokumentacja

  • QuickStart
  • Tutoriale
  • Oficjalna dokumentacja API

Pomoc techniczna

Zadawaj pytania otwarte lub badawcze na Gensim Mailing List.

Zgłaszaj błędy na Githubie, ale upewnij się, że postępujesz zgodnie z szablonem problemu. Błędy, które nie są błędami lub nie są zgodne z szablonem będą zamykane bez kontroli.

Adopters

.

Firma Logo Branża Użycie Gensim
RARE Technologies ML &Konsulting NLP Twórcy Gensim – to my!
Amazon Retail Podobieństwo dokumentów.
National Institutes of Health Health Przetwarzanie grantów i publikacji za pomocą word2vec.
Cisco Security Bezpieczeństwo Wykrywanie oszustw na dużą skalę.
Mindseye Legal Podobieństwa w dokumentach prawnych.
Channel 4 Media Silnik rekomendacji.
Talentpair HR Dopasowywanie kandydatów w rekrutacji typu high-touch.
Juju HR Dostarczanie nieoczywistych sugestii dotyczących powiązanych stanowisk.
Tailwind Media Postuj ciekawe i istotne treści na Pinterest.
Issuu Media Moduł LDA firmy Gensim leży u podstaw analizy, którą przeprowadzamy na każdej przesłanej publikacji, aby dowiedzieć się, o co w niej chodzi.
Search Metrics Content Marketing Gensim word2vec używany do dezambiguacji encji w Search Engine Optimization.
12K Research Media Analiza podobieństwa dokumentów w artykułach medialnych.
Stillwater Supercomputing Hardware Zrozumienie i kojarzenie dokumentów za pomocą word2vec.
SiteGround Hosting stron internetowych Wyszukiwarka ensemble, która wykorzystuje różne modele osadzania i podobieństwa, w tym word2vec, WMD i LDA.
Capital One Finanse Modelowanie tematyczne do eksploracji skarg klientów.

Cytowanie gensim

Przy cytowaniu gensim w pracach naukowych i rozprawach proszę używać tego zapisuBibTeX:

.

Leave a Reply