RaRe-Technologies / gensim
Gensim jest biblioteką Pythona do modelowania tematów, indeksowania dokumentów i wyszukiwania podobieństw w dużych korpusach. Docelowym odbiorcą jest społeczność zajmująca się przetwarzaniem języka naturalnego (NLP) i wyszukiwaniem informacji (IR).
Cechy
- Wszystkie algorytmy są niezależne od pamięci w stosunku do rozmiaru korpusu (mogą przetwarzać dane wejściowe). rozmiaru korpusu (mogą przetwarzać dane wejściowe większe niż RAM, strumieniowo, poza rdzeniem),
- Intuicyjne interfejsy
- łatwe do podłączenia własnego korpusu wejściowego/strumienia danych (trivialstreaming API)
- łatwe do rozszerzenia o inne algorytmy Vector Space (trivialtransformation API)
- Wydajne wielordzeniowe implementacje popularnych algorytmów, takich jak analiza semantyczna latentna online (LSA/LSI/SVD), alokacja latentna dirichleta (LDA), rzutowanie losowe (RP), hierarchiczny proces dirichleta (HDP) czy uczenie głębokie word2vec.
- Obliczenia rozproszone: można uruchomić Latent Semantic Analysis iLatent Dirichlet Allocation na klastrze komputerów.
- Duża dokumentacja i samouczki Jupyter Notebook.
Jeśli ta lista funkcji nie daje ci spokoju, możesz najpierw przeczytać więcej o Vector Space Model i nienadzorowanej analizie dokumentów w Wikipedii.
Instalacja
To oprogramowanie zależy od NumPy i Scipy, dwóch pakietów Pythona do obliczeń naukowych. Musisz mieć je zainstalowane przed zainstalowaniemgensim.
Zaleca się również zainstalowanie szybkiej biblioteki BLAS przed zainstalowaniemNumPy. Jest to opcjonalne, ale przy użyciu zoptymalizowanego BLAS, takich jak ATLAS lubOpenBLAS jest znany do poprawy wydajności aż o rząd wielkości. Na OS X, NumPy automatycznie pobiera BLAS, który jest z nim dostarczany, więc nie musisz robić nic specjalnego.
Zainstaluj najnowszą wersję gensim:
pip install --upgrade gensim
Albo, jeśli zamiast tego pobrałeś i rozpakowałeś źródło tar.gzpackage:
python setup.py install
Inne sposoby instalacji, zobacz dokumentację.
Gensim jest ciągle testowany pod Pythonem 3.6, 3.7 i 3.8.Wsparcie dla Pythona 2.7 zostało porzucone w gensim 4.0.0 – zainstaluj gensim 3.8.3, jeśli musisz używać Pythona 2.7.
Jak to się dzieje, że gensim jest tak szybki i wydajny pamięciowo? Czyż nie jest to czysty Python, a Python nie jest powolny i chciwy?
Wiele algorytmów naukowych można wyrazić w kategoriach dużych operacji na macierzach (patrz uwaga o BLAS-ie powyżej). Gensim sięga do tych niskopoziomowych bibliotek BLAS, poprzez swoją zależność od NumPy. Tak więc podczas gdy kod gensim-the-top-level jest czystym Pythonem, w rzeczywistości wykonuje wysoce zoptymalizowany Fortran/C pod maską, w tym wielowątkowość (jeśli twójBLAS jest tak skonfigurowany).
Memory-wise, gensim mocno wykorzystuje wbudowane generatory Pythona iiteratory do przetwarzania danych strumieniowych. Wydajność pamięciowa była jednym z celów projektowych gensima i jest jego centralną cechą, a nie czymś, co zostało dodane po fakcie.
Dokumentacja
- QuickStart
- Tutoriale
- Oficjalna dokumentacja API
Pomoc techniczna
Zadawaj pytania otwarte lub badawcze na Gensim Mailing List.
Zgłaszaj błędy na Githubie, ale upewnij się, że postępujesz zgodnie z szablonem problemu. Błędy, które nie są błędami lub nie są zgodne z szablonem będą zamykane bez kontroli.
Adopters
Firma | Logo | Branża | Użycie Gensim |
---|---|---|---|
RARE Technologies | ML &Konsulting NLP | Twórcy Gensim – to my! | |
Amazon | Retail | Podobieństwo dokumentów. | |
National Institutes of Health | Health | Przetwarzanie grantów i publikacji za pomocą word2vec. | |
Cisco Security | Bezpieczeństwo | Wykrywanie oszustw na dużą skalę. | |
Mindseye | Legal | Podobieństwa w dokumentach prawnych. | |
Channel 4 | Media | Silnik rekomendacji. | |
Talentpair | HR | Dopasowywanie kandydatów w rekrutacji typu high-touch. | |
Juju | HR | Dostarczanie nieoczywistych sugestii dotyczących powiązanych stanowisk. | |
Tailwind | Media | Postuj ciekawe i istotne treści na Pinterest. | |
Issuu | Media | Moduł LDA firmy Gensim leży u podstaw analizy, którą przeprowadzamy na każdej przesłanej publikacji, aby dowiedzieć się, o co w niej chodzi. | |
Search Metrics | Content Marketing | Gensim word2vec używany do dezambiguacji encji w Search Engine Optimization. | |
12K Research | Media | Analiza podobieństwa dokumentów w artykułach medialnych. | |
Stillwater Supercomputing | Hardware | Zrozumienie i kojarzenie dokumentów za pomocą word2vec. | |
SiteGround | Hosting stron internetowych | Wyszukiwarka ensemble, która wykorzystuje różne modele osadzania i podobieństwa, w tym word2vec, WMD i LDA. | |
Capital One | Finanse | Modelowanie tematyczne do eksploracji skarg klientów. |
Cytowanie gensim
Przy cytowaniu gensim w pracach naukowych i rozprawach proszę używać tego zapisuBibTeX:
.
Leave a Reply