Articles / 31 sierpnia, 2021

RaRe-Technologies / gensim

Gensim jest biblioteką Pythona do modelowania tematów, indeksowania dokumentów i wyszukiwania podobieństw w dużych korpusach. Docelowym odbiorcą jest społeczność zajmująca się przetwarzaniem języka naturalnego (NLP) i wyszukiwaniem informacji (IR).

Cechy

Wszystkie algorytmy są niezależne od pamięci w stosunku do rozmiaru korpusu (mogą przetwarzać dane wejściowe). rozmiaru korpusu (mogą przetwarzać dane wejściowe większe niż RAM, strumieniowo, poza rdzeniem),
Intuicyjne interfejsy
- łatwe do podłączenia własnego korpusu wejściowego/strumienia danych (trivialstreaming API)
- łatwe do rozszerzenia o inne algorytmy Vector Space (trivialtransformation API)
Wydajne wielordzeniowe implementacje popularnych algorytmów, takich jak analiza semantyczna latentna online (LSA/LSI/SVD), alokacja latentna dirichleta (LDA), rzutowanie losowe (RP), hierarchiczny proces dirichleta (HDP) czy uczenie głębokie word2vec.
Obliczenia rozproszone: można uruchomić Latent Semantic Analysis iLatent Dirichlet Allocation na klastrze komputerów.
Duża dokumentacja i samouczki Jupyter Notebook.

Jeśli ta lista funkcji nie daje ci spokoju, możesz najpierw przeczytać więcej o Vector Space Model i nienadzorowanej analizie dokumentów w Wikipedii.

Instalacja

To oprogramowanie zależy od NumPy i Scipy, dwóch pakietów Pythona do obliczeń naukowych. Musisz mieć je zainstalowane przed zainstalowaniemgensim.

Zaleca się również zainstalowanie szybkiej biblioteki BLAS przed zainstalowaniemNumPy. Jest to opcjonalne, ale przy użyciu zoptymalizowanego BLAS, takich jak ATLAS lubOpenBLAS jest znany do poprawy wydajności aż o rząd wielkości. Na OS X, NumPy automatycznie pobiera BLAS, który jest z nim dostarczany, więc nie musisz robić nic specjalnego.

Zainstaluj najnowszą wersję gensim:

 pip install --upgrade gensim

Albo, jeśli zamiast tego pobrałeś i rozpakowałeś źródło tar.gzpackage:

 python setup.py install

Inne sposoby instalacji, zobacz dokumentację.

Gensim jest ciągle testowany pod Pythonem 3.6, 3.7 i 3.8.Wsparcie dla Pythona 2.7 zostało porzucone w gensim 4.0.0 – zainstaluj gensim 3.8.3, jeśli musisz używać Pythona 2.7.

Jak to się dzieje, że gensim jest tak szybki i wydajny pamięciowo? Czyż nie jest to czysty Python, a Python nie jest powolny i chciwy?

Wiele algorytmów naukowych można wyrazić w kategoriach dużych operacji na macierzach (patrz uwaga o BLAS-ie powyżej). Gensim sięga do tych niskopoziomowych bibliotek BLAS, poprzez swoją zależność od NumPy. Tak więc podczas gdy kod gensim-the-top-level jest czystym Pythonem, w rzeczywistości wykonuje wysoce zoptymalizowany Fortran/C pod maską, w tym wielowątkowość (jeśli twójBLAS jest tak skonfigurowany).

Memory-wise, gensim mocno wykorzystuje wbudowane generatory Pythona iiteratory do przetwarzania danych strumieniowych. Wydajność pamięciowa była jednym z celów projektowych gensima i jest jego centralną cechą, a nie czymś, co zostało dodane po fakcie.

Dokumentacja

QuickStart
Tutoriale
Oficjalna dokumentacja API

Pomoc techniczna

Zadawaj pytania otwarte lub badawcze na Gensim Mailing List.

Zgłaszaj błędy na Githubie, ale upewnij się, że postępujesz zgodnie z szablonem problemu. Błędy, które nie są błędami lub nie są zgodne z szablonem będą zamykane bez kontroli.

Adopters

Firma	Branża	Użycie Gensim
RARE Technologies	ML &Konsulting NLP	Twórcy Gensim – to my!
Amazon	Retail	Podobieństwo dokumentów.
National Institutes of Health	Health	Przetwarzanie grantów i publikacji za pomocą word2vec.
Cisco Security	Bezpieczeństwo	Wykrywanie oszustw na dużą skalę.
Mindseye	Legal	Podobieństwa w dokumentach prawnych.
Channel 4	Media	Silnik rekomendacji.
Talentpair	HR	Dopasowywanie kandydatów w rekrutacji typu high-touch.
Juju	HR	Dostarczanie nieoczywistych sugestii dotyczących powiązanych stanowisk.
Tailwind	Media	Postuj ciekawe i istotne treści na Pinterest.
Issuu	Media	Moduł LDA firmy Gensim leży u podstaw analizy, którą przeprowadzamy na każdej przesłanej publikacji, aby dowiedzieć się, o co w niej chodzi.
Search Metrics	Content Marketing	Gensim word2vec używany do dezambiguacji encji w Search Engine Optimization.
12K Research	Media	Analiza podobieństwa dokumentów w artykułach medialnych.
Stillwater Supercomputing	Hardware	Zrozumienie i kojarzenie dokumentów za pomocą word2vec.
SiteGround	Hosting stron internetowych	Wyszukiwarka ensemble, która wykorzystuje różne modele osadzania i podobieństwa, w tym word2vec, WMD i LDA.
Capital One	Finanse	Modelowanie tematyczne do eksploracji skarg klientów.