RaRe-Technologies / gensim

Gensim je knihovna pro Python pro modelování témat, indexování dokumentů a vyhledávání podobností s velkými korpusy. Cílovou skupinou je pak komunita zabývající se zpracováním přirozeného jazyka (NLP) a vyhledáváním informací (IR)

Vlastnosti

  • Všechny algoritmy jsou nezávislé na paměti v.r.t. velikosti korpusu (mohou zpracovávat vstupy větší než RAM, streamované, mimo jádro),
  • intuitivní rozhraní
    • snadné zapojení vlastního vstupního korpusu/datového proudu (triviální streamovací API)
    • snadné rozšíření o další algoritmy vektorového prostoru (triviální transformační API)
  • Efektivní vícejádrové implementace populárních algoritmů, jako je online latentní sémantická analýza (LSA/LSI/SVD), latentníDirichletova alokace (LDA), náhodné projekce (RP),hierarchický Dirichletův proces (HDP) nebo hluboké učení word2vec.
  • Distribuované výpočty: Latentní sémantickou analýzu a Latentní Dirichletovu alokaci lze spustit na clusteru počítačů.
  • Rozsáhlá dokumentace a výukové programy pro Jupyter Notebook.

Pokud vás tento výčet funkcí nechal poškrábat na hlavě, můžete si nejprve přečíst více o modelu vektorového prostoru a analýze dokumentů bez dohledu na Wikipedii.

Instalace

Tento software závisí na NumPy a Scipy, dvou balíčcích Pythonu pro vědecké výpočty. Musíte je mít nainstalované před instalacígensimu.

Před instalacíNumPy se také doporučuje nainstalovat rychlou knihovnu BLAS. Je to volitelné, ale je známo, že použití optimalizované BLAS, jako je ATLAS neboOpenBLAS, zvyšuje výkon až o řád. V OS X si NumPy automaticky vybere BLAS, který je s ním dodáván, takže nemusíte dělat nic zvláštního.

Nainstalujte nejnovější verzi gensimu:

 pip install --upgrade gensim

Nebo, pokud jste místo toho stáhli a rozbalili zdrojový tar.gzpackage:

 python setup.py install

O alternativních způsobech instalace se dočtete v dokumentaci.

Gensim je průběžně testován pod Pythonem 3.6, 3.7 a 3.8. Podpora Pythonu 2.7 byla v gensimu 4.0.0 zrušena – pokud musíte používat Python 2.7, nainstalujte gensim 3.8.3.

Jak to, že je gensim tak rychlý a paměťově úsporný? Není to čistý Python a není Python pomalý a nenasytný?

Mnoho vědeckých algoritmů lze vyjádřit v termínech velkých maticových operací (viz poznámka o BLAS výše). Gensim využívá tyto nízkoúrovňové knihovnyBLAS prostřednictvím své závislosti na NumPy. Ačkoli je tedy kód gensimu na nejvyšší úrovni čistě pythonovský, ve skutečnosti se pod kapotou spouští vysoce optimalizovaný Fortran/C, včetně vícevláknového zpracování (pokud je vášBLAS takto nakonfigurován).

Paměťově gensim hojně využívá vestavěné generátory aiterátory Pythonu pro proudové zpracování dat. Paměťová efektivita byla jedním z cílů návrhu gensimu a je ústřední vlastností gensimu, nikoliv něčím dodatečně přidaným.

Dokumentace

  • QuickStart
  • Tutoriály
  • Oficiální dokumentace API

Podpora

Pokládejte otevřené nebo výzkumné dotazy na Gensim Mailing List.

Zadávejte chyby na Githubu, ale ujistěte se, že dodržujete šablonu problému. Otázky, které nejsou chybami nebo nedodržují šablonu problému, budou uzavřeny bez kontroly.

Osvojitelé

.

Firma Logo Odvětví Použití Gensimu
RARE Technologies ML & NLP consulting Tvůrci Gensimu – to jsme my!
Amazon Maloobchod Podobnost dokumentů.
National Institutes of Health Zdravotnictví Zpracování grantů a publikací pomocí word2vec.
Cisco Security Bezpečnost Odhalování podvodů ve velkém rozsahu.
Mindseye Právní Podobnosti v právních dokumentech.
Channel 4 Media Recommendation engine.
Talentpair HR Vyhledávání kandidátů při náboru s vysokým počtem dotyků.
Juju HR Poskytování nezjevných souvisejících návrhů pracovních míst.
Tailwind Media Vkládat zajímavý a relevantní obsah na Pinterest.
Issuu Media Modul LDA systému Gensim tvoří jádro analýzy, kterou provádíme u každé nahrané publikace, abychom zjistili, o co se jedná.
Metriky vyhledávání Obsahový marketing Gensim word2vec slouží k disambiguaci entit při optimalizaci pro vyhledávače.
12K Research Média Analýza podobnosti dokumentů u článků v médiích.
Stillwater Supercomputing Hardware Srozumitelnost dokumentů a asociace s word2vec.
SiteGround Webhosting Vyhledávač souborů, který využívá různé modely osazení a podobnosti, včetně word2vec, WMD a LDA.
Capital One Finance Modelování témat pro průzkum stížností zákazníků.

Citování gensim

Při citování gensim ve vědeckých článcích a diplomových pracích použijte prosím tento záznamBibTeX:

.

Leave a Reply