RaRe-Technologies / gensim

Gensim er et Python-bibliotek til topic modelling, dokumentindeksering og similarity retrieval med store korpora. Målgruppen er det naturlige sprogbehandling (NLP) og informationssøgning (IR)-miljøet.

Funktioner

  • Alle algoritmer er hukommelsesuafhængige i forhold til hukommelsen. corpusstørrelsen(kan behandle input større end RAM, streamet, out-of-core),
  • Intuitive grænseflader
    • let at indsætte dit eget input corpus/datastrøm (trivielstreaming API)
    • let at udvide med andre Vector Space-algoritmer (trivialtransformation API)
  • Effektive multicore-implementeringer af populære algoritmer, såsom online Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) eller word2vec deeplearning.
  • Distribueret databehandling: kan køre Latent Semantic Analysis ogLatent Dirichlet Allocation på en klynge af computere.
  • Udførlig dokumentation og Jupyter Notebook-tutorials.

Hvis denne funktionsliste har fået dig til at klø dig i hovedet, kan du først læse mere om Vector Space Model og uovervåget dokumentanalyse på Wikipedia.

Installation

Denne software afhænger af NumPy og Scipy, to Python-pakker tilvidenskabelig databehandling. Du skal have dem installeret, før du installerergensim.

Det anbefales også, at du installerer et hurtigt BLAS-bibliotek, før du installererNumPy. Dette er valgfrit, men det er kendt, at brugen af en optimeret BLAS som ATLAS ellerOpenBLAS kan forbedre ydeevnen med op til en størrelsesorden. På OS X henter NumPy automatisk den BLAS, der følger med, så du behøver ikke at gøre noget særligt.

Installer den nyeste version af gensim:

 pip install --upgrade gensim

Og, hvis du i stedet har downloadet og udpakket kildekode tar.gzpackage:

 python setup.py install

For alternative installationsformer, se dokumentationen.

Gensim bliver løbende testet under Python 3.6, 3.7 og 3.8. Understøttelse af Python 2.7 blev droppet i gensim 4.0.0.0 – installer gensim 3.8.3, hvis du skal bruge Python 2.7.

Hvordan kan det være, at gensim er så hurtig og hukommelseseffektiv? Er det ikke ren Python, og er Python ikke langsomt og grådigt?

Mange videnskabelige algoritmer kan udtrykkes i form af store matrixoperationer (se BLAS-noten ovenfor). Gensim udnytter disse BLAS-biblioteker på lavt niveau ved hjælp af sin afhængighed af NumPy. Så selv om Gensim-the-top-level-koden er ren Python, udfører den faktisk stærkt optimeret Fortran/C under motorhjelmen, herunder multithreading (hvis dinBLAS er konfigureret til det).

Memory-mæssigt gør Gensim stor brug af Pythons indbyggede generatorer ogiteratorer til streamed databehandling. Hukommelseffektivitet var et af gensims designmål, og det er en central funktion i gensim, snarere end noget, der er skruet på som en eftertanke.

Dokumentation

  • QuickStart
  • Tutorials
  • Official API Documentation

Support

Sæt åbne spørgsmål eller forskningsspørgsmål på Gensim Mailing List.

Skriv fejl på Github, men sørg for at følge problemskabelonen. Issues, der ikke er fejl eller ikke følger issueskabelonen, vil blive lukket uden inspektion.

Adopters

Firma Logo Industri Brug af Gensim
RARE Technologies ML & NLP-konsultation Skaberne af Gensim – det er os!
Amazon Handel Dokumentlignelse.
National Institutes of Health Sundhed Behandling af tilskud og publikationer med word2vec.
Cisco Security Sikkerhed Sporing af svig i stor skala.
Mindseye Jura Sammenfald i juridiske dokumenter.
Kanal 4 Media Anbefalingsmotor.
Talentpair HR Kandidatmatchning i high-touch-rekruttering.
Juju HR Giver ikke-oplagte relaterede jobforslag.
Tailwind Media Poster interessant og relevant indhold på Pinterest.
Issuu Media Gensims LDA-modul ligger i selve kernen af den analyse, vi udfører på hver enkelt uploadet publikation for at finde ud af, hvad den handler om.
Søgemålinger Indholdsmarkedsføring Gensim word2vec anvendes til entydig disambiguering i forbindelse med søgemaskineoptimering.
12K Research Media Dokumentlignende analyse af medieartikler.
Stillwater Supercomputing Hardware Dokumentforståelse og -association med word2vec.
SiteGround Webhosting En ensemblesøgemaskine, der anvender forskellige indlejringsmodeller og ligheder, herunder word2vec, WMD og LDA.
Capital One Finans Temamodellering til udforskning af kundeklager.

Citerer gensim

Når du citerer gensim i akademiske artikler og afhandlinger, skal du bruge denneBibTeX -post:

Leave a Reply