RaRe-Technologies / gensim
Gensim er et Python-bibliotek til topic modelling, dokumentindeksering og similarity retrieval med store korpora. Målgruppen er det naturlige sprogbehandling (NLP) og informationssøgning (IR)-miljøet.
Funktioner
- Alle algoritmer er hukommelsesuafhængige i forhold til hukommelsen. corpusstørrelsen(kan behandle input større end RAM, streamet, out-of-core),
- Intuitive grænseflader
- let at indsætte dit eget input corpus/datastrøm (trivielstreaming API)
- let at udvide med andre Vector Space-algoritmer (trivialtransformation API)
- Effektive multicore-implementeringer af populære algoritmer, såsom online Latent Semantic Analysis (LSA/LSI/SVD), LatentDirichlet Allocation (LDA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) eller word2vec deeplearning.
- Distribueret databehandling: kan køre Latent Semantic Analysis ogLatent Dirichlet Allocation på en klynge af computere.
- Udførlig dokumentation og Jupyter Notebook-tutorials.
Hvis denne funktionsliste har fået dig til at klø dig i hovedet, kan du først læse mere om Vector Space Model og uovervåget dokumentanalyse på Wikipedia.
Installation
Denne software afhænger af NumPy og Scipy, to Python-pakker tilvidenskabelig databehandling. Du skal have dem installeret, før du installerergensim.
Det anbefales også, at du installerer et hurtigt BLAS-bibliotek, før du installererNumPy. Dette er valgfrit, men det er kendt, at brugen af en optimeret BLAS som ATLAS ellerOpenBLAS kan forbedre ydeevnen med op til en størrelsesorden. På OS X henter NumPy automatisk den BLAS, der følger med, så du behøver ikke at gøre noget særligt.
Installer den nyeste version af gensim:
pip install --upgrade gensim
Og, hvis du i stedet har downloadet og udpakket kildekode tar.gzpackage:
python setup.py install
For alternative installationsformer, se dokumentationen.
Gensim bliver løbende testet under Python 3.6, 3.7 og 3.8. Understøttelse af Python 2.7 blev droppet i gensim 4.0.0.0 – installer gensim 3.8.3, hvis du skal bruge Python 2.7.
Hvordan kan det være, at gensim er så hurtig og hukommelseseffektiv? Er det ikke ren Python, og er Python ikke langsomt og grådigt?
Mange videnskabelige algoritmer kan udtrykkes i form af store matrixoperationer (se BLAS-noten ovenfor). Gensim udnytter disse BLAS-biblioteker på lavt niveau ved hjælp af sin afhængighed af NumPy. Så selv om Gensim-the-top-level-koden er ren Python, udfører den faktisk stærkt optimeret Fortran/C under motorhjelmen, herunder multithreading (hvis dinBLAS er konfigureret til det).
Memory-mæssigt gør Gensim stor brug af Pythons indbyggede generatorer ogiteratorer til streamed databehandling. Hukommelseffektivitet var et af gensims designmål, og det er en central funktion i gensim, snarere end noget, der er skruet på som en eftertanke.
Dokumentation
- QuickStart
- Tutorials
- Official API Documentation
Support
Sæt åbne spørgsmål eller forskningsspørgsmål på Gensim Mailing List.
Skriv fejl på Github, men sørg for at følge problemskabelonen. Issues, der ikke er fejl eller ikke følger issueskabelonen, vil blive lukket uden inspektion.
Adopters
Firma | Logo | Industri | Brug af Gensim |
---|---|---|---|
RARE Technologies | ML & NLP-konsultation | Skaberne af Gensim – det er os! | |
Amazon | Handel | Dokumentlignelse. | |
National Institutes of Health | Sundhed | Behandling af tilskud og publikationer med word2vec. | |
Cisco Security | Sikkerhed | Sporing af svig i stor skala. | |
Mindseye | Jura | Sammenfald i juridiske dokumenter. | |
Kanal 4 | Media | Anbefalingsmotor. | |
Talentpair | HR | Kandidatmatchning i high-touch-rekruttering. | |
Juju | HR | Giver ikke-oplagte relaterede jobforslag. | |
Tailwind | Media | Poster interessant og relevant indhold på Pinterest. | |
Issuu | Media | Gensims LDA-modul ligger i selve kernen af den analyse, vi udfører på hver enkelt uploadet publikation for at finde ud af, hvad den handler om. | |
Søgemålinger | Indholdsmarkedsføring | Gensim word2vec anvendes til entydig disambiguering i forbindelse med søgemaskineoptimering. | |
12K Research | Media | Dokumentlignende analyse af medieartikler. | |
Stillwater Supercomputing | Hardware | Dokumentforståelse og -association med word2vec. | |
SiteGround | Webhosting | En ensemblesøgemaskine, der anvender forskellige indlejringsmodeller og ligheder, herunder word2vec, WMD og LDA. | |
Capital One | Finans | Temamodellering til udforskning af kundeklager. |
Citerer gensim
Når du citerer gensim i akademiske artikler og afhandlinger, skal du bruge denneBibTeX -post:
Leave a Reply