gender-guesser 0.4.0

https://travis-ci.org/lead-ratings/gender-guesser.svg?branch=master

Acest pachet utilizează datele care stau la baza programului „gender” al lui Jorg Michael (descris aici). Utilizarea sa este destul de simplă:

>>> import gender_guesser.detector as gender>>> d = gender.Detector()>>> print(d.get_gender(u"Bob"))male>>> print(d.get_gender(u"Sally"))female>>> print(d.get_gender(u"Pauley")) # should be androgynousandy

Rezultatul va fi unul dintre următoarele: unknown (nume nedescoperit), andy (androgin), male, female, mostly_male, sau mostly_female. Diferența dintre andy și unknown constă în faptul că pentru primul se constată că are aceeași probabilitate de a fi bărbat decât de a fi femeie, în timp ce cel din urmă înseamnă că numele nu a fost găsit în baza de date.

I18N este pe deplin suportat:

>>> print(d.get_gender(u"\xc1lfr\xfan")) # u"Álfrún"female

În mod suplimentar, puteți da preferință anumitor țări:

>>> print(d.get_gender(u"Jamie"))mostly_female>>> print(d.get_gender(u"Jamie", u'great_britain'))mostly_male

În mod suplimentar, puteți crea un detector care nu este sensibil la majuscule și minuscule (implicit este să fie sensibil la majuscule):

>>> d = gender.Detector(case_sensitive=False)>>> print(d.get_gender(u"sally"))female>>> print(d.get_gender(u"Sally"))female

Încercați să evitați să creați mulți detectori, deoarece fiecare creare înseamnă citirea fișierului de date.

Licențe

Codul generatorului este distribuit sub licența GPLv3. Fișierul de date nam_dict.txt este distribuit sub licența GNU Free Documentation License.

Changelog

0.3.0 (2016-07-02)

  • Îndepărtați opțiunea de init unknown_value, deoarece poate fi implementată foarte ușor cu un wrapper, dacă este necesar.
  • Întoarceți unknown atunci când numele nu este găsit și andy atunci când este valabil în mod egal atât pentru bărbat, cât și pentru femeie.
  • Testați exemplele README ca doctests.
  • Reparați detectarea incorectă a sexului în funcție de țară pentru nume non-iso886-15 provenind din schimbarea lungimii liniei după conversia fișierului de date în UTF-8. A se vedea #gh2. Mulțumiri @miquelcamprodon.

0.2.0 (2015-12-06)

  • Firează în tox pentru a testa atât în Python 2 cât și în Python 3.
  • Compatibilitate Python 2 și 3.
  • Îndepărtați codul învechit al mapatorului de caractere.

Pentru versiunile anterioare, vezi sexmachine.

Credite

Aceasta este o bifurcație a pachetului SexMachine de Ferhat Elmas. A fost creat pentru a putea publica o versiune compatibilă cu Python 3 în PyPI și pentru a putea adăuga mai multe îmbunătățiri fără a-l deranja pe autorul original.

.

Leave a Reply