gender-guesser 0.4.0

https://travis-ci.org/lead-ratings/gender-guesser.svg?branch=master

Ce paquet utilise les données sous-jacentes du programme « gender » de Jorg Michael (décrit ici). Son utilisation est assez simple :

>>> import gender_guesser.detector as gender>>> d = gender.Detector()>>> print(d.get_gender(u"Bob"))male>>> print(d.get_gender(u"Sally"))female>>> print(d.get_gender(u"Pauley")) # should be androgynousandy

Le résultat sera l’un des suivants : unknown (nom non trouvé), andy (androgyne), male, female, mostly_male, ou mostly_female. La différence entre andy et unknown est que le premier se révèle avoir la même probabilité d’être un homme que d’être une femme, tandis que le second signifie que le nom n’a pas été trouvé dans la base de données.

L’I18N est entièrement pris en charge :

>>> print(d.get_gender(u"\xc1lfr\xfan")) # u"Álfrún"female

En outre, vous pouvez donner la préférence à des pays spécifiques :

>>> print(d.get_gender(u"Jamie"))mostly_female>>> print(d.get_gender(u"Jamie", u'great_britain'))mostly_male

En outre, vous pouvez créer un détecteur qui n’est pas sensible à la casse (par défaut, il est sensible à la casse) :

>>> d = gender.Detector(case_sensitive=False)>>> print(d.get_gender(u"sally"))female>>> print(d.get_gender(u"Sally"))female

Tentez d’éviter de créer de nombreux détecteurs, car chaque création signifie la lecture du fichier de données.

Licences

Le code du générateur est distribué sous la GPLv3. Le fichier de données nam_dict.txt est distribué sous la licence de documentation libre GNU.

Changelog

0.3.0 (2016-07-02)

  • Supprimer l’option d’init unknown_value, car elle peut être implémentée très facilement avec un wrapper si nécessaire.
  • Retourner unknown lorsque le nom n’est pas trouvé et andy lorsqu’il est valide de manière égale pour un homme et une femme.
  • Tester les exemples du README en tant que doctests.
  • Corriger la détection incorrecte du genre par pays pour les noms non-iso886-15 provenant du changement de longueur de ligne après la conversion du fichier de données en UTF-8. Voir #gh2. Merci @miquelcamprodon.

0.2.0 (2015-12-06)

  • Tirer dans tox pour tester à la fois dans Python 2 et Python 3.
  • Compatibilité Python 2 et 3.
  • Suppression du code obsolète du mappeur de caractères.

Pour les versions précédentes, voir sexmachine.

Crédits

Ceci est un fork du paquet SexMachine de Ferhat Elmas. Il a été créé pour pouvoir publier une version compatible Python 3 sur PyPI et pour pouvoir ajouter quelques améliorations supplémentaires sans boguer l’auteur original.

Leave a Reply