gender-guesser 0.4.0

https://travis-ci.org/lead-ratings/gender-guesser.svg?branch=master

Dieses Paket verwendet die zugrundeliegenden Daten aus dem Programm „gender“ von Jorg Michael (hier beschrieben). Seine Verwendung ist ziemlich einfach:

>>> import gender_guesser.detector as gender>>> d = gender.Detector()>>> print(d.get_gender(u"Bob"))male>>> print(d.get_gender(u"Sally"))female>>> print(d.get_gender(u"Pauley")) # should be androgynousandy

Das Ergebnis ist eines von unknown (Name nicht gefunden), andy (androgyn), male, female, mostly_male, oder mostly_female. Der Unterschied zwischen andy und unknown besteht darin, dass bei ersterem die Wahrscheinlichkeit, männlich zu sein, gleich groß ist wie die, weiblich zu sein, während letzteres bedeutet, dass der Name nicht in der Datenbank gefunden wurde.

I18N wird vollständig unterstützt:

>>> print(d.get_gender(u"\xc1lfr\xfan")) # u"Álfrún"female

Zusätzlich können Sie bestimmten Ländern den Vorzug geben:

>>> print(d.get_gender(u"Jamie"))mostly_female>>> print(d.get_gender(u"Jamie", u'great_britain'))mostly_male

Zusätzlich können Sie einen Detektor erstellen, der nicht zwischen Groß- und Kleinschreibung unterscheidet (standardmäßig wird zwischen Groß- und Kleinschreibung unterschieden):

>>> d = gender.Detector(case_sensitive=False)>>> print(d.get_gender(u"sally"))female>>> print(d.get_gender(u"Sally"))female

Versuchen Sie, die Erstellung vieler Detektoren zu vermeiden, da jede Erstellung das Lesen der Datendatei bedeutet.

Lizenzen

Der Generatorcode wird unter der GPLv3 verteilt. Die Datendatei nam_dict.txt ist unter der GNU Free Documentation License veröffentlicht.

Changelog

0.3.0 (2016-07-02)

  • Entfernen Sie die init-Option unknown_value, da sie bei Bedarf sehr einfach mit einem Wrapper implementiert werden kann.
  • Rückgabe von unknown, wenn der Name nicht gefunden wird, und andy, wenn er sowohl für männlich als auch für weiblich gültig ist.
  • Testen Sie README-Beispiele als Doctests.
  • Fixieren Sie die falsche länderspezifische Geschlechtserkennung für nicht-iso-886-15-Namen, die von der Änderung der Zeilenlänge nach der Konvertierung der Datendatei in UTF-8 herrührt. Siehe #gh2. Danke @miquelcamprodon.

0.2.0 (2015-12-06)

  • Wire in tox, um sowohl in Python 2 als auch Python 3 zu testen.
  • Python 2 und 3 Kompatibilität.
  • Entfernen von veraltetem Character Mapper Code.

Für frühere Versionen, siehe sexmachine.

Credits

Dies ist ein Fork des SexMachine Pakets von Ferhat Elmas. Es wurde erstellt, um eine Python 3 kompatible Version in PyPI veröffentlichen zu können und um weitere Verbesserungen hinzufügen zu können, ohne den Originalautor zu stören.

Leave a Reply