Grid Search for model tuning
A modell hiperparamétere egy modell olyan jellemzője, amely a modellen kívül esik, és amelynek értéke nem becsülhető az adatokból. A hiperparaméter értékét a tanulási folyamat megkezdése előtt kell beállítani. Például c a támogató vektoros gépeknél, k a k-közelebbi szomszédoknál, a rejtett rétegek száma a neurális hálózatoknál.
A paraméter ezzel szemben a modell belső jellemzője, amelynek értéke az adatokból becsülhető. Példa: béta együtthatók a lineáris/logisztikus regresszióban vagy support vektorok a Support Vector Machines-ben.
A grid-keresést arra használják, hogy megtalálják a modell optimális hiperparamétereit, amelyek a leg “pontosabb” előrejelzéseket eredményezik.
Nézzük meg a grid-keresést egy osztályozási modell létrehozásával a mellrák adathalmazon.
Importáljuk az adathalmazt, és nézzük meg a felső 10 sort.
Kimenet :
Az adathalmaz minden sorának két lehetséges osztálya van: jóindulatú (2 által reprezentálva) és rosszindulatú (4 által reprezentálva). Emellett ebben az adatkészletben 10 attribútum van (a fentiekben látható), amelyeket a predikcióhoz használunk, kivéve a minta kódszámát, amely az azonosítószám.
Tisztítsuk meg az adatokat, és nevezzük át az osztályértékeket 0/1-re a modellépítéshez (ahol az 1 a rosszindulatú esetet jelenti). Továbbá figyeljük meg az osztály eloszlását.
Kimenet :
A jóindulatú esetek száma 444, a rosszindulatúaké 239.
Kimenet :
A kimenetből megállapítható, hogy a tesztadathalmazban 68 malignus és 103 jóindulatú eset van. Az osztályozónk azonban minden esetet jóindulatúnak jósol (mivel ez a többségi osztály).
Számítsuk ki a modell értékelési metrikáit.
Kimenet :
A modell pontossága 60.2%, de ez egy olyan eset, amikor a pontosság nem feltétlenül a legjobb mérőszám a modell értékelésére. Nézzük tehát a többi értékelési metrikát.
A fenti ábra a konfúziós mátrix, a jobb érzékelhetőség érdekében címkékkel és színekkel kiegészítve (A létrehozásához szükséges kód itt található). Összefoglalva a zavarmátrixot : IGAZ POZITÍVOK (TP)= 0, IGAZ NEGATÍVOK (TN)= 103, HAMIS POZITÍVOK (FP)= 0, HAMIS NEGATÍVOK (FN)= 68. Az értékelési metrikák képletei a következők :
Mivel a modell egyetlen rosszindulatú esetet sem osztályoz helyesen, a recall és precision metrikák értéke 0.
Most, hogy megvan az alappontosság, építsünk egy logisztikus regressziós modellt alapértelmezett paraméterekkel, és értékeljük ki a modellt.
Kimenet :
A Logisztikus regressziós modell alapértelmezett paraméterekkel történő illesztésével egy sokkal “jobb” modellt kapunk. A pontosság 94,7%, ugyanakkor a Precizitás elképesztő 98,3%. Most pedig nézzük meg újra a zavarmátrixot ennek a modellnek az eredményeihez ismét :
A tévesen besorolt eseteket tekintve megfigyelhetjük, hogy 8 rosszindulatú esetet tévesen jóindulatúnak minősítettek (hamis negatívok). Emellett mindössze egy jóindulatú esetet minősítettek rosszindulatúnak (Hamis pozitív).
A hamis negatív eset súlyosabb, mivel figyelmen kívül hagytak egy betegséget, ami a beteg halálához vezethet. Ugyanakkor egy téves pozitív eredmény felesleges kezeléshez vezetne – ami további költségekkel jár.
Próbáljuk meg minimalizálni a téves negatívokat a Grid Search segítségével, hogy megtaláljuk az optimális paramétereket. A rácskeresés bármely konkrét értékelési metrika javítására használható.
A metrika, amelyre a hamis negatív eredmények csökkentése érdekében összpontosítanunk kell, a Recall.
Rácsos keresés a Recall maximalizálására
Kimenet :
A hangolt hiperparaméterek a következők:
- Büntetés: l1 vagy l2, amely a büntetésnél használt norma fajtája.
- C: A regularizáció erősségének inverze – a C kisebb értékei erősebb regularizációt adnak meg.
A Grid-search függvényben van még a scoring paraméter, ahol megadhatjuk, hogy milyen metrika alapján értékeljük a modellt (mi a recall-t választottuk metrikának). Az alábbi zavarmátrixból láthatjuk, hogy a hamis negatív eredmények száma csökkent, ez azonban a hamis pozitív eredmények növekedésének árán történt. A visszahívás a rácsos keresés után 88,2%-ról 91,1%-ra ugrott, míg a pontosság 98,3%-ról 87,3%-ra csökkent.
Az “f1” pontszámot használva értékelési metrikaként tovább hangolhatja a modellt, hogy egyensúlyt találjon a pontosság és a visszahívás között. Az értékelési metrikák jobb megértéséhez tekintse meg ezt a cikket.
A rácsos keresés a megadott hiperparaméterek minden egyes kombinációjára felépít egy modellt, és minden modellt kiértékel. A hiperparaméterek hangolásának hatékonyabb technikája a véletlenszerű keresés – ahol a hiperparaméterek véletlenszerű kombinációit használjuk a legjobb megoldás megtalálásához.
Leave a Reply