Articles / november 3, 2021

Computational Linguistics

Hangalapú webes szolgáltatások és asszisztensek

A hangalapú szolgáltatások, különösen a mobil eszközökön, gyorsan bővülő alkalmazási területet jelentenek. A szolgáltatások a szervezőprogramoktól (bevásárlólisták, találkozótervek, emlékeztetők, kapcsolati listák stb. elfelejtése), az autós “infotainment”-en át (útvonaltervezés, közlekedési feltételek, veszélyjelzések, iTunes kiválasztása, közeli éttermek és egyéb helyszínek keresése stb.), az egyéb különféle alkalmazások használatának lehetővé tételéig, mint például az e-mail diktálás, kapcsolatok tárcsázása, pénzügyi tranzakciók, foglalások és rendelések leadása, Wikipedia hozzáférés, help-desk szolgáltatások, egészségügyi tanácsadás és általános kérdések megválaszolása. E szolgáltatások némelyike (például a tárcsázás és az iTunes kiválasztása) a kéz nélküli vezérlés kategóriájába tartozik, és az ilyen vezérlések egyre fontosabbá válnak a közlekedésben (beleértve a vezető nélküli vagy pilóta nélküli járműveket), a logisztikában (erőforrások telepítése) és a gyártásban. A chatbottechnológia és a társas párbeszéd-ügynökök (a 10.5. szakaszban tárgyaltak szerint) általános háttérként szolgálnak a specifikusabb hangalapú szolgáltatásokhoz.

Az ilyen szolgáltatások kulcsfontosságú technológiája természetesen a beszédfelismerés, amelynek pontossága és alkalmazkodóképessége fokozatosan növekszik. A legolcsóbb, szűken célzott rendszerek (pl. egyszerű szervezők) a felhasználói bemenetekkel kapcsolatos erős elvárásokat használják ki a bemenetek felismerésére, értelmezésére és az azokra való reagálásra; mint ilyenek, menüvezérelt rendszerekhez hasonlítanak. A sokoldalúbb rendszerek, mint például az útvonaltervezésre, zenei kérésekre, szórakozóhelyek keresésére stb. képes cartalkerek, fejlettebb párbeszédkezelő képességekre támaszkodnak. Ezek lehetővé teszik a témaváltást és potenciálisan a felhasználó figyelmi állapotának figyelembevételét (pl. a járművezető kérdésére adott válasz késleltetése, ha a járművezetőnek egy kanyarral kell foglalkoznia). A legnagyobb “felhajtás” jelenleg a fejlett hangalapú asszisztenseket övezi, nevezetesen az iPhone Siri-t (amelyet az Android Iris, a True Knowledge Evi, a Google Now és mások követnek). Míg a korábbi hangvezérlő és diktáló rendszerek, mint például az androidos Vlingo, számos azonos funkcióval rendelkeztek, a Siri személyiséget és jobb párbeszédkezelést és szolgáltatásintegrációt biztosít – a felhasználók úgy érzik, hogy nem egy alkalmazással, hanem egy élénk szintetikus karakterrel lépnek kapcsolatba. A NuanceSR technológiája mellett a Siri olyan komplex technikákat is tartalmaz, amelyeket az SRI International és több egyetem által 2003-2008 között végzett Calo (Cognitive Assistantthat Learns and Organizes) projekt (Ambite et al. 2006;CALO ) bizonyos mértékig előremozdított. Ezek a technikák magukban foglalják az NLU, az ML, a célzott és bizonytalan következtetés, az ontológiák, a tervezés és a szolgáltatások delegálása aspektusait. De bár a webes szolgáltatásokra való delegálás, beleértve a Wolfram|Alpha QA-t vagy a chatbot-technológiát, jelentős robusztusságot biztosít, és jelentős érvelés folyik a menetrendekkel, a beszerzéssel és más célzott szolgáltatásokkal kapcsolatban, az általános megértés még mindig nagyon sekélyes, amint azt a felhasználók is felfedezik. Súlyos félreértésekre vonatkozó anekdotikus példák: “Hívjon mentőnek”, amire a “Mostantól kezdve “mentőnek” fogom hívni” válasz érkezik. Azonban az erős érdeklődés és igény a felhasználói közösségben, amelyet ezek a korai (némileg) intelligens, meglehetősen sokoldalú asszisztensek generáltak, valószínűleg fokozza és felgyorsítja a kutatást az egyre életszerűbb, egyre több megértéssel és józan ésszel rendelkező virtuális asszisztensek irányába.

10.8 Együttműködő problémamegoldók és intelligens oktatók

Az együttműködő problémamegoldó rendszereket (más néven “vegyes kezdeményezésű” vagy “feladat-orientált” párbeszédrendszerek) és az oktatói párbeszédrendszereket (pl.: a párbeszédes rendszerek) tárgyaljuk, oktatórendszerek, amelyekben a párbeszéd központi szerepet játszik) közös címszó alatt, mivel mindkettő a célterület meglehetősen mély reprezentációitól vagy modelljeitől függ, valamint a felhasználók mentális állapotától, akikkel együttműködnek.

Meg kell azonban jegyeznünk, hogy az együttműködő problémamegoldó rendszerek általában sokkal kevésbé kiszámítható területi helyzetekkel és felhasználói bemenetekkel foglalkoznak, mint az oktatórendszerek, és ennek megfelelően az előbbiek sokkal nagyobb hangsúlyt fektetnek a rugalmas párbeszédkezelésre, mint az utóbbiak. Például a vészhelyzeti evakuálásban együttműködőknek (Fergusonand Allen 1998, 2007) egy dinamikusan változó tartományt kell kezelniük, ugyanakkor a párbeszéd számos állapotát kell kezelniük, amelyek a résztvevők közös és privát meggyőződéseitől, céljaitól, terveitől és szándékaitól függően bármely adott időpontban előfordulhatnak. Ezzel szemben egy olyan területen, mint a fizikaoktatás (pl, Jordan et al. 2006; Litman andSilliman 2004), a tanulót a tanulási célok hálózatán keresztül lehet vezetni szerzői utasításokkal, és e céloknak megfelelően véges állapotú párbeszédmodelleket lehet tervezni, amelyek a párbeszéd minden egyes pontján osztályozzák a tanulók bemeneteit, és olyan előkészített választ generálnak, amely valószínűleg megfelel az adott bemenetnek.

Nem meglepő tehát, hogy az oktatói párbeszédrendszerek közelebb állnak a kereskedelmi gyakorlathoz, és különböző értékelések során a hagyományos oktatáshoz képest bizonyított tanulási előnyökkel rendelkeznek, mint a reális alkalmazásokhoz használt kollaboratív problémamegoldó rendszerek.Oktatói párbeszédrendszerek számos területre és potenciális ügyfélkörre készültek, a K-12 tantárgyaktól kezdve a számítógépes műveltségen és a kezdő programozáson át a minőségi és mennyiségi fizikáig, az áramkörelemzésig, a gépek működtetéséig, a szív- és érrendszeri élettanig, a hajókon a tüzelési károk ellenőrzéséig, a tárgyalási készségekig stb, lásd Boyeret al. 2009; Pon-Barry et al. 2006). A legsikeresebb oktatórendszerek közé tartoznak az olvasástanítók (pl. Mostow és Beck 2007; Coleet al. 2007), mivel ebben az esetben a tanulónak bemutatott anyagokat (“scaffolded” módon) viszonylag egyszerű megtervezni, és a tanuló válaszai – különösen, ha azok elsősorban a bemutatott szöveg hangos olvasásából állnak – viszonylag könnyen értékelhetők. Az olvasásértés elősegítésének ambiciózusabb célja esetében a központi probléma a párbeszédek olyan kialakítása, hogy a tanuló hozzájárulása kiszámítható legyen, ugyanakkor az interakció oktatási szempontból is hatékony legyen (pl. Aist és Mostow 2009).

Egyes, különösen a gyermekeknek szánt oktatórendszerek animált karaktereket használnak a tanuló elkötelezettségének fokozására. Az ilyen fejlesztések valójában alapvető fontosságúak az olyan fogyatékossággal élő tanulóknak szánt rendszerek esetében, mint a siketség (ahol a virtuális ágensnek a tanuló által megfigyelt száj- és nyelvmozgásai segíthetnek az artikulációban), az autizmus vagy az afázia (Massaro et al. 2012; Cole etal. 2007). Továbbá, ha a korrepetálás célja kifejezetten az interperszonális készségek oktatása, az életszerű karakterek (virtuális emberek) megvalósítása a rendszerfejlesztés nélkülözhetetlen részévé válik (pl. Coreet al. 2006; Campbell et al. 2011).

A felhasználó lelkiállapotának modellezése a korrepetáló rendszerekben elsősorban annak meghatározását jelenti, hogy a felhasználó a megcélzott fogalmak és készségek közül melyeket sajátította el, illetve még nem sajátította el, és az eddigi ülésleírás alapján diagnosztizálja a valószínűleg előforduló félreértéseket. Egyes legújabb kísérleti rendszerek a stratégiáikat a felhasználó nyilvánvaló hangulatához is képesek igazítani, mint például a frusztráció vagy a rosszkedv, amit a felhasználó bemenetei, hangszíne, vagy akár az arckifejezés vagy a számítógépes látás segítségével elemzett gesztusok is elárulhatnak. Más prototípus rendszerek úgy tekinthetők, mint amelyek általánosabb mentális modellezésre törekszenek, a feladatorientált párbeszédrendszerekből származó, a párbeszédállapotokra, a párbeszédaktusokra és a mélyebb nyelvi megértésre vonatkozó ötletek és technikák beépítésével (pl, Callaway et al. 2007).

A feladatorientált párbeszédrendszerekben, mint már említettük, a párbeszédmodellezés sokkal nagyobb kihívást jelent, mivel az ilyen rendszerektől nem csak azt várják el, hogy hozzájáruljanak az adott szakterület problémájának megoldásához, hanem azt is, hogy megértsék a felhasználó megnyilatkozásait, meggyőződéseit és szándékait, és megállják a helyüket egy emberhez hasonló, vegyes kezdeményezésű párbeszédben. Ehhez területmodellekre, általános inkrementális kollaboratív tervezési módszerekre, a racionális kommunikációs interakciót modellező párbeszédkezelésre és a választott területen belüli alapos nyelvi megértésre (különösen a szándékok felismerésére) van szükség. Prototípus rendszereket már sikeresen építettek olyan területeken, mint az útvonaltervezés, a légi utazás tervezése, a járművezetők és gyalogosok irányítása, külső eszközök vezérlése és működtetése, vészhelyzeti evakuálás és gyógyszeres tanácsadás (pl., Allen et al. 2006;Rich és Sidner 1998; Bühler és Minker 2011; Ferguson és Allen1998, 2007), és ezek igen jelentős gyakorlati ígéretet hordoznak magukban.Azonban olyan rendszerek, amelyek számos ésszerűen összetett problémával képesek megbirkózni, különösen azokkal, amelyek az emberi megismerésről és viselkedésről széleskörű általános ismereteket igényelnek, egyelőre még elérhetetlennek tűnnek.

10.9 Nyelvi képességekkel rendelkező robotok

Amint azt a 10. szakasz elején említettük, a robotokat kezdik felszerelni webes szolgáltatásokkal, kérdésválaszolási képességekkel, chatbottechnikákkal (a visszaesés és a szórakoztatás érdekében), oktató funkciókkal és így tovább. Az ilyen technológiák robotokra történő átvitele lassú volt, elsősorban azért, mert nagyon nehéz kihívást jelent egy robot felszerelése az alapvető vizuális érzékeléshez, beszédfelismeréshez, felfedező és célzott navigációhoz (mobil robotok esetében), valamint a tárgyak manipulálásához szükséges hardverrel és szoftverrel.Az intelligens robotok iránti élénk közérdeklődés és hatalmas gazdasági potenciáljuk (háztartási segítség, idősgondozás, orvostudomány, oktatás, szórakoztatás, mezőgazdaság, ipar, keresés és mentés, katonai missziók, űrkutatás stb.) azonban minden bizonnyal továbbra is ösztönözni fogja a nagyobb robotintelligencia és nyelvi kompetencia felé való törekvést.

Az ember-robot párbeszéd jelenlegi állásáról és nehézségeiről a (Scheutz etal. 2011) tanulmányból kaphatunk jó képet. Az ott bemutatott, dobozokkal és blokkokkal kapcsolatos párbeszédpéldák némelyike Winograd shrdlu-jára emlékeztet, de a valós interakcióval járó kihívásokat is megmutatja, mint például a robot mozgása közben változó tájkép, a beszédfelismerési hibák, a folyékony és összetett, több mondatból álló mondatok, a perspektívától függő kijelentések (“A piros doboz a kék doboz bal oldalán van?”) és a deixis (“Menj le oda”). Ráadásul mindezt integrálni kell a tervezett fizikai cselekvéssel, hogy a robot által megértett utasításokat teljesítse. Bár a legújabb robotok bizonyos fokig képesek kezelni ezeket a nehézségeket, számos nyitott probléma maradt, mint például a beszédfelismerés problémái zaj jelenlétében, jobb, szélesebb körű nyelvi lefedettség, elemzés és párbeszédkezelés, új problémákhoz való alkalmazkodás, a beszélgetőpartner és a környezet többi emberének mentális modellezése, valamint nagyobb általános tudás a világról és annak felhasználhatósága következtetésekhez és tervezéshez (mind a tartomány, mind a párbeszéd szintjén).

Míg a feladatorientált robotpárbeszédek mindezeket a kihívásokat magukban foglalják, meg kell jegyeznünk, hogy néhány potenciálisan hasznos interakció a “beszélő” robotokkal kevés nyelvi készséget igényel. Például a(Movellan et al. 2009) által leírt Rubi robot a képernyővel felszerelt “mellkasán” tárgyakat mutatott a kisgyermekeknek, arra kérve őket, hogy érintsék meg és nevezzék meg a tárgyakat. Ez az interakció egyszerűsége ellenére jobb szótanulást eredményezett a kisgyermekeknél. Egy másik példa egy nagyon sikeres, valódi nyelvi készségekkel nem rendelkező beszélő robotra a “múzeumi idegenvezető” Rhino (Burgard et al. 1999) volt. A Rubival ellentétben képes volt navigálni a kiszámíthatatlanul mozgó emberek között, és előre felvett üzeneteivel, valamint az aktuális célok képernyőn való megjelenítésével tartotta a közönség figyelmét. Ugyanígy számos humanoid robot (például a Honda Asimo), amelyet a múltban és jelenleg is fejlesztenek világszerte, még mindig nagyon kevés nyelvet ért, és többnyire scriptelt kimenetre támaszkodik. Kétségtelen, hogy hasznosságuk és vonzerejük tovább fog nőni a fent említett technológiáknak köszönhetően – játékok, társas ügynökrendszerek, hangalapú alkalmazások, oktatók és így tovább; és ezek a fejlesztések az érzékelés, a mozgás, a manipuláció és az értelmes párbeszéd mélyebb aspektusai terén is előrelépést fognak eredményezni.

Universe

Computational Linguistics

Hangalapú webes szolgáltatások és asszisztensek

10.8 Együttműködő problémamegoldók és intelligens oktatók

10.9 Nyelvi képességekkel rendelkező robotok

Leave a Reply Cancel