Computational Linguistics

Voice-based web services and assistants

Voice-based services, especially on mobile devices, are a rapidlyexpanding applications area. Palvelut vaihtelevat organisaattoreista (ostoslistojen, kokousaikataulujen, muistutusten, yhteystietoluetteloiden jne. unohtaminen) autojen ”infotainment”-palveluihin (reititys, liikenneolosuhteet, vaaravaroitukset, iTunesin valinta, lähellä sijaitsevien ravintoloiden ja muiden paikkojen löytäminen jne.) ja muiden erilaisten sovellusten, kuten sähköpostin sanelun, yhteystietojen soittamisen, finanssitapahtumien tekemisen, pöytävarausten tekemisen, tilausten tekemisen ja välittämisen, Wikipedian käyttömahdollisuuden lisäämisen, neuvontapalveluiden käyttämisen mahdollistamiseen, terveysneuvontaan antamien neuvojen antamiseen ja yleisten kysymysten esittämiseen. Jotkin näistä palveluista (kuten soittaminen ja iTunesin valinta) kuuluvat kädet vapaana -ohjauksen luokkaan, ja tällaiset ohjaukset ovat yhä tärkeämpiä liikenteessä (mukaan lukien kuljettajattomat tai ohjaamattomat ajoneuvot), logistiikassa (resurssien käyttöönotto) ja teollisuudessa. Myös chat-teknologia ja kumppanin kanssa käytävät dialogiagentit (joita käsitellään kohdassa 10.5) toimivat yleisinä taustapalveluina erityisemmille puheeseen perustuville palveluille.

Tärkein teknologia näissä palveluissa on luonnollisesti puheentunnistus, jonka tarkkuus ja mukautuvuus on vähitellen lisääntynyt. Edullisimmissa, kapea-alaisesti kohdennetuissa järjestelmissä (esim. yksinkertaiset järjestäjät) hyödynnetään vahvoja odotuksia käyttäjän syötteistä niiden tunnistamiseksi, tulkitsemiseksi ja niihin vastaamiseksi; sellaisinaan ne muistuttavat valikko-ohjattuja järjestelmiä. Monipuolisemmat järjestelmät, kuten cartalkerit, jotka pystyvät käsittelemään reititystä, musiikkipyyntöjä, tapahtumapaikkojen etsimistä jne., perustuvat kehittyneempiin dialoginhallintakykyihin. Nämä mahdollistavat aiheen vaihtamisen ja mahdollisesti käyttäjän tarkkaavaisuustilan huomioon ottamisen (esim. kuljettajan kysymykseen vastaamisen lykkääminen, jos kuljettajan on valmistauduttava kääntymään). Tällä hetkellä suurin kohu liittyy kehittyneisiin äänipohjaisiin avustajiin, erityisesti iPhonen Siriin (jonka jälkeen tulevat Androidin Iris, True Knowledge’n Evi, Google Now ja muut). Aiemmat ääniohjaus- ja sanelujärjestelmät, kuten Androidin Vlingo, sisälsivät monia samoja toimintoja, mutta Siri lisää persoonallisuutta ja parantaa vuoropuhelun käsittelyä ja palveluintegraatiota – käyttäjät tuntevat olevansa vuorovaikutuksessa elävän synteettisen hahmon eikä sovelluksen kanssa. NuanceSR-teknologian lisäksi Siri sisältää monimutkaisia tekniikoita, joita SRI Internationalin ja useiden yliopistojen vuosina 2003-2008 toteuttamassa Calo-hankkeessa (Cognitive Assistant that Learns and Organizes) edistettiin jossain määrin (Ambite et al. 2006; CALO ). Näihin tekniikoihin kuuluvat NLU:n, ML:n, tavoitteellisen ja epävarman päättelyn, ontologioiden, suunnittelun ja palvelujen delegoinnin osa-alueet. Vaikka delegointi verkkopalveluihin, kuten Wolfram|Alpha QA:han tai chatbot-tekniikkaan, tarjoaa huomattavaa kestävyyttä, ja aikatauluja, hankintoja ja muita kohdennettuja palveluita koskeva päättely on merkittävää, yleinen ymmärrys on edelleen hyvin pinnallista, kuten käyttäjät huomaavat. Esimerkkejä vakavista väärinkäsityksistä ovat ”Soita minulle ambulanssi”, joka saa vastauksen ”Tästä lähtien kutsun sinua ’ambulanssiksi'”. Näiden ensimmäisten (jokseenkin) älykkäiden ja varsin monipuolisten avustajien aiheuttama vahva kiinnostus ja kysyntä käyttäjäyhteisössä on kuitenkin omiaan tehostamaan ja kiihdyttämään tutkimusta, joka tähtää yhä elävämpiin virtuaaliavustajiin, joilla on yhä enemmän ymmärrystä ja maalaisjärkeä.

10.8 Yhteistoiminnalliset ongelmanratkaisijat ja älykkäät ohjaajat

Keskustelemme yhteistoiminnallisista ongelmanratkaisujärjestelmistä (joita kutsutaan myös ”seka-aloitteisiksi” tai ”tehtäväkeskeisiksi” vuoropuhelujärjestelmiksi”) ja ohjauksellisista vuorovaikutusjärjestelmistä, jotka voivat olla myös ”älykkäitä ja älykkäitä”, joissa vuoropuhelulla on keskeinen rooli) yhteisen otsikon alla, koska molemmat ovat riippuvaisia melko syvällisistä esityksistä tai malleista alueista, joihin ne on suunnattu, sekä niiden käyttäjien henkisestä tilasta, joiden kanssa ne ovat vuorovaikutuksessa.

Heti on kuitenkin huomattava, että yhteistoiminnalliset ongelmanratkaisujärjestelmät käsittelevät tyypillisesti paljon vähemmän ennakoitavissa olevia alueellisia tilanteita ja käyttäjien syötteitä kuin opetusjärjestelmät, ja näin ollen edellisissä painotetaan paljon enemmän joustavaa vuoropuhelun käsittelyä kuin jälkimmäisissä. Esimerkiksi hätäevakuoinnissa (Fergusonand Allen 1998, 2007) yhteistyökumppaneiden on käsiteltävä dynaamisesti muuttuvaa aluetta ja samalla käsiteltävä monia dialogitiloja, joita voi esiintyä riippuen osallistujien jaetuista ja yksityisistä uskomuksista, tavoitteista, suunnitelmista ja aikomuksista kussakin vaiheessa. Sen sijaan fysiikan opetuksen kaltaisella alalla (esim, Jordan et al. 2006; Litman ja Silliman 2004) oppijaa voidaan ohjata oppimistavoitteiden verkoston läpi kirjoitettujen ohjeiden avulla, ja näitä tavoitteita vastaavia äärellisten tilojen dialogimalleja voidaan suunnitella siten, että ne luokittelevat oppilaan syötteet jokaisessa dialogin vaiheessa ja tuottavat valmiit vastaukset, jotka todennäköisesti sopivat kyseiseen syötteeseen.

Ei siis ole yllättävää, että opetusdialogijärjestelmät ovat lähempänä kaupallista käytännöllisyyttä, ja niiden oppimishyötyjä perinteiseen opetukseen verrattuna on osoitettu useissa arvioinneissa, kuin yhteistoiminnalliset ongelmanratkaisujärjestelmät realistisia sovelluksia varten.Opetusdialogijärjestelmiä on rakennettu lukuisille aloille ja potentiaalisille asiakaskunnille, jotka vaihtelevat kouluopetuksesta 12. luokan oppiaineisiin, tietokoneen lukutaitoon ja aloittelevien ohjelmointitaitoihin, kvalitatiiviseen ja kvantitatiiviseen fysiikkaan, virtapiirien analyysiin, koneiden käyttämiseen, kardiovaskulaarisiin fysiologisiin opetustapahtumiin, laivoissa tapahtuvien tulipalon aiheuttamien vahinkojen hallintaan, neuvottelutaitoihin ja moniin muihin aloihin, kuten esimerkiksi, ks. Boyeret al. 2009; Pon-Barry et al. 2006). Menestyksekkäimpiä opetusjärjestelmiä ovat lukututoriaalit (esim. Mostow ja Beck 2007; Coleet al. 2007), koska tässä tapauksessa oppijalle esitetyt materiaalit ovat suhteellisen yksinkertaisia suunnitella, ja oppijan reaktiot, varsinkin jos ne koostuvat pääasiassa esitetyn tekstin ääneen lukemisesta, ovat suhteellisen helppoja arvioida. Kun tavoitteena on kunnianhimoisempi lukemisen ymmärtämisen edistäminen, keskeisenä ongelmana on suunnitella dialogit siten, että oppijan panos on ennakoitavissa ja että vuorovaikutus on samalla opetuksellisesti tehokasta (esim. Aist ja Mostow 2009).

Joissakin, erityisesti lapsille suunnatuissa opetusjärjestelmissä käytetään animaatiohahmoja lisäämään oppijan sitoutumisen tunnetta. Tällaiset parannukset ovat itse asiassa olennaisia järjestelmissä, jotka on suunnattu oppijoille, joilla on vammoja, kuten kuurous (jolloin oppijan havainnoimat virtuaalisen agentin suun ja kielen liikkeet voivat auttaa artikulaatiossa), autismi tai afasia (Massaro et al. 2012; Cole etal. 2007). Jos tutorointi tähtää erityisesti ihmissuhdetaitojen harjoitteluun, elämänkaltaisten hahmojen (virtuaali-ihmisten) käyttöönotosta tulee välttämätön osa järjestelmäkehitystä (esim. Coreet al. 2006; Campbell et al. 2011).

Käyttäjän mielentilan mallintaminen tutorointijärjestelmissä on ensisijaisesti sen määrittelemistä, mitkä tavoiteltavista käsitteistä ja taidoista käyttäjä on jo hankkinut tai ei ole vielä hankkinut, ja tähänastisen istuntojakson käsikirjoitustiedon perusteella todennäköisten väärien käsitysten diagnosoimista. Jotkin viimeaikaiset kokeelliset järjestelmät voivat myös mukauttaa strategioitaan käyttäjän ilmeiseen mielialaan, kuten turhautuneisuuteen tai pahoinvointiin, joka voi ilmetä käyttäjän syötteistä, äänensävystä tai jopa kasvojen ilmeistä tai eleistä, jotka analysoidaan tietokonenäön avulla. Muiden prototyyppijärjestelmien voidaan katsoa pyrkivän yleisempään mentaaliseen mallintamiseen sisällyttämällä tehtäväkeskeisistä dialogijärjestelmistä saatuja ideoita ja tekniikoita, jotka koskevat dialogitiloja, dialogitoimintoja ja syvempää kielen ymmärtämistä (esim, Callaway et al. 2007).

Tehtäväsuuntautuneissa dialogijärjestelmissä, kuten jo todettiin, dialogin mallintaminen on paljon haastavampaa, koska tällaisten järjestelmien ei odoteta ainoastaan edistävän käsillä olevan toimialan ongelman ratkaisemista, vaan myös ymmärtävän käyttäjän lausumia, uskomuksia ja aikomuksia sekä pitävän puoliaan ihmisen kaltaisessa, sekamuotoisessa dialogissa. Tämä edellyttää toimialamalleja, yleisiä inkrementaalisia yhteissuunnittelumenetelmiä, rationaalista kommunikatiivista vuorovaikutusta mallintavaa vuoropuhelun hallintaa ja perusteellista kielen ymmärtämistä (erityisesti aikomusten tunnistamista) valitulla toimialalla. Prototyyppijärjestelmiä on rakennettu menestyksekkäästi sellaisille aloille kuin reittisuunnittelu, lentomatkojen suunnittelu, kuljettajien ja jalankulkijoiden opastus, ulkoisten laitteiden ohjaus ja käyttö, hätäevakuointi ja lääkeneuvonta (esim, Allen ym. 2006; Rich ja Sidner 1998; Bühler ja Minker 2011; Ferguson ja Allen1998, 2007), ja ne ovat käytännössä erittäin lupaavia.Järjestelmät, jotka pystyvät käsittelemään useita kohtuullisen monimutkaisia ongelmia, erityisesti sellaisia, jotka edellyttävät laajaa yleistä tietämystä ihmisen kognitiosta ja käyttäytymisestä, vaikuttavat kuitenkin vielä tällä hetkellä saavuttamattomilta.

10.9 Kielitaitoiset robotit

Kuten luvun 10 alussa todettiin, robotteja aletaan varustaa verkkopalveluilla, kysymysten vastauskyvyillä, chattitekniikoilla (varautumista ja viihdyttämistä varten), opastustoiminnoilla ja niin edelleen. Tällaisten tekniikoiden siirtäminen robotteihin on ollut hidasta ennen kaikkea siksi, että robotin varustaminen laitteistolla ja ohjelmistolla, joita tarvitaan perusnäön havaitsemiseen, puheentunnistukseen, tutkimusmatkailuun ja päämääräsuuntautuneeseen navigointiin (liikkuvien robottien tapauksessa) sekä esineiden manipulointiin, on hyvin vaikeaa.Yleisön kiinnostus älykkäitä robotteja kohtaan ja niiden valtava taloudellinen potentiaali (kotitalousapuna, vanhustenhoidossa, lääketieteessä, koulutuksessa, viihteessä, maataloudessa, teollisuudessa, etsintä- ja pelastusoperaatioissa, sotilastehtävissä, avaruustutkimuksessa ja niin edelleen) antavat kuitenkin varmasti jatkossakin pontta pyrkimykselle lisätä robottien älykkyyttä ja kielitaitoa.

Hyvän käsityksen ihmisen ja robotin välisen vuoropuhelun nykytilasta ja vaikeuksista saa kirjasta (Scheutz etal. 2011). Jotkin siellä esitetyistä laatikoita ja palikoita koskevista dialogiesimerkeistä muistuttavat Winogradin shrdlua, mutta niissä on myös todellisen vuorovaikutuksen haasteita, kuten muuttuva maisema robotin liikkuessa, puheentunnistusvirheet, epäselvät ja monimutkaiset monilausekkeiset lausahdukset, näkökulmasta riippuvat lausahdukset (”Onko punainen laatikko vasemmanpuoleinen sinisen laatikon vasemmalla puolen?”) ja deiksis (”Mene tuonne alas”). Lisäksi kaikki tämä on yhdistettävä fyysiseen toimintaan, joka on suunniteltu robotin ymmärtämien ohjeiden täyttämiseksi. Vaikka viimeaikaisten robottien kyky selviytyä näistä vaikeuksista on jossain määrin rohkaisevaa, jäljellä on vielä monia avoimia ongelmia, kuten puheen tunnistaminen kohinan vallitessa, parempi ja laajempi kielellinen kattavuus, jäsennys ja dialogin käsittely, sopeutuminen uusiin ongelmiin, keskustelukumppanin ja ympäristön muiden ihmisten mentaalinen mallintaminen sekä laajempi yleistietämys maailmasta ja sen käyttäminen päätelmien tekoon ja suunnitteluun (sekä toiminta-alueen tasolla että dialogitasolla).

Vaikka tehtäväkeskeiset robottidialogit sisältävät kaikki nämä haasteet, on huomattava, että jotkin potentiaalisesti hyödylliset vuorovaikutustilanteet ”puhuvien” robottien kanssa edellyttävät vain vähän kielellisiä taitoja. Esimerkiksi artikkelissa (Movellan et al. 2009) kuvattu Rubi-robotti näytti pikkulapsille esineitä näytöllä varustetussa ”rinnassaan” ja pyysi heitä koskettamaan ja nimeämään esineitä. Tämä johti siihen, että taaperot oppivat paremmin sanoja, vaikka vuorovaikutus oli yksinkertaista. Toinen esimerkki hyvin onnistuneesta puhuvasta robotista, jolla ei ollut todellista kielitaitoa, oli ”museo-opas” Rhino (Burgard et al. 1999). Toisin kuin Rubi, se pystyi navigoimaan arvaamattomasti liikkuvien ihmisten keskellä ja piti yleisönsä mukana ennalta nauhoitetuilla viesteillä ja näyttämällä sen hetkiset tavoitteet näytöllä. Samoin lukuisat humanoidirobotit (esimerkiksi Hondan Asimo), joita on kehitetty ja kehitetään parhaillaan eri puolilla maailmaa, ymmärtävät edelleen hyvin vähän kieltä ja tukeutuvat enimmäkseen käsikirjoitettuihin tulosteisiin. Epäilemättä niiden hyödyllisyys ja vetovoima tulevat edelleen kasvamaan edellä mainittujen kaltaisten teknologioiden ansiosta, kuten pelien, kumppaniagenttijärjestelmien, äänipohjaisten sovellusten, tutoreiden ja niin edelleen, ja tämä kehitys tulee myös edistämään havaitsemisen, liikkeen, manipuloinnin ja mielekkään vuoropuhelun syvempiä näkökohtia.

Leave a Reply