Computational Linguistics

Stemmebaserede webtjenester og -assistenter

Stemmebaserede tjenester, især på mobile enheder, er et hurtigt voksende anvendelsesområde. Tjenesterne strækker sig fra organiseringstjenester (indkøbslister, mødeplaner, påmindelser, kontaktlister osv.) til “infotainment” i biler (ruteføring, trafikforhold, advarsler om farer, iTunes-valg, søgning efter restauranter og andre steder i nærheden osv. Nogle af disse tjenester (f.eks. opkaldsopkald og iTunes-valg) falder ind under kategorien håndfri betjening, og sådanne betjeninger bliver stadig vigtigere inden for transport (herunder førerløse eller pilotløse køretøjer), logistik (ressourceudnyttelse) og produktion. Også chatbotteknologi og ledsagende dialogagenter (som omtalt i afsnit 10.5) tjener som generelle backends til mere specifikke stemmebaserede tjenester.

Nøgleteknologien i disse tjenester er naturligvis talegenkendelse, hvis nøjagtighed og tilpasningsevne er blevet gradvist øget. De billigste, snævert målrettede systemer (f.eks. simple organizers) udnytter stærke forventninger om brugerinput til at genkende, fortolke og reagere på disse input; de ligner således menustyrede systemer. Mere alsidige systemer, som f.eks. cartalkers, der kan håndtere ruteføring, musikalske forespørgsler, søgning efter steder osv., er afhængige af mere avancerede dialogstyringsfunktioner. Disse gør det muligt at skifte emne og potentielt at tage hensyn til brugerens opmærksomhedstilstand (f.eks. at forsinke besvarelsen af en chaufførspørgsmål, hvis chaufføren skal nå at dreje). Den største “summer” i øjeblikket er omkring avancerede stemmebaserede assistenter, især iPhone’s Siri (efterfulgt af Android’s Iris, True Knowledge’s Evi, Google Now og andre). Mens tidligere stemmestyrings- og dikteringssystemer, som Androids Vlingo, havde mange af de samme funktioner, tilføjer Siri personlighed og forbedret dialoghåndtering og tjenesteintegration – brugerne føler, at de interagerer med en levende syntetisk figur snarere end med en app. Ud over NuanceSR-teknologien inkorporerer Siri komplekse teknikker, der til en vis grad blev fremskyndet af Calo-projektet (Cognitive Assistant that Learns and Organizes), der blev gennemført af SRI International og flere universiteter fra 2003-2008 (Ambite et al. 2006; CALO ). Disse teknikker omfatter aspekter af NLU, ML, målstyret og usikker inferens, ontologier, planlægning og uddelegering af tjenester. Men selv om uddelegering til webtjenester, herunder Wolfram|Alpha QA, eller chatbot-teknologi giver betydelig robusthed, og der er betydelige ræsonnementer om tidsplaner, indkøb og andre målrettede tjenester, er den generelle forståelse stadig meget overfladisk, som brugerne så hurtigt opdager. Som eksempel på alvorlige misforståelser kan nævnes: “Kald mig en ambulance”, der udløser svaret “Fra nu af kalder jeg dig ‘en ambulance'”. Men den store interesse og efterspørgsel i brugerkredse, som disse tidlige (lidt) intelligente og ret alsidige assistenter har skabt, vil sandsynligvis intensivere og fremskynde forskningen i retning af stadig mere livagtige virtuelle agenter med stadig mere forståelse og sund fornuft.

10.8 Samarbejdsbaserede problemløsere og intelligente tutorer

Vi diskuterer samarbejdsbaserede problemløsningssystemer (også kaldet “mixed-initiative” eller “task-oriented” dialogsystemer) og tutorial dialogsystemer (dvs, vejledningssystemer, hvor dialogen spiller en central rolle) under en fælles overskrift, fordi de begge er afhængige af ret dybe repræsentationer eller modeller af de domæner, de er rettet mod, samt af den mentale tilstand hos de brugere, de interagerer med.

Vi bør dog straks bemærke, at kollaborative problemløsningssystemer typisk beskæftiger sig med langt mindre forudsigelige domænesituationer og brugerinput end vejledningssystemer, og at førstnævnte derfor lægger langt større vægt på fleksibel dialoghåndtering end sidstnævnte. F.eks. skal samarbejdspartnere i forbindelse med nødevakuering (Fergusonog Allen 1998, 2007) håndtere et dynamisk skiftende domæne og samtidig håndtere de mange dialogtilstande, der kan opstå, afhængigt af deltagernes fælles og private overbevisninger, mål, planer og hensigter på et givet tidspunkt. I et domæne som f.eks. fysikundervisning (f.eks, Jordan et al. 2006; Litman og Silliman 2004), kan den lærende styres gennem et netværk af læringsmål med autoriserede instruktioner, og i overensstemmelse med disse mål kan der udformes finite state-dialogmodeller, som klassificerer elevens input på hvert punkt i en dialog og genererer et forberedt svar, der sandsynligvis vil være passende for dette input.

Det er derfor ikke overraskende, at dialogsystemer til vejledning er tættere på kommerciel anvendelighed, med påviste læringsfordele i forhold til konventionel undervisning i forskellige evalueringer, end samarbejdsbaserede problemløsningssystemer til realistiske anvendelser.Dialogsystemer til vejledning er blevet bygget til mange områder og potentielle klientel, lige fra K-12-fag til computerundervisning og programmering for begyndere, kvalitativ og kvantitativ fysik, kredsløbsanalyse, betjening af maskiner, hjerte-kar-fysiologi, kontrol med brandskader på skibe, forhandlingsevner og meget mere (f.eks, se Boyeret al. 2009; Pon-Barry et al. 2006). Blandt de mest vellykkedeultutorialsystemer er læsevejledere (f.eks. Mostow og Beck 2007; Coleet al. 2007), da de materialer, der præsenteres for den lærende (på en “stilladseret” måde), i dette tilfælde er relativt enkle at udforme, og den lærendes svar, især når de primært består af højtlæsning af den præsenterede tekst, er relativt lette at evaluere. For det mere ambitiøse mål om at fremme læseforståelse er det centrale problem at designe dialoger, så elevens bidrag bliver forudsigelige, samtidig med at interaktionen bliver pædagogisk effektiv (f.eks. Aist og Mostow 2009).

Visse tutoring-systemer, især dem, der er rettet mod børn, bruger animerede figurer for at øge elevens følelse af engagement. Sådanne forbedringer er faktisk afgørende for systemer, der er rettet mod elever med handicap som f.eks. døvhed (hvor mund- og tungebevægelser hos den virtuelle agent, der observeres af eleven, kan hjælpe med artikulationen), autisme eller afasi (Massaro et al. 2012; Cole etal. 2007). Hvis tutoring specifikt har til formål at træne interpersonelle færdigheder, bliver implementering af livagtige figurer (virtuelle mennesker) en uundværlig del af systemudviklingen (f.eks. Coreet al. 2006; Campbell et al. 2011).

Modellering af brugerens sindstilstand i tutoring-systemer er primært et spørgsmål om at fastslå, hvilke af de målrettede begreber og færdigheder brugeren har tilegnet sig eller endnu ikke har tilegnet sig, og at diagnosticere misforståelser, der sandsynligvis er opstået, i betragtning af den hidtidige sessionstransskription. Nogle nyere eksperimentelle systemer kan også tilpasse deres strategier til brugerens tilsyneladende humør, f.eks. frustration eller ked-af-det-hed, som det kan fremgå af brugerens input, tonefald eller endda ansigtsudtryk eller gestikulationer, der analyseres via computervision. Andre prototypesystemer kan ses som systemer, der stræber efter en mere generel,almental modellering ved at indarbejde ideer og teknikker fra opgaveorienterede dialogsystemer vedrørende dialogtilstande, dialoghandlinger og dybere sprogforståelse (f.eks, Callaway et al. 2007).

I opgaveorienterede dialogsystemer er dialogmodellering, som allerede nævnt, meget mere udfordrende, da sådanne systemer ikke kun forventes at bidrage til at løse det pågældende domæneproblem, men også at forstå brugerens ytringer, overbevisninger og hensigter og at holde sig selv i en menneskelignende, blandet-initiativ dialog. Dette kræver domænemodeller, generelle inkrementelle metoder til planlægning af samarbejde, dialogstyring, der modellerer rationel kommunikativ interaktion, og en grundig sprogforståelse (især genkendelse af hensigter) inden for det valgte domæne. Prototypesystemer er blevet bygget med succes på områder som f.eks. ruteplanlægning, planlægning af flyrejser, vejledning af bilister og fodgængere, styring og betjening af eksternt udstyr, nødevakuering og medicinrådgivning (f.eks, Allen et al. 2006; Rich og Sidner 1998; Bühler og Minker 2011; Ferguson og Allen 1998, 2007), og disse er meget lovende i praksis, men systemer, der kan håndtere en række rimeligt komplekse problemer, især dem, der kræver bred viden om menneskers kognition og adfærd, synes stadig at være uden for rækkevidde på nuværende tidspunkt.

10.9 Sprogaktiverede robotter

Som nævnt i begyndelsen af afsnit 10 er robotter begyndt at blive udstyret med webtjenester, spørgeskemabesvarelse, chatbotteknikker (som en slags nødløsning og underholdning), tutorfunktioner osv. Overførslen af sådanne teknologier til robotter har været langsom, primært på grund af de meget vanskelige udfordringer, der er forbundet med blot at udstyre en robot med den hardware og software, der er nødvendig for grundlæggende visuel perception, talegenkendelse, udforskende og målrettet navigation (i tilfælde af mobile robotter) og objektmanipulation.Den store offentlige interesse for intelligente robotter og deres enorme økonomiske potentiale (inden for husholdningshjælp, ældrepleje, medicin, uddannelse, underholdning, landbrug, industri, eftersøgning og redning, militære missioner, udforskning af rummet osv.) vil dog helt sikkert fortsat sætte skub i bestræbelserne på at opnå større robotintelligens og sproglig kompetence.

En god fornemmelse af den aktuelle situation og vanskelighederne i forbindelse med dialog mellem mennesker og robotter kan man få i (Scheutz etal. 2011). Nogle af de dialogeksempler, der præsenteres der, vedrørende kasser og blokke, minder om Winograds shrdlu, men de viser også de udfordringer, der er forbundet med reel interaktion, som f.eks. det skiftende landskab, når robotten bevæger sig, talegenkendelsesfejl, ufuldstændige og komplekse flerklavsudtalelser, perspektivafhængige ytringer (“Er den røde kasse til venstre for den blå kasse?”) og deixis (“Gå derned”). Alt dette skal desuden integreres med fysiske handlinger, der skal planlægges for at opfylde de instruktioner, som robotten har forstået dem. Selv om de seneste robotters evne til at håndtere disse vanskeligheder til en vis grad er opmuntrende, er der stadig mange åbne problemer, f.eks. problemerne med talegenkendelse i forbindelse med støj, bedre og bredere sproglig dækning, parsing og dialoghåndtering, tilpasning til nye problemer, mental modellering af samtalepartneren og andre mennesker i omgivelserne og større generel viden om verden og evnen til at bruge den til inferens og planlægning (både på domæneniveau og dialogniveau).

Mens opgaveorienterede robotdialoger indebærer alle disse udfordringer, bør vi bemærke, at nogle potentielt nyttige interaktioner med “talende” robotter kun kræver få sproglige færdigheder. F.eks. viste Rubi-robotten, der er beskrevet i (Movellan et al. 2009), småbørn genstande på sit “bryst” udstyret med en skærm og bad dem om at røre ved og navngive genstandene. Dette resulterede i en forbedret ordindlæring hos de småbørn på trods af interaktionens enkelhed. Et andet eksempel på en meget vellykket talende robot uden egentlige sproglige færdigheder er “museumsguiden” Rhino (Burgard et al. 1999). I modsætning til Rubi var den i stand til at navigere blandt mennesker, der bevægede sig uforudsigeligt, og den holdt sit publikum engageret med sine forudindspillede beskeder og med en visning af sine aktuelle mål på en skærm. På samme måde forstår mange humanoide robotter (f.eks. Honda’s Asimo), der er under udvikling i hele verden, stadig kun meget lidt sprog og er for det meste afhængige af udskrevne output. Der er ingen tvivl om, at deres anvendelighed og tiltrækningskraft vil fortsætte med at vokse takket være teknologier som dem, der er nævnt ovenfor – spil, systemer med ledsagende agenter, stemmebaserede apps, tutorer og så videre; og denne udvikling vil også give næring til fremskridt inden for de dybere aspekter af perception, bevægelse, manipulation og meningsfuld dialog.

Leave a Reply