Computational Linguistics

Röstbaserade webbtjänster och assistenter

Röstbaserade tjänster, särskilt på mobila enheter, är ett snabbt växande tillämpningsområde. Tjänsterna sträcker sig från organisatörer (matlistor, mötesplaner, påminnelser, kontaktlistor etc.) till infotainment i bilar (ruttplanering, trafikförhållanden, farovarningar, iTunes-val, hitta närliggande restauranger och andra platser etc.) och till att möjliggöra användning av andra olika appar, t.ex. diktering av e-postmeddelanden, uppringning av kontakter, finansiella transaktioner, bokningar och beställningar, tillgång till Wikipedia, helpdesk-tjänster, hälsorådgivning och allmänna frågesvar. Vissa av dessa tjänster (t.ex. uppringning och iTunes-val) hör till kategorin handkontroller, och sådana kontroller blir allt viktigare inom transport (inklusive förarlösa eller pilotlösa fordon), logistik (resursfördelning) och tillverkning. Även chattbotteknik och dialogagenter (som diskuteras i avsnitt 10.5) fungerar som allmänna baksidor till mer specifika röstbaserade tjänster.

Den viktigaste tekniken i dessa tjänster är naturligtvis taligenkänning, vars noggrannhet och anpassningsförmåga har ökat successivt. De billigaste, smalare systemen (t.ex. enkla organisatörer) utnyttjar starka förväntningar på användarinmatningar för att känna igen, tolka och reagera på dessa inmatningar; som sådana liknar de menystyrda system. Mer mångsidiga system, t.ex. cartalkers som kan hantera vägbeskrivningar, musikförfrågningar, sökningar efter restauranger etc., bygger på mer avancerade funktioner för dialoghantering. Dessa gör det möjligt att byta ämne och eventuellt ta hänsyn till användarens uppmärksamhetstillstånd (t.ex. fördröjning av svaret på en förares fråga om föraren behöver ägna sig åt en sväng). Den största ”buzzen” för närvarande rör sig kring avancerade röstbaserade assistenter, särskilt iPhone’s Siri (följt av Android’s Iris, True Knowledge’s Evi, Google Now och andra). Tidigare röststyrnings- och dikteringssystem, t.ex. Androids Vlingo, hade många av samma funktioner, men Siri tillför personlighet och förbättrad dialoghantering och integrering av tjänster – användarna känner att de interagerar med en levande syntetisk person snarare än med en app. Förutom NuanceSR-tekniken innehåller Siri komplexa tekniker som i viss mån har drivits framåt av Calo-projektet (Cognitive Assistant that Learns and Organizes) som genomfördes av SRI International och flera universitet mellan 2003 och 2008 (Ambite et al. 2006; CALO ). Dessa tekniker omfattar aspekter av NLU, ML, målinriktad och osäker inferens, ontologier, planering och delegering av tjänster. Även om delegering till webbtjänster, inklusive Wolfram|Alpha QA, eller chatbot-teknik ger en avsevärd robusthet, och det finns betydande resonemang om tidsplaner, inköp och andra målinriktade tjänster, är den allmänna förståelsen fortfarande mycket ytlig, vilket användarna så småningom upptäcker. Exempel på allvarliga missförstånd är ”Call me an ambulance” som ger svaret ”Fromnow on I will call you ’an ambulance'”. Det starka intresse och den starka efterfrågan i användarsamhället som genereras av dessa tidiga (något) intelligenta, ganska mångsidiga assistenter kommer sannolikt att intensifiera och påskynda forskningen mot allt mer verklighetstrogna virtuella assistenter, med allt mer förståelse och sunt förnuft.

10.8 Samarbetsbaserade problemlösare och intelligenta handledare

Vi diskuterar samarbetsbaserade system för problemlösning (även kallade dialogsystem med blandade initiativ eller uppgiftsinriktade dialogsystem) och handledande dialogsystem (dvs, handledningssystem där dialogen spelar en central roll) under en gemensam rubrik eftersom båda är beroende av ganska djupa representationer eller modeller av de domäner som de är inriktade på samt av det mentala tillståndet hos de användare som de interagerar med.

Vi bör dock genast notera att samarbetssystem för problemlösning vanligtvis hanterar mycket mindre förutsägbara domänssituationer och användarinmatningar än handledningssystem, och följaktligen lägger de förstnämnda systemen mycket större tonvikt på flexibel hantering av dialoger än de sistnämnda. Exempelvis måste samarbetspartners vid nödutrymning (Fergusonoch Allen 1998, 2007) hantera en dynamiskt föränderlig domän och samtidigt hantera de många dialogtillstånd som kan uppstå, beroende på deltagarnas gemensamma och privata uppfattningar, mål, planer och avsikter vid varje given tidpunkt. I ett område som t.ex. fysikhandledning (t.ex, Jordan et al. 2006; Litman och Silliman 2004) kan inläraren guidas genom ett nätverk av inlärningsmål med författade instruktioner, och motsvarande dessa mål kan dialogmodeller med ändliga tillstånd utformas som klassificerar elevernas inmatningar vid varje punkt i en dialog och genererar ett förberett svar som sannolikt är lämpligt för den inmatningen.

Det är därför inte förvånande att dialogsystem för handledning är närmare kommersiell användbarhet, med påvisade inlärningsfördelar i förhållande till konventionell undervisning i olika utvärderingar, än samarbetssystem för problemlösning för realistiska tillämpningar.Dialogsystem för handledning har byggts för ett stort antal områden och potentiella kunder, från K-12-ämnen till datakunskap och nybörjarprogrammering, kvalitativ och kvantitativ fysik, kretsaranalys, maskinanvändning, hjärt- och kärlfysiologi, kontroll av eldsvådaskador på fartyg, förhandlingsfärdigheter, med mera (t.ex, se Boyeret al. 2009; Pon-Barry et al. 2006). Bland de mest framgångsrika läromedelssystemen finns läshjälpmedel (t.ex. Mostow och Beck 2007; Coleet al. 2007), eftersom det material som presenteras för den lärande (på ett ”ställt” sätt) är relativt enkelt att utforma i detta fall, och de svar som den lärande ger, särskilt när de huvudsakligen består av att läsa den presenterade texten högt, är relativt enkla att utvärdera. När det gäller det mer ambitiösa målet att främja läsförståelse är det centrala problemet att utforma dialoger så att inlärarens bidrag blir förutsägbara, samtidigt som interaktionen blir pedagogiskt effektiv (t.ex. Aist och Mostow 2009).

Vissa handledningssystem, särskilt sådana som riktar sig till barn, använder sig av animerade figurer för att öka inlärarens känsla av engagemang. Sådana förbättringar är i själva verket viktiga för system som riktar sig till elever med funktionshinder som dövhet (där den virtuella agentens mun- och tungrörelser som observeras av eleven kan hjälpa till med artikulationen), autism eller afasi (Massaro m.fl. 2012; Cole m.fl. 2007). Om handledning särskilt syftar till att träna interpersonella färdigheter blir implementering av livliknande karaktärer (virtuella människor) en oumbärlig del av systemutvecklingen (t.ex. Coreet al. 2006; Campbell et al. 2011).

Modellering av användarens sinnestillstånd i handledningssystem handlar i första hand om att fastställa vilka av de målinriktade koncepten och färdigheterna som användaren har förvärvat, eller inte har förvärvat, och om att diagnostisera missförstånd som troligen har inträffat, med hänsyn till det hittillsvarande sessionsprotokollet. Vissa nya experimentella system kan också anpassa sina strategier till användarens humör, t.ex. frustration eller tråkighet, vilket kan framgå av användarens inmatningar, tonfall eller ansiktsuttryck eller gester som analyseras med hjälp av datorseende. Andra prototypsystem kan ses som en strävan mot en mer generell modellering, genom att införliva idéer och tekniker från uppgiftsorienterade dialogsystem om dialogtillstånd, dialoghandlingar och djupare språkförståelse (t.ex, Callaway et al. 2007).

I uppgiftsorienterade dialogsystem är dialogmodellering, som redan nämnts, mycket mer utmanande, eftersom sådana system inte bara förväntas bidra till att lösa det aktuella domänproblemet, utan också förstå användarens uttalanden, uppfattningar och avsikter, och hålla sig till sin egen nivå i en människoliknande, blandad dialog med olika initiativ. Detta kräver domänmodeller, allmänna metoder för inkrementell planering i samarbete, dialoghantering som modellerar rationell kommunikativ interaktion och grundlig språkförståelse (särskilt avsiktsigenkänning) inom den valda domänen. Prototypsystem har framgångsrikt byggts för områden som ruttplanering, planering av flygresor, vägledning av förare och fotgängare, styrning och drift av extern utrustning, evakuering i nödsituationer och läkemedelsrådgivning (t.ex, Allen et al. 2006; Rich och Sidner 1998; Bühler och Minker 2011; Ferguson och Allen 1998, 2007), och dessa är mycket lovande i praktiken. system som kan hantera en rad olika rimligt komplexa problem, särskilt sådana som kräver bred allmän kunskap om mänsklig kognition och mänskligt beteende, verkar dock fortfarande vara utom räckhåll för närvarande.

10.9 Robotar med språkkompetens

Som nämndes i början av avsnitt 10 börjar robotar att utrustas med webbtjänster, förmågor att besvara frågor, chattbottekniker (som reserv och underhållning), handledningsfunktioner och så vidare. Överföringen av sådan teknik till robotar har gått långsamt, främst på grund av de mycket svåra utmaningarna med att bara utrusta en robot med den hård- och mjukvara som behövs för grundläggande visuell perception, taligenkänning, utforskande och målinriktad navigering (när det gäller mobila robotar) och hantering av föremål.Allmänhetens stora intresse för intelligenta robotar och deras enorma ekonomiska potential (för hushållshjälp, äldreomsorg, medicin, utbildning, underhållning, jordbruk, industri, sök- och räddningsverksamhet, militära uppdrag, utforskning av rymden och så vidare) kommer dock säkerligen att fortsätta att ge energi åt drivkraften för att öka robotintelligensen och den språkliga kompetensen.

En god uppfattning om den aktuella situationen och svårigheterna när det gäller dialog mellan människa och robot kan man få från (Scheutz etal. 2011). Vissa av de dialogexempel som presenteras där, om lådor och block, påminner om Winograds shrdlu, men de uppvisar också de utmaningar som är förknippade med verklig interaktion, som t.ex. den föränderliga miljön när roboten rör sig, taligenkänningsfel, diskluderande och komplexa flerspråkiga uttalanden med flera klausuler, perspektivberoende uttalanden (”Är den röda lådan till vänster om den blå lådan?”) och deixis (”Gå ner där”). Dessutom måste allt detta integreras med fysiska åtgärder som planeras för att uppfylla instruktionerna så som de förstås av roboten. Även om de senaste robotarnas förmåga att hantera dessa svårigheter i viss utsträckning är uppmuntrande, återstår många öppna problem, t.ex. problem med taligenkänning i närvaro av brus, bättre och bredare språklig täckning, parsing och hantering av dialoger, anpassning till nya problem, mental modellering av samtalspartnern och andra människor i miljön samt större allmän kunskap om världen och förmågan att använda den för slutledning och planering (både på områdesnivå och på dialognivå).

Som uppgiftsorienterade robotdialoger innebär alla dessa utmaningar bör vi notera att vissa potentiellt användbara interaktioner med ”talande” robotar inte kräver några större språkliga färdigheter. Rubi-roboten som beskrivs i (Movellan et al. 2009) visade t.ex. småbarn föremål på sin skärmutrustade ”bröstkorg” och bad dem röra vid och namnge föremålen. Detta ledde till att småbarnen lärde sig ord bättre, trots att interaktionen var så enkel. Ett annat exempel på en mycket framgångsrik talande robot utan några egentliga språkkunskaper är den ”museiförare” Rhino (Burgard et al. 1999). Till skillnad från Rubi kunde den navigera bland människor som rörde sig på ett oförutsägbart sätt och höll publiken engagerad med sina förinspelade meddelanden och genom att visa sina aktuella mål på en skärm. På samma sätt förstår ett stort antal humanoida robotar (t.ex. Hondas Asimo), som utvecklats och utvecklas över hela världen, fortfarande mycket lite språk och förlitar sig främst på skriptat. Utan tvekan kommer deras användbarhet och attraktionskraft att fortsätta att öka, tack vare teknik som den som nämns ovan – spel, system med kamratliga agenter, röstbaserade appar, handledare och så vidare – och denna utveckling kommer också att ge bränsle till framsteg när det gäller de djupare aspekterna av perception, rörelse, manipulering och meningsfull dialog.

Leave a Reply