Computational Linguistics

Voice-based web services and assistants

Voice-based services, especially on mobile devices, are a rapidlyexpanding applications area. De diensten variëren van organizers (boodschappenlijstjes, vergaderschema’s, herinneringen, contactlijsten, enz.), tot “infotainment” in de auto (routebepaling, verkeerssituatie, waarschuwingen voor gevaren, iTunes-selectie, zoeken van restaurants en andere gelegenheden in de buurt, enz.), tot het mogelijk maken van het gebruik van andere diverse apps, zoals het dicteren van e-mail, het kiezen van contacten, financiële transacties, reserveringen en het plaatsen van bestellingen, toegang tot Wikipedia, help-desk-diensten, gezondheidsadviezen en het beantwoorden van algemene vragen. Sommige van deze diensten (zoals bellen en iTunes-selectie) vallen in de categorie handenvrije bediening, en dergelijke bedieningen worden steeds belangrijker in het vervoer (met inbegrip van bestuurderloze of pilootloze voertuigen), de logistiek (inzet van middelen), en de productie. Ook chatbottechnologie en “companionable dialogue agents” (zoals besproken in paragraaf 10.5) fungeren als algemene “backends” voor meer specifieke spraakgestuurde diensten.

De sleuteltechnologie bij deze diensten is uiteraard spraakherkenning, waarvan de nauwkeurigheid en het aanpassingsvermogen geleidelijk zijn toegenomen. De goedkoopste, eng gerichte systemen (b.v. eenvoudige organizers) maken gebruik van sterke verwachtingen omtrent de door de gebruiker ingevoerde gegevens om deze te herkennen, te interpreteren en erop te reageren; als zodanig lijken zij op menugestuurde systemen. Meer veelzijdige systemen, zoals cartalkers die routing, muziekverzoeken, het zoeken naar trefpunten, enz. kunnen verwerken, berusten op meer geavanceerde dialoogbeheercapaciteiten. Deze maken het mogelijk van onderwerp te veranderen en eventueel rekening te houden met de aandachtstoestand van de gebruiker (b.v. het beantwoorden van een vraag van een bestuurder uitstellen als deze moet wachten op een afslag). De grootste ophef is momenteel rond geavanceerde spraakgestuurde assistenten, met name Siri op de iPhone (gevolgd door Iris op Android, Evi op True Knowledge, Google Now en anderen). Terwijl vorige spraakbedienings- en dicteersystemen, zoals Android’s Vlingo, veel van dezelfde functies hadden, voegt Siri persoonlijkheid toe en een verbeterde afhandeling van dialogen en integratie van diensten – gebruikers hebben het gevoel dat ze in interactie zijn met een levendig synthetisch personage in plaats van met een app. Naast de NuanceSR-technologie maakt Siri gebruik van complexe technieken die in zekere mate naar voren werden geschoven door het Calo-project (Cognitive Assistantthat Learns and Organizes) dat van 2003 tot 2008 werd uitgevoerd door SRI International en verschillende universiteiten (Ambite et al. 2006; CALO ). Deze technieken omvatten aspecten van NLU, ML, doelgerichte en onzekere inferentie, ontologieën, planning, en delegatie van diensten. Maar hoewel delegatie naar webdiensten, met inbegrip van Wolfram Alpha QA, of chatbottechnologie aanzienlijke robuustheid biedt, en er aanzienlijk wordt geredeneerd over planningen, inkoop en andere doeldiensten, is het algemene begrip nog steeds erg oppervlakkig, zoals gebruikers zo ontdekken. Anekdotische voorbeelden van ernstige misverstanden zijn “Noem me een ambulance”, waarop men antwoordt “Vanaf nu noem ik je ‘een ambulance'”. De sterke belangstelling en vraag in de gebruikersgemeenschap die door deze eerste (enigszins) intelligente, vrij veelzijdige assistenten wordt opgewekt, zal het onderzoek naar steeds levensechter wordende virtuele agenten, met steeds meer begrip en gezond verstand, echter waarschijnlijk intensiveren en versnellen.

10.8 Collaborative problem solvers and intelligent tutors

We bespreken collaborative problem solving systems (ook wel aangeduid als “mixed-initiative” of “task-oriented” dialoguesystems) en tutorial dialogue systems (d.w.z, tutorial systemen waarin dialoog een centrale rol speelt) onder een gemeenschappelijke noemer, omdat beide afhankelijk zijn van vrij diepe representaties of modellen van de domeinen waarop ze zijn gericht en van de mentale toestand van de gebruikers waarmee ze interageren.

Het moet echter onmiddellijk worden opgemerkt dat collaboratieve probleemoplossingssystemen typisch te maken hebben met veel minder voorspelbare domeinsituaties en gebruikersinput dan tutorial systemen, en dienovereenkomstig leggen de eerste veel meer nadruk op flexibele dialoogbehandeling dan de tweede. Bijvoorbeeld, samenwerkers bij noodevacuatie (Ferguson en Allen 1998, 2007) moeten omgaan met een dynamisch veranderend domein en tegelijkertijd de vele dialoogtoestanden afhandelen die kunnen optreden, afhankelijk van de gedeelde en private overtuigingen, doelen, plannen en intenties van de deelnemers op een bepaald moment. Daarentegen, in een domein zoals natuurkundige begeleiding (e.g., Jordan et al. 2006; Litman andSilliman 2004), kan de leerling worden geleid door een netwerk van leerdoelen met geautoriseerde instructies, en overeenkomstig die doelen, kunnen eindige-staat dialoogmodellen worden ontworpen die de input van de leerling op elk punt in een dialoog classificeren en een voorbereide reactie genereren die waarschijnlijk geschikt is voor die input.

Het is daarom niet verwonderlijk dat zelfstudiedialoogsystemen dichter bij commerciële bruikbaarheid zijn, met aangetoonde leerwinst ten opzichte van conventionele instructie in verschillende evaluaties, dan samenwerkingssystemen voor probleemoplossing voor realistische toepassingen.Zelfstudiedialoogsystemen zijn gebouwd voor talrijke domeinen en potentiële klanten, variërend van K-12 onderwerpen tot computervaardigheden en beginnende programmeurs, kwalitatieve en kwantitatieve fysica, circuitanalyse, bediening van machines, cardiovasculaire fysiologie, brandschadebeheersing op schepen, onderhandelingsvaardigheden, en meer (bijv, zie Boyeret al. 2009; Pon-Barry et al. 2006). Tot de meest succesvolle leerprogramma’s behoren leesleessystemen (bv. Mostow en Beck 2007; Coleet al. 2007), aangezien het aan de lerende gepresenteerde materiaal (op een “scaffolded” manier) in dit geval relatief eenvoudig te ontwerpen is, en de antwoorden van de lerende, vooral wanneer die hoofdzakelijk bestaan uit het hardop lezen van de gepresenteerde tekst, relatief gemakkelijk te evalueren zijn. Voor het meer ambitieuze doel van het bevorderen van begrijpend lezen, is het centrale probleem om dialogen zo te ontwerpen dat de bijdragen van de leerling voorspelbaar worden, terwijl ook de interactie educatief effectief wordt gemaakt (bijv. Aist en Mostow 2009).

Sommige begeleidingssystemen, vooral die gericht zijn op kinderen, gebruiken geanimeerde karakters om het gevoel van betrokkenheid van de leerling te verhogen. Dergelijke verbeteringen zijn in feite essentieel voor systemen gericht op leerlingen met een handicap, zoals doofheid (waar mond-en tongbewegingen van de virtuele agent waargenomen door de leerling kan helpen met articulatie), autisme, of afasie (Massaro et al. 2012; Cole etal. 2007). Ook, als tutoring specifiek gericht is op het trainen van interpersoonlijke vaardigheden, wordt de implementatie van levensechte karakters (virtuele mensen) een onmisbaar onderdeel van de systeemontwikkeling (bijv., Coreet al. 2006; Campbell et al. 2011).

Het modelleren van de gemoedstoestand van de gebruiker in tutoring systemen is in de eerste plaats een kwestie van het bepalen welke van de beoogde concepten en vaardigheden wel of nog niet zijn verworven door de gebruiker, en het diagnosticeren van misverstanden die waarschijnlijk zijn opgetreden, gezien het sessie-transcript tot nu toe. Sommige recente experimentele systemen kunnen hun strategieën ook aanpassen aan de gemoedstoestand van de gebruiker, zoals frustratie of angst, die kan blijken uit de input van de gebruiker, de toon van zijn stem of via computervisie geanalyseerde gezichtsuitdrukkingen of gebaren. Andere prototypesystemen kunnen worden gezien als een streven naar meer algemene mentale modellering, door ideeën en technieken te incorporeren van taakgerichte dialoogsystemen betreffende dialoogtoestanden, dialooghandelingen, en dieper taalbegrip (bijv, Callaway et al. 2007).

In taakgerichte dialoogsystemen is, zoals reeds opgemerkt, dialoogmodellering een veel grotere uitdaging, omdat van dergelijke systemen wordt verwacht dat ze niet alleen bijdragen aan het oplossen van het onderhavige domeinprobleem, maar ook dat ze de uitingen, overtuigingen en bedoelingen van de gebruiker begrijpen, en dat ze hun eigen dialoog voeren in een mensachtige, gemengd-initiatieve dialoog. Dit vereist domeinmodellen, algemene incrementele collaboratieve planningsmethoden, dialoogbeheer dat rationele communicatieve interactie modelleert, en een grondig taalbegrip (vooral intentieherkenning) in het gekozen domein. Prototypesystemen zijn met succes gebouwd voor domeinen als routeplanning, planning van vliegreizen, besturing van bestuurders en voetgangers, besturing en bediening van externe apparatuur, evacuatie bij noodgevallen en medicatieadvies (bijv, Allen et al. 2006; Rich and Sidner 1998; Bühler and Minker 2011; Ferguson and Allen1998, 2007), en deze houden een grote praktische belofte in. Echter, systemen die een verscheidenheid aan redelijk complexe problemen aankunnen, in het bijzonder diegene die brede commonsense kennis vereisen over menselijke cognitie en gedrag, lijken op dit moment nog buiten bereik.

10.9 Robots met taalondersteuning

Zoals aan het begin van hoofdstuk 10 is opgemerkt, beginnen robots te worden uitgerust met webdiensten, het beantwoorden van vragen, chatbottechnieken (voor noodgevallen en vermaak), mentorfuncties, enzovoort. De overdracht van dergelijke technologieën naar robots is traag verlopen, voornamelijk vanwege de zeer moeilijke uitdagingen die gepaard gaan met het uitrusten van een robot met de hardware en software die nodig is voor elementaire visuele waarneming, spraakherkenning, verkennende en doelgerichte navigatie (in het geval van mobiele robots), en objectmanipulatie.De grote publieke belangstelling voor intelligente robots en hun enorme economische potentieel (voor huishoudelijke hulp, ouderenzorg, geneeskunde, onderwijs, amusement, landbouw, industrie, opsporing en redding, militaire missies, ruimteverkenning, enzovoort) zal de drang naar grotere robotintelligentie en meer taalvaardigheid echter zeker blijven aanwakkeren.

Een goed idee van de stand van de techniek en de moeilijkheden in de dialoog tussen mens en robot kan worden verkregen uit (Scheutz etal. 2011). Sommige van de daar gepresenteerde dialoogvoorbeelden, over dozen en blokken, doen denken aan Winograd’s shrdlu, maar ze vertonen ook de uitdagingen die gepaard gaan met echte interactie, zoals het veranderende landschap als de robot beweegt, spraakherkenningsfouten, disfluente en complexe multi-clause uitspraken, perspectief-afhankelijke uitspraken (“Is de rode doos links van de blauwe doos?”), en deixis (“Ga daar naar beneden”). Bovendien moet dit alles geïntegreerd worden met fysieke acties die gepland worden om de instructies uit te voeren zoals begrepen door de robot. Hoewel recente robots deze moeilijkheden tot op zekere hoogte aankunnen, zijn er nog veel problemen, zoals spraakherkenning in aanwezigheid van ruis, betere en bredere linguïstische dekking, parsing en dialoogbehandeling, aanpassing aan nieuwe problemen, mentale modellering van de gesprekspartner en andere mensen in de omgeving, en meer algemene kennis van de wereld en het vermogen om die te gebruiken voor inferentie en planning (zowel op het niveau van het domein als van de dialoog).

Terwijl taakgerichte robotdialogen al deze uitdagingen met zich meebrengen, moeten we opmerken dat voor sommige potentieel nuttige interacties met “pratende” robots weinig linguïstische vaardigheden nodig zijn. De Rubi-robot die beschreven wordt in (Movellan et al. 2009), toonde bijvoorbeeld voorwerpen op zijn met een scherm uitgeruste “borst” aan peuters en vroeg hen de voorwerpen aan te raken en te benoemen. Dit resulteerde in het beter leren van woorden door de peuters, ondanks de eenvoud van de interactie. Een ander voorbeeld van een zeer succesvolle pratende robot zonder echte taalvaardigheden was de “museumgids” Rhino (Burgard et al. 1999). In tegenstelling tot Rubi kon deze robot navigeren tussen onvoorspelbaar bewegende mensen, en hield hij zijn publiek geboeid met zijn vooraf opgenomen boodschappen en met een weergave van zijn huidige doelen op een scherm. Op dezelfde manier begrijpen talloze humanoïde robots (bijvoorbeeld Honda’s Asimo) die nu en in het verleden over de hele wereld worden ontwikkeld, nog steeds heel weinig taal en zijn ze grotendeels afhankelijk van geschreven opdrachten. Ongetwijfeld zullen hun nut en aantrekkingskracht blijven toenemen, dankzij technologieën als de bovengenoemde – games, companion agent systems, voice-based apps, tutors, enzovoort; en deze ontwikkelingen zullen ook de vooruitgang op het gebied van de diepere aspecten van perceptie, beweging, manipulatie, en zinvolle dialoog stimuleren.

Leave a Reply