Articles / Novembre 3, 2021

Linguistica computazionale

Servizi e assistenti web basati sulla voce

I servizi basati sulla voce, specialmente su dispositivi mobili, sono un’area di applicazioni in rapida espansione. I servizi spaziano dagli organizzatori (dimenticando le liste della spesa, gli orari delle riunioni, i promemoria, le liste dei contatti, ecc.), all'”infotainment” in auto (instradamento, condizioni del traffico, avvisi di pericolo, selezione di iTunes, ricerca di ristoranti vicini e altri luoghi, ecc.), per consentire l’uso di altre applicazioni varie come la dettatura di e-mail, la composizione di contatti, le transazioni finanziarie, le prenotazioni e il posizionamento di ordini, l’accesso a Wikipedia, i servizi di help-desk, la consulenza sanitaria e la risposta a domande generali. Alcuni di questi servizi (come la composizione e la selezione di iTunes) rientrano nella categoria di hands-freecontrols, e tali controlli stanno diventando sempre più importante intransport (compresi i veicoli senza conducente o senza pilota), logistica (distribuzione delle risorse), e la produzione. Anche la tecnologia delle chat e gli agenti di dialogo companionable (come discusso nella sezione 10.5) stanno servendo come backend generali a servizi più specifici basati sulla voce.

La tecnologia chiave in questi servizi è naturalmente il riconoscimento vocale, la cui precisione e adattabilità è andata gradualmente aumentando. I sistemi meno costosi e strettamente mirati (ad esempio, semplici organizzatori) sfruttano forti aspettative sugli input dell’utente per riconoscere, interpretare e rispondere a tali input; come tali assomigliano a sistemi guidati da menu. Sistemi più versatili, come i cartalker che possono gestire l’instradamento, le richieste musicali, le ricerche di locali, ecc. Questi permettono di cambiare argomento e potenzialmente lo stato di attenzione dell’utente (per esempio, ritardare la risposta alla domanda di un guidatore se il guidatore deve occuparsi di una svolta). Il più grande “ronzio” attuale circonda gli assistenti avanzati basati sulla voce, in particolare Siri dell’iPhone (seguito da Iris di Android, Evi di True Knowledge, Google Now e altri). Mentre i precedenti sistemi di controllo vocale e dettatura, come Vlingo di Android, presentavano molte delle stesse funzionalità, Siri aggiunge personalità e una migliore gestione del dialogo e integrazione dei servizi: gli utenti hanno la sensazione di interagire con un personaggio sintetico vivace piuttosto che con un’app. Oltre alla tecnologia NuanceSR, Siri incorpora tecniche complesse che sono state in qualche modo spinte avanti dal progetto Calo (Cognitive Assistantthat Learns and Organizes) portato avanti da SRI International e da diverse università dal 2003-2008 (Ambite et al. 2006; CALO ). Queste tecniche includono aspetti di NLU, ML, inferenza orientata agli obiettivi e incerta, ontologie, pianificazione e delega dei servizi. Ma mentre la delega ai servizi web, incluso Wolfram|Alpha QA, o la tecnologia dei chatbot fornisce una considerevole robustezza, e c’è un ragionamento significativo su orari, acquisti e altri targetedservices, la comprensione generale è ancora molto superficiale, come gli utenti soondiscover. Esempi aneddotici di gravi incomprensioni sono “Chiamami un’ambulanza” che suscita la risposta “D’ora in poi ti chiamerò ‘un’ambulanza’”. Comunque, il forte interesse e la domanda nella comunità degli utenti generati da questi primi assistenti (in qualche modo) intelligenti e abbastanza versatili probabilmente intensificheranno e accelereranno la ricerca verso agenti virtuali sempre più simili alla vita, con sempre più comprensione e senso comune.

10.8 Risolutori di problemi collaborativi e tutor intelligenti

Discutiamo i sistemi collaborativi di risoluzione dei problemi (anche chiamati sistemi di dialogo “misto-iniziatico” o “task-oriented”) e sistemi di dialogo tutorial (cioè, sistemi tutoriali in cui il dialogo gioca un ruolo fondamentale) sotto un titolo comune, perché entrambi dipendono da rappresentazioni o modelli piuttosto profondi dei domini a cui sono destinati, nonché dallo stato mentale degli utenti con cui interagiscono.

Tuttavia, dobbiamo subito notare che i sistemi collaborativi di problem solving hanno tipicamente a che fare con situazioni di dominio e input degli utenti molto meno prevedibili dei sistemi tutoriali, e di conseguenza i primi danno molta più importanza alla gestione flessibile del dialogo rispetto ai secondi. Per esempio, i collaboratori nell’evacuazione di emergenza (Ferguson e Allen 1998, 2007) hanno bisogno di trattare con un dominio che cambia dinamicamente, allo stesso tempo gestendo i molti stati di dialogo che possono verificarsi, a seconda delle credenze condivise e private, degli obiettivi, dei piani e delle intenzioni dei partecipanti in un dato momento. Al contrario, in un dominio come il tutoraggio della fisica (es, Jordan et al. 2006; Litman e Silliman 2004), lo studente può essere guidato attraverso una rete di obiettivi di apprendimento con istruzioni autorizzate, e in corrispondenza di tali obiettivi, possono essere progettati modelli di dialogo a stati finiti che classificano gli input degli studenti in ogni punto del dialogo e generano una risposta preparata che probabilmente è appropriata per quell’input.

Non è quindi sorprendente che i sistemi di dialogo tutorial siano più vicini alla praticità commerciale, con dimostrati benefici di apprendimento relativi all’istruzione convenzionale in varie valutazioni, che i sistemi di problem solving collaborativo per applicazioni realistiche. I sistemi di dialogo tutorial sono stati costruiti per numerosi domini e potenziali clienti, che vanno dai soggetti K-12 all’alfabetizzazione informatica e programmazione per principianti, fisica qualitativa e quantitativa, analisi dei circuiti, funzionamento dei macchinari, fisiologia cardiovascolare, controllo dei danni da fuoco sulle navi, abilità di negoziazione, e altro (ad es, vedi Boyeret al. 2009; Pon-Barry et al. 2006). Tra i sistemi didattici di maggior successo ci sono i tutor di lettura (ad esempio, Mostow e Beck 2007; Coleet al. 2007), poiché i materiali presentati all’allievo (in modo “strutturato”) sono relativamente semplici da progettare in questo caso, e le risposte dell’allievo, specialmente quando consistono principalmente nella lettura ad alta voce del testo presentato, sono relativamente facili da valutare. Per l’obiettivo più ambizioso di favorire la comprensione della lettura, il problema centrale è quello di progettare i dialoghi in modo da rendere prevedibili i contributi dell’allievo, rendendo l’interazione efficace dal punto di vista educativo (ad esempio, Aist e Mostow 2009).

Alcuni sistemi di tutoraggio, specialmente quelli rivolti ai bambini, usano personaggi animati per aumentare il senso di coinvolgimento dell’allievo. Tali miglioramenti sono infatti essenziali per i sistemi destinati a studenti con disabilità come la sordità (dove i movimenti della bocca e della lingua dell’agente virtuale osservati dallo studente possono aiutare l’articolazione), l’autismo o l’afasia (Massaro et al. 2012; Cole etal. 2007). Inoltre, se il tutoraggio mira specificamente ad attrarre le abilità interpersonali, l’implementazione di personaggi simili alla vita (esseri umani virtuali) diventa una parte indispensabile dello sviluppo del sistema (ad esempio, Coreet al. 2006; Campbell et al. 2011).

Modellare lo stato mentale dell’utente nei sistemi di tutoraggio è principalmente una questione di determinare quali dei concetti e delle abilità target sono stati o non sono stati ancora acquisiti dall’utente, e diagnosticare i malintesi che probabilmente si sono verificati, data la trascrizione della sessione fino ad allora. Alcuni recenti sistemi sperimentali possono anche adattare le loro strategie allo stato d’animo apparente dell’utente, come la frustrazione o la tristezza, come potrebbe essere rivelato dagli input dell’utente, dal tono di voce, o anche dalle espressioni facciali o dai gesti analizzati tramite la visione del computer. Altri prototipi di sistemi possono essere visti come uno sforzo verso una modellazione più generale, incorporando idee e tecniche dai sistemi di dialogo orientati alle attività riguardanti gli stati del dialogo, gli atti del dialogo e una comprensione più profonda del linguaggio (per esempio, Callaway et al. 2007).

Nei sistemi di dialogo orientati al compito, come già notato, la modellazione del dialogo è molto più impegnativa, poiché ci si aspetta che tali sistemi non solo contribuiscano a risolvere il problema del dominio in questione, ma che comprendano gli enunciati, le credenze e le intenzioni dell’utente, e che tengano il proprio in un dialogo di tipo umano e con iniziative miste. Questo richiede modelli di dominio, metodi generali di pianificazione collaborativa incrementale, gestione del dialogo che modella l’interazione comunicativa razionale, e comprensione approfondita del linguaggio (specialmente riconoscimento delle intenzioni) nel dominio scelto. Sistemi prototipo sono stati costruiti con successo per domini come la pianificazione dell’itinerario, la pianificazione del viaggio aereo, la guida di autisti e pedoni, il controllo e il funzionamento di dispositivi esterni, l’evacuazione di emergenza e la consulenza sui farmaci (ad esempio, Allen et al. 2006; Rich e Sidner 1998; Bühler e Minker 2011; Ferguson e Allen1998, 2007), e questi sono molto promettenti dal punto di vista pratico. Tuttavia, i sistemi che possono affrontare una varietà di problemi ragionevolmente complessi, specialmente quelli che richiedono un’ampia conoscenza della cognizione e del comportamento umano, sembrano ancora fuori portata in questo momento.

10.9 Robot abilitati al linguaggio

Come notato all’inizio della sezione 10, i robot stanno cominciando ad essere equipaggiati con servizi web, capacità di risposta alle domande, tecniche di chat (per ripiego e intrattenimento), funzioni di tutoraggio, ecc. Il trasferimento di tali tecnologie ai robot è stato lento, principalmente a causa delle sfide molto difficili coinvolte nel dotare un robot dell’hardware e del software necessari per la percezione visiva di base, il riconoscimento vocale, la navigazione esplorativa e orientata all’obiettivo (nel caso dei robot mobili) e la manipolazione degli oggetti.Tuttavia, il vivo interesse pubblico per i robot intelligenti e il loro enorme potenziale economico (per l’aiuto domestico, l’assistenza agli anziani, la medicina, l’educazione, l’intrattenimento, l’agricoltura, l’industria, la ricerca e il salvataggio, le missioni militari, l’esplorazione dello spazio, e così via) continueranno sicuramente a stimolare la spinta verso una maggiore intelligenza robotica e competenza linguistica. Alcuni degli esempi di dialogo presentati lì, riguardanti scatole e blocchi, ricordano lo shrdlu di Winograd, ma mostrano anche le sfide coinvolte nell’interazione reale, come il cambiamento dello scenario mentre il robot si muove, errori di riconoscimento vocale, balbuzie disfluenti e complesse multi-clausole, enunciati dipendenti dalla prospettiva (“La scatola rossa è a sinistra della scatola blu?”), e deixis (“Vai laggiù”). Inoltre, tutto questo deve essere integrato con azioni fisiche pianificate in modo da adempiere alle istruzioni comprese dal robot. Mentre la capacità dei robot recenti di gestire queste difficoltà in una certa misura è incoraggiante, rimangono molti problemi aperti, come i problemi di riconoscimento del parlato in presenza di rumore, una migliore e più ampia copertura linguistica, il parsing e la gestione del dialogo, l’adattamento a problemi nuovi, la modellazione mentale dell’interlocutore e di altri umani nell’ambiente, e una maggiore conoscenza generale del mondo e la capacità di usarla per l’inferenza e la pianificazione (sia a livello di dominio che di dialogo).

Mentre i dialoghi tra robot orientati al compito comportano tutte queste sfide, dovremmo notare che alcune interazioni potenzialmente utili con robot “parlanti” richiedono poche abilità linguistiche. Per esempio, il robot Rubi descritto in (Movellan et al. 2009), ha mostrato oggetti sul suo “petto” dotato di schermo ai bambini, chiedendo loro di toccare e nominare gli oggetti. Questo ha portato a un migliore apprendimento delle parole da parte dei bambini, nonostante la semplicità dell’interazione. Un altro esempio di robot parlante di grande successo senza reali competenze linguistiche fu la “guida turistica del museo” Rhino (Burgard et al. 1999). A differenza di Rubi era in grado di navigare tra esseri umani che si muovevano in modo imprevedibile, e manteneva il pubblico coinvolto con i suoi messaggi preregistrati e con la visualizzazione dei suoi obiettivi attuali su uno schermo. Allo stesso modo, numerosi robot umanoidi (per esempio, Asimo di Honda) in fase di sviluppo passato e presente in tutto il mondo capiscono ancora molto poco il linguaggio e si basano principalmente su output scritti. Senza dubbio la loro utilità e il loro fascino continueranno a crescere, grazie a tecnologie come quelle menzionate sopra: giochi, sistemi di agenti accompagnatori, applicazioni basate sulla voce, tutor e così via; e questi sviluppi alimenteranno anche il progresso sugli aspetti più profondi della percezione, del movimento, della manipolazione e del dialogo significativo.

Universe

Linguistica computazionale

Servizi e assistenti web basati sulla voce

10.8 Risolutori di problemi collaborativi e tutor intelligenti

10.9 Robot abilitati al linguaggio

Leave a Reply Cancel