Lingvistică computațională

Servicii și asistenți web bazate pe voce

Serviciile bazate pe voce, în special pe dispozitive mobile, reprezintă un domeniu de aplicații în expansiune rapidă. Serviciile variază de la organizatori (pentru liste de cumpărături, programe de întâlniri, memento-uri, liste de contacte etc.), la „infotainment” în mașină (rutare, condiții de trafic, avertismente de pericol, selectarea iTunes, găsirea restaurantelor și a altor locuri din apropiere etc.), pentru a permite utilizarea altor aplicații diverse, cum ar fi dictarea de e-mailuri, apelarea contactelor, tranzacții financiare, rezervări și plasarea de comenzi, acces la Wikipedia, servicii de asistență, sfaturi de sănătate și răspunsuri la întrebări generale. Unele dintre aceste servicii (cum ar fi apelarea și selectarea iTunes) intră în categoria controalelor fără mâini, iar astfel de controale devin din ce în ce mai importante în domeniul transporturilor (inclusiv în cazul vehiculelor fără șofer sau fără pilot), al logisticii (desfășurarea resurselor) și al producției. De asemenea, tehnologia chatbot și agenții de dialog de companie (așa cum se discută în secțiunea 10.5) servesc ca backend general pentru servicii mai specifice bazate pe voce.

Tehnologia cheie în aceste servicii este, desigur, recunoașterea vorbirii, a cărei acuratețe și adaptabilitate a crescut treptat. Sistemele cele mai puțin costisitoare, cu o țintă îngustă (de exemplu, organizatoarele simple) exploatează așteptările puternice cu privire la intrările utilizatorului pentru a recunoaște, interpreta și răspunde la aceste intrări; ca atare, ele seamănă cu sistemele bazate pe meniuri. Sistemele mai versatile, cum ar fi cartelele care pot gestiona rute, cereri muzicale, căutări de locuri etc., se bazează pe capacități mai avansate de gestionare a dialogului. Acestea permit schimbarea subiectului și, eventual, a stării de atenție a utilizatorului (de exemplu, întârzierea răspunsului la întrebarea unui șofer în cazul în care acesta trebuie să se ocupe de un viraj). Cea mai mare „rumoare” actuală este legată de asistenții vocali avansați, în special Siri de pe iPhone (urmat de Iris de pe Android, Evi de pe True Knowledge, Google Now și alții). În timp ce sistemele anterioare de comandă vocală și dictare, cum ar fi Vlingo de la Android, prezentau multe dintre aceleași funcționalități, Siri adaugă personalitate și o mai bună gestionare a dialogului și integrare a serviciilor – utilizatorii au senzația că interacționează cu un personaj sintetic plin de viață, mai degrabă decât cu o aplicație. Pe lângă tehnologia NuanceSR, Siri încorporează tehnici complexe care au fost într-o oarecare măsură impulsionate de proiectul Calo (Cognitive Assistantthat Learns and Organizes) desfășurat de SRI Internationalși de mai multe universități în perioada 2003-2008 (Ambite et al. 2006;CALO ). Aceste tehnici includ aspecte de NLU, ML, inferență orientată spre obiective și incertă, ontologii, planificare și delegare de servicii. Dar, în timp ce delegarea către servicii web, inclusiv Wolfram|Alpha QA, tehnologia orchatbot oferă o robustețe considerabilă, și există un raționament semnificativ cu privire la programări, achiziții și alte servicii vizate, înțelegerea generală este încă foarte superficială, așa cum descoperă utilizatorii. Exemple anecdotice de neînțelegeri serioase sunt: „Call me an ambulance”, care generează răspunsul „De acum înainte vă voi spune „ambulanță””. Cu toate acestea, interesul puternic și cererea puternică din partea comunității de utilizatori generată de acești asistenți (oarecum) inteligenți, destul de versatili, este posibil să intensifice și să accelereze cercetarea în direcția unor asistenți virtuali din ce în ce mai apropiați de viață, cu o înțelegere și un bun simț din ce în ce mai mari.

10.8 Sisteme colaborative de rezolvare a problemelor și tutori inteligenți

Discutăm despre sistemele colaborative de rezolvare a problemelor (denumite, de asemenea, sisteme de dialog „cu inițiativă mixtă” sau „orientate spre sarcini”) și sistemele de dialog tutorial (de ex, sisteme tutoriale în care dialogul joacă un rol central) sub un titlu comun, deoarece ambele depind de reprezentări sau modele destul de profunde ale domeniului pe care îl vizează, precum și de starea mentală a utilizatorilor cu care interacționează.

Cu toate acestea, ar trebui să observăm imediat că sistemele de rezolvare colaborativă a problemelor se ocupă, de obicei, de situații de domeniu și de intrări ale utilizatorilor mult mai puțin previzibile decât sistemele tutoriale și, în consecință, primele pun un accent mult mai mare pe gestionarea flexibilă a dialogului decât cele din urmă. De exemplu, colaboratorii în evacuarea de urgență (Fergusonși Allen 1998, 2007) trebuie să se confrunte cu un domeniu care se schimbă în mod dinamic, gestionând în același timp numeroasele stări de dialog care pot apărea, în funcție de convingerile, obiectivele, planurile și intențiile comune și private ale participanților la un moment dat. În schimb, într-un domeniu cum ar fi tutoriatul în fizică (de ex, Jordan et al. 2006; Litman andSilliman 2004), elevul poate fi ghidat printr-o rețea de obiective de învățare cu instrucțiuni scrise și, în funcție de aceste obiective, pot fi concepute modele de dialog cu stări finite care clasifică intrările elevului în fiecare punct al dialogului și generează un răspuns pregătit care este probabil să fie adecvat pentru acea intrare.

Nu este, prin urmare, surprinzător faptul că sistemele de dialog tutorial sunt mai aproape de caracterul practic comercial, cu beneficii de învățare demonstrate în raport cu instruirea convențională în diverse evaluări, decât sistemele de rezolvare colaborativă a problemelor pentru aplicații realiste.Sistemele de dialog tutorial au fost construite pentru numeroase domenii și clientele potențiale, de la subiecte K-12 la alfabetizare în domeniul calculatoarelor și programare pentru începători, fizică calitativă și cantitativă, analiză de circuite, operarea mașinilor, fiziologie cardiovasculară, controlul pagubelor de foc pe nave, abilități de negociere și altele (de ex, a se vedea Boyeret al. 2009; Pon-Barry et al. 2006). Printre cele mai reușite sisteme tutoriale se numără tutorii de lectură (de exemplu, Mostow și Beck 2007; Coleet al. 2007), deoarece materialele prezentate elevului (într-o manieră „scheletată”) sunt relativ ușor de proiectat în acest caz, iar răspunsurile elevului, în special atunci când acestea constau în principal în citirea cu voce tare a textului prezentat, sunt relativ ușor de evaluat. În cazul obiectivului mai ambițios de încurajare a înțelegerii lecturii, problema centrală este de a proiecta dialoguri astfel încât să facă previzibile contribuțiile elevului, făcând în același timp ca interacțiunea să fie eficientă din punct de vedere educațional (de exemplu, Aist și Mostow 2009).

Câteva sisteme de tutorat, în special cele destinate copiilor, utilizează personaje animate pentru a spori sentimentul de implicare al elevului. Astfel de îmbunătățiri sunt, de fapt, esențiale pentru sistemele destinate elevilor cu dizabilități cum ar fi surditatea (în cazul în care mișcările gurii și ale limbii agentului virtual observate de către elev pot ajuta la articulare), autismul sau afazia (Massaro et al. 2012; Cole etal. 2007). De asemenea, în cazul în care tutoriatul vizează în mod specific atragerea abilităților interpersonale, implementarea unor personaje asemănătoare vieții (oameni virtuali) devine o parte indispensabilă a dezvoltării sistemului (de exemplu, Coreet al. 2006; Campbell et al. 2011).

Modelarea stării de spirit a utilizatorului în sistemele de tutoriat este în primul rând o chestiune de determinare care dintre conceptele și abilitățile vizate au fost sau nu au fost încă dobândite de către utilizator și de diagnosticare a neînțelegerilor care sunt susceptibile de a fi apărut, având în vedere transcrierea sesiunii de până acum. Unele sisteme experimentale recente pot, de asemenea, să își adapteze strategiile la starea de spirit aparentă a utilizatorului, cum ar fi frustrarea sau supărarea, așa cum ar putea fi dezvăluită de intrările utilizatorului, de tonul vocii sau chiar de expresiile faciale sau de gesturile analizate prin viziune computerizată. Alte prototipuri de sisteme pot fi privite ca încercând să realizeze o modelare mentală mai generală, prin încorporarea ideilor și tehnicilor din sistemele de dialog orientate spre sarcini în ceea ce privește stările de dialog, acțiunile de dialog și înțelegerea mai profundă a limbajului (de ex, Callaway et al. 2007).

În sistemele de dialog orientate spre sarcini, după cum s-a menționat deja, modelarea dialogului este mult mai dificilă, deoarece se așteaptă ca astfel de sisteme să contribuie nu numai la rezolvarea problemei de domeniu în cauză, ci și să înțeleagă declarațiile, convingerile și intențiile utilizatorului și să se descurce într-un dialog de tip uman, cu inițiative mixte. Acest lucru necesită modele de domeniu, metode generale de planificare colaborativă incrementală, gestionarea dialogului care să modeleze interacțiunea comunicativă rațională și o înțelegere aprofundată a limbajului (în special recunoașterea intențiilor) în domeniul ales. S-au construit cu succes prototipuri de sisteme pentru domenii precum planificarea rutelor, planificarea călătoriilor aeriene, ghidarea șoferilor și a pietonilor, controlul și operarea dispozitivelor externe, evacuarea de urgență și consilierea în materie de medicamente (de ex, Allen et al. 2006;Rich și Sidner 1998; Bühler și Minker 2011; Ferguson și Allen1998, 2007), iar acestea sunt foarte promițătoare din punct de vedere practic.Cu toate acestea, sistemele care pot aborda o varietate de probleme rezonabil de complexe, în special cele care necesită cunoștințe vaste de bun simț despre cogniția și comportamentul uman, par încă inaccesibile în acest moment.

10.9 Roboți cu abilități lingvistice

Așa cum s-a menționat la începutul secțiunii 10, roboții încep să fie echipați cu servicii web, abilități de răspuns la întrebări, tehnici de chatbot (pentru retragere și divertisment), funcții de tutorat și așa mai departe. Transferul unor astfel de tehnologii către roboți a fost lent, în primul rând din cauza provocărilor foarte dificile pe care le implică echiparea unui robot cu hardware și software necesare pentru percepția vizuală de bază, recunoașterea vorbirii, explorarea și navigarea orientată spre un obiectiv (în cazul roboților mobili) și manipularea obiectelor.Cu toate acestea, interesul viu al publicului pentru roboții inteligenți și potențialul lor economic uriaș (pentru ajutor în gospodărie, îngrijirea bătrânilor, medicină, educație, divertisment, agricultură, industrie, căutare și salvare, misiuni militare, explorare spațială și așa mai departe) vor continua, cu siguranță, să stimuleze eforturile în direcția unei mai mari inteligențe robotice și a unei mai bune competențe lingvistice.

O bună imagine a stadiului actual al tehnologiei și a dificultăților în dialogul om-robot poate fi obținută din (Scheutz etal. 2011). Unele dintre exemplele de dialog prezentate acolo, referitoare la cutii și blocuri, amintesc de shrdlu-ul lui Winograd, dar ele prezintă, de asemenea, provocările implicate în interacțiunea reală, cum ar fi schimbarea decorului pe măsură ce robotul se mișcă, erorile de recunoaștere a vorbirii, frazarea disfluentă și complexă a mai multor clauze, enunțurile dependente de perspectivă („Cutia roșie este în stânga cutiei albastre?”) și deixis („Du-te acolo jos”). În plus, toate acestea trebuie să fie integrate cu acțiuni fizice planificate astfel încât să îndeplinească instrucțiunile așa cum sunt ele înțelese de robot. Deși capacitatea roboților recenți de a face față acestor dificultăți într-o anumită măsură este încurajatoare, rămân multe probleme deschise, cum ar fi problemele legate de recunoașterea vorbirii în prezența zgomotului, o mai bună și mai largă acoperire lingvistică, analiza și gestionarea dialogurilor, adaptarea la probleme noi, modelarea mentală a interlocutorului și a altor oameni din mediul înconjurător, precum și o mai bună cunoaștere generală a lumii și capacitatea de a o utiliza pentru inferență și planificare (atât la nivel de domeniu, cât și la nivel de dialog).

În timp ce dialogurile robotizate orientate spre sarcini implică toate aceste provocări,ar trebui să observăm că unele interacțiuni potențial utile cu roboți „vorbitori” necesită puține abilități lingvistice. De exemplu, robotul Rubi, descris în (Movellan et al. 2009), a afișat copiilor mici obiecte pe „pieptul” său echipat cu ecran, cerându-le să le atingă și să le numească obiectele. Acest lucru a dus la o mai bună învățare a cuvintelor de către cei mici, în ciuda simplității interacțiunii. Un alt exemplu de robot vorbitor de mare succes, fără abilități lingvistice reale, a fost „ghidul turistic al muzeului” Rhino (Burgard et al. 1999). Spre deosebire de Rubi, acesta a fost capabil să navigheze printre oameni care se mișcau în mod imprevizibil și și-a menținut publicul captivat de mesajele sale preînregistrate și de afișarea pe un ecran a obiectivelor sale curente. În același mod, numeroși roboți umanoizi (de exemplu, Asimo de la Honda), în curs de dezvoltare în trecut și în prezent în întreaga lume, înțeleg încă foarte puțin limbaj și se bazează în principal pe o ieșire programată. Fără îndoială, utilitatea și atractivitatea lor vor continua să crească, datorită unor tehnologii precum cele menționate mai sus-jocuri, sisteme de agenți de însoțire, aplicații bazate pe voce, tutori și așa mai departe; iar aceste evoluții vor alimenta, de asemenea, progresul în ceea ce privește aspectele mai profunde ale percepției, mișcării, manipulării și dialogului semnificativ.

.

Leave a Reply