Computational Linguistics

Voice-based web services and assistants

Voice-based services, especially on mobile devices, are a rapidlyexpanding applications area. Služby sahají od organizátorů (nákupní seznamy, plány schůzek, upomínky, seznamy kontaktů atd.), přes „infotainment“ v autě (směrování, dopravní podmínky, varování před nebezpečím,výběr iTunes, vyhledávání blízkých restaurací a jiných míst atd.) až po umožnění používání dalších různých aplikací, jako je diktování e-mailů, vytáčení kontaktů, finanční transakce, rezervace a zadávání objednávek, přístup na Wikipedii, služby help-desku, zdravotní poradenství a zodpovídání obecných otázek. Některé z těchto služeb (např. vytáčení a výběr iTunes) spadají do kategorie hands-freeovládání a takové ovládání je stále důležitější v dopravě (včetně vozidel bez řidiče nebo bez pilota), logistice (rozmístění zdrojů) a výrobě. Také chatbottechnologie a doprovodní dialogoví agenti (jak je uvedeno v části 10.5) slouží jako obecné zázemí pro specifičtější hlasové služby.

Klíčovou technologií v těchto službách je samozřejmě rozpoznávání řeči, jehož přesnost a přizpůsobivost se postupně zvyšuje. Nejlevnější, úzce zaměřené systémy(např. jednoduché organizéry) využívají silná očekávání ohledně uživatelských vstupů k jejich rozpoznání, interpretaci a reakci na ně; jako takové se podobají systémům řízeným menu. Všestrannější systémy, jako jsou kartalkery, které mohou zpracovávat směrování, hudební požadavky, vyhledávání cest atd., spoléhají na pokročilejší schopnosti řízení dialogu. Ty umožňují přepínání témat a případně i stav pozornosti uživatele (např. odložení odpovědi na dotaz řidiče, pokud se řidič potřebuje věnovat odbočování). Největší současný „humbuk“ je kolem pokročilých hlasových asistentů, zejména Siri na iPhonu (následuje Iris na Androidu, Evi na True Knowledge, Google Now a další). Zatímco předchozí systémy pro hlasové ovládání a diktování, jako například Vlingo pro Android, se vyznačovaly mnoha stejnými funkcemi, Siri přidává osobitost a lepší zpracování dialogů a integraci služeb – uživatelé mají pocit, že komunikují spíše s živou syntetickou postavou než s aplikací. Kromě technologie NuanceSR využívá Siri komplexní techniky, které byly do jisté míry prosazeny v rámci projektu Calo (Cognitive Assistantthat Learns and Organizes) realizovaného společností SRI International a několika univerzitami v letech 2003-2008 (Ambite et al. 2006;CALO ). Tyto techniky zahrnují aspekty NLU, ML, cílené a neurčité odvozování, ontologie, plánování a delegování služeb. Zatímco však delegace na webové služby, včetně Wolfram|Alpha QA, nebo technologie chatbotů poskytuje značnou robustnost a existuje významná úvaha o plánech, nákupu a dalších cílových službách, obecné porozumění je stále velmi povrchní, jak uživatelé takzjistili. Anekdotickými příklady závažných nedorozumění jsou „Zavolejte mi záchranku“ vyvolávající odpověď „Odteď vám budu říkat ‚záchranka'“. Silný zájem a poptávka v uživatelské komunitě vyvolaná těmito (poněkud) inteligentními, poměrně všestrannými asistenty však pravděpodobně zintenzivní a urychlí výzkum směrem ke stále živějším virtuálnímagentům se stále větším porozuměním a zdravým rozumem.

10.8 Kolaborativní systémy pro řešení problémů a inteligentní tutoriály

Probíráme systémy pro kolaborativní řešení problémů (označované také jako „smíšené“ nebo „úkolově orientované“ dialogové systémy) a výukové dialogové systémy (tj, výukové systémy, v nichž dialog hraje klíčovou roli) pod společnou hlavičkou, protože oba závisí na poměrně hlubokých reprezentacích nebo modelech domén, na které jsou zaměřeny, stejně jako na mentálním stavu uživatelů, s nimiž interagují.

Měli bychom však ihned poznamenat, že systémy pro kolaborativní řešení problémů se obvykle zabývají mnohem méně předvídatelnými situacemi v doméně a vstupy uživatelů než výukové systémy, a proto první z nich kladou mnohem větší důraz na flexibilní zpracování dialogu než druhé. Například spolupracovníci při evakuaci v nouzových situacích (Ferguson a Allen 1998, 2007) se musí vypořádat s dynamicky se měnící doménou a zároveň zvládnout mnoho stavů dialogu, které mohou nastat v závislosti na sdílených a soukromých přesvědčeních, cílech, plánech a záměrech účastníků v daném okamžiku. Naproti tomu v doméně, jako je výuka fyziky (např, Jordan et al. 2006; Litman aSilliman 2004), může být žák veden sítí učebních cílů s autorskými instrukcemi a odpovídajícím těmto cílům mohou být navrženy modely dialogu s konečnými stavy, které klasifikují vstupy žáka v každém bodě dialogu a generují připravenou odpověď, která je pravděpodobně vhodná pro tento vstup.

Není proto překvapivé, že výukové dialogové systémy jsoublíže komerční praxi, s prokázaným přínosem pro výuku ve srovnání s konvenční výukou v různých hodnoceních, než systémy pro kolaborativní řešení problémů v reálných aplikacích.Výukové dialogové systémy byly vytvořeny pro řadu oblastí a potenciálních klientů, od předmětů K-12 až po počítačovou gramotnost a programování pro začátečníky, kvalitativní a kvantitativní fyziku, analýzu obvodů, obsluhu strojů, kardiovaskulární fyziologii, kontrolu požárů na lodích, vyjednávací dovednosti a další (např, Boyeret al. 2009; Pon-Barry et al. 2006). Mezi nejúspěšnější výukové systémy patří tutory čtení (např. Mostow a Beck 2007; Coleet al. 2007), protože materiály předkládané žákovi (formou „scaffolded“) jsou v tomto případě poměrně jednoduše navrženy a odpovědi žáka, zejména pokud spočívají především v hlasitém čtení předloženého textu, jsou relativně snadno vyhodnotitelné. V případě ambicióznějšího cíle, kterým je podpora porozumění čtenému textu, je hlavním problémem navrhnout dialogy tak, aby byly příspěvky žáka předvídatelné a zároveň aby byla interakce výchovně účinná (např. Aist a Mostow 2009).

Některé výukové systémy, zejména ty určené dětem, používají animované postavičky, aby zvýšily pocit zapojení žáka. Takováto vylepšení jsou ve skutečnosti nezbytná pro systémyurčené pro studenty s postižením, jako je hluchota (kde pohyby úst a jazyka virtuálního agenta pozorované studentem mohou pomocis artikulací), autismus nebo afázie (Massaro et al. 2012; Cole etal. 2007). Stejně tak, pokud je výuka zaměřena specificky na nácvik mezilidských dovedností, stává se implementace životu podobných postav (virtuálních lidí) nezbytnou součástí vývoje systému (např. Coreet al. 2006; Campbell et al. 2011).

Modelování stavu mysli uživatele v systémech výuky je především otázkou určení, které z cílových pojmů a dovedností si uživatel osvojil, nebo ještě neosvojil, a diagnostikování nepochopení, ke kterému pravděpodobně došlo vzhledem k dosavadnímu přepisu sezení. Některé nedávné experimentální systémy mohou také přizpůsobit své strategie zjevné náladě uživatele, jako je frustrace nebo nuda, což mohou odhalit vstupy uživatele, tón hlasu nebo i výrazy obličeje či gesta analyzovaná pomocí počítačového vidění. Jiné prototypové systémy lze považovat za systémy, které usilují o obecnější mentální modelování tím, že zahrnují myšlenky a techniky z dialogových systémů orientovaných na úkoly týkající se stavů dialogu, dialogových aktů a hlubšího porozumění jazyku (např, Callaway et al. 2007).

V dialogových systémech zaměřených na úkoly, jak již bylo uvedeno, je modelování dialogu mnohem náročnější, protože od takových systémů se očekává, že nejen přispějí k řešení daného doménového problému, ale že budou rozumět výrokům, přesvědčením a záměrům uživatele a udrží se v dialogu podobném lidskému dialogu se smíšenými podněty. To vyžaduje doménové modely, obecné metody inkrementálního plánování spolupráce, řízení dialogu, které modeluje racionální komunikační interakci, a důkladné porozumění jazyku (zejména rozpoznávání záměrů) ve zvolené doméně. Prototypové systémy byly úspěšně vytvořeny pro domény, jako je plánování trasy, plánování letecké dopravy, navádění řidičů a chodců, řízení a obsluha externích zařízení, nouzová evakuace a poradenství v oblasti léků (např, Allen et al. 2006; Rich a Sidner 1998; Bühler a Minker 2011; Ferguson a Allen1998, 2007), které jsou velmi významným praktickým příslibem.Systémy, které by se dokázaly vypořádat s celou řadou přiměřeně komplexních problémů, zejména těch, které vyžadují rozsáhlé rozumové znalosti o lidském poznání a chování, se však v současné době stále zdají být nedosažitelné.

10.9 Roboti s podporou jazyků

Jak bylo uvedeno na začátku oddílu 10, roboti začínají být vybavováni webovými službami, schopnostmi odpovídat na otázky, chatovacími technikami (pro nouzové řešení a zábavu), výukovými funkcemi atd. Přenos těchto technologií na roboty byl pomalý, především kvůli velmi obtížným úkolům spojeným s pouhým vybavením robota hardwarem a softwarem potřebným pro základní vizuální vnímání, rozpoznávání řeči, průzkumnou a cílovou navigaci (v případě mobilních robotů) a manipulaci s objekty.Nicméně velký zájem veřejnosti o inteligentní roboty a jejich obrovský ekonomický potenciál (pro pomoc v domácnosti, péči o seniory, medicínu, vzdělávání, zábavu, zemědělství, průmysl, pátrací a záchranné akce, vojenské mise, průzkum vesmíru a tak dále) bude jistě i nadále podněcovat snahu o větší inteligenci robotů a jejich jazykovou vybavenost.

Dobrý přehled o stavu techniky a obtížích v oblasti dialogu mezi člověkem a robotem lze získat z (Scheutz etal. 2011). Některé z tam uvedených dialogových příkladů, týkající se krabic a bloků, připomínají Winogradův shrdlu, ale také vykazují problémy spojené s reálnou interakcí, jako je změna scenérie při pohybu robota, chyby v rozpoznávání řeči, nesouvislé a složité víceslovné výroky, výroky závislé na perspektivě („Je červená krabice vlevo od modré krabice?“) a deixe („Jdi tam dolů“). To vše musí být navíc integrováno s plánovanou fyzickou akcí tak, aby byly splněny instrukce, jak jim robot rozumí. Ačkoli schopnost nejnovějších robotů zvládnout tyto obtíže do určité míry je povzbudivá, zůstává mnoho otevřených problémů, jako jsou problémy rozpoznávání řeči v přítomnosti šumu, lepší, širší jazykové pokrytí, rozbor a zpracování dialogů, adaptace na nové problémy, mentální modelování partnera rozhovoru a dalších lidí v prostředí a větší obecné znalosti o světě a schopnost využít je pro odvozování a plánování (jak na úrovni domény, tak na úrovni dialogu).

Ačkoli dialogy s roboty zaměřené na úkoly zahrnují všechny tyto výzvy, měli bychom poznamenat, že některé potenciálně užitečné interakce s „mluvícími“ roboty vyžadují jen málo jazykových dovedností. Například robot Rubi, popsaný v(Movellan et al. 2009), zobrazoval batolatům objekty na své „hrudi“ vybavené obrazovkou a žádal je, aby se objektů dotýkaly a pojmenovávaly je. To vedlo k lepšímu učení slov u batolat, a to i přes jednoduchost interakce. Dalším příkladem velmi úspěšného mluvícího robota bez skutečných jazykových schopností byl „průvodce muzeem“ Rhino (Burgard a kol. 1999). Na rozdíl od Rubiho se dokázal pohybovat mezi nepředvídatelně se pohybujícími lidmi a udržoval své publikum v napětí pomocí předem nahraných zpráv a zobrazováním svých aktuálních cílů na obrazovce. Stejně tak řada humanoidních robotů (např. Asimo od Hondy), kteří jsou v současnosti i v minulosti vyvíjeni po celém světě, stále rozumí jen velmi málo jazyku a spoléhá se převážně na skriptovaný výstup. Není pochyb o tom, že jejich užitečnost a přitažlivost bude i nadále růst díky technologiím, jako jsou výše zmíněné hry, systémy agentů, hlasové aplikace, výukové programy a tak dále; a tento vývoj také podpoří pokrok v hlubších aspektech vnímání, pohybu, manipulace a smysluplného dialogu.

.

Leave a Reply