Computational Linguistics

Voice-based web services and assistants

Voice-based services, especially on mobile devices, are a rapidlyexpanding applications area. Usługi obejmują zakres od organizatorów (listy zakupów, harmonogramy spotkań, przypomnienia, listy kontaktów, itp.), do „infotainment” w samochodzie (wyznaczanie trasy, warunki ruchu drogowego, ostrzeżenia o zagrożeniach, wybór iTunes, znajdowanie pobliskich restauracji i innych miejsc, itp.), do umożliwienia korzystania z innych różnych aplikacji, takich jak dyktowanie e-maili, wybieranie kontaktów, transakcje finansowe, rezerwacje i składanie zamówień, dostęp do Wikipedii, usługi help-desk, doradztwo zdrowotne i ogólne odpowiadanie na pytania. Niektóre z tych usług (takie jak wybieranie numeru i wybór iTunes) należą do kategorii kontroli bez użycia rąk, a takie kontrole stają się coraz ważniejsze w transporcie (w tym w pojazdach bez kierowcy lub bez pilota), logistyce (rozmieszczanie zasobów) i produkcji. Również technologia chatbotowa i towarzyszący agenci dialogowi (omówieni w rozdziale 10.5) służą jako ogólne zaplecze dla bardziej specyficznych usług opartych na głosie.

Kluczową technologią w tych usługach jest oczywiście rozpoznawanie mowy, którego dokładność i możliwości adaptacyjne stopniowo wzrastają. Najmniej kosztowne, wąsko ukierunkowane systemy (np. proste organizery) wykorzystują silne oczekiwania dotyczące danych wejściowych użytkownika do rozpoznawania, interpretowania i reagowania na te dane; jako takie przypominają systemy sterowane za pomocą menu. Bardziej uniwersalne systemy, takie jak cartalkery, które mogą obsługiwać wyznaczanie tras, prośby o muzykę, wyszukiwanie lokali, itp. opierają się na bardziej zaawansowanych możliwościach zarządzania dialogiem. Pozwalają one na przełączanie tematów i potencjalnie na uwzględnienie stanu uwagi użytkownika (np. opóźnienie odpowiedzi na pytanie kierowcy, jeśli ten musi zająć się skrętem). Największy „szum” panuje obecnie wokół zaawansowanych asystentów głosowych, w szczególności Siri z iPhone’a (następnie Iris z Androida, Evi z True Knowledge, Google Now i inne). Podczas gdy poprzednie systemy sterowania głosem i dyktowania, takie jak Android’s Vlingo, posiadały wiele z tych samych funkcji, Siri dodaje osobowość i ulepszoną obsługę dialogów i integrację usług – użytkownicy czują, że wchodzą w interakcję z żywą syntetyczną postacią, a nie aplikacją. Oprócz technologii NuanceSR, Siri wykorzystuje złożone techniki, które w pewnym stopniu zostały rozwinięte w ramach projektu Calo (Cognitive Assistantthat Learns and Organizes) realizowanego przez SRI International i wiele uniwersytetów w latach 2003-2008 (Ambite et al. 2006; CALO ). Techniki te obejmują aspekty NLU, ML, wnioskowanie ukierunkowane na cel i niepewne, ontologie, planowanie i delegowanie usług. Jednak podczas gdy delegowanie do usług sieciowych, w tym Wolfram|Alpha QA, lub technologii chatbot zapewnia znaczną solidność i istnieje znaczące rozumowanie na temat harmonogramów, zakupów i innych usług docelowych, ogólne zrozumienie jest nadal bardzo płytkie, co odkrywają użytkownicy. Anegdotyczne przykłady poważnych nieporozumień to „Call me an ambulance” wywołujące odpowiedź „From now on I will call you 'an ambulance'”. Jednakże, duże zainteresowanie i zapotrzebowanie w społeczności użytkowników wygenerowane przez tych wczesnych (nieco) inteligentnych, dość wszechstronnych asystentów prawdopodobnie zintensyfikuje i przyspieszy badania w kierunku coraz bardziej życiowych wirtualnych agentów, z coraz większym zrozumieniem i zdrowym rozsądkiem.

10.8 Wspólne rozwiązywanie problemów i inteligentni tutorzy

Przedyskutujemy systemy wspólnego rozwiązywania problemów (określane również jako „mieszane-inicjatywne” lub „zorientowane na zadanie” systemy dialogowe) i dialogowe systemy tutorskie (tj, systemy samouczków, w których dialog odgrywa kluczową rolę) pod wspólnym nagłówkiem, ponieważ oba zależą od dość głębokich reprezentacji lub modeli domen, do których są skierowane, jak również od stanu umysłowego użytkowników, z którymi wchodzą w interakcje.

Jednakże powinniśmy od razu zauważyć, że systemy współpracy w rozwiązywaniu problemów zazwyczaj mają do czynienia ze znacznie mniej przewidywalnymi sytuacjami domenowymi i danymi wejściowymi użytkowników niż systemy samouczków, a zatem te pierwsze kładą znacznie większy nacisk na elastyczną obsługę dialogu niż te drugie. Na przykład, współpracownicy podczas ewakuacji (Ferguson i Allen 1998, 2007) muszą radzić sobie z dynamicznie zmieniającą się domeną, jednocześnie obsługując wiele stanów dialogu, które mogą wystąpić w zależności od wspólnych i prywatnych przekonań, celów, planów i intencji uczestników w danym momencie. Dla kontrastu, w domenie takiej jak korepetycje z fizyki (np, Jordan et al. 2006; Litman andSilliman 2004), uczący się może być prowadzony przez sieć celów nauczania z autorskimi instrukcjami, a odpowiadające tym celom, skończone-stanowe modele dialogowe mogą być zaprojektowane, które klasyfikują dane wejściowe ucznia w każdym punkcie dialogu i generują przygotowaną odpowiedź, która prawdopodobnie będzie odpowiednia dla tych danych wejściowych.

Niektóre systemy korepetycyjne, zwłaszcza te skierowane do dzieci, wykorzystują animowane postacie, by zwiększyć poczucie zaangażowania ucznia. Takie ulepszenia są w rzeczywistości niezbędne w systemach przeznaczonych dla uczniów z takimi niepełnosprawnościami, jak głuchota (gdzie ruchy ust i języka wirtualnego agenta obserwowane przez ucznia mogą pomóc w artykulacji), autyzm czy afazja (Massaro et al. 2012; Cole etal. 2007). Ponadto, jeśli celem tutoringu jest kształcenie umiejętności interpersonalnych, nieodzowną częścią rozwoju systemu staje się implementacja życiopodobnych postaci (wirtualnych ludzi) (np. Coreet al. 2006; Campbell et al. 2011).

Modelowanie stanu umysłu użytkownika w systemach korepetycyjnych polega przede wszystkim na określeniu, które z docelowych pojęć i umiejętności zostały lub nie zostały jeszcze przyswojone przez użytkownika, a także na diagnozowaniu niezrozumienia, które prawdopodobnie wystąpiło, biorąc pod uwagę dotychczasowy zapis sesji. Niektóre z ostatnich systemów eksperymentalnych mogą również dostosowywać swoje strategie do widocznego nastroju użytkownika, takiego jak frustracja lub znudzenie, co może być ujawnione przez wejścia użytkownika, ton głosu, a nawet mimikę twarzy lub gesty analizowane za pomocą wizji komputerowej. Inne prototypowe systemy mogą być postrzegane jako dążące do bardziej ogólnego modelowaniamentalnego, poprzez włączenie pomysłów i technik z systemów dialogowych zorientowanych na zadania, dotyczących stanów dialogowych, działań dialogowych i głębszego zrozumienia języka (np, Callaway et al. 2007).

W systemach dialogowych zorientowanych na zadania, jak już wspomniano, modelowanie dialogu jest o wiele bardziej wymagające, ponieważ od takich systemów oczekuje się nie tylko przyczyniania się do rozwiązywania problemów dziedzinowych, ale także rozumienia wypowiedzi użytkownika, jego przekonań i intencji oraz utrzymywania go w podobnym do ludzkiego, mieszanym dialogu. Wymaga to modeli dziedzinowych, ogólnych przyrostowych metod planowania współpracy, zarządzania dialogiem, które modeluje racjonalną interakcję komunikacyjną, oraz dogłębnego zrozumienia języka (zwłaszcza rozpoznawania intencji) w wybranej dziedzinie. Prototypowe systemy zostały z powodzeniem zbudowane dla takich dziedzin, jak planowanie trasy, planowanie podróży lotniczych, prowadzenie kierowców i pieszych, kontrola i obsługa urządzeń zewnętrznych, ewakuacja w nagłych wypadkach oraz doradzanie w zakresie leków (np, Allen et al. 2006; Rich i Sidner 1998; Bühler i Minker 2011; Ferguson i Allen1998, 2007), które są bardzo obiecujące z praktycznego punktu widzenia. Jednak systemy, które są w stanie poradzić sobie z różnymi, w miarę złożonymi problemami, szczególnie takimi, które wymagają szerokiej, zdroworozsądkowej wiedzy o ludzkim poznaniu i zachowaniu, wydają się w tej chwili wciąż poza zasięgiem.

10.9 Roboty z obsługą języka

Jak zauważono na początku rozdziału 10, roboty zaczynają być wyposażane w usługi sieciowe, umiejętności odpowiadania na pytania, techniki chatbotowe (dla rozrywki i bezpieczeństwa), funkcje korepetycji i tak dalej. Transfer takich technologii do robotów był powolny, głównie z powodu bardzo trudnych wyzwań związanych z wyposażeniem robota w sprzęt i oprogramowanie potrzebne do podstawowej percepcji wizualnej, rozpoznawania mowy, eksploracji i nawigacji ukierunkowanej na cel (w przypadku robotów mobilnych) oraz manipulacji obiektami.Jednak żywe zainteresowanie publiczne inteligentnymi robotami i ich ogromny potencjał ekonomiczny (pomoc domowa, opieka nad osobami starszymi, medycyna, edukacja, rozrywka, rolnictwo, przemysł, poszukiwania i ratownictwo, misje wojskowe, eksploracja kosmosu i tak dalej) z pewnością będą nadal napędzać dążenie do większej inteligencji robotów i kompetencji językowych.

Dobre wyczucie stanu techniki i trudności w dialogu człowiek-robot można uzyskać z (Scheutz etal. 2011). Niektóre z przedstawionych tam przykładów dialogowych, dotyczące pudełek i bloków, przypominają shrdlu Winograda, ale ukazują również wyzwania związane z rzeczywistą interakcją, takie jak zmieniająca się sceneria w miarę poruszania się robota, błędy w rozpoznawaniu mowy, niewyraźne i złożone wielowyrazowe wypowiedzi, wypowiedzi zależne od perspektywy („Czy czerwone pudełko jest na lewo od niebieskiego?”) i deixis („Zejdź tam na dół”). Dodatkowo, wszystko to musi być zintegrowane z fizycznym działaniem zaplanowanym tak, aby wypełnić instrukcje w sposób zrozumiały dla robota. Chociaż zdolność najnowszych robotów do radzenia sobie z tymi trudnościami w pewnym stopniu jest zachęcająca, pozostaje wiele otwartych problemów, takich jak problemy rozpoznawania mowy w obecności szumu, lepsze, szersze pokrycie językowe, parsowanie i obsługa dialogów, adaptacja do nowych problemów, mentalne modelowanie rozmówcy i innych ludzi w środowisku, oraz większa ogólna wiedza o świecie i możliwość wykorzystania jej do wnioskowania i planowania (zarówno na poziomie domeny, jak i dialogu).

Podczas gdy zorientowane na zadania dialogi robotów wiążą się ze wszystkimi tymi wyzwaniami, powinniśmy zauważyć, że niektóre potencjalnie użyteczne interakcje z „mówiącymi” robotami wymagają niewielkich umiejętności lingwistycznych. Na przykład robot Rubi, opisany w (Movellan et al. 2009), wyświetlał maluchom obiekty na swojej wyposażonej w ekran „skrzyni”, prosząc je o dotknięcie i nazwanie tych obiektów. Zaowocowało to poprawą nauki słów przez dzieci, pomimo prostoty interakcji. Innym przykładem bardzo udanego robota mówiącego, który nie posiada żadnych umiejętności językowych, jest Rhino (Burgard et al. 1999), „przewodnik po muzeum”. W przeciwieństwie do Rubi był on w stanie poruszać się wśród nieprzewidywalnie przemieszczających się ludzi i utrzymywał zaangażowanie widzów dzięki nagranym wcześniej komunikatom oraz wyświetlaniu na ekranie swoich aktualnych celów. W ten sam sposób liczne roboty humanoidalne (na przykład Asimo firmy Honda), które są obecnie i w przeszłości rozwijane na całym świecie, nadal rozumieją bardzo niewiele języków i opierają się głównie na skryptach. Bez wątpienia ich użyteczność i atrakcyjność będzie nadal rosła, dzięki technologiom takim jak te wymienione powyżej – gry, systemy agentów towarzyszących, aplikacje oparte na głosie, korepetytorzy i tak dalej; a rozwój ten będzie również napędzał postęp w głębszych aspektach percepcji, ruchu, manipulacji i znaczącego dialogu.

Leave a Reply