Articles / November 3, 2021

Computational Linguistics

Sprachgestützte Webdienste und Assistenten

Sprachgestützte Dienste, insbesondere auf mobilen Geräten, sind ein rasch expandierender Anwendungsbereich. Die Dienste reichen von Organizern (Einkaufslisten, Terminkalender, Erinnerungen, Kontaktlisten usw.) über „Infotainment“ im Auto (Routenplanung, Verkehrslage, Gefahrenwarnungen, iTunes-Auswahl, Suche nach Restaurants und anderen Orten in der Nähe usw.) bis hin zur Ermöglichung der Nutzung verschiedener anderer Anwendungen wie E-Mail-Diktat, Anrufen von Kontakten, Finanztransaktionen, Reservierungen und Bestellungen, Zugriff auf Wikipedia, Helpdesk-Dienste, Gesundheitsberatung und Beantwortung allgemeiner Fragen. Einige dieser Dienste (wie z. B. das Wählen und die Auswahl von iTunes) fallen in die Kategorie der Freihandsteuerung, und solche Steuerungen werden im Verkehr (einschließlich fahrerloser oder pilotenloser Fahrzeuge), in der Logistik (Einsatz von Ressourcen) und in der Fertigung immer wichtiger. Auch die Chatbot-Technologie und begleitende Dialogagenten (wie in Abschnitt 10.5 erörtert) dienen als allgemeines Backend für spezifischere sprachbasierte Dienste.

Die Schlüsseltechnologie für diese Dienste ist natürlich die Spracherkennung, deren Genauigkeit und Anpassungsfähigkeit allmählich zunimmt. Die preisgünstigsten, eng begrenzten Systeme (z.B. einfache Organizer) nutzen starke Erwartungen an die Benutzereingaben, um diese zu erkennen, zu interpretieren und darauf zu reagieren; als solche ähneln sie menügesteuerten Systemen. Vielseitigere Systeme, wie z.B. Cartalker, die Routing, Musikwünsche, Suchanfragen usw. verarbeiten können, stützen sich auf fortgeschrittenere Dialogmanagementfähigkeiten. Diese ermöglichen es, das Thema zu wechseln und möglicherweise den Aufmerksamkeitszustand des Benutzers zu berücksichtigen (z. B. die Beantwortung der Frage eines Fahrers zu verzögern, wenn dieser abbiegen muss). Der größte aktuelle „Buzz“ umgibt fortschrittliche sprachbasierte Assistenten, insbesondere Siri voniPhone (gefolgt von Iris von Android, Evi von True Knowledge, Google Now und anderen). Während frühere Sprachsteuerungs- und Diktiersysteme wie Vlingo von Android viele der gleichen Funktionen boten, fügt Siri Persönlichkeit und eine verbesserte Dialogverarbeitung und Dienstintegration hinzu – die Benutzer haben das Gefühl, mit einer lebendigen synthetischen Figur zu interagieren und nicht mit einer App. Neben der SR-Technologie von Nuance nutzt Siri komplexe Techniken, die in gewissem Maße durch das Projekt Calo (Cognitive Assistantthat Learns and Organizes) vorangetrieben wurden, das von 2003 bis 2008 von SRI International und mehreren Universitäten durchgeführt wurde (Ambite et al. 2006; CALO ). Diese Techniken umfassen Aspekte von NLU, ML, zielgerichteter und unsicherer Inferenz, Ontologien, Planung und Dienstdelegation. Aber während die Delegation an Webdienste, einschließlich Wolfram Alpha QA, oder die Chatbot-Technologie eine beträchtliche Robustheit bietet, und es gibt bedeutende Schlussfolgerungen zu Zeitplänen, Einkauf und anderen zielgerichteten Diensten, ist das allgemeine Verständnis immer noch sehr oberflächlich, wie die Benutzer so feststellen. Anekdotische Beispiele für schwerwiegende Missverständnisse sind: „Rufen Sie mir einen Krankenwagen“, woraufhin die Antwort „Von nun an werde ich Sie ‚Krankenwagen‘ nennen“ erfolgt. Das starke Interesse und die Nachfrage in der Benutzergemeinschaft, die durch diese ersten (einigermaßen) intelligenten, recht vielseitigen Assistenten hervorgerufen wurden, werden jedoch wahrscheinlich die Forschung in Richtung auf immer lebensähnlichere virtuelle Agenten mit immer mehr Verständnis und gesundem Menschenverstand intensivieren und beschleunigen.

10.8 Kollaborative Problemlöser und intelligente Tutoren

Wir erörtern kollaborative Problemlösungssysteme (auch als „gemischt-initiative“ oder „aufgabenorientierte“ Dialogsysteme bezeichnet) und tutorielle Dialogsysteme (d. h., (d.h. tutorielle Systeme, in denen der Dialog eine zentrale Rolle spielt) unter einer gemeinsamen Überschrift, weil beide auf ziemlich tiefgehende Repräsentationen oder Modelle der Domänen, auf die sie abzielen, sowie auf den mentalen Zustand der Benutzer, mit denen sie interagieren, angewiesen sind.

Wir sollten jedoch sofort anmerken, dass kollaborative Problemlösesysteme typischerweise mit viel weniger vorhersehbaren Domänensituationen und Benutzereingaben zu tun haben als tutorielle Systeme, und dementsprechend legen erstere viel mehr Wert auf eine flexible Dialogbehandlung als letztere. Zum Beispiel müssen die Beteiligten bei einer Notfallevakuierung (Ferguson und Allen 1998, 2007) mit einer sich dynamisch verändernden Domäne umgehen und gleichzeitig die vielen Dialogzustände bewältigen, die je nach den gemeinsamen und privaten Überzeugungen, Zielen, Plänen und Absichten der Teilnehmer zu einem bestimmten Zeitpunkt auftreten können. Im Gegensatz dazu wird in einer Domäne wie dem Physikunterricht (z.B., Jordan et al. 2006; Litman und Silliman 2004), kann der Lernende durch ein Netz von Lernzielen mit selbst verfassten Anweisungen geführt werden, und entsprechend diesen Zielen können Dialogmodelle mit endlichen Zuständen entworfen werden, die die Eingaben des Schülers an jedem Punkt eines Dialogs klassifizieren und eine vorbereitete Antwort erzeugen, die wahrscheinlich für diese Eingabe geeignet ist.

Es ist daher nicht überraschend, dass Tutorial-Dialogsysteme näher an der kommerziellen Praktikabilität sind, mit nachgewiesenen Lernvorteilen im Vergleich zu konventionellem Unterricht in verschiedenen Evaluierungen, als kollaborative Problemlösungssysteme für realistische Anwendungen.Tutorial-Dialogsysteme wurden für zahlreiche Bereiche und potenzielle Zielgruppen entwickelt, von K-12-Fächern bis hin zu Computerkenntnissen und Programmieranfängern, qualitativer und quantitativer Physik, Schaltkreisanalyse, Bedienung von Maschinen, Herz-Kreislauf-Physiologie, Brandschadenkontrolle auf Schiffen, Verhandlungsgeschick und mehr (z.B., siehe Boyeret al. 2009; Pon-Barry et al. 2006). Zu den erfolgreichsten Lernsystemen gehören Lesetutoren (z. B. Mostow und Beck 2007; Coleet al. 2007), da die Materialien, die dem Lernenden (in einer „gerüsteten“ Weise) präsentiert werden, in diesem Fall relativ einfach zu gestalten sind und die Antworten des Lernenden, insbesondere wenn sie in erster Linie aus dem lauten Lesen des präsentierten Textes bestehen, relativ einfach zu bewerten sind. Bei dem ehrgeizigeren Ziel, das Leseverständnis zu fördern, besteht das zentrale Problem darin, die Dialoge so zu gestalten, dass die Beiträge des Lernenden vorhersehbar sind und die Interaktion gleichzeitig pädagogisch effektiv ist (z. B. Aist und Mostow 2009).

Einige Tutorensysteme, insbesondere solche, die sich an Kinder richten, verwenden animierte Figuren, um das Gefühl des Engagements des Lernenden zu verstärken. Solche Verbesserungen sind für Systeme, die sich an Lernende mit Behinderungen wie Taubheit (wo die Mund- und Zungenbewegungen des virtuellen Agenten, die der Lernende beobachtet, bei der Artikulation helfen können), Autismus oder Aphasie richten, unerlässlich (Massaro et al. 2012; Cole et al. 2007). Wenn Tutoring speziell auf das Training zwischenmenschlicher Fähigkeiten abzielt, wird die Implementierung lebensechter Charaktere (virtuelle Menschen) zu einem unverzichtbaren Bestandteil der Systementwicklung (z. B. Coreet al. 2006; Campbell et al. 2011).

Bei der Modellierung des Geisteszustands des Nutzers in Tutoring-Systemen geht es in erster Linie darum, festzustellen, welche der angestrebten Konzepte und Fähigkeiten der Nutzer bereits erworben hat bzw. noch nicht erworben hat, und Missverständnisse zu diagnostizieren, die angesichts des bisherigen Sitzungsprotokolls wahrscheinlich auftreten werden. Einige neuere experimentelle Systeme sind auch in der Lage, ihre Strategien an die offensichtliche Stimmung des Benutzers anzupassen, wie z. B. Frustration oder Langeweile, wie sie sich aus den Eingaben des Benutzers, dem Tonfall oder auch aus der Mimik oder Gestik, die mit Hilfe der Computer Vision analysiert werden, ergeben kann. Andere Prototypsysteme streben eine allgemeinere mentale Modellierung an, indem sie Ideen und Techniken aus aufgabenorientierten Dialogsystemen in Bezug auf Dialogzustände, Dialoghandlungen und tieferes Sprachverständnis einbeziehen (z. B., Callaway et al. 2007).

In aufgabenorientierten Dialogsystemen ist die Dialogmodellierung, wie bereits erwähnt, viel anspruchsvoller, da von solchen Systemen nicht nur erwartet wird, dass sie zur Lösung des jeweiligen Domänenproblems beitragen, sondern auch die Äußerungen, Überzeugungen und Absichten des Benutzers verstehen und sich in einem menschenähnlichen, gemischt-initiativen Dialog behaupten. Dies erfordert Domänenmodelle, allgemeine inkrementelle kollaborative Planungsmethoden, ein Dialogmanagement, das die rationale kommunikative Interaktion modelliert, und ein gründliches Sprachverständnis (insbesondere die Absichtserkennung) in der gewählten Domäne. Prototypische Systeme wurden bereits erfolgreich für Bereiche wie Routenplanung, Flugplanung, Fahrer- und Fußgängerführung, Steuerung und Bedienung externer Geräte, Notfallevakuierung und Medikamentenberatung entwickelt (z. B., Allen et al. 2006;Rich und Sidner 1998; Bühler und Minker 2011; Ferguson und Allen1998, 2007), und diese versprechen sehr viel für die Praxis.Allerdings scheinen Systeme, die mit einer Vielzahl von einigermaßen komplexen Problemen umgehen können, insbesondere solche, die ein breites Commonsense-Wissen über menschliche Kognition und Verhalten erfordern, derzeit noch außer Reichweite zu sein.

10.9 Sprachfähige Roboter

Wie zu Beginn von Abschnitt 10 erwähnt, werden Roboter allmählich mit Webdiensten, Fragebeantwortungsfähigkeiten, Chatbot-Techniken (für Rückfälle und zur Unterhaltung), Tutorfunktionen usw. ausgestattet. Die Übertragung solcher Technologien auf Roboter verlief bisher nur langsam, vor allem weil es sehr schwierig ist, einen Roboter mit der Hard- und Software auszustatten, die für die grundlegende visuelle Wahrnehmung, die Spracherkennung, die explorative und zielgerichtete Navigation (bei mobilen Robotern) und die Manipulation von Objekten erforderlich ist.Das große öffentliche Interesse an intelligenten Robotern und ihr enormes wirtschaftliches Potenzial (für Haushaltshilfe, Altenpflege, Medizin, Bildung, Unterhaltung, Landwirtschaft, Industrie, Such- und Rettungseinsätze, militärische Missionen, Weltraumforschung usw.) wird jedoch sicherlich auch weiterhin das Streben nach größerer Roboterintelligenz und Sprachkompetenz fördern.

Einen guten Überblick über den Stand der Technik und die Schwierigkeiten des Mensch-Roboter-Dialogs bietet (Scheutz etal. 2011). Einige der dort vorgestellten Dialogbeispiele zu Kisten und Blöcken erinnern an Winograds Shrdlu, zeigen aber auch die Herausforderungen in der realen Interaktion, wie z.B. die wechselnde Szenerie bei der Bewegung des Roboters, Spracherkennungsfehler, disfluente und komplexe Mehrsatzäußerungen, perspektivenabhängige Äußerungen („Ist die rote Kiste links von der blauen Kiste?“) und Deixis („Geh da runter“). Darüber hinaus muss all dies mit geplanten physischen Handlungen integriert werden, um die Anweisungen so zu erfüllen, wie sie vom Roboter verstanden werden. Während die Fähigkeit der neueren Roboter, diese Schwierigkeiten bis zu einem gewissen Grad zu bewältigen, ermutigend ist, bleiben viele offene Probleme, wie die Probleme der Spracherkennung in Anwesenheit von Rauschen, bessere, breitere Sprachabdeckung, Parsing und Dialoghandhabung, Anpassung an neuartige Probleme, mentale Modellierung des Gesprächspartners und anderer Menschen in der Umgebung, und größeres allgemeines Wissen über die Welt und die Fähigkeit, es für Inferenz und Planung zu verwenden (sowohl auf der Domänenebene als auch auf der Dialogebene).

Während aufgabenorientierte Roboterdialoge all diese Herausforderungen mit sich bringen, sollten wir darauf hinweisen, dass einige potenziell nützliche Interaktionen mit „sprechenden“ Robotern kaum sprachliche Fähigkeiten erfordern. Der in (Movellan et al. 2009) beschriebene Rubi-Roboter zum Beispiel zeigte Kleinkindern Objekte auf seiner mit einem Bildschirm ausgestatteten „Brust“ und forderte sie auf, die Objekte zu berühren und zu benennen. Dies führte dazu, dass die Kleinkinder trotz der Einfachheit der Interaktion besser Wörter lernten. Ein weiteres Beispiel für einen sehr erfolgreichen sprechenden Roboter ohne wirkliche sprachliche Fähigkeiten ist der „Museumsführer“ Rhino (Burgard et al. 1999). Im Gegensatz zu Rubi war er in der Lage, zwischen sich unvorhersehbar bewegenden Menschen zu navigieren, und hielt sein Publikum mit seinen voraufgezeichneten Botschaften und mit der Anzeige seiner aktuellen Ziele auf einem Bildschirm bei der Stange. Auch zahlreiche humanoide Roboter (z. B. Hondas Asimo), die in der Vergangenheit und gegenwärtig weltweit entwickelt werden, verstehen immer noch nur sehr wenig Sprache und verlassen sich hauptsächlich auf geskriptete Ausgaben. Zweifellos werden ihr Nutzen und ihre Anziehungskraft dank Technologien wie den oben genannten – Spiele, begleitende Agentensysteme, sprachbasierte Anwendungen, Tutoren usw. – weiter zunehmen; und diese Entwicklungen werden auch Fortschritte bei den tieferen Aspekten der Wahrnehmung, Bewegung, Manipulation und des sinnvollen Dialogs fördern.

Universe

Computational Linguistics

Sprachgestützte Webdienste und Assistenten

10.8 Kollaborative Problemlöser und intelligente Tutoren

10.9 Sprachfähige Roboter

Leave a Reply Cancel