Linguistique computationnelle

Services et assistants web basés sur la voix

Les services basés sur la voix, en particulier sur les appareils mobiles, sont un domaine d’applications en pleine expansion. Ces services vont de l’agenda (pour les listes de courses, les calendriers de réunions, les rappels, les listes de contacts, etc.) à l' »info-divertissement » dans les voitures (routage, conditions de circulation, avertissements de danger, sélection d’iTunes, recherche de restaurants et d’autres lieux à proximité, etc.), en passant par la possibilité d’utiliser d’autres applications diverses telles que la dictée de courriels, la numérotation de contacts, les transactions financières, les réservations et le placement de commandes, l’accès à Wikipedia, les services d’assistance, les conseils en matière de santé et la réponse à des questions générales. Certains de ces services (comme la numérotation et la sélection d’iTunes) entrent dans la catégorie des commandes mains libres, et ces commandes deviennent de plus en plus importantes dans les transports (y compris les véhicules sans conducteur ou sans pilote), la logistique (déploiement des ressources) et la fabrication. De même, la technologie de chatbotte et les agents de dialogue compagnons (dont il est question à la section 10.5) servent de backends généraux à des services vocaux plus spécifiques.

La technologie clé de ces services est bien sûr la reconnaissance vocale, dont la précision et l’adaptabilité se sont progressivement accrues. Les systèmes les moins coûteux et les plus étroitement ciblés (par exemple, les organisateurs simples) exploitent les attentes fortes concernant les entrées de l’utilisateur pour reconnaître, interpréter et répondre à ces entrées ; à ce titre, ils ressemblent à des systèmes pilotés par menu. Les systèmes plus polyvalents, tels que les cartalkers qui peuvent gérer l’acheminement, les demandes musicales, les recherches de revenus, etc. reposent sur des capacités de gestion du dialogue plus avancées. Ils permettent de changer de sujet et, éventuellement, de tenir compte de l’état d’attention de l’utilisateur (par exemple, retarder la réponse à une question d’un conducteur si celui-ci doit prendre un virage). Le plus grand « buzz » actuel concerne les assistants vocaux avancés, notamment Siri sur iPhone (suivi par Iris sur Android, Evi sur True Knowledge, Google Now et d’autres). Alors que les systèmes de commande et de dictée vocales précédents, comme Vlingo d’Android, présentaient la plupart des mêmes fonctionnalités, Siri ajoute de la personnalité et améliore la gestion du dialogue et l’intégration des services – les utilisateurs ont l’impression d’interagir avec un personnage synthétique vivant plutôt qu’avec une application. Outre la technologie de NuanceSR, Siri intègre des techniques complexes qui ont été, dans une certaine mesure, mises en avant par le projet Calo (Cognitive Assistantthat Learns and Organizes) mené par SRI International et plusieurs universités entre 2003 et 2008 (Ambite et al. 2006 ; CALO ). Ces techniques comprennent des aspects de NLU, de ML, d’inférence incertaine et dirigée vers un but, d’ontologies, de planification et de délégation de services. Mais bien que la délégation à des services Web, y compris Wolfram|Alpha QA, la technologie des robots conversationnels offre une robustesse considérable, et qu’il existe un raisonnement important sur les calendriers, les achats et d’autres services ciblés, la compréhension générale est encore très superficielle, comme le découvrent les utilisateurs. Des exemples anecdotiques de malentendus graves sont « Appelez-moi une ambulance » qui suscite la réponse « À partir de maintenant, je vous appellerai ‘une ambulance' ». Cependant, le fort intérêt et la demande de la communauté des utilisateurs générés par ces premiers assistants (quelque peu) intelligents et assez polyvalents est susceptible d’intensifier et d’accélérer la recherche vers des agents virtuels toujours plus proches de la vie, avec toujours plus de compréhension et de bon sens.

10.8 Résolveurs de problèmes collaboratifs et tuteurs intelligents

Nous discutons des systèmes de résolution de problèmes collaboratifs (également appelés systèmes de dialogues « à initiative mixte » ou « orientés tâche ») et des systèmes de dialogues tutoriels (c’est-à-dire, Nous discutons des systèmes de résolution de problèmes en collaboration (également appelés systèmes de dialogues « d’initiative mixte » ou « orientés tâche ») et des systèmes de dialogue tutoriels (c’est-à-dire les systèmes tutoriels dans lesquels le dialogue joue un rôle central) sous une rubrique commune parce que tous deux dépendent de représentations ou de modèles assez profonds des domaines auxquels ils sont destinés ainsi que de l’état mental des utilisateurs avec lesquels ils interagissent.

Nous devons cependant noter immédiatement que les systèmes de résolution de problèmes en collaboration traitent généralement de situations de domaine et d’entrées utilisateur beaucoup moins prévisibles que les systèmes tutoriels et, par conséquent, les premiers mettent beaucoup plus l’accent sur la gestion flexible du dialogue que les seconds. Par exemple, les collaborateurs dans le domaine de l’évacuation d’urgence (Ferguson et Allen 1998, 2007) doivent faire face à un domaine qui change dynamiquement, tout en gérant les nombreux états de dialogue qui peuvent se produire, en fonction des croyances, des objectifs, des plans et des intentions partagés et privés des participants à un moment donné. En revanche, dans un domaine tel que le tutorat en physique (par ex, Jordan et al. 2006 ; Litman etSilliman 2004), l’apprenant peut être guidé à travers un réseau d’objectifs d’apprentissage avec des instructions rédigées, et correspondant à ces objectifs, des modèles de dialogue à états finis peuvent être conçus qui classentles entrées de l’étudiant à chaque point d’un dialogue et génèrent une réponse préparée susceptible d’être appropriée pour cette entrée.

Certains systèmes de tutorat, en particulier ceux destinés aux enfants, utilisent des personnages animés pour renforcer le sentiment d’engagement de l’apprenant. Ces améliorations sont en fait essentielles pour les systèmes destinés aux apprenants souffrant de handicaps tels que la surdité (où les mouvements de la bouche et de la langue de l’agent virtuel observés par l’apprenant peuvent faciliter l’articulation), l’autisme ou l’aphasie (Massaro et al. 2012 ; Cole et al. 2007). De même, si le tutorat vise spécifiquement à attirer des compétences interpersonnelles, la mise en œuvre de personnages proches de la vie (humains virtuels) devient une partie indispensable du développement du système (par exemple, Coreet al. 2006 ; Campbell et al. 2011).

Modéliser l’état d’esprit de l’utilisateur dans les systèmes de tutorat consiste principalement à déterminer quels concepts et compétences ciblés ont, ou n’ont pas encore, été acquis par l’utilisateur, et à diagnostiquer les incompréhensions qui sont susceptibles d’avoir eu lieu, compte tenu de la transcription de la session jusqu’à présent. Certains systèmes expérimentaux récents peuvent également adapter leurs stratégies à l’humeur apparente de l’utilisateur, comme la frustration ou l’ennui, telle qu’elle peut être révélée par les entrées de l’utilisateur, le ton de sa voix, ou même les expressions faciales ou les gestes analysés par la vision par ordinateur. D’autres systèmes prototypes peuvent être considérés comme s’efforçant d’atteindre une modélisation mentale plus générale, en incorporant des idées et des techniques provenant de systèmes de dialogue orientés tâche concernant les états de dialogue, les actes de dialogue et une compréhension plus profonde du langage (par ex, Callaway et al. 2007).

Dans les systèmes de dialogue orientés tâche, comme nous l’avons déjà noté, la modélisation du dialogue est beaucoup plus difficile, puisque de tels systèmes sont censés non seulement contribuer à la résolution du problème du domaine en question, mais aussi comprendre les énoncés, les croyances et les intentions de l’utilisateur, et tenir le coup dans un dialogue mixte d’initiative semblable à celui d’un humain. Cela nécessite des modèles du domaine, des méthodes générales de planification collaborative incrémentielle, une gestion du dialogue qui modélise l’interaction communicative rationnelle et une compréhension approfondie du langage (en particulier la reconnaissance des intentions) dans le domaine choisi. Des prototypes de systèmes ont été construits avec succès dans des domaines tels que la planification d’itinéraires, la planification de voyages aériens, le guidage de conducteurs et de piétons, le contrôle et l’utilisation de dispositifs externes, l’évacuation d’urgence et le conseil en médication (par ex, Allen et al. 2006;Rich et Sidner 1998 ; Bühler et Minker 2011 ; Ferguson et Allen1998, 2007), et ceux-ci sont très prometteurs sur le plan pratique.Cependant, les systèmes qui peuvent traiter une variété de problèmes raisonnablement complexes, en particulier ceux qui nécessitent une large connaissance de sens commun sur la cognition et le comportement humains, semblent encore hors de portée à l’heure actuelle.

10.9 Robots dotés d’un langage

Comme indiqué au début de la section 10, les robots commencent à être équipés de services web, de capacités de réponse aux questions, de techniques de chatbotte (pour le repli et le divertissement), de fonctions de tutorat, et ainsi de suite. Le transfert de ces technologies aux robots a été lent, principalement en raison des défis très difficiles à relever pour équiper un robot du matériel et du logiciel nécessaires à la perception visuelle de base, à la reconnaissance vocale, à la navigation exploratoire et dirigée vers un but (dans le cas des robots mobiles) et à la manipulation d’objets.Cependant, le vif intérêt du public pour les robots intelligents et leur énorme potentiel économique (pour l’aide ménagère, les soins aux personnes âgées, la médecine, l’éducation, le divertissement, l’agriculture, l’industrie, la recherche et le sauvetage, les missions militaires, l’exploration spatiale, et ainsi de suite) continuera certainement à stimuler l’élan vers une plus grande intelligence robotique et une compétence linguistique.

Un bon aperçu de l’état de l’art et des difficultés dans le dialogue homme-robot peut être tiré de (Scheutz etal. 2011). Certains des exemples de dialogue qui y sont présentés, concernant les boîtes et les blocs, rappellent le shrdlu de Winograd, mais ils présentent également les difficultés liées à l’interaction réelle, comme le changement de décor au fur et à mesure que le robot se déplace, les erreurs de reconnaissance vocale, les bavardages complexes et disfluents à plusieurs clauses, les énoncés dépendant de la perspective ( » La boîte rouge est-elle à gauche de la boîte bleue ? « ) et la déixie ( » Descends là « ). En outre, tout cela doit être intégré à une action physique planifiée de manière à exécuter les instructions telles qu’elles sont comprises par le robot. Bien que la capacité des robots récents à gérer ces difficultés dans une certaine mesure soit encourageante, de nombreux problèmes restent ouverts, tels que les problèmes de reconnaissance de la parole en présence de bruit, une meilleure et plus large couverture linguistique, l’analyse syntaxique et le traitement du dialogue, l’adaptation à des problèmes nouveaux, la modélisation mentale de l’interlocuteur et des autres humains dans l’environnement, et une plus grande connaissance générale du monde et la capacité de l’utiliser pour l’inférence et la planification (à la fois au niveau du domaine et au niveau du dialogue).

Bien que les dialogues de robots orientés vers les tâches impliquent tous ces défis, nous devons noter que certaines interactions potentiellement utiles avec des robots « parlants » nécessitent peu de compétences linguistiques. Par exemple, le robot Rubi décrit dans (Movellan et al. 2009) a montré des objets sur sa « poitrine » équipée d’un écran à des enfants en bas âge, en leur demandant de toucher et de nommer les objets. Cela a permis d’améliorer l’apprentissage des mots par les tout-petits, malgré la simplicité de l’interaction. Un autre exemple de robot parlant très réussi, sans réelles compétences linguistiques, est le « guide touristique de musée » Rhino (Burgard et al. 1999). Contrairement à Rubi, il était capable de naviguer parmi des humains aux mouvements imprévisibles et de maintenir l’attention de son public grâce à ses messages préenregistrés et à l’affichage de ses objectifs actuels sur un écran. De la même manière, de nombreux robots humanoïdes (par exemple, Asimo de Honda) en cours de développement dans le monde entier comprennent encore très peu de langage et s’appuient principalement sur des données scénarisées. Il ne fait aucun doute que leur utilité et leur attrait continueront de croître, grâce à des technologies telles que celles mentionnées ci-dessus – jeux, systèmes d’agents compagnons, applications vocales, tuteurs, etc. Ces développements alimenteront également les progrès sur les aspects plus profonds de la perception, du mouvement, de la manipulation et du dialogue significatif.

Leave a Reply