Articles / noviembre 3, 2021

Lingüística computacional

Servicios y asistentes web basados en la voz

Los servicios basados en la voz, especialmente en dispositivos móviles, son un área de aplicaciones en rápida expansión. Los servicios van desde los organizadores (listas de la compra, horarios de reuniones, recordatorios, listas de contactos, etc.) hasta el «infoentretenimiento» en el coche (rutas, estado del tráfico, avisos de peligro, selección de iTunes, búsqueda de restaurantes y otros lugares cercanos, etc.), pasando por el uso de otras aplicaciones diversas, como el dictado de correos electrónicos, la marcación de contactos, las transacciones financieras, las reservas y la realización de pedidos, el acceso a Wikipedia, los servicios de asistencia, el asesoramiento sobre salud y la respuesta a preguntas generales. Algunos de estos servicios (como la marcación y la selección de iTunes) entran en la categoría de controles de manos libres, y estos controles son cada vez más importantes en el transporte (incluidos los vehículos sin conductor o sin piloto), la logística (despliegue de recursos) y la fabricación. También la tecnología de chat y los agentes de diálogo acompañantes (como se explica en la sección 10.5) están sirviendo como backends generales para servicios más específicos basados en la voz.

La tecnología clave en estos servicios es, por supuesto, el reconocimiento del habla, cuya precisión y adaptabilidad ha ido aumentando gradualmente. Los sistemas menos costosos y con objetivos más específicos (por ejemplo, los organizadores sencillos) aprovechan las fuertes expectativas sobre las entradas del usuario para reconocer, interpretar y responder a esas entradas; como tales, se asemejan a los sistemas basados en menús. Los sistemas más versátiles, como los cartógrafos, que pueden gestionar rutas, solicitudes musicales, búsquedas de pistas, etc., se basan en capacidades de gestión del diálogo más avanzadas. Permiten cambiar de tema y, potencialmente, tener en cuenta el estado de atención del usuario (por ejemplo, retrasar la respuesta a una pregunta del conductor si éste tiene que atender un giro). El mayor «rumor» actual rodea a los asistentes avanzados basados en la voz, especialmente Siri de iPhone (seguido de Iris de Android, Evi de True Knowledge, Google Now y otros). Mientras que los anteriores sistemas de control y dictado por voz, como Vlingo de Android, presentaban muchas de las mismas funcionalidades, Siri añade personalidad y mejora el manejo del diálogo y la integración de servicios: los usuarios sienten que están interactuando con un personaje sintético vivo en lugar de con una aplicación. Además de la tecnología de NuanceSR, Siri incorpora técnicas complejas impulsadas en cierta medida por el proyecto Calo (Cognitive Assistantthat Learns and Organizes) llevado a cabo por SRI International y múltiples universidades entre 2003 y 2008 (Ambite et al. 2006;CALO ). Estas técnicas incluyen aspectos de NLU, ML, inferencia dirigida a objetivos e incertidumbre, ontologías, planificación y delegación de servicios. Sin embargo, aunque la delegación en servicios web, incluida la tecnología Wolfram|Alpha QA, ochatbot proporciona una solidez considerable, y existe un razonamiento significativo sobre los horarios, las compras y otros servicios de destino, la comprensión general sigue siendo muy superficial, como descubren los usuarios. Ejemplos anecdóticos de graves malentendidos son: «Llámame ambulancia», que provoca la respuesta «A partir de ahora te llamaré ‘ambulancia'». Sin embargo, el fuerte interés y la demanda de la comunidad de usuarios generados por estos asistentes (algo) inteligentes y bastante versátiles probablemente intensificará y acelerará la investigación hacia agentes virtuales cada vez más parecidos a la vida real, con más comprensión y sentido común.

10.8 Sistemas de colaboración para la resolución de problemas y tutores inteligentes

Discutimos los sistemas de colaboración para la resolución de problemas (también denominados sistemas de diálogo «de iniciativa mixta» u «orientados a la tarea») y los sistemas de diálogo tutorial (es decir, Los sistemas de diálogo tutorial (es decir, los sistemas tutoriales en los que el diálogo desempeña un papel fundamental) se agrupan bajo un mismo epígrafe porque ambos dependen de representaciones o modelos bastante profundos de los dominios a los que se dirigen, así como del estado mental de los usuarios con los que interactúan.

Sin embargo, debemos señalar inmediatamente que los sistemas de colaboración para la resolución de problemas suelen tratar con situaciones de dominio y entradas de usuario mucho menos predecibles que los sistemas tutoriales y, en consecuencia, los primeros ponen mucho más énfasis en el manejo flexible del diálogo que los segundos. Por ejemplo, los colaboradores en la evacuación de emergencias (Ferguson y Allen 1998, 2007) tienen que lidiar con un dominio que cambia dinámicamente, al mismo tiempo que manejan los muchos estados de diálogo que pueden ocurrir, dependiendo de las creencias, objetivos, planes e intenciones compartidas y privadas de los participantes en un momento dado. En cambio, en un ámbito como el de la tutoría de física (p. ej, Jordan et al. 2006; Litman y Silliman 2004), el alumno puede ser guiado a través de una red de objetivos de aprendizaje con instrucciones autorizadas, y en correspondencia con esos objetivos, se pueden diseñar modelos de diálogo de estado finito que clasifiquen las entradas del alumno en cada punto de un diálogo y generen una respuesta preparada que probablemente sea apropiada para esa entrada.

Por lo tanto, no es de extrañar que los sistemas de diálogo tutorial estén más cerca de la practicidad comercial, con beneficios de aprendizaje demostrados en relación con la instrucción convencional en varias evaluaciones, que los sistemas de resolución de problemas de colaboración para aplicaciones realistas.Los sistemas de diálogo tutorial se han construido para numerosos dominios y clientelas potenciales, que van desde las asignaturas de K-12 a la alfabetización informática y la programación para principiantes, la física cualitativa y cuantitativa, el análisis de circuitos, el funcionamiento de la maquinaria, la fisiología cardiovascular, el control de daños por fuego en los barcos, las habilidades de negociación, y más (por ejemplo, véase Boyeret al. 2009; Pon-Barry et al. 2006). Entre los sistemas tutoriales de mayor éxito se encuentran los tutores de lectura (por ejemplo, Mostow y Beck 2007; Coleet al. 2007), ya que los materiales que se presentan al alumno (de forma «andamiada») son relativamente sencillos de diseñar en este caso, y las respuestas del alumno, especialmente cuando consisten principalmente en la lectura del texto presentado en voz alta, son relativamente fáciles de evaluar. Para el objetivo más ambicioso de fomentar la comprensión lectora, el problema central es diseñar los diálogos de forma que las contribuciones del alumno sean predecibles, al mismo tiempo que la interacción sea eficaz desde el punto de vista educativo (por ejemplo, Aist y Mostow 2009).

Algunos sistemas de tutoría, especialmente los dirigidos a los niños, utilizan personajes animados para aumentar la sensación de compromiso del alumno. De hecho, estas mejoras son esenciales para los sistemas dirigidos a alumnos con discapacidades como la sordera (donde los movimientos de la boca y la lengua del agente virtual observados por el alumno pueden ayudar a la articulación), el autismo o la afasia (Massaro et al. 2012; Cole et al. 2007). Además, si la tutoría está orientada específicamente a la formación de habilidades interpersonales, la implementación de personajes similares a los de la vida real (humanos virtuales) se convierte en una parte indispensable del desarrollo del sistema (por ejemplo, Coreet al. 2006; Campbell et al. 2011).

El modelado del estado mental del usuario en los sistemas de tutoría es principalmente una cuestión de determinar qué conceptos y habilidades han sido adquiridos o no por el usuario, y de diagnosticar los malentendidos que probablemente se hayan producido, dada la transcripción de la sesión hasta el momento. Algunos sistemas experimentales recientes también pueden adaptar sus estrategias al estado de ánimo aparente del usuario, como la frustración o el aburrimiento, tal y como pueden revelar las entradas del usuario, el tono de voz o incluso las expresiones faciales o los gestos analizados mediante visión por ordenador. Otros prototipos de sistemas pueden considerarse como un esfuerzo por lograr un modelado mental más general, incorporando ideas y técnicas de los sistemas de diálogo orientados a las tareas en relación con los estados de diálogo, los actos de diálogo y una comprensión más profunda del lenguaje (p. ej, Callaway et al. 2007).

En los sistemas de diálogo orientados a tareas, como ya se ha señalado, el modelado del diálogo es mucho más desafiante, ya que se espera que estos sistemas no sólo contribuyan a resolver el problema del dominio en cuestión, sino que comprendan las expresiones, creencias e intenciones del usuario, y que se mantengan en un diálogo de iniciativa mixta similar al humano. Para ello se necesitan modelos de dominio, métodos generales de planificación colaborativa incremental, una gestión del diálogo que modele la interacción comunicativa racional y una comprensión exhaustiva del lenguaje (especialmente el reconocimiento de intenciones) en el dominio elegido. Se han construido con éxito prototipos de sistemas para ámbitos como la planificación de rutas, la planificación de viajes aéreos, la orientación de conductores y peatones, el control y el funcionamiento de dispositivos externos, la evacuación de emergencias y el asesoramiento sobre medicamentos (por ejemplo, Allen et al, Allen et al. 2006;Rich y Sidner 1998; Bühler y Minker 2011; Ferguson y Allen1998, 2007), y son muy prometedores desde el punto de vista práctico.Sin embargo, los sistemas que pueden hacer frente a una variedad de problemas razonablemente complejos, especialmente los que requieren un amplio conocimiento de sentido común sobre la cognición y el comportamiento humanos, todavía parecen estar fuera de alcance en este momento.

10.9 Robots con capacidad lingüística

Como se indicó al principio de la sección 10, los robots están empezando a estar equipados con servicios web, capacidades de respuesta a preguntas, técnicas de chat (para el entretenimiento y el retroceso), funciones de tutoría, etc. La transferencia de estas tecnologías a los robots ha sido lenta, sobre todo por la dificultad de equipar un robot con el hardware y el software necesarios para la percepción visual básica, el reconocimiento del habla, la navegación exploratoria y dirigida a objetivos (en el caso de los robots móviles) y la manipulación de objetos.Sin embargo, el gran interés del público por los robots inteligentes y su enorme potencial económico (para la ayuda doméstica, el cuidado de los ancianos, la medicina, la educación, el entretenimiento, la agricultura, la industria, la búsqueda y el rescate, las misiones militares, la exploración espacial, etc.) seguramente seguirán impulsando el impulso hacia una mayor inteligencia robótica y competencia lingüística.

Una buena idea del estado del arte y de las dificultades en el diálogo entre humanos y robots puede obtenerse de (Scheutz et al. 2011). Algunos de los ejemplos de diálogo que se presentan allí, relativos a cajas y bloques, recuerdan al shrdlu de Winograd, pero también muestran los retos que conlleva la interacción real, como el cambio de escenario a medida que el robot se mueve, los errores de reconocimiento del habla, las locuciones disfluentes y complejas de varias cláusulas, los enunciados dependientes de la perspectiva («¿La caja roja está a la izquierda de la caja azul?») y la deixis («Ve allí abajo»). Además, todo esto debe integrarse con una acción física planificada para cumplir las instrucciones tal y como las entiende el robot. Aunque la capacidad de los robots más recientes para hacer frente a estas dificultades es alentadora, aún quedan muchos problemas abiertos, como los problemas de reconocimiento del habla en presencia de ruido, una mejor y más amplia cobertura lingüística, el análisis sintáctico y el manejo del diálogo, la adaptación a nuevos problemas, el modelado mental del interlocutor y de otros seres humanos en el entorno, y un mayor conocimiento general sobre el mundo y la capacidad de utilizarlo para la inferencia y la planificación (tanto a nivel de dominio como de diálogo).

Aunque los diálogos entre robots orientados a tareas implican todos estos retos, debemos tener en cuenta que algunas interacciones potencialmente útiles con robots «parlantes» requieren pocos conocimientos lingüísticos. Por ejemplo, el robot Rubi, descrito en (Movellan et al. 2009), mostraba objetos en su «pecho» equipado con una pantalla a los niños pequeños, pidiéndoles que tocaran y nombraran los objetos. El resultado fue un mejor aprendizaje de palabras por parte de los niños, a pesar de la simplicidad de la interacción. Otro ejemplo de un robot parlante de gran éxito, sin conocimientos lingüísticos reales, fue el «guía turístico del museo» Rhino (Burgard et al. 1999). A diferencia de Rubi, era capaz de navegar entre humanos que se movían de forma imprevisible, y mantenía a su público atento con sus mensajes pregrabados y con la visualización de sus objetivos actuales en una pantalla. Del mismo modo, numerosos robots humanoides (por ejemplo, el Asimo de Honda) que se están desarrollando en todo el mundo siguen entendiendo muy poco el lenguaje y se basan principalmente en el guión. No cabe duda de que su utilidad y atractivo seguirán aumentando gracias a tecnologías como las mencionadas anteriormente: juegos, sistemas de agentes acompañantes, aplicaciones basadas en la voz, tutores, etc.; y estos desarrollos también impulsarán el progreso en los aspectos más profundos de la percepción, el movimiento, la manipulación y el diálogo significativo.

Universe

Lingüística computacional

Servicios y asistentes web basados en la voz

10.8 Sistemas de colaboración para la resolución de problemas y tutores inteligentes

10.9 Robots con capacidad lingüística

Leave a Reply Cancel