Linguística Computacional

Serviços web baseados em voz e assistentes

Serviços baseados em voz, especialmente em dispositivos móveis, são uma área de aplicações em rápida expansão. Os serviços variam desde organizadores (listas de falsificações, horários de reuniões, lembretes, listas de contatos, etc.), até “infotainment” (roteamento, condições de tráfego, avisos de perigo, seleção de iTunes, localização de restaurantes próximos e outros locais, etc.), para permitir o uso de outras aplicações diversas, como ditados por e-mail, contatos de discagem, transações financeiras, reservas e colocação de pedidos, acesso à Wikipedia, serviços de help-desk, aconselhamento sobre saúde e resposta a perguntas gerais. Alguns destes serviços (tais como marcação e selecção iTunes) enquadram-se na categoria de controlos mãos-livres, e tais controlos estão a tornar-se cada vez mais importantes intransportes (incluindo veículos sem condutor ou sem piloto), logística (implementação de recursos), e fabrico. Também a tecnologia chatbot e os agentes de diálogo acompanhantes (como discutido na seção 10.5) estão servindo como backends gerais para serviços de voz mais específicos.

A tecnologia chave nestes serviços é, naturalmente, o reconhecimento da fala, cuja precisão e adaptabilidade tem aumentado gradualmente. Os sistemas menos dispendiosos e estritamente orientados (por exemplo, organizadores simples) exploram fortes expectativas sobre as entradas do usuário para reconhecer, interpretar e responder a essas entradas; como se assemelham a sistemas orientados por menus. Sistemas mais versáteis, tais como cartalkers que podem lidar com roteamento, pedidos musicais, buscas por eventos, etc., dependem de capacidades de gerenciamento de diálogo mais avançadas. Estes permitem comutar tópicos e potencialmente para o estado de atenção do utilizador (por exemplo, atrasar a resposta a uma pergunta do condutor se o condutor precisar de atender a uma curva). O “buzz” da greatestcurrent envolve assistentes avançados baseados em voz, nomeadamente o Siri do iPhone (seguido pelo Iris do Android, o Evi do True Knowledge, o Google Now, e outros). Enquanto os sistemas anteriores de controle e ditados de voz, como o Vlingo do Android, apresentavam muitas das mesmas funcionalidades, o Siri acrescenta personalidade e melhora o tratamento de diálogos e integração de serviços – os usuários sentem que estão interagindo com um caráter sintético animado, em vez de um aplicativo. Além da tecnologia NuanceSR, o Siri incorpora técnicas complexas que foram para algum tempo impulsionadas pelo projeto Calo (Cognitive Assistant that Learns and Organizes) realizado pela SRI International e por múltiplas universidades de 2003-2008 (Ambite et al. 2006;CALO ). Estas técnicas incluem aspectos de NLU, ML, meta-direcionada e inferência, ontologias, planejamento e delegação de serviços. Mas enquanto a delegação a serviços web, incluindo Wolfram|Alpha QA, a tecnologia orchatbot fornece robustez considerável, e há um raciocínio significativo sobre horários, compras e outros serviços targeteds, o entendimento geral ainda é muito superficial, uma vez que os usuários descobrem tão pouco. Exemplos anedóticos de mal-entendidos graves são “Chamem-me uma ambulância”, que suscitam a resposta “A partir de agora vou chamar-vos ‘uma ambulância'”. No entanto, o forte interesse e procura na comunidade de utilizadores gerada por assistentes inteligentes e bastante versáteis é susceptível de intensificar e acelerar a investigação em direcção a agentes virtuais cada vez mais vivos, com cada vez mais compreensão e senso comum.

10.8 Sistemas colaborativos de resolução de problemas e tutores inteligentes

Discutimos sistemas colaborativos de resolução de problemas (também referidos como sistemas de diálogo “mixed-initiative” ou “task-oriented”) e sistemas de diálogo tutorial (i.e, sistemas de diálogo tutorial nos quais o diálogo desempenha um papel central) sob um título comum, porque ambos dependem de representações ou modelos bastante profundos do domínio – e também do estado mental dos usuários com os quais eles interagem.

No entanto, devemos notar imediatamente que os sistemas colaborativos de resolução de problemas tipicamente lidam com situações de domínio muito menos previsíveis e com as entradas dos usuários do que os sistemas de tutorial, e, portanto, o primeiro coloca muito mais ênfase no manuseio flexível do diálogo do que o segundo. Por exemplo, os colaboradores na evacuação de emergência (Ferguson e Allen 1998, 2007) precisam lidar com um domínio em mudança dinâmica, ao mesmo tempo em que lidam com os muitos estados de diálogo que podem ocorrer, dependendo das crenças, objetivos, planos e intenções compartilhados e privados dos participantes em qualquer ponto. Por outro lado, num domínio como o da tutoria de física (por exemplo Jordan et al. 2006; Litman e Siliman 2004), o aluno pode ser guiado através de uma rede de objectivos de aprendizagem com instruções de autor, e correspondendo a estes precedentes, podem ser desenhados modelos de diálogo de estado finito que classificam as contribuições dos alunos em cada ponto de um diálogo e geram uma resposta preparada susceptível de ser apropriada para essa contribuição.

alguns sistemas de tutoria, especialmente os destinados a crianças, utilizam personagens animadas para aumentar o sentido de envolvimento do aprendente. Tais melhorias são, na verdade, essenciais para o sistema de ensino de aprendizes com deficiências como surdez (onde os movimentos da boca e da língua virtual observados pelo aprendiz podem ajudar na articulação), autismo ou afasia (Massaro et al. 2012; Cole etal. 2007). Além disso, se a tutoria tem como objetivo específico atrair habilidades interpessoais, a implementação de personagens semelhantes à vida (virtualhumans) torna-se parte indispensável do desenvolvimento do sistema (por exemplo, Coreet al. 2006; Campbell et al. 2011).

Modelar o estado de espírito do usuário em sistemas de tutoria é principalmente a questão de determinar quais dos conceitos e habilidades foram ou não adquiridos pelo usuário, e diagnosticar os mal-entendidos que provavelmente terão ocorrido, dado o roteiro de sessão até o momento. Alguns sistemas experimentais recentes também podem adaptar suas estratégias ao humor aparente do usuário, como a frustração em órbita, como pode ser revelado pelas entradas do usuário, tom de voz, expressões faciais ou gestos analisados via visão computacional. Outros protótipos de sistemas podem ser vistos como esforçando-se por uma modelagem mais geral, incorporando idéias e técnicas de sistemas de diálogo orientados para tarefas relativas a estados de diálogo, dialogacts, e compreensão mais profunda da linguagem (por exemplo Callaway et al. 2007).

Em sistemas de diálogo orientado a tarefas, como já foi observado, a modelagem de diálogos é muito mais desafiadora, uma vez que se espera que tais sistemas não apenas contribuam para resolver o problema do domínio em questão, mas também que resistam às afirmações, crenças e intenções do usuário, e que se mantenham em um diálogo de iniciativa mista, semelhante ao humano. Isto requer modelos de domínio, métodos gerais de planejamento colaborativo incremental, gerenciamento do diálogo que modela a interação comunicativa racional e o entendimento completo da linguagem (especialmente o reconhecimento da intenção) no domínio escolhido. Sistemas de protótipos têm sido construídos com sucesso para domínios como planejamento de rotas, planejamento de viagens aéreas, orientação do motorista e do peão, controle e operação de dispositivos externos, evacuação de emergência e aconselhamento sobre medicação (por exemplo Allen et al. 2006; Rich e Sidner 1998; Bühler e Minker 2011; Ferguson e Allen1998, 2007), e estes têm uma promessa prática muito significativa. No entanto, os sistemas que podem lidar com uma variedade de problemas razoavelmente complexos, especialmente aqueles que requerem um amplo conhecimento comum sobre cognição e comportamento humano, ainda parecem fora de alcance neste momento.

10.9 Robôs habilitados para linguagem

Como observado no início da seção 10, os robôs estão começando a ser equipados com serviços web, habilidades de resposta a perguntas, chatbottechniques (para queda e entretenimento), funções de tutoria, e assim por diante. A transferência de tais tecnologias para robôs tem sido lenta, principalmente por causa dos desafios muito difíceis envolvidos no justequipamento de um robô com o hardware e software necessários para a percepção visual básica, reconhecimento da fala, navegação exploratória e direcionada a metas (no caso de robôs móveis), e manipulação de objetos.No entanto, o grande interesse público em robôs inteligentes e seu enorme potencial econômico (para ajuda doméstica, cuidados com idosos, medicina, educação, entretenimento, agricultura, indústria, busca e resgate, missões militares, exploração espacial, e assim por diante) certamente continuará a estimular o impulso para uma maior inteligência robótica e competência linguística.

Um bom senso do estado da arte e dificuldades no diálogo homem-robô pode ser obtido a partir de (Scheutz etal. 2011). Alguns dos exemplos de diálogo ali apresentados, referentes a caixas e blocos, são reminiscências do shrdlu de Winograd, mas também exibem os desafios envolvidos na interação real, como a mudança de cenário à medida que o robô se move, erros de reconhecimento da fala, multicláusulas disfluentes e complexas, afirmações dependentes da perspectiva (“A caixa vermelha está à esquerda da caixa azul?”), e deixis (“Vá lá embaixo”). Além disso, tudo isso deve ser integrado com a ação física planejada de modo a cumprir as instruções entendidas pelo robô. Embora a capacidade dos robôs recentes de lidar com essas dificuldades seja em certa medida encorajadora, muitos problemas abertos permanecem, tais como os problemas de reconhecimento da fala na presença de ruído, melhor, maior cobertura lingüística, análise e manejo do diálogo, adaptação a problemas novos, modelagem mental do interlocutor e outros seres humanos no ambiente, e maior conhecimento geral sobre o mundo e a capacidade de usá-lo para inferência e planejamento (tanto no nível de domínio quanto no nível de diálogo).

Embora os diálogos com robôs orientados a tarefas envolvam todos estes desafios,devemos notar que algumas interações potencialmente úteis com robôs “falantes” requerem pouco em termos de habilidades lingüísticas. Por exemplo, o robô Rubi descrito em(Movellan et al. 2009), mostrava objectos no seu “cofre” equipado com itsscreen para crianças pequenas, pedindo-lhes para tocar e nomear os objectos. Isto resultou numa melhor aprendizagem de palavras por parte dos tetoddlers, apesar da simplicidade da interacção. Outro exemplo de um robô falante muito bem sucedido, sem conhecimentos linguísticos reais, foi o “guia turístico do museu” Rhino (Burgard et al. 1999). Ao contrário de Rubi, ele foi capaz de navegar entre humanos em movimento imprevisível, e manteve sua audiência envolvida com suas mensagens pré-gravadas e com uma exibição de seus objetivos atuais em uma tela. Da mesma forma, numerosos robôs humanóides (por exemplo, o Asimo da Honda) em desenvolvimento passado e presente no mundo ainda entendem muito pouca linguagem e confiam, na sua maioria, na produção de scripts. Sem dúvida, sua utilidade e apelo continuarão a crescer, graças a tecnologias como as mencionadas acima – jogos, sistemas de agentes acompanhantes, aplicativos baseados em voz, tutores, etc.; e estes desenvolvimentos também irão alimentar o progresso nos aspectos mais profundos da percepção, movimento, manipulação e diálogo significativo.

Leave a Reply