Articles / 11月 3, 2021

Computational Linguistics

Voice-based web services and assistants

Voice-based services, especially on mobile devices, are rapidly expanding applications areas.は、特にモバイルデバイスにおける音声ベースのサービスである。サービスには、オーガナイザー (食料品リスト、会議スケジュール、リマインダー、連絡先リストなど) から、車内の「インフォテインメント」 (ルート案内、交通状況、危険警告、iTunes の選択、近くのレストランやその他の会場の検索など) まで、また電子メールの口述録音、連絡先の呼び出し、金融取引、予約と注文、Wikipedia へのアクセス、ヘルプデスクサービス、健康アドバイス、および一般の質問応答などその他のアプリケーションの使用も可能にするものなどがあります。これらのサービス（ダイヤルやiTunesの選択など）の一部は、ハンズフリーコントロールのカテゴリーに属し、このようなコントロールは、輸送（ドライバーレスまたはパイロットレス車両を含む）、物流（リソースの配置）、および製造においてますます重要になりつつあります。また、チャットボット技術やコンパニオン型対話エージェント（10.5 節で説明）は、より具体的な音声ベースのサービスの一般的なバックエンドとして機能しています。

これらのサービスの主要技術はもちろん音声認識で、その精度と適応性は徐々に向上しています。最も安価で、ターゲットが限定されたシステム（例えば、シンプルな手帳）は、ユーザーの入力に対する強い期待を利用して、その入力を認識、解釈、応答しており、メニュー駆動型システムに似ています。より汎用的なシステム、例えば、ルート案内、音楽のリクエスト、お店の検索などを扱うことのできるカートウォーカーは、より高度な対話管理能力に依存しています。このようなシステムでは、トピックの切り替えが可能であり、ユーザーの注意力の状態にも対応できる可能性がある（例えば、ドライバーが曲がるのに集中する必要がある場合、ドライバーの質問に対する回答を遅らせるなど）。現在、最も大きな話題となっているのは、iPhoneのSiri（次いでAndroidのIris、True KnowledgeのEvi、Google Nowなど）に代表される高度な音声アシスタントである。 AndroidのVlingoのような従来の音声コントロールやディクテーションシステムも同じような機能を備えていましたが、Siriは個性を加え、対話の処理とサービスの統合を改善し、ユーザーはアプリではなく、生き生きした合成キャラクターと対話をしているような感覚になります。 NuanceSRの技術に加え、Siriは、2003年から2008年にかけてSRI Internationalと複数の大学によって行われたCalo (Cognitive Assistantthat Learns and Organizes) プロジェクトによってある程度推進された複合技術を取り入れている（Ambite et al.2006;CALO )。これらの技術には、NLU、ML、目標指向型推論、不確実推論、オントロジー、プランニング、サービス委譲の側面が含まれる。しかし，Wolfram|Alpha QAを含むWebサービスやチャットボット技術への委譲はかなりの堅牢性を提供し，スケジュール，購買，その他の対象サービスについての重要な推論が行われていますが，ユーザが発見したように，一般的な理解はまだ非常に浅いものです．深刻な誤解の逸話として、「救急車を呼んでください」と言うと、「これからは『救急車』と呼びます」という反応が返ってきたことがあります。しかし、これらの初期の（やや）知的で非常に多才なアシスタントによって生み出されたユーザーコミュニティの強い関心と要求は、これまで以上に理解力と常識を備えた、より生命に近い仮想エージェントを目指して研究を強化し加速させるものと思われます。

しかし、我々は直ちに、協調的問題解決システムは一般的にチュートリアルシステムよりもはるかに予測できないドメイン状況やユーザー入力を扱うことに注意すべきであり、したがって前者は後者よりも柔軟な対話処理にはるかに重点を置いている。例えば、緊急避難における共同作業者（Fergusonand Allen 1998, 2007）は、動的に変化するドメインを扱う必要があり、同時に、任意の時点における参加者の共有および私信、目標、計画、意図に応じて発生し得る多くの対話状態を処理する必要がある。対照的に、物理学チュータリングのようなドメインでは（例えば, Jordan et al. 2006; Litman and Silliman 2004）、学習者は、学習目標のネットワークを通じて、著者による指示で導かれ、それらの目標に対応して、対話の各時点における生徒の入力を分類し、その入力に適切であると思われる準備された応答を生成する有限状態対話モデルを設計することが可能である。

したがって、チュートリアル対話システムが、現実的なアプリケーションのための協調的な問題解決システムよりも、様々な評価において従来の指導と比較して学習効果が実証され、商業的実用性に近いことは驚くべきことではない。チュートリアル対話システムは、K-12科目からコンピュータリテラシや初心者プログラミング、定性的・定量的物理、回路解析、機械の操作、心肺生理学、船の火災被害制御、交渉スキルなど多くの領域や潜在的な顧客向けに作られている（例えば、次のとおり, Boyeret al. 2009; Pon-Barry et al. 2006 を参照）。この場合、学習者に提示される教材は（「足場が組まれた」形で）比較的容易に設計でき、学習者の反応（特に提示されたテキストを音読することが中心の場合）は比較的容易に評価できるからである。

いくつかのチュータリングシステム、特に子供向けのものは、学習者のエンゲージメントの感覚を高めるためにアニメーションのキャラクターを使用しています。このような機能強化は、聴覚障害（学習者が観察する仮想エージェントの口や舌の動きが調音を助ける）、自閉症、失語症などの障害を持つ学習者を対象としたシステムにとって実際に不可欠です（Massaro et al.2012; Cole et al.2007 ）。また、チュータリングが対人スキルの訓練に特化している場合、生命に近いキャラクター（バーチャルヒューマン）の実装がシステム開発に不可欠となる（例：Coreet et al. また、最近の実験システムでは、ユーザーの入力や声のトーン、あるいはコンピュータビジョンで解析された顔の表情やジェスチャーから、フラストレーションや退屈といったユーザーの明らかなムードに適応した戦略をとることができるものもある。他のプロトタイプシステムは、タスク指向の対話システムから、対話状態、対話行為、より深い言語理解に関するアイデアや技術を取り入れることにより、より一般的なモデル化を目指していると見ることができる（例えば, タスク指向の対話システムでは、すでに述べたように、対話のモデリングはより困難である。なぜなら、そのようなシステムは、目下のドメイン問題の解決に貢献するだけでなく、ユーザーの発言、信念、意図を理解し、人間のように、混合イニシアチブの対話で自分自身を保持することが期待されるからである。そのためには、ドメインモデル、一般的な漸進的協調計画法、合理的なコミュニケーション対話をモデル化した対話管理、選択したドメインにおける徹底した言語理解（特に意図認識）が必要である。プロトタイプシステムは、ルート計画、航空旅行計画、運転者および歩行者誘導、外部機器の制御と操作、緊急避難、服薬指導などのドメインで成功裏に構築されている（e.g., しかし、様々な複雑な問題、特に人間の認知や行動に関する広範な常識的知識を必要とする問題に対処できるシステムは、現時点ではまだ手の届かないところにあるように思われる。

10.9 言語対応ロボット

第10節の冒頭で述べたように、ロボットはウェブサービス、質問応答能力、チャット技術（フォールバックや娯楽のため）、チューター機能などを備え始めている。これは、基本的な視覚認識、音声認識、探索的ナビゲーション、目標指向ナビゲーション（移動ロボットの場合）、物体操作に必要なハードウェアとソフトウェアをロボットに装備するだけでは、非常に困難であることが主な理由である。しかし、知的ロボットに対する社会の強い関心とその膨大な経済的可能性（家事支援、高齢者介護、医療、教育、娯楽、農業、産業、捜索救助、軍事任務、宇宙探査など）は、ロボットの知能と言語能力の向上に向けた推進力になり続けることは間違いないだろう。そこで提示された対話例のうち、箱とブロックに関するものは、Winogradのshrdluを彷彿とさせるが、ロボットの移動に伴って変わる風景、音声認識エラー、不明瞭で複雑な複数の句による発話、視点依存の発話（「赤い箱は青い箱の左にありますか」）やdeixis（「下に行って」）など、実際の対話に関わる課題も示している。さらに、ロボットが理解した指示を実現するために、これらすべてを物理的な行動と統合して計画しなければならない。最近のロボットがこれらの困難をある程度処理できるようになったことは喜ばしいことですが、雑音がある場合の音声認識の問題、より良い、より広い言語範囲、構文解析、対話処理、新しい問題への適応、対話者と環境中の他の人間のメンタル・モデリング、世界に関するより一般的な知識とそれを推論と計画（領域レベルと対話レベルの両方）に利用する能力など、多くの未解決問題が残されています。

タスク指向のロボット対話にはこれらすべての課題が含まれるが、「話す」ロボットとの潜在的に有用な対話には、言語的スキルはほとんど必要ないことに注意すべきである。例えば、Movellan et al. 2009で紹介されたRubiロボットは、スクリーンを備えた「胸」にある物を幼児に見せ、触らせたり名前を言わせたりしていました。この結果、インタラクションが単純であるにもかかわらず、幼児の単語学習が改善されました。言語能力を持たず、話すロボットとして非常に成功したもう一つの例は、「博物館ツアーガイド」のRhinoである(Burgard et al. 1999)。ルビとは異なり、予測不可能な動きをする人間の間を移動することができ、事前に録音されたメッセージとスクリーン上の現在の目標の表示によって、観客の関心を引き続けることができた。同じように、過去から現在に至るまで世界中で開発されている数多くの人型ロボット（例えば、ホンダのアシモ）は、まだほとんど言葉を理解せず、ほとんどがスクリプトによる出力に頼っているのが現状である。ゲーム、コンパニオン・エージェント・システム、音声ベースのアプリケーション、家庭教師など、上記のような技術のおかげで、ロボットの有用性と魅力が増大し続けることは間違いない。また、これらの開発により、知覚、運動、操作、意味のある対話といったより深い側面に関する進歩も促されるだろう。

Universe

Computational Linguistics

Voice-based web services and assistants

10.9 言語対応ロボット

Leave a Reply Cancel