さまざまな機能を持つWebベースのアプリケーションが広く使われるようになった現在、「電話をかけて相手と話せば済んでいた」仕事の多くがコンピュータの操作に置き換わりつつある。たとえその一部でも音声インタフェースを介して利用できることの意義は大きい。ブラウザのフォームに情報を埋める作業を繰り返していると、もっと効率よく、あるいは、キーボードやマウスに頼らずに操作したい、と感じるのではないか。日常的操作の多くをキーボードに依存している現状はユニバーサルデザインという観点からも好ましくない。機械との音声コミュニケーションが重要である。
この目的のためには、インタフェースシステムを統合技術と捉えつつ、音声入出力の特質を踏まえ、マルチモーダルインタフェースとしての合理的な設計を行わなくてはならない。嵯峨山 [1] によってこのような問題提起がなされ、西本 [2] はマルチモーダルシステムのための「インタフェースの原則」を提案し、使いやすい音声インタフェースを試行錯誤に頼らず合理的に設計できることを示した。
擬人化音声対話エージェントを用いることの意義もまた「コミュニケーションの効率と質を高める」ことである。つまり、人間は相手の表情から反応を読むことができる。一方が話している間にも頷いたり首をかしげたり、聞き取りにくければ直ちに「え?」と聞き返すことができる [3] 。
人間同士のコミュニケーションの「分かっているのか分かっていないのか反応がある人とは会話がしやすい」という特長を生かすことは、音声インタフェースの有効な利用につながる。この問題は「インタフェースの透過性」として音声インタフェースの研究者に広く知られるようになった。
もうひとつの問題は「音声認識の処理速度」である。一般に音声認識アプリケーションは、応答の遅れによって、ユーザに不満を与えたり不安を感じさせたりしている。これに対して、人間の対面コミュニケーションでは、相手が口を開いた瞬間に、あるいは何かを言い終わる前に、言いたいことが相手に伝わってしまうことが多々ある。話者同士の状況、相手の表情や仕草など、人間はさまざまなモダリティからリアルタイムに情報を得ている。
このような検討の末、以下の仮説に至った:
例えば、発話中の割り込みや聞き返しに対する制御、相槌や頷きの生成や応答などは、こうした仮説を支持する提案となり得る。しかしこのような制御モデルの構築は、個別の対話タスクに依存する複雑な問題である。
我々はGalatea Projectとしてカスタマイズ性を考慮した擬人化音声対話ソフトウェアツールキット[4] の研究開発に取り組んできた。すでに音声合成、顔画像合成、音声認識などの要素技術を統合するGalatea Toolkit が完成しオープンソースソフトウェアとして公開されている[5] 。
擬人化エージェントシステムによって機械に向かって話しかけることへの心理的抵抗をやわらげることに成功している事例もある。しかし、いわゆる「メディアの等式」の議論が示唆するように、人間は機械を擬人化するために、必ずしも人間の姿を必要としない。単に人間の姿をしたインタフェースを実現しただけでは不十分である。
音声対話システムにおける「使いにくさの解消」とは「人間同士のやりとりの様式を模倣する」ことではなく「ユーザを楽にする」ことである。具体的には、少ない所要時間や操作回数で効率よくタスクが達成できること、あるいは操作時の記憶や注意などの心的負荷を軽減できること、などが「楽である」ことの指標となる。
近年はキーボードを1回叩くごとに何らかの反応するインクリメンタル検索のインタフェースが普及し、ユーザの支持を得ている。そこで西本 [6] は「インクリメンタル音声検索インタフェース」を試作し、音声入力に対する実時間の反応がインタフェースの透過性を改善することを示した。
擬人化エージェントの身体動作によってインタフェースの透過性を高めることも有望である。西本 [7] は「ユーザ発話開始」「音声認識完了」などのイベントから「ユーザの不安」を推定しこれを解消することを試みた。
しかし、音声認識の途中で得られる情報は断片的かつ不完全である。ユーザ発話の終了を待たずに音声認識エンジンから情報を得る手法も提案されている。ユーザの発話中に頷いたり相槌を打ったりする音声対話システムも提案されてきた。しかし対話内容が限定されていたり、有効性が必ずしも明確ではなかったりするなど、汎用的な制御手法につながっていない。
人間はお互いに相手の顔を見ながら話している。話しながら「合理性、必然性のあるタイミングで相手がうなずいている」ことを確認している。もし相手の反応が不適切であったら自分から言い直しを行うなど、確実で効率的なコミュニケーションを取る工夫をしている。
このような合理性、必然性のあるリアルタイム制御を行うためには、マルチモーダル入力の活用や、タスク知識およびコンテクストの高度な利用が欠かせない。こうした振る舞いは規則によって記述することが困難である。またタスクによって規則を変えなくてはならない。
さらに、このような制御には、人間の性格や好みも影響する。人間にも個性があり、相手の話を聞きながら豊かなリアクションを行う人もいれば、そうでない人もいる。また話し手も、聞き手のリアクションに対する好みを持っている。
対話場面の影響も考慮しなくてはならない。例えば、暗くて相手の顔が見えにくいときは、相手の声による相槌が重要な情報となる。逆に、騒がしくて声が聞こえにくいときは、相手の顔や視線の動きから得られる情報が重要になる。このように対話場面によって「相手の顔」「相手の声」の情報をどの程度信用すべきか、といったことが異なってくる。
(続く)