インタフェースシステムの導入原則

インタフェースの原則
2009年12月27日版(PDF) 恩師の記念論文集（に寄稿しました。
- 西本卓也: "インタフェースシステムの導入原則に関する一考察," 情報システムとヒューマンインターフェース, 白井克彦監修, 早稲田大学出版部, 2010.

AAC(Augmentative and Alternative Communication) Projectというブログでこの考察を取り上げてくださっています。(2010年8月8日の記事）ありがとうございます。

本内容に関するご相談やご質問、研究事例報告などをお待ちしております。

本稿は現時点で筆者のかかわった研究事例に偏って文献参照をしておりますが、今後幅広く事例や文献を紹介していく予定です。

はじめに

電話応答システム、カーナビゲーション、人間型ロボットにはじまり、最近はスマートフォンの操作や情報入力においても音声認識の利用が広まりつつある。

音声というメディアがコミュニケーションに使われ続ける限り、機械と人間の音声インタフェースは必要不可欠である。そう考えてきたが、この十数年のインターネット技術の普及は「人と人のリアルなコミュニケーションの場」を大幅に減らしてしまった。

電子メールやウェブといった「機械の都合に人間が歩み寄った技術」は「未成熟なインタフェース技術」であり、いずれ技術が成熟すれば「人間に歩み寄った快適なインタフェース」に置き換わっていく。これまで技術者は、楽観的に考えていたのではなかろうか。

しかし考えてみると「電子メールやウェブが普及したこの十数年」は、雇用の場を奪われる人々が大量に発生した「雇用崩壊の時代」でもあった。今後は「技術的には未成熟なままの音声対話システム」が、「経済的な事情」に後押しされて、生身の人間の職場を奪っていく、そんな事例が増えるのかも知れない。

現に音声合成は視覚障害を持つ人達が「ディスプレイの代用」として使いこなしている。音質が悪くても、読みやアクセントの誤りが多くても、彼らは「他に手段がない」から仕方なく（不完全な技術に歩み寄って）使っている。だとすると、いずれ「仕方なく音声対話システムを使う」人々が大量に発生する時代が、永遠に来ないと言えるだろうか？自らの幸せのために、「音声インタフェースをいかに使いこなすか」という問題に真剣に向き合うべき時代が、そろそろ来ているように思える。

本稿では、音声インタフェースを念頭に「インタフェースシステムの導入原則」(Principles of Interface Adoption)について論じる。これは、これまで提案してきたインタフェースの原則を補完するものである。

文献：

[Nishimoto2004IEICE02] 西本卓也, 高山元希, 櫻井晴章, 荒木雅弘: "音声インタフェースのための対話負荷測定法," 電子情報通信学会論文誌 D-II, Vol.J87-D-II, No.2, pp.513-520, Feb 2004.
[Nishimoto1996IEICE12] 西本卓也, 志田修利, 小林哲則, 白井克彦: "マルチモーダル入力環境下における音声の協調的利用 —音声作図システムS-tgifの設計と評価—," 電子情報通信学会論文誌 D-II, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.
インタフェースの原則音声対話エージェントその他、追加予定

概要：

インタフェースシステムを成功させるためには，アプリケーションそのものの選択や設計により深く関与し，システムをどのような状況に適合させ，どのように評価や改良を行っていくか，というプロセスが重要になっている．

インタフェース原則を補完するものとしてこれらをまとめたものが，以下のインタフェースの導入原則である．

a.有用性の原則

主張：使用される現場における必然性を考慮して設計と導入を行う．ユーザに動機付けを与える．

議論：

必然性の考慮

音声認識技術の利用が必然と考えられる現場を探すことが重要である。

初期の実験システムでは「電話応答システムにおいて数字を入力する代わりに、音声で読み上げた数字を認識できる」といった提案が行われた。これに対して「数字は電話機の数字ボタンで入力すればよいので、音声入力が優位性につながらない」という意見があった。

[Nishimoto1996IEICE12]では、作図システムにおいてマウスを描画エリアのポインティングに専念させるために、その他の操作を音声入力で行う、という提案を行った。「慣れた被験者は左手でキーボードショートカットを操作し、右手でマウス操作を行うので、熟練すると音声の優位性は小さくなる」という見方もあったが、「しばらく利用をやめるとショートカットの利用は思い出すことが難しく、そういった場合に音声は再度有効性を発揮する」ということもあわせて示された。

「数字は電話機の数字ボタンで入力すればよい」という考え方は、固定電話については成り立っていた。しかし携帯電話においては「ボタンを押すためにはいったん顔から電話機を離す必要がある」ので、数字が音声で入力できることにも必然性があると考えられる。このように「必然性の定義」は、時代の変化や技術の動向に応じて見直されるべきである。

音声インタフェースを用いることに必然性がある応用として、ロボット、そしてモバイル機器を挙げることができる。ロボットにキーボードやスイッチをつけることは不適切である。モバイル機器におけるボタン入力は万能ではない。タッチ操作もなにかを選択するためには有効だが、いわゆる「探索的検索」には向いていない。

音声技術をマルチモーダル・インタフェースの要素技術として捉えなくてはならない。「音声と、音声以外の手段を、適切に組み合わせる」ことが有効な場合がある。

動機付け

音声認識に熟練しているユーザは少ない。音声を使ってみたいと思わせる「動機付け」が重要である。

ノーマンは「エモーショナル・デザイン」の議論において、美しさ・楽しさなどを与えてくれるインタフェースシステムは、ユーザのタスク達成率が有意に高くなる、というエピソードを紹介している。この理由についてノーマンは、ユーザが楽しいと感じるほど、操作がわかりにくい場合や予期しない反応があったときに、積極的に試行錯誤を行って問題を解決するようになるため、という考えを示している。

<html> <a href="http://www.amazon.co.jp/gp/product/4788509210?ie=UTF8&tag=r4wh-22&linkCode=as2&camp=247&creative=7399&creativeASIN=4788509210">ノーマン：エモーショナル・デザイン―微笑を誘うモノたちのために</a><img src="http://www.assoc-amazon.jp/e/ir?t=r4wh-22&l=as2&o=9&a=4788509210" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" /> </html>

チクセントミハイの「フロー理論」は、社会心理学の立場から、あらゆる作業には自己目的的な要素がありうることを示した。「仕事」と「遊び」は作業の目的によって区別されるべきではない、とした。また「挑戦」と「技能の知覚」のバランスに基づく「フロー体験」のモデルを提案した。フロー理論はゲームデザイン、教育、経営など、多くの分野に影響を与えた。

<html> <a href="http://www.amazon.co.jp/gp/product/4790706141?ie=UTF8&tag=r4wh-22&linkCode=as2&camp=247&creative=7399&creativeASIN=4790706141">チクセントミハイ：フロー体験喜びの現象学 (SEKAISHISO SEMINAR)</a><img src="http://www.assoc-amazon.jp/e/ir?t=r4wh-22&l=as2&o=9&a=4790706141" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" /> </html>

ヒューマンインターフェースにおいてもフロー理論はしばしば考慮される。例えばWebデザインについては、リンクの少なすぎるページは、ユーザに与える選択肢が少なすぎる（挑戦が低すぎる）ので「退屈」に感じる。リンクの多すぎるページは、ユーザに与える選択肢が多すぎる（挑戦が高すぎる）ので「不安」になる、といったフロー体験のモデルが考えられる。

音声認識と動機付け

1990年代後半に西本が行った検討では、音声入力インタフェースは、それ自身が自己目的的な楽しさを持つこと、「音声認識の性能が100％ではないこと」に起因する「楽しさ」が存在すること、などが示唆された。しかし「楽しさ」の客観的な測定は簡単ではない。また「タスクに起因する楽しさ」と「インタフェースに起因する楽しさ」を混同しないように慎重に議論しなくてはならない。

音声合成と動機付け

音声合成技術における動機付けは、しばしば「生成できる声の魅力」として論じられる。その代表的な例が「初音ミク」に代表される一連の歌声合成技術であろう。

有用性の発見を支援する

ある技術が有用であることを発見するためには、特殊な現場や立場からの要求、日常の些細な不便、などを幅広く検討する必要がある。

ちょっとした思いつきを、音声技術の専門でない技術者が、気軽に実装して試してみることは重要である。

そのために必要なのは地道なツールキットの整備、APIやWebベースのサービスの整備、そして、無償で入手できる技術の整備である。

また、技術を使いこなすノウハウを簡便化して共有するための標準化活動も必要である。

b.適合性の原則

主張：あらゆる年齢や能力の人々に対して可能な限り使いやすさを提供する（ユニバーサルデザイン）．使われる状況・環境を考慮する．ユーザ以外の人に悪影響を与えない．ユーザが行っている他のタスクに悪影響を与えない．

議論：

ユニバーサルデザイン

音声認識は聴覚障害の支援に有効なメディアである。具体的には、放送の字幕作成支援技術など。

音声合成は（健聴者については）視覚障害の支援に有効なメディアである。具体的には、スクリーンリーダなど。

障害支援という状況では、しばしば特別な技術要求がある。例えば視覚障害の支援では「早口音声合成」が求められる。早口音声合成の聴取には慣れの効果があり、また単語親密度や記憶の効果が関わってくるので、評価には慎重を要する。

視覚障害支援の技術動向と指針

（やや脱線？）

多様なモダリティの構成に対応できるアプリケーションの設計は、アクセシビリティを bolt-on ではなく built-in で実装・設計すべきである。画面に表示された情報は、視覚的構造に頼って意味を伝えている場合が多く、単純にそのまま読み上げただけでは不適切な場合がある。 Emacsの音声化技術である Emacspeak は lisp アプリケーションから内部情報を取り出して音声化することで、単なる画面読み上げでは実現できない使いやすさを実現した。

HTMLは情報の意味をマークアップすることが必要とされる。視覚的構造は CSS で表現されるが、音声化した場合の表現方法を定義する Auditory Style Sheets の技術も存在する。しかし現状は視覚的な構造だけを意識したコンテンツが多い。音声ブラウザが個別に対応しているのが現状である。

Windows アプリケーションのためには、アプリケーションから構造化された情報を取り出す MSAA というAPIが存在する。この技術に対応したアプリケーションは、スクリーンリーダが適切な読み上げを行うことが可能になる。

PDF や Flash といったリッチコンテンツについては個別のAPIが実装されている。しかし、コンテンツの作り手が配慮していない場合が多い。

近年は「らくらくホン」や「iPhone 3GS」など、モバイル製品において「誰でも使える」ことの配慮の一つとして「視覚障害があっても使える」製品を作る事例が増えている。

状況と環境の考慮

カーナビゲーションシステムの目的地設定においては音声入力が有効である。これは自動車の運転において「ハンズフリー」「アイズフリー」が要求されるからである。

これに加えて「マインドフリー」の考慮も重要である。つまり、運転においては、右左折の直前など「運転そのものが大きな負荷である」状況が存在する。このような状況で音声対話システムがユーザに話しかけたり、操作を求めたりすることは、望ましくない。

西本が関わった一連の実証実験においては、車載音声対話インタフェースにおいて、自動車の走行状況を考慮して、対話の中断や再開を行う機能を実現し、高い評価を得た。このように、ユーザが行っているタスクに影響を与えない、というのは、重要な配慮である。

また別の着眼点としては、「音声インタフェースを使うことが周囲の人の邪魔にならない」という配慮が挙げられる。このような目的で「ささやき声」など、周囲の人に聴き取りにくい音声を入力・認識できる技術の研究がなされている。

c.妥当性の原則

主張：妥当な時期に妥当な尺度で評価を行う．結果を生かして反復的な開発・改良を行う．

インタフェースの妥当性評価

議論：

音声対話システム・音声インタフェースがどれだけユーザにとって「楽であるか」を評価したい。

まず、客観的な尺度について述べる。次に、一般的な主観尺度、最後に NASA-TLX について述べる。

所要時間

同じタスクを与えて複数のインタフェースシステムを被験者に利用させ、所要時間を比較する。複数の被験者で行う場合は、被験者間の平均を比較する。より厳密には、検定や分散分析を行う。

複数のタスクを使う場合は、タスクの違いという要因を無視しないこと。タスクごとに比較をすることで、重要な知見が得られることもある。

要因（タスクの違い、被験者群の違い、インタフェースの違いなど）を線形モデルで近似し、それぞれの要因の効果を推定する方法もある。

身体的・物理的な負荷

音声入力とポインティングデバイスの比較のために「手や指を動かす距離の累積」「コマンドを入力した回数」を評価する。

例えば[Nishimoto1996IEICE12]では、マウスを使う作図タスクにおいて、モード切替のコマンドを音声入力で行うことにより、すべてをマウス操作で行った場合と比較して、マウスポインタの移動量を削減できた、と主張した。

厳密な議論のためには「画面上のマウスポインタの移動距離」と「マウスを持つ手の移動距離」が同じであるという仮定を検証しなくてはならない。

またマルチモーダルインタフェースの比較においては、マウスの移動量だけが負荷と見なすのは妥当ではない。「キーボードでショートカット操作を行う場合の指の動き」も検討する必要がある。さらにタブレット操作やタッチ操作における身体的な負荷の評価は単純ではない。

「音声コマンドを発話することの身体的・物理的な負荷」は、マウスやキーボードの操作と比較して無視できるほど小さい、とは言えない。これには声の大きさや発声方法の影響もあり得る。

心的要因が関わる負荷

二重課題法は心的要因を客観的な尺度で測ることができる。

[Nishimoto2004IEICE02]では、音声認識とテキスト音声合成による対話インタフェースを被験者に使用させながら、画面とキーボードを用いた早押しゲームを行わせ、ゲームの応答速度の変化から、対話の状態によってインタフェースの負荷が変化していることが判断できる、と主張した。

二重課題法を用いる際の注意点としては、モダリティやタスクの干渉を防ぐ必要がある。例えば、主課題が音声対話タスクであれば音声を用いない副課題が妥当である。また、副課題の早押しゲームが「上下左右」を判断させるタスクであれば、主課題として「右折・左折」などの判断をさせるべきではない。

副課題は難易度を適切に設定する必要がある。簡単すぎても難しすぎても主課題の影響を受けにくくなる。

副課題が短時間で完結するタスクであれば、主課題を評価する時間分解能が高くなる。

副課題のパフォーマンスを測る尺度が連続値であるほうが望ましい。単なる正解・不正解の判定よりも応答時間の変化を比較できるほうが、主課題の効果に敏感に反応できる。

もう一つ、生理的指標を用いた心的負荷測定がある。特にストレスを評価する目的で、呼吸や脈拍などを利用する研究が盛んに行われている。ヒューマンインターフェースの評価としては簡便でなく、結果にノイズが多いため扱いにくいという意見もある。

主観的評価

客観評価では比較できない要因も、主観評価では観測できる可能性がある。

いわゆる心理実験の主観評価では、5段階・7段階などの尺度で評定を行う。

評価項目を慎重に検討するべき。また「非常に・・・である」「まったく・・・でない」など、数量化すべき形容詞・副詞の選び方にも注意する。

NASA-TLX

NASA-TLX はメンタルワークロードの評価手法である。ヒューマンインターフェースの評価に適している。

<html> <a href="http://www.amazon.co.jp/gp/product/4889221107?ie=UTF8&tag=r4wh-22&linkCode=as2&camp=247&creative=7399&creativeASIN=4889221107">芳賀：メンタルワークロードの理論と測定</a><img src="http://www.assoc-amazon.jp/e/ir?t=r4wh-22&l=as2&o=9&a=4889221107" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" /> </html>

被験者は6つの尺度の重要度を評定し、その後、それぞれの尺度について評定を行う。各尺度の負担の値は重要度で重み付けされる。

経験的には妥当な結果が得られることが多い。重要度による重み付けのプロセスには「本当に被験者が重要度を正しく評定できているから、重み付け評定値が妥当な値を示す」のか、「尺度に関する被験者の理解のばらつきを、結果的にこの評定によって相殺している」のか、疑問が残る。

また重み付け評価値は「被験者内でのみ比較可能な値であり、被験者間で比較することは妥当ではない」という立場と「被験者間の比較に使える絶対値である」という立場がある。西本は前者の立場に立っており、被験者ごとに複数の課題を行わせて、平均と分散の正規化を行い、その正規化された値を被験者間で比較する、という手法を提案している。

反復的な開発プロセス

アラン・クーパーはインタフェース・システムの開発プロセスに起因する問題を取り上げ、「まずデザインを作り、それから機能を実装せよ」と主張した。

<html> <a href="http://www.amazon.co.jp/gp/product/488135826X?ie=UTF8&tag=r4wh-22&linkCode=as2&camp=247&creative=7399&creativeASIN=488135826X">アラン・クーパー：コンピュータは、むずかしすぎて使えない!</a><img src="http://www.assoc-amazon.jp/e/ir?t=r4wh-22&l=as2&o=9&a=488135826X" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" /> </html>

このような場面で有効なのはラピッド・プロトタイピング・ツールである。しかし、より本質的には、プレゼンテーションとロジックを分離する設計手法が重要である。

西本が視覚障害者のためのタイピング練習ソフト「ウチコミくん」の開発において取った手法は「まずコンテンツ記述言語とその処理系を実装し、コンテンツの制作と記述言語処理系の開発を並行して行う」というものであった。これはベントリーの提案に通じる。

<html> <a href="http://www.amazon.co.jp/gp/product/4764901773?ie=UTF8&tag=r4wh-22&linkCode=as2&camp=247&creative=7399&creativeASIN=4764901773">ベントリー：プログラマのうちあけ話―続・プログラム設計の着想</a><img src="http://www.assoc-amazon.jp/e/ir?t=r4wh-22&l=as2&o=9&a=4764901773" width="1" height="1" border="0" alt="" style="border:none !important; margin:0px !important;" /> </html>

おわりに

音声認識や音声合成などの技術を生かす「インタフェースシステムの導入原則」について論じた。著者がこの分野に関わりはじめたのは1990年代前半であり、以後多くの技術・製品・サービスが提案されてきた。しかしインタフェースの原則に関する検討・理解の不足に起因すると思われる失敗例は絶えない。

「原則」とよべるものは網羅的でなくてはならず、また実践的でなくてはならないと考える。本稿の主張は、著者の経験した事例や著者の知る事例を踏まえたものであり、また、考え方の道筋を具体的に示したつもりである。だが、音声技術を生かすためのツールとして、本稿の完全性を示すのは困難であろう。今後もさまざまな事例を反映させて、充実させていきたい。本論は筆者のサイト http://ja.nishimotz.com/ にて改訂を重ねながら公開していく予定である。

もはや「音声認識は完成した技術」と見なされることもある。しかし現在の技術では、例えば統計モデルのチューニングのコストがかかりすぎるため、実環境利用においてビジネスモデルが成立しない、という指摘もある。こうした技術の限界が、現在の技術の延長で打破できるのか、シャノンの情報理論に由来する枠組みの限界なのか、定かではない。

インタフェースの指針を個別の問題に適用するためには、何らかの試行錯誤が必要である。そして多くの大企業から活力が失われた現在において、この試行錯誤を加速するのは「オープンソース」あるいは「フリー戦略」しかありえない。

筆者の初期の論文でなされた主張は「インタフェースシステムの構築において、要素還元主義によって構成技術の改良を積み重ねる」従来手法にかわる「音声インタフェース構築の方法論」であった。しかしその後の筆者の経験から「技術に関する要素還元主義」に代わる方法論は「人間に関する要素還元主義」に帰着すると考えるに至った。アクセシビリティの検討、すなわち視覚や聴覚などの障害を支援する技術は、人間のモダリティを要素還元主義的に検討するうえで非常に有用な視点である。

「楽しさ（フロー体験）」をもたらすもの、特に「一人ひとりの人間が主役になるメディア環境時代」の新たなアプリケーションも、音声認識・音声インタフェース・音声対話の技術をうまく使いこなすための重要な視点になる、と考えてきた。自分で実際に成し得たことはごくわずかでしかないが、自分が持ち続けてきた展望については、改めて確信することの多い今日この頃である（筆者がこれまで音声応用システムとして提案してきたコンセプトは、その後普及した「ニコニコ動画」「ツイッター」などの人気サービスに通じる）。

これからも「率先して指針を示す」ことを目指しつつ、オープンソースプロジェクトあるいはビジネスの当事者として積極的に関わりながら、工学・考古学・考現学・人間学としての「音声インタフェース論」を考えていきたい。

目次