デザインテクノロジーの最前線 - 桐山孝司

m.c.t.ホーム > エクスペリエンスマガジン > デザインテクノロジーの最前線 - 桐山孝司 > 音声入力インタフェースと言葉

2012.04.24音声入力インタフェースと言葉

先月のことになるが、佐藤哲至さんの「論理虫の標本箱」という展示を見る機会があった。大きな画面に色や形の違う1000個の虫がいて、その虫たちに音声でコマンドを投げかけることができる。「丸い虫だけ出てこい」と呼びかけるとその条件に合うものだけが画面に残り、「回れ」というと一斉に回転し始める。ちょうどマスゲームのように、かけ声一つで全体が整然と動くパフォーマンスの指揮者になったようである。音声入力ではマウスのように特定の虫を選ぶのではなく、全部の虫に同時並列的に呼びかける感覚があるという作者の実感あるコメントが新鮮であった。

実際、机の上に置いてあるファイルに手を伸ばすように、画面の中の特定のものを指し示すにはマウスが適している。マウスがSRIのダグラス・エンゲルバートによって発明されたのはよく知られているが、彼は人間の心の中の言語活動と外部の機械とを結合すれば人間の知性を拡張できるという理論を持っていた。そしてSRIの研究室でNLSという、今でいうハイパーテキストをグループで編集するためのシステムを作った。そのシステムで作業をするとき、機械との接点でものを指し示すインタフェースが必要だったことがマウスの発明につながる。したがってマウスは当初から、デスクトップのような配置のメタファーの中でものを指し示す役割をしてきた。

最近、iPhoneも日本語の音声入力に対応するようになった。実はiOSに組み込まれている音声認識システムのSiriも、エンゲルバートがいたSRIから出てきたものである。SRIは学習するパーソナルアシスタントを目指すCALOという大きなプロジェクトを行っていたのだが、これとモバイルフォンの将来というテーマと合流して、音声入力ができるパーソナルアシスタントを追求することになった。そしてSiriが 2010年にモバイルフォンのアプリケーションとして発表された時点でAppleが買収し、現在はiPhoneに組み込まれているのである。

SiriがiPhoneに組み込まれるまでの経緯はXconomyのThe Story of Siriという記事に詳しいが、CALOプロジェクトが2000年頃から始まったことを考えると、Siriにいたるまでに10年以上かかっている。SRIはメンロパークにある落ち着いた佇まいの研究所で、実際、軍事研究の基盤があるので息の長いプロジェクトが多い。それでも人工知能の研究では10年以上経って実用化されたというのは例外的である。しかもその途中で、知的な振る舞いの主眼は常識的知識を使った正しい推論をすることから、有用な情報を検索することにシフトしている。パーソナルアシスタントの役割が人間なみに万能で正確なものというイメージから、身近にあって手軽で有用なものに変わっているのである。これからのパーソナル機器全般においても、厳密に分類されたコマンドを求めず、音声で入力して機械の反応をみながら絞り込むという入力方法は一つの流れになるだろう。

すでに30年前になるが、ウォルター・J・オングは「声の文化と文字の文化」という本で、声による伝承の文化と文字中心の文化との間の興味深い対比の例を数多く集めている。たとえば文字を習ったことのない人にハンマー、のこぎり、丸太、手おのが描かれた絵を見せても、丸太以外を道具としてまとめるようなことはしない。道具というまとめ方を聞いても「道具なんかあったって、材料がなければ何も建たないだろ」と答える。つまり声の文化にいる人は、抽象的に分類する概念よりも、その場で結びついているものをまとめる状況依存的な思考をするのである。コンピュータの音声認識はもちろんプログラムによって動いているので、文字の文化の帰結の一つである。しかし使われ方においては、文字の文化が重視する厳密な推論や正確な分類ということから分かれて、実際に使う場面で関係のあるものをひとまとめにするという声の文化の性質を取り戻す方向にいくのではないかと思う。

冒頭の展示に戻ると、この作品はもともと論理的な分類を使ってたくさんの虫を動かすことの面白さを狙った作品なのだが、見た人から「一番元気なやつ出てこい」というような決まった分類以外の言葉が使えると面白いというコメントがあったそうである。確かに色や形のようにあらかじめ論理的に分類されたメニューには入っていないけれども、インタラクティブに絞り込んで行く場面では、虫が動き回っている状況を見て思いつく「一番元気なやつ」のような指し示し方ができることが自然である。元気という言葉は固定した属性ではなく状態を指すのであらかじめ分類できず、そのときどきの都合で決まる基準で選ぶことになるが、音声認識を実用に役立てるためにはそういった柔軟さが鍵になるだろう。

これからのパーソナルアシスタントのインタフェースでは、キーボードか音声入力かというメカニズムだけでなく、言葉の使われ方自体にも新しい形が出て来そうである。


The Story of Siri, from Birth at SRI to Acquisition by Apple―Virtual Personal Assistants Go Mobile

ウォルター・J・オング、「声の文化と文字の文化」、藤原書店


siri_mini.png

アプリケーションとして提供されていたSiriと現在のiOSに組み込まれたSiri。