スマホの音声入力の活用とそのユーザニーズ

iPhoneのSiri、ドコモのしゃべってコンシェル、ヤフーの音声アシスト。このような音声入力の機能が、今日のスマートフォンには当たり前に搭載されるようになってきました。本コラムでは、弊社のユーザ行動観察調査を通じて分かってきた、音声入力利用ユーザのニーズをご紹介します。

アメリカで実施された調査※1によれば、2012年当時、iPhone 4Sを所持しているユーザの内、実に87%が少なくとも月に1回はSiriを利用しているそうです。また30%以上の人が、電話、メール、情報検索のいずれかの目的のために毎日、あるいはほぼ毎日Siriを使っているというのです。

ガートナー社による「先進テクノロジのハイプ・サイクル:2012年」※2では、音声認識の技術は現在啓蒙活動期にあり、今後2~5年の間には生産性の安定期に入り主流機能として採用され始めると想定されています。

それを裏付けるように、アメリカのフィナンシャルグループであるUSAAは音声入力が可能なモバイルバンキングアプリの実装を目指していると報道※3されており、2013年には一般公開をする予定だと言われています。「今日の午後、妻の口座に500ドル送金しなくてはならない」と言うだけで「分かりました」「送金されました」と応答し処理してくれる他、「My Voice Is My Password」ということでパスワードの代わりにもなると報じられています。

その他にもアンドロイド携帯に対応するGoogle Nowは声によるコマンド入力がすでに可能で、さらには音声広告をアップルに技術供与しているNUANCE社が開発中だと報じられています。

行動観察から見えたユーザニーズ

なぜ、このように音声入力やそれを活用したサービスの開発が盛んなのでしょうか。音声入力を使うユーザはどんな人で、どんなニーズがあるのでしょうか。

弊社においても、スマートフォンにおける音声入力に対するニーズを把握するためにユーザ行動観察調査を実施しました。調査に際しては、実際の利用シーンに極力近づけるため、ステップごとに合わせた画面案を用意しました。そして被験者にはスマートフォンを用いて、実際に音声で操作して貰います。音声での入力に合わせて画面が切り替わることで、よりリアルにサービスを体験して貰いました。

音声入力を利用するシーンとしてよくある想定は、銀行振り込みを「今日の午後、妻の口座に500ドルを送金する」という一言で入力することです。つまり、ユーザは、自然に話すようにして、より効率的に操作がしたいというニーズを持っていると想定することが多いでしょう。

ユーザ行動観察調査の結果、上記のようなユーザはスマートフォンの利用頻度が高い人に多く見られました。

さらに調査してみると、このセグメントのユーザが音声入力に期待していることは、現状のウェブサイトではどうしても一問一答での回答になってしまうため、その面倒を解消できないかということでした。音声で彼らは効率が良くなることで便利になったと感じるので、選択肢の中からコマンドを一つ選ぶようなものではなく、細かい指示を一度に入力できる、例えばSiriや先述のUSAAのような入力画面を好みます。

しかし、弊社のユーザ行動観察調査の結果、スマートフォンの音声入力ユーザには、もう一つのユーザセグメントがあることが分かりました。

もう一つのセグメントは、手を使ったスマートフォン上での文字入力が難しく、画面でボタンを探すのも面倒なので、音声入力を使ってもっと簡単にサービスを使いたいというニーズを持ったユーザです。このようなニーズは、スマートフォンの操作が十分に使いこなせておらず、従ってスマートフォンの利用頻度もそれほど高くないユーザ、特に年齢が高いユーザに多く見られました。

このセグメントのユーザは、スマートフォンを使いこなせていないため、Siriのように自然な会話による入力といった、自由度の高いコミュニケーションをあまり好みません。そうではなく、例えば一問一答で入力したいと考えています。銀行振り込みの場合であれば、希望のメニューを答えられたら「送金」と答え、次に送金先をたずねられ、それに対して妻の口座番号を言うといった具合に、ステップを踏んで音声入力をしたいと考えています。ユーザは、振込に必要な情報が何なのかも分からないし、それを考えていくことすら面倒だと感じており、ただ聞かれたことに応えていくだけで済むという音声入力の簡単さに魅力を感じているのです。

この2つのユーザ層の中でも、特に音声入力に対するニーズが強いのは前者の人たちでした。それまで使いこなせなかったスマートフォンやそのアプリが、音声入力が可能になることで使いこなせるようになるというのは、新しいサービスを利用するための大きなインセンティブになります。

音声入力を使うと大きく変わるユーザの利用姿勢

スマートフォンという限られた画面の中では、「キーボードのサイズは小さくなりがちで、それが理由で一定のユーザを獲得し損ねています。キーボードを使用しなくても済む音声入力に対応することで、新しいユーザを獲得できる」、そんな期待があるからこそ、音声入力の開発に各社力を入れていると考えられます。

またこの調査によって、音声入力をする時とキー入力をする時では、ユーザの行動パターンが大きく異なっていることも明らかになりました。

ウェブは本来、非常に能動的なメディアだと言われています。一般的に、テレビなどと違い、ユーザが何か目的を持って閲覧しに行くメディアであり、目的のものが見つからなければすぐに離脱してしまいます。

しかし、音声を使う時、ユーザの姿勢はかなり受動的になります。

例えば、パスワードを手で入力した時には当然のように押すログインボタンですが、音声で入力するとボタンを押さなくなります。音声を聞き取った機械が認識して、合っていれば勝手にログインしてくれるだろうと思い、次のページに進むのをただ待つようになります。

また一度音声を使い始めると、手で入力することを厭うようになります。たとえ「はい」「いいえ」という二択の大きなボタンであっても、ボタンを押す代わりに言葉で「はい」「いいえ」と答えてしまいます。パスワードなど、最初は声で入力することに抵抗があると答えていた項目ですら、一度音声を使い始めると、特に迷うこともなく、自分のパスワードを読み上げるようになります。これは、一旦音声入力というモードになってしまうと、再び手で入力するというモードに切り替えることが出来なくなるからだと考えられます。

このように、入力のステップ数やボタンといった一面だけを見ても、音声入力によるサービスは既存のキー入力によるサービスと全く異なるものを求められていることが分かります。

音声入力を用いて他社と差別化したい、顧客満足度を上げたい、新規サービスを立ち上げたいなど、今後日本においても音声入力を活用したいというビジネスニーズは高まっていくと考えられます。

しかし、提供する側のビジネスニーズに基づいてサービスを設計したり、既存の画面をそのまま移植しても、それがユーザニーズにマッチしなければそのサービスは使用されず、多額の開発コストが無駄になってしまいます。また現在の技術水準では、ユーザが求めるサービスを提供することが出来ない可能性もあります。

そんなミスマッチを起こさないためにも、ビジネスニーズや技術要件だけでなく、ユーザニーズをきちんと把握してからサービスを設計する必要があります。

参考文献:

※1http://blogs.wsj.com/digits/2012/03/26/apple%E2%80%99s-siri-gains-traction-for-some-things/
※2http://www.gartner.co.jp/press/html/pr20120906-01.html
※3http://thefinancialbrand.com/24730/cool-tech-mobile-banking-with-siri-like-voice-commands

執筆者:前田 俊幸
株式会社ビービット アクティングマネージャ
東京大学大学院 学際情報学府修了。ビービット入社後、大手製造業、通信、教育、金融など、幅広い業界のウェブサイト戦略・方針策定やリニューアルに携わる。また、UXに関する知識の啓蒙・普及のためのコミュニティを主宰し、ワークショップ・翻訳など多数実施。