音声認識のキラーアプリはなぜ生まれないのか：なかなかブレイクしない原因は……

音声認識技術が大幅に改良され、セキュリティと認証の問題への対策が講じられるには、まだ数年はかかるだろう。

≫ 2007年08月24日 05時00分公開

[Zeus Kerravala，TechTarget]

　音声認識技術は盛んに宣伝されているが、これまでのところ、触れ込み通りの威力を発揮していない。音声認識技術が本当に役立つものになるには、自然言語を解釈する能力の向上が必要だ。それが実現すれば、音声が多くのアプリケーションに統合され、われわれの情報アクセスのあり方は大きく変わるだろう。

　先日、わたしは西海岸から飛行機で帰るとき、フライト状況を確認しようと思って航空会社の「音声認識対応」コールセンターに電話した。そして分かったのは、その「音声認識対応」応答システムのプロセスが、プッシュホンのボタンを押して発信するDTMF（dual-tone, multi-frequency）信号による応答システムと何ら変わらないということだった。電話をかけて最初にしなければならなかったのは、自分のフリクエントフライヤー番号を「口頭で伝える」こと。次のステップは「フライト情報」と言うか、数字の1を押すことだった。続いて、数字の2を押す代わりに「出発」と言うよう求められた。こうしたプロセスが延々と続いて、やっと目的の情報が手に入った。うんざりするほど時間がかかってしまった。

　このシステムは、キーを操作しても、音声でアクセスしても、まったく同じ情報ツリーをたどるようになっていた。そのプロセスの所要時間は、どちらの場合もほぼ同じというわけだ。理想を言えば、所定の番号に電話して「X市からの123便の出発情報」と言うと、システムがそれを解析して情報を返すようになっていてほしかった。音声アクセスが本当に便利になるには、ユーザーが要求を出したときに、生身の相手と話す場合と同様な体験ができるレベルまで進化を遂げなければならないと、わたしは強く考えている。

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}