Googleの音声合成サービス「Cloud Text-to-Speech」のビジネス用途は?「Polly」や「Watson」と真っ向勝負

Googleの新しい音声合成サービス「Cloud Text-to-Speech」は、32種類の声と12種類の言語で自然な音声を合成する。開発者はビジネス向けアプリや機器にこのソフトウェアを組み込むことができる。

2018年04月12日 09時00分 公開
[Jonathan DameTechTarget]

 Googleが提供を開始した開発者向け音声合成ツール「Cloud Text-to-Speech」のβ版では、対話型の音声応答botを作成したり、IoT(モノのインターネット)機器に音声機能を追加したり、文字を読むより音声を聞く方が適したワークフローを向上させたりといった用途に利用できる。

 同社は2018年3月27日、「Google Cloud Platform」を通じてこの開発者向けソフトウェアの提供を開始した。同社の一般消費者向けアプリ「Googleアシスタント」「Googleマップ」「Google検索」などは既にこの機能を利用している。

 「私たちは、音声を使う場面といえば電話や対面の会話ぐらいだと思い込みがちだ」と調査分析会社J Arnold & Associatesの社長、ジョン・アーノルド氏は語る。「このサービスは音声と発話の使い方を広げ、とても興味深い手法でオーディオの可能性を拡大するだろう」

 GoogleのCloud Text-to-Speechは、32種類の声と12種類の言語から選ぶことができ、声のピッチや話す速さ、音量をカスタマイズできる。開発者はこのソフトウェアを電話やPC、タブレット、テレビや人工知能(AI)スピーカーなどのIoT機器に組み込める。Cisco Systemsはコラボレーションプラットフォーム「Spark」でこのサービスを利用している。

 このサービスは、Googleが2014年に買収したDeepMindの機械学習ツールを使っている。これによって従来の合成音声より自然な音声の合成を実現した。DeepMindが開発した「WaveNet」は、これまでのように短い発話をつなげるのではなく、音声を一から合成する。Googleの音声検索で実際に収集した人の音声の膨大なデータを解析することにより、WaveNetのニューラルネットワークは自然な発話の波形や声のトーンの適切な流れを識別できる。

 Googleはエンタープライズ市場への参入を進めており、今回のサービスの投入はその最新の動きだ。2018年3月にはこれ以外に「Hangouts Chat」というチームコラボレーションアプリも一般公開しており、「Slack」や「Microsoft Teams」との競争に参戦した。今回のCloud Text-to-Speechは、ビジネス向け音声合成API市場でAmazon.comの「Polly」やIBMの「Watson」と真っ向から対抗する。

 アーノルド氏は、Googleが「MicrosoftのOfficeアプリケーションに対抗するだけでなく、他の分野でも張り合える重要なパートナーとして企業に認識してもらう」狙いがあるといい、GoogleはAI分野で「強力な地位を築いている」と評した。

Googleの音声合成サービスの用途

 Nemertes Researchでアナリストを務めるアーウィン・レイザー氏は、仮想アシスタントや顧客対応の対話型音声応答(IVR)システムなど音声対応システムの開発にこのサービスを利用すれば、音声機能を向上できるという。

ITmedia マーケティング新着記事

news112.jpg

「インクルーシブマーケティング」実践のポイントは? ネオマーケティングが支援サービスを提供
ネオマーケティングは、インクルーシブマーケティングの実践に向けたサービスを開始した...

news135.jpg

Xが新規アカウントに課金するとユーザーはどれほど影響を受ける? そしてそれは本当にbot対策になるのか?
Xが新規利用者を対象に、課金制を導入する方針を表明した。botの排除が目的だというが、...

news095.jpg

Googleの次世代AIモデル「Gemini 1.5」を統合 コカ・コーラやロレアルにも信頼される「WPP Open」とは?
世界最大級の広告会社であるWPPはGoogle Cloudと協業を開始した。キャンペーンの最適化、...