検索
特集/連載

Googleの音声合成サービス「Cloud Text-to-Speech」のビジネス用途は?「Polly」や「Watson」と真っ向勝負

Googleの新しい音声合成サービス「Cloud Text-to-Speech」は、32種類の声と12種類の言語で自然な音声を合成する。開発者はビジネス向けアプリや機器にこのソフトウェアを組み込むことができる。

Share
Tweet
LINE
Hatena

 Googleが提供を開始した開発者向け音声合成ツール「Cloud Text-to-Speech」のβ版では、対話型の音声応答botを作成したり、IoT(モノのインターネット)機器に音声機能を追加したり、文字を読むより音声を聞く方が適したワークフローを向上させたりといった用途に利用できる。

 同社は2018年3月27日、「Google Cloud Platform」を通じてこの開発者向けソフトウェアの提供を開始した。同社の一般消費者向けアプリ「Googleアシスタント」「Googleマップ」「Google検索」などは既にこの機能を利用している。

 「私たちは、音声を使う場面といえば電話や対面の会話ぐらいだと思い込みがちだ」と調査分析会社J Arnold & Associatesの社長、ジョン・アーノルド氏は語る。「このサービスは音声と発話の使い方を広げ、とても興味深い手法でオーディオの可能性を拡大するだろう」

 GoogleのCloud Text-to-Speechは、32種類の声と12種類の言語から選ぶことができ、声のピッチや話す速さ、音量をカスタマイズできる。開発者はこのソフトウェアを電話やPC、タブレット、テレビや人工知能(AI)スピーカーなどのIoT機器に組み込める。Cisco Systemsはコラボレーションプラットフォーム「Spark」でこのサービスを利用している。

 このサービスは、Googleが2014年に買収したDeepMindの機械学習ツールを使っている。これによって従来の合成音声より自然な音声の合成を実現した。DeepMindが開発した「WaveNet」は、これまでのように短い発話をつなげるのではなく、音声を一から合成する。Googleの音声検索で実際に収集した人の音声の膨大なデータを解析することにより、WaveNetのニューラルネットワークは自然な発話の波形や声のトーンの適切な流れを識別できる。

 Googleはエンタープライズ市場への参入を進めており、今回のサービスの投入はその最新の動きだ。2018年3月にはこれ以外に「Hangouts Chat」というチームコラボレーションアプリも一般公開しており、「Slack」や「Microsoft Teams」との競争に参戦した。今回のCloud Text-to-Speechは、ビジネス向け音声合成API市場でAmazon.comの「Polly」やIBMの「Watson」と真っ向から対抗する。

 アーノルド氏は、Googleが「MicrosoftのOfficeアプリケーションに対抗するだけでなく、他の分野でも張り合える重要なパートナーとして企業に認識してもらう」狙いがあるといい、GoogleはAI分野で「強力な地位を築いている」と評した。

Googleの音声合成サービスの用途

 Nemertes Researchでアナリストを務めるアーウィン・レイザー氏は、仮想アシスタントや顧客対応の対話型音声応答(IVR)システムなど音声対応システムの開発にこのサービスを利用すれば、音声機能を向上できるという。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る