2018年04月12日 09時00分 公開
特集/連載

「Polly」や「Watson」と真っ向勝負Googleの音声合成サービス「Cloud Text-to-Speech」のビジネス用途は?

Googleの新しい音声合成サービス「Cloud Text-to-Speech」は、32種類の声と12種類の言語で自然な音声を合成する。開発者はビジネス向けアプリや機器にこのソフトウェアを組み込むことができる。

[Jonathan Dame,TechTarget]

 Googleが提供を開始した開発者向け音声合成ツール「Cloud Text-to-Speech」のβ版では、対話型の音声応答botを作成したり、IoT(モノのインターネット)機器に音声機能を追加したり、文字を読むより音声を聞く方が適したワークフローを向上させたりといった用途に利用できる。

 同社は2018年3月27日、「Google Cloud Platform」を通じてこの開発者向けソフトウェアの提供を開始した。同社の一般消費者向けアプリ「Googleアシスタント」「Googleマップ」「Google検索」などは既にこの機能を利用している。

 「私たちは、音声を使う場面といえば電話や対面の会話ぐらいだと思い込みがちだ」と調査分析会社J Arnold & Associatesの社長、ジョン・アーノルド氏は語る。「このサービスは音声と発話の使い方を広げ、とても興味深い手法でオーディオの可能性を拡大するだろう」

 GoogleのCloud Text-to-Speechは、32種類の声と12種類の言語から選ぶことができ、声のピッチや話す速さ、音量をカスタマイズできる。開発者はこのソフトウェアを電話やPC、タブレット、テレビや人工知能(AI)スピーカーなどのIoT機器に組み込める。Cisco Systemsはコラボレーションプラットフォーム「Spark」でこのサービスを利用している。

 このサービスは、Googleが2014年に買収したDeepMindの機械学習ツールを使っている。これによって従来の合成音声より自然な音声の合成を実現した。DeepMindが開発した「WaveNet」は、これまでのように短い発話をつなげるのではなく、音声を一から合成する。Googleの音声検索で実際に収集した人の音声の膨大なデータを解析することにより、WaveNetのニューラルネットワークは自然な発話の波形や声のトーンの適切な流れを識別できる。

 Googleはエンタープライズ市場への参入を進めており、今回のサービスの投入はその最新の動きだ。2018年3月にはこれ以外に「Hangouts Chat」というチームコラボレーションアプリも一般公開しており、「Slack」や「Microsoft Teams」との競争に参戦した。今回のCloud Text-to-Speechは、ビジネス向け音声合成API市場でAmazon.comの「Polly」やIBMの「Watson」と真っ向から対抗する。

 アーノルド氏は、Googleが「MicrosoftのOfficeアプリケーションに対抗するだけでなく、他の分野でも張り合える重要なパートナーとして企業に認識してもらう」狙いがあるといい、GoogleはAI分野で「強力な地位を築いている」と評した。

Googleの音声合成サービスの用途

 Nemertes Researchでアナリストを務めるアーウィン・レイザー氏は、仮想アシスタントや顧客対応の対話型音声応答(IVR)システムなど音声対応システムの開発にこのサービスを利用すれば、音声機能を向上できるという。

この記事を読んだ人にお薦めの関連記事

注目テーマ

ITmedia マーケティング新着記事

news085.jpg

位置情報広告のジオロジック、LINE Venturesなどから総額1億円を調達
ジオロジックは、ジェネシア・ベンチャーズ、LINE Ventures、東急エージェンシーを引受先...

news065.jpg

LINE、サイバーエージェント子会社とチャットに特化した次世代型カスタマーサポート推進で協業
LINEは、サイバーエージェントの連結子会社であるAIメッセンジャーと共同で、チャットに...

news021.jpg

「NPS」の効果を実感、導入企業の8割――IMJ調査
アイ・エム・ジェイ(IMJ)は、「日本企業におけるNPS導入の実態把握調査」の結果を発表...