検索
特集/連載

Googleの音声認識サービス「Cloud Speech-to-Text」大幅強化、句読点挿入も可能機械学習により精度が向上

アップデートされたGoogleの音声認識テキスト変換サービスは、機械学習により精度が向上した。Googleは、変換されたテキストに自動的に句読点を追加するツールもリリースしている。

Share
Tweet
LINE
Hatena
画像
音声認識テキスト変換サービスの実用化は遠い未来の話ではない《クリックで拡大》

 Googleの音声認識テキスト変換サービス「Cloud Speech-to-Text」は、通話や動画の音声を明確にテキストに変換するように設計されたモジュールを用いてアップデートされた。開発者は、これらのテキスト変換サービスをコールセンターのソフトウェアやWeb会議プラットフォームに組み込むことができる。

 Googleは、顧客から提供を受けたデータを使用することで、文字起こしの正確さを大幅に改善したことを明らかにした。機械学習ツールにより、単語の誤りは半分以下に減ったという。

 今後、顧客は利用データの共有をGoogleと同意することで、さらに高度なサービスの恩恵を得ることができる。もちろん、プライバシーに懸念を抱く顧客は、このプログラムに参加しないことも可能だ。

 2016年にリリースされたGoogle Cloud Speech APIは、電話やビデオの音声からの文字起こしに加え、長時間の音声ファイルをテキストに変換するための標準プログラムを含んでおり、音声の検索や音声コマンドをサポートしている。

 Googleは2018年4月、音声メールの文字起こしの品質を改善するために、社内で過去数年間利用してきた句読点自動挿入ツールのβ版を公開した。これにより、ピリオド、コンマ、疑問符を音声から書き起こした文章へ自動的に挿入することができる。

 GoogleによるCloud Speech-to-Textに関する改良は、Amazon Web Services(以下、AWS)が一般デベロッパー向けテキスト転換プラットフォームであるAmazon Transcribeの開発を公表してから1週間もたたないうちに発表された。

 Amazon Transcribeにおいて、企業は、それぞれの業務に特有の頭字語とキーワードを含めるよう、語彙をカスタマイズすることができる。また、AWSは、音声ファイル内の複数の発言者を区別できるようにサービスをアップデートした。

 AWSとGoogleは、同様のサービスを提供するIBM WatsonやMicrosoft Azureとも競合している。「音声認識テキスト変換をより広く利用するための大規模な競争が起きている。音声認識テキスト変換は、これら全てのベンダーが現在取り組んでいることの中核をなす、非常に重要な部分だ」と、Wainhouse Researchのスティーブ・ヴォンダー・ハール氏(上級アナリスト)は語る。

進化し続けるCloud Speech-to-Textの使用事例

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る