AWSが機械学習で障害者とのコミュニケーションを支援：手話のテキスト化から始まる可能性

AWSは今、機械学習を応用して障害者とのコミュニケーションを支援する取り組みを行っている。

≫ 2020年07月06日 08時00分公開

[Aaron Tan，Computer Weekly]

　2019年10月、オーストラリアのメルボルンでAmazon.comの従業員がサイクリング中に人と衝突した。その従業員は助けが必要かと相手に確認しているときに、相手は耳が聞こえず口も利けず、自分の言葉が伝わっていないことに気付いた。

　コミュニケーションを支援する技術がこの2人の手元にあれば、こうした難しい状況を回避できたかもしれない。この事故を受けて仕事に取り掛かったのは、Amazon Web Services（AWS）で東南アジア向け技術部門の責任者を務めるシャーンタヌ・ダッタ氏が率いるチームだ。

　ダッタ氏のチームは、10日ほどで手話を学習した機械学習モデルを作り上げた。このモデルは、カメラで撮影した画像を使ってジェスチャーを認識し、それをテキストに変換する。耳が聞こえない人でも使えるように、音声をテキストに変換することも可能だ。

　ダッタ氏によると、この機械学習サービスとAPIはオープンにしており、音声を手話に変換するようにカスタマイズすることも可能だという。ただしその需要はまだ確認していないとして同氏は次のように話す。「少量のコードを書くだけなのでこの機械学習モデルの学習は容易だ」

　だがやるべき仕事はまだ残っている。白い背景の前で手話を学習させているため、現モデルの実使用には制限がある。

　「チームには時間に限りがあり、実験目的でもっと多くのことを示したいと考えていた」とダッタ氏は話し、AWSの「Amazon SageMaker」などのツールを使って多種多様な環境を認識するようにモデルを編集し、もっと多くの画像や動画を使って学習させることが可能だと付け加えた。

　リソースが限られていても「Amazon SageMaker Ground Truth」を使って同様の機械学習モデル向け学習データセットを素早く構築できるとダッタ氏は語る。SageMaker Ground Truthは自動ラベル付けに加え、AWSのクラウドソーシングサービス「Amazon Mechanical Turk」を通じてラベル付けに長けた人間へのアクセスも提供する。

　これはモデルの精度向上にも役立つだろう。「データが多いほどモデルの精度は上がる」とダッタ氏は話し、信頼のレベルを設定して精度が一定レベルを下回る結果は排除できると補足した。

　AWSの公共部門チームは、オーストラリアの非営利組織にこの機械学習モデルを使った概念実証の実施を働き掛けた。さらにこのモデルのトレーニングと導入にAWSのサービスを利用する場合のコストを相殺するクレジットを通じて、他の国にも同様に働き掛けているとダッタ氏は述べた。

TechTargetジャパントップエンタープライズAI