2020年04月16日 05時00分 公開
特集/連載

広告企業が「クラウドソーシング」で機械学習の教師データを整備 利点と課題は「文脈ターゲティング広告」を実現するGumGumの舞台裏

独自の画像認識テクノロジーを持つ広告関連企業のGumGumは、クラウドソーシングでデータにタグ付け(アノテーション)をするFigure Eightのサービスを利用して、教師データを整備している。そのメリットと課題とは。

[Mark Labbe,TechTarget]

関連キーワード

機械学習


 人工知能(AI)テクノロジーを利用した広告配信システムを開発するGumGumは、コンピュータビジョンとNLP(自然言語処理)テクノロジーを開発して、クライアントのエンドユーザー向け広告を改善した。

 2008年創業のGumGumは、Webページ内の動画や音声、画像、テキストを自動的にスキャンし、重要な要素を特定して抽出する。次に、そのコンテキスト(文脈)データを使用して、広告主がWebページに関連した広告を配置するのを支援する。

 コンピュータビジョンとNLPの機械学習モデルを強化するために、GumGumは多くの教師データを必要とする。データのニーズを満たすため、同社は機械学習用アノテーション(データに関する情報の付与)のクラウドソーシングベンダーであるFigure Eightのサービスを採用した。

 2019年4月、機械学習用アノテーションを手掛ける別のクラウドソーシングベンダーであるAppenが買収したFigure Eightは、同様のさまざまなベンダーにトレーニングデータを提供している。Figure Eightは、「コントリビューター」と呼ばれる作業者の大規模なネットワークを活用して、膨大な量のデータにタグを付ける。コントリビューターは訓練されているが、その多くはデータサイエンティストではない。

クラウドソーシングで教師データを整備

 GumGumのデータキュレーターである西村 恵里香氏によると、Figure Eightを採用する前は、GumGumは機械学習用のアノテーションにフルタイムのスタッフを雇用していた。これはうまくいったが、高コストであり、速度も遅いことがあったという。大量のデータがある場合、適切な教師データを取得するには数カ月かかることもある。その上、GumGumがアノテーションを委託した会社の作業者は英語でしか作業ができなかったが、同社のクライアントは世界中にいる。

 Figure Eightはコントリビューターのネットワークを活用して教師データを提供する。同社が処理対象にする言語は多岐にわたる。西村氏は、Figure Eightが当時、日本語を処理する数少ない企業の一社だったと述べる。GumGumには日本語部門があるため、処理対象言語はFigure Eightを選択した主な理由の一つだった。

 GumGumのプロダクトマネジャーであるレーン・シェクター氏は、同社がFigure Eightを選んだもう一つの理由はスケーラビリティだったという。

 シェクター氏によれば、Figure Eightを採用したことでGumGumのアノテーション効率は10倍以上増加した。これまで適切な機械学習用アノテーションを取得するために数カ月かかっていた作業の中には、約1週間でできるようになったものもある。

最大の課題は「直接対話」の難しさ

ITmedia マーケティング新着記事

news045.jpg

「ファッションテック」から「3密回避」まで データによる価値創造と課題解決の考え方
気象データを活用してファッションコーデを提案するサービスをデジタルエージェンシーの...

news153.jpg

脳波計測で判明 Twitterを使いながら番組を見る人は満足度が高い――Twitter Japan調査
脳波を活用した感性把握技術を活用して「テレビとTwitter」の関係について分析しています。

news058.jpg

旅行業界のデジタルシフトと「Go To トラベル」後の課題 びゅうトラベルサービスに聞く
列車旅の拡大活性化を目指してデジタルシフトを進めるJR東日本グループの旅行会社びゅう...