2020年04月16日 05時00分 公開
特集/連載

広告企業が「クラウドソーシング」で機械学習の教師データを整備 利点と課題は「文脈ターゲティング広告」を実現するGumGumの舞台裏

独自の画像認識テクノロジーを持つ広告関連企業のGumGumは、クラウドソーシングでデータにタグ付け(アノテーション)をするFigure Eightのサービスを利用して、教師データを整備している。そのメリットと課題とは。

[Mark Labbe,TechTarget]

関連キーワード

機械学習


 人工知能(AI)テクノロジーを利用した広告配信システムを開発するGumGumは、コンピュータビジョンとNLP(自然言語処理)テクノロジーを開発して、クライアントのエンドユーザー向け広告を改善した。

 2008年創業のGumGumは、Webページ内の動画や音声、画像、テキストを自動的にスキャンし、重要な要素を特定して抽出する。次に、そのコンテキスト(文脈)データを使用して、広告主がWebページに関連した広告を配置するのを支援する。

 コンピュータビジョンとNLPの機械学習モデルを強化するために、GumGumは多くの教師データを必要とする。データのニーズを満たすため、同社は機械学習用アノテーション(データに関する情報の付与)のクラウドソーシングベンダーであるFigure Eightのサービスを採用した。

 2019年4月、機械学習用アノテーションを手掛ける別のクラウドソーシングベンダーであるAppenが買収したFigure Eightは、同様のさまざまなベンダーにトレーニングデータを提供している。Figure Eightは、「コントリビューター」と呼ばれる作業者の大規模なネットワークを活用して、膨大な量のデータにタグを付ける。コントリビューターは訓練されているが、その多くはデータサイエンティストではない。

クラウドソーシングで教師データを整備

 GumGumのデータキュレーターである西村 恵里香氏によると、Figure Eightを採用する前は、GumGumは機械学習用のアノテーションにフルタイムのスタッフを雇用していた。これはうまくいったが、高コストであり、速度も遅いことがあったという。大量のデータがある場合、適切な教師データを取得するには数カ月かかることもある。その上、GumGumがアノテーションを委託した会社の作業者は英語でしか作業ができなかったが、同社のクライアントは世界中にいる。

 Figure Eightはコントリビューターのネットワークを活用して教師データを提供する。同社が処理対象にする言語は多岐にわたる。西村氏は、Figure Eightが当時、日本語を処理する数少ない企業の一社だったと述べる。GumGumには日本語部門があるため、処理対象言語はFigure Eightを選択した主な理由の一つだった。

 GumGumのプロダクトマネジャーであるレーン・シェクター氏は、同社がFigure Eightを選んだもう一つの理由はスケーラビリティだったという。

 シェクター氏によれば、Figure Eightを採用したことでGumGumのアノテーション効率は10倍以上増加した。これまで適切な機械学習用アノテーションを取得するために数カ月かかっていた作業の中には、約1週間でできるようになったものもある。

最大の課題は「直接対話」の難しさ

ITmedia マーケティング新着記事

news137.jpg

米大統領選を巡る「アプリ対決」のゆくえ 「Trump 2020」 vs. 「Vote Joe」と「TikTok」 vs. 「Triller」
米国では2020年月の大統領選挙を前に選挙戦がますます活発化しています。関連するアプリ...

news143.jpg

店舗の滞在時間が減少、「20分未満」が約1.5倍に――凸版印刷とONE COMPATHが5万人買い物調査
電子チラシ「Shufoo!」を利用する全国の男女5万人を対象に実施した買い物に関する意識調...

news002.jpg

好意度と購入意向を10倍以上にした「局所的熱狂」をどう生み出すか
成功する広告は他と何が違うのか。マーケターが押さえておくべき新しい広告戦略の定石と...