広告企業が「クラウドソーシング」で機械学習の教師データを整備 利点と課題は「文脈ターゲティング広告」を実現するGumGumの舞台裏

独自の画像認識テクノロジーを持つ広告関連企業のGumGumは、クラウドソーシングでデータにタグ付け(アノテーション)をするFigure Eightのサービスを利用して、教師データを整備している。そのメリットと課題とは。

2020年04月16日 05時00分 公開
[Mark LabbeTechTarget]

関連キーワード

機械学習


 人工知能(AI)テクノロジーを利用した広告配信システムを開発するGumGumは、コンピュータビジョンとNLP(自然言語処理)テクノロジーを開発して、クライアントのエンドユーザー向け広告を改善した。

 2008年創業のGumGumは、Webページ内の動画や音声、画像、テキストを自動的にスキャンし、重要な要素を特定して抽出する。次に、そのコンテキスト(文脈)データを使用して、広告主がWebページに関連した広告を配置するのを支援する。

 コンピュータビジョンとNLPの機械学習モデルを強化するために、GumGumは多くの教師データを必要とする。データのニーズを満たすため、同社は機械学習用アノテーション(データに関する情報の付与)のクラウドソーシングベンダーであるFigure Eightのサービスを採用した。

 2019年4月、機械学習用アノテーションを手掛ける別のクラウドソーシングベンダーであるAppenが買収したFigure Eightは、同様のさまざまなベンダーにトレーニングデータを提供している。Figure Eightは、「コントリビューター」と呼ばれる作業者の大規模なネットワークを活用して、膨大な量のデータにタグを付ける。コントリビューターは訓練されているが、その多くはデータサイエンティストではない。

クラウドソーシングで教師データを整備

 GumGumのデータキュレーターである西村 恵里香氏によると、Figure Eightを採用する前は、GumGumは機械学習用のアノテーションにフルタイムのスタッフを雇用していた。これはうまくいったが、高コストであり、速度も遅いことがあったという。大量のデータがある場合、適切な教師データを取得するには数カ月かかることもある。その上、GumGumがアノテーションを委託した会社の作業者は英語でしか作業ができなかったが、同社のクライアントは世界中にいる。

 Figure Eightはコントリビューターのネットワークを活用して教師データを提供する。同社が処理対象にする言語は多岐にわたる。西村氏は、Figure Eightが当時、日本語を処理する数少ない企業の一社だったと述べる。GumGumには日本語部門があるため、処理対象言語はFigure Eightを選択した主な理由の一つだった。

 GumGumのプロダクトマネジャーであるレーン・シェクター氏は、同社がFigure Eightを選んだもう一つの理由はスケーラビリティだったという。

 シェクター氏によれば、Figure Eightを採用したことでGumGumのアノテーション効率は10倍以上増加した。これまで適切な機械学習用アノテーションを取得するために数カ月かかっていた作業の中には、約1週間でできるようになったものもある。

最大の課題は「直接対話」の難しさ

Copyright © ITmedia, Inc. All Rights Reserved.

ITmedia マーケティング新着記事

news132.jpg

ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。

news103.jpg

なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...

news160.jpg

業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...