2020年04月16日 05時00分 公開
特集/連載

広告企業が「クラウドソーシング」で機械学習の教師データを整備 利点と課題は「文脈ターゲティング広告」を実現するGumGumの舞台裏

独自の画像認識テクノロジーを持つ広告関連企業のGumGumは、クラウドソーシングでデータにタグ付け(アノテーション)をするFigure Eightのサービスを利用して、教師データを整備している。そのメリットと課題とは。

[Mark Labbe,TechTarget]

関連キーワード

機械学習


 人工知能(AI)テクノロジーを利用した広告配信システムを開発するGumGumは、コンピュータビジョンとNLP(自然言語処理)テクノロジーを開発して、クライアントのエンドユーザー向け広告を改善した。

 2008年創業のGumGumは、Webページ内の動画や音声、画像、テキストを自動的にスキャンし、重要な要素を特定して抽出する。次に、そのコンテキスト(文脈)データを使用して、広告主がWebページに関連した広告を配置するのを支援する。

 コンピュータビジョンとNLPの機械学習モデルを強化するために、GumGumは多くの教師データを必要とする。データのニーズを満たすため、同社は機械学習用アノテーション(データに関する情報の付与)のクラウドソーシングベンダーであるFigure Eightのサービスを採用した。

 2019年4月、機械学習用アノテーションを手掛ける別のクラウドソーシングベンダーであるAppenが買収したFigure Eightは、同様のさまざまなベンダーにトレーニングデータを提供している。Figure Eightは、「コントリビューター」と呼ばれる作業者の大規模なネットワークを活用して、膨大な量のデータにタグを付ける。コントリビューターは訓練されているが、その多くはデータサイエンティストではない。

クラウドソーシングで教師データを整備

 GumGumのデータキュレーターである西村 恵里香氏によると、Figure Eightを採用する前は、GumGumは機械学習用のアノテーションにフルタイムのスタッフを雇用していた。これはうまくいったが、高コストであり、速度も遅いことがあったという。大量のデータがある場合、適切な教師データを取得するには数カ月かかることもある。その上、GumGumがアノテーションを委託した会社の作業者は英語でしか作業ができなかったが、同社のクライアントは世界中にいる。

 Figure Eightはコントリビューターのネットワークを活用して教師データを提供する。同社が処理対象にする言語は多岐にわたる。西村氏は、Figure Eightが当時、日本語を処理する数少ない企業の一社だったと述べる。GumGumには日本語部門があるため、処理対象言語はFigure Eightを選択した主な理由の一つだった。

 GumGumのプロダクトマネジャーであるレーン・シェクター氏は、同社がFigure Eightを選んだもう一つの理由はスケーラビリティだったという。

 シェクター氏によれば、Figure Eightを採用したことでGumGumのアノテーション効率は10倍以上増加した。これまで適切な機械学習用アノテーションを取得するために数カ月かかっていた作業の中には、約1週間でできるようになったものもある。

最大の課題は「直接対話」の難しさ

ITmedia マーケティング新着記事

news148.jpg

コロナ禍で「たすけあいの意識」が高まったと回答した人が66.9%――こくみん共済 coop調査
コロナ禍の意外な効用? 人と人との「たすけあい」の気持ちが強くなっているという調査...

news056.jpg

企業コミュニケーションの「ニューノーマル」を語ろう
マーケティングやPRの従事者は今、かつてない難問を突きつけられている。「3密」回避など...

news051.jpg

ミレニアル世代・Z世代の離職意向が低下、コロナ禍を機に精神的健康も改善――Deloitte調査
世界各国のミレニアル・Z世代約2万7500人を対象にした年次調査。今回は新型コロナウイル...