2020年04月16日 05時00分 公開
特集/連載

広告企業が「クラウドソーシング」で機械学習の教師データを整備 利点と課題は「文脈ターゲティング広告」を実現するGumGumの舞台裏

独自の画像認識テクノロジーを持つ広告関連企業のGumGumは、クラウドソーシングでデータにタグ付け(アノテーション)をするFigure Eightのサービスを利用して、教師データを整備している。そのメリットと課題とは。

[Mark Labbe,TechTarget]

関連キーワード

機械学習


 人工知能(AI)テクノロジーを利用した広告配信システムを開発するGumGumは、コンピュータビジョンとNLP(自然言語処理)テクノロジーを開発して、クライアントのエンドユーザー向け広告を改善した。

 2008年創業のGumGumは、Webページ内の動画や音声、画像、テキストを自動的にスキャンし、重要な要素を特定して抽出する。次に、そのコンテキスト(文脈)データを使用して、広告主がWebページに関連した広告を配置するのを支援する。

 コンピュータビジョンとNLPの機械学習モデルを強化するために、GumGumは多くの教師データを必要とする。データのニーズを満たすため、同社は機械学習用アノテーション(データに関する情報の付与)のクラウドソーシングベンダーであるFigure Eightのサービスを採用した。

 2019年4月、機械学習用アノテーションを手掛ける別のクラウドソーシングベンダーであるAppenが買収したFigure Eightは、同様のさまざまなベンダーにトレーニングデータを提供している。Figure Eightは、「コントリビューター」と呼ばれる作業者の大規模なネットワークを活用して、膨大な量のデータにタグを付ける。コントリビューターは訓練されているが、その多くはデータサイエンティストではない。

クラウドソーシングで教師データを整備

 GumGumのデータキュレーターである西村 恵里香氏によると、Figure Eightを採用する前は、GumGumは機械学習用のアノテーションにフルタイムのスタッフを雇用していた。これはうまくいったが、高コストであり、速度も遅いことがあったという。大量のデータがある場合、適切な教師データを取得するには数カ月かかることもある。その上、GumGumがアノテーションを委託した会社の作業者は英語でしか作業ができなかったが、同社のクライアントは世界中にいる。

 Figure Eightはコントリビューターのネットワークを活用して教師データを提供する。同社が処理対象にする言語は多岐にわたる。西村氏は、Figure Eightが当時、日本語を処理する数少ない企業の一社だったと述べる。GumGumには日本語部門があるため、処理対象言語はFigure Eightを選択した主な理由の一つだった。

 GumGumのプロダクトマネジャーであるレーン・シェクター氏は、同社がFigure Eightを選んだもう一つの理由はスケーラビリティだったという。

 シェクター氏によれば、Figure Eightを採用したことでGumGumのアノテーション効率は10倍以上増加した。これまで適切な機械学習用アノテーションを取得するために数カ月かかっていた作業の中には、約1週間でできるようになったものもある。

最大の課題は「直接対話」の難しさ

ITmedia マーケティング新着記事

news022.jpg

「サイト内検索」ツール(有償版) 国内売れ筋TOP10(2021年7月)
サイト内検索(サイトサーチ)ツールは検索窓から自社サイト内のコンテンツを正確に、効...

news139.jpg

SNSの利用時間は77.8分、Instagram利用率は50%超え――Glossom調査
スマートフォンでの情報収集に関する定点調査。スマートフォンの利用時間は順調に増加し...

news061.jpg

インフルエンサーがスポーツ観戦で最も利用しているSNSは「Instagram」――LIDDELL調べ
東京五輪の開催中に情報収集や投稿でSNSを活用すると回答した人は全体の96.9%に上りまし...