PayPalが明かす、非構造化データ活用に必要な3つの要素PayPalに聞く、ビッグデータ分析の今後【第4回】

米PayPalが抱えるデータの99.9%は、テキストや画像などの非構造化データだという。同社の主席データサイエンティストが、非構造化データ活用の際に重要になる要素を示す。

2012年11月26日 08時00分 公開
[Linda Tucci,TechTarget]

 第3回「PayPalも活用、消費を伸ばす『トランザクションデータ』」では、米電子決済サービスプロバイダーPayPalの主席データサイエンティストを務めるモック・オー氏に、ビッグデータツールを用いて人間の潜在意識に迫る取り組みについて語ってもらった。

 最終回である第4回は、小規模な企業におけるビッグデータ活用の必要性、オー氏が「Analyst 3.0」と呼ぶビッグデータ分析の将来像などについて語ってもらう。

―― ビッグデータの特徴は、その「量」「速度」「多様性」にあるということがよくいわれます(参考:ビッグデータを生かすコツは「管理」でなく「分析」にあり)。PayPalとは違って、何百万人もの顧客を持たない企業にとって、あるいはもっと専門化された企業にとっても、こうしたビッグデータ分析をする価値はあるのでしょうか?

オー氏 あると思います。規模が小さくても、小さいなりに役立ちます。例えば、創業間もない企業の多くは、自分たちの製品が役立つことを証明するための十分なデータを持っていないはずです。データは資産であるということ、つまり、データは自分たちで所有してフルに活用すべきであることに気付く人たちが、最近徐々に増えてきています。

 今後、データの入手はますます難しくなっていくでしょう。私はそう予想しています。なぜなら、人々は徐々に強欲になっていくはずだからです。今後はこうしたニーズを捉えて、ビジネスモデルを確立しようとする人たちが増えていくでしょう。「新興企業やデータを必要としている企業のためにデータを提供します。ただし、代金を支払ってもらいます。あるいは、そちらのデータと交換でも構いません」ということです。データ提供業者は多数存在しています。ですから、どんな規模の企業であれ、こうしたデータは確実に活用できます。

 ただし、この場合も常識を優先すべきです。タコスの販売を商売にしているのなら、最強のシグナルは「誰がタコスを買ったか」ということになります。さまざまなデータが大量に存在しているとしても、どのデータに注目するかは、極めて明確です。これまでにタコスを買った人たちは、恐らくこれからもタコスを買い続けるでしょう。必要なのは、自分の店でもタコスを購入してくれそうな人たちを見つけることです。

 この先、データはますます資産として活用されるようになるだろうと、私は考えています。企業は、データへの投資を増やすことになるでしょう。そして、閉じた環境にユーザーを囲い込む「Walled Garden(壁に囲まれた庭)」型の企業が増えていくはずです。米Appleや米Facebookが、その好例です。こうした企業がユーザーを囲い込もうとするのは、PII(個人を特定できる情報)を扱っているからだけではありません。自分たちの持つデータには大いに価値があるということをよく理解しているからです。

 データの入手方法にはいろいろあります。自分で入手したり、購入したり、あるいは他の会社と取引することも可能です。

―― 科学に関連した社内の諸問題を全て担当しているとのことですが、今現在、どのような問題を抱えていらっしゃいますか?

オー氏 全体的に見て、多くの人たちは、ビッグデータを構造化データと非構造化データの問題と捉えているようです。私もしばらく前から、このことについて考えています。今後は、構造化されていないデータを理解することが最大の資産の1つになるでしょう。なぜなら、われわれが持っている情報のうち99.9%は構造化されていないからです。コンピュータはこうした情報をデータベースのテーブルに格納したり、分類することはできません。メールやツイート、レビュー、ブログなどが、こうしたデータに含まれます。

 Facebookの「いいね!」のようなデータは構造化されています。「いいね!」か、そうでないかのどちらかなのです。それに対し、「私はタコス屋台が好き。ここにもあればいいのに」と誰かが発言したのだとすれば、それは非常に価値のある情報です。誰かがそうつぶやいたのなら、私はそのつぶやきについて理解したいと思います。つまり、誰の発言かを知り、その発言を利益につなげられるのはどのマーチャント(売り手)なのかをはっきりさせて、双方を確実に結び付けたいのです。繰り返しになりますが、今あるデータの99.9%は、コンピュータでは簡単には理解できません。

 問題は、「どうすればコンピュータに非構造化データを理解させられるか」ということになります。

ITmedia マーケティング新着記事

news099.png

有料動画サービス 34歳以下では過半数が利用経験、4割は1日1回以上利用
「ニールセン・ビデオコンテンツ アンド アド レポート 2024」を基に、テレビ画面での動...

news171.png

2024年のGW予算は横ばい 賃上げよりも物価高と円安の影響が勝る?――インテージ調査
インテージが全国の15歳から79歳の男女を対象に実施したゴールデンウイークに関する調査...

news148.jpg

CNN幹部が語る、メディアビジネスにとってのAIのリスクと機会
生成AIがコンテンツを量産し、真偽の明らかでない情報があふれかえる中、メディアの価値...