2011年12月12日 09時00分 公開
特集/連載

Hadoopなどのビッグデータ技術が本当に普及するための条件未熟な部分も残るHadoop

ビッグデータ活用で注目されているHadoopだが、より多くの企業で採用が進むには幾つか条件があるとアナリストたちは分析する。「従来型DWHよりもHadoopの方が優れている」といった宣伝文句には注意が必要だ。

[Alan R. Earls,TechTarget]

 米コンサルティング会社Winterのリチャード・ウィンター社長によると、「ビッグデータ」およびビッグデータ技術に関連して2つの主要な開発トレンドが進行中だという。その1つは、既存のデータウェアハウス(DWH)ベンダー各社がトランザクションデータ量の増大に対応するためにスケーラビリティの改善に取り組んでいるというもの。2番目のトレンドは、別の形態のビッグデータ(Webアクティビティログやセンサーデータなど)を処理するために、DWHに代わる手段としてHadoop(関連記事:Hadoopがビッグデータの分析基盤として注目されるわけ)、MapReduce、NoSQLデータベース(関連記事:NoSQLデータベースがビッグデータ対象のDWH基盤に適しているわけ)などのオープンソース技術の利用が拡大していることだ。

 「膨大な量のデータを管理、分析しなければならない場合、DWHは非常に高価なソリューションに思えるかもしれない」とウィンター氏は話す。しかしトランザクションデータに関する限り、この認識は必ずしも当てはまらないという。「データが高度に構造化され、厳格に管理され、企業内で継続的かつ広範に利用されるような用途では、DWH技術は全般的に高い投資対効果を示してきた」と同氏は指摘する。

 しかしビッグデータ管理に対するHadoop的アプローチは、特定のユースケースで経済性に優れている場合もある、とウィンター氏は言う。例えば、膨大なデータが発生する科学研究プロジェクトなどだ。スイスのジュネーブ近郊にある高エネルギー物理実験用装置Large Hadron Colliderの場合、1年間で約15P(ペタ)バイトの生センサーデータを生成する。「こういった大量のデータを処理するのは大変だが、Hadoopはこのような処理に適している」(ウィンター氏)

 Hadoopは、大量のデータをクラスタ型システムで分散処理することを可能にするフレームワークだ。そのコンポーネントであるMapReduceは、Hadoopベースのアプリケーションを開発するためのプログラミングモデルだ。米Forrester Researchのアナリスト、ジェームズ・コビーラス氏もウィンター氏と同意見で、「Hadoop技術はビッグデータの管理で重要な役割を果たす」と語る。また同氏は、2011年6月のブログ記事で「Forresterの顧客からのHadoop関連の問い合わせは、“Hadoopとは何なのか”という段階はとっくに過ぎて、今では“しっかりしたHadoopソリューションを提供しているのはどのベンダーか”という問い合わせが大半だ」と述べている。

未熟な部分も残る

 コビーラス氏は、Hadoopは既に現実となっているものの、未熟な部分も残されていると考えている。同氏はブログ記事の中で「Hadoopは既に多くの企業で採用され、極めて大規模な分析アプリケーションで成果を挙げている」と記している。その一方で、「Hadoopが広範な企業に普及するための条件として、もっと多くのDWHベンダーが同技術を採用するとともに、早期採用企業が技術スタックのコア部分を中心とした共通化を図ることが必要だ」と同氏は付け加える。

 コビーラス氏によると、2011年に公表されたDWHプラットフォームに関する「Forrester Wave」リポートの中で取り上げられたベンダーのうち、自社のコア製品にHadoopを組み込んでいるベンダーはわずか2社だった。その他のベンダーは「Hadoopと部分的なインタフェースを実現するにとどまり、ある程度の距離を置いている」と同氏は指摘する。「しかし2012年には大手ベンダー各社がHadoopの本格採用に向かうだろう」と同氏は予測する。この動きは買収を通じて進む可能性があるという。

 ユーザーサイドでは、コビーラス氏が取材したHadoop導入企業の間で共通する唯一の要素がMapReduceであるようだ。「全ての導入形態に共通の要素を組み込むという合意が形成されるまでは、Hadoopは成熟した技術とはいえない」と同氏は記している。さらに同氏によると、Hadoopと関連プロジェクトを管理するオープンソースコミュニティーのApacheは、同技術を正式な標準化プロセスに送り、クロスプラットフォームでの相互運用性を実現すべきだという。

 アナリストらによると、現状では、Hadoopの導入はアプリケーションデベロッパーによって行われ、企業のIT部門やDWH担当者が関与しないケースが多いようだ。「しかし長期的には、Hadoopはメインストリームのデータウェアハウジングプロセスに次第に統合される可能性が高い」と指摘するのは、カナダのコンサルティング会社WiseAnalyticsの創業者のリンジー・ワイズ社長だ。

ビッグデータ技術は本格的に普及するか?

 「数年前は、マスターデータ管理とデータガバナンスというコンセプトは基本的にDWH以外の分野で話題になっていたが、最近では企業はDWHという枠組みの中でこれらの課題を捉えるようになってきた」とワイズ氏は話す。これに伴い、DWH担当チームは、HadoopやMapReduceの管理を任されるようになると同氏は予測する。管理対象のデータの増大と複雑化が進む中、DWH戦略の一環としてデータを効果的に管理することが、情報から高いビジネス価値を引き出すことにつながると企業が認識し始めたからだ。

 しかし米TechTargetのビジネスアプリケーション&アーキテクチャメディアグループのリサーチディレクター、ウェイン・エッカーソン氏によると、ビッグデータ技術への投資を検討している企業は、従来型のDWHよりもHadoopなどの最新技術の方が優れているといった宣伝文句に注意する必要があるという。

 Hadoopはオープンソース技術だが、無償というわけではない、とエッカーソン氏は指摘する。ハードウェアやその他の技術に掛かるコストに加え、社内リソースの問題もあるという。「どのような技術であれ、人を雇う必要がある。そういった人材はなかなか手に入らないこともある」と同氏は語る。

 「Hadoopはガベージイン・ガベージアウト(訳注:不完全なデータの入力からは不完全な出力しか得られない)という古典的なシナリオの再現になる可能性もある」とエッカーソン氏は警告する。「Hadoop運用担当者は、自分たちが処理している情報がゴミでないかどうかを確かめる必要がある。もしゴミが混じっていたら、それを取り除くか、不正なデータが入っているという事実に基づいて対応する必要がある」と同氏は語る。「Hadoopが役に立つかどうかという問題ではなく、個々の企業でHadoopを実際にどのように利用するのかという問題だ」(同氏)

ITmedia マーケティング新着記事

news023.jpg

「6G」の特許出願レースは中国がリード、日本は追い付けるか?
2020年台後半には実用化が始まるといわれる6Gの技術。日本は世界で存在感を示せるでしょ...

news016.jpg

「パーソナライゼーションエンジン」 売れ筋TOP10(2021年9月)
今週はパーソナライゼーション製品の売れ筋TOP10を紹介します。

news018.jpg

アフリカFinTech事情 初のキャッシュレス大陸への勢いが止まらない
FinTechのユニコーンが続々と生まれるアフリカ大陸。砂漠の南が燃えています。