既存DWHと共存する、Hadoopディストリビューション選びの大事な基準とはビッグデータ時代の分析基盤は日々進化する

企業内データ分析の基盤として「Hadoop」が脚光を浴びている。しかしオープンソース技術であることから進化が速く、情報のキャッチアップは容易ではない。どのような観点でディストリビューターを選ぶべきか。

2016年03月08日 10時00分 公開
[ITmedia]

 大量のデータを分析した結果を経営判断に役立てることが、ビジネスでの成功につながるケースが増えてきている。ならば自社でも、と興味は持つものの、実際にデータを集めるとなると、今度はデータウェアハウス(DWH)の問題が立ちはだかる。大量のデータを蓄積するストレージシステムを構築するには相応のコストが掛かる。さらに、システムごとに異なるデータ形式を統一する処理には、膨大なサーバリソースが必要になる。

 こうした課題を解決する手段として、オープンソースソフトウェア(OSS)の分散処理基盤「Apache Hadoop」(以下、Hadoop)に注目する企業は少なくない。Hadoop自体が基本的に無償で利用でき、安価なサーバを用いてビッグデータの分散処理を高速で実行できるシステムが構築できるからだ。しかしHadoopは、OSSであるためにアップデートが速く、自社で環境を構築して運用するのも、最新情報を追いかけるのも容易ではない。検証済みのHadoopパッケージである「Hadoopディストリビューション」を使えば、こうした悩みを軽減できる。とはいえ、Hadoopディストリビューションやその提供元のHadoopディストリビューターは何社かあり、選定に迷うのも事実だ。では、どのような観点でHadoopディストリビューションやHadoopディストリビューターを選べばよいのだろうか。


提供:ホートンワークス株式会社
アイティメディア営業企画/制作:TechTargetジャパン編集部