企業内データ分析の定番として広く使われはじめた「Hadoop」。しかし、導入や運用は簡単ではなく、導入につまずく企業も多い。どうすればトラブルなく導入・運用できるのか。ベストな方法を探る。
非構造化データを中心に爆発的に増大し続けている企業のデータ。今、多くの企業ではビッグデータを収集・分析し、今まで得られなかった知見の抽出や新たなビジネス価値の創出などに活用しようとする動きが加速している。その中で、収集される膨大なデータはビッグデータとなり、それらビッグデータを高速に分散処理するためのソフトウェア基盤として、「Hadoop」の導入が本格的に進みつつある。
例えば、物流サービス企業では、Hadoopを基盤として、日々蓄積される配送履歴データから配送先の国ごとに荷物が集中する時間帯を予測分析し、リソース配置の効率化を実現したという。また、エネルギー関連企業では、再生可能エネルギー発電の開発に当たり、Hadoopを導入して全世界の天候データを分析し、あらゆる地点の再生可能エネルギーの将来性について評価と予測を行っている。この他、教育機関にもHadoopの導入が広がっており、米国の大学では、統計学科の研究者向けに大規模なHadoop環境を構築したケースも出てきている。
一方で、ビッグデータの活用を検討していながら、Hadoopの導入にまで踏み切れていない企業が多いのも実情である。
その背景には、Hadoop導入を阻む、幾つかの技術的な課題が浮かび上がってくる。まず挙げられるのが、ワークフローや用途が異なる多種多様なデータがさまざまなプロトコルでHadoop環境に集約するのが容易ではないこと。また、Hadoop環境へデータの受け渡しがImport/Exportを繰り返し必要とする際にトラフィック量の増大が発生する点や、データ保護の観点から3面ミラーのデータ保護による非効率なストレージ利用、さらにはネームノードが単一障害点になることも、現在のHadoop環境が抱える大きな課題といえよう。
本稿では、これらの課題に対する解決策を探るとともに、ビッグデータ活用を支えるHadoopの導入促進に向けたベストソリューションを提案する。
提供:EMCジャパン株式会社
アイティメディア営業企画/制作:TechTargetジャパン編集部