2日かかっていた処理が3〜4時間に、大量データの分析を高速化させる秘訣「ビッグデータ」活用の下準備

大量データ処理の手段として浸透しつつある「Hadoop」だが、うまく活用するには幾つもの課題がある。Hadoop活用時の課題を確認しつつ、その克服方法を紹介する。

2016年03月02日 10時00分 公開
[ITmedia]

 あらゆる企業において、ITシステムはビジネスに欠かせないものになっている。販売や生産、会計などの基幹業務から、営業支援や顧客情報の管理、マーケティングといった分野まで、さまざまな企業活動を効率良く進めるために、ITによるサポートは今や必須だといえるだろう。

 ITシステムでビジネスを効率化する取り組みの中で、技術的な側面から常に課題となってきたのは、システムに蓄積された大規模データを、いかに「高速」に処理するかという問題だ。

 そこで注目すべき技術に、大規模データの分散処理用ミドルウェア「Apache Hadoop」(Hadoop)がある。Hadoopの稼働に当たって、専用のハードウェアや特別なスペックは要求されない。企業は、コモディティ化した一般的なハードウェアやクラウドをデータ処理に必要なコンピュータリソースとして利用できる。

 Hadoop自体はオープンソースソフトウェア(OSS)であり、利用に当たってライセンスコストが不要な点も大きい。Hadoopの登場によって、データ処理基盤を用意するのに数年後に必要となるであろうリソース量を苦心して見積もったり、膨大なイニシャルコストやランニングコストを予算化したりする必要のない時代が到来したのである。

 一方で、企業がHadoopをうまく活用するには課題もある。Hadoopは分散データ処理に特化したミドルウェアである。その特性を理解して、適した用途と構成で利用しなければ、能力を十分に発揮できない。Hadoopに関する専門的な知識を持った人材が社内にいるという企業は多くないだろう。また、HadoopはOSSとして開発が進められているので、市販製品と比べて頻繁にバージョンアップやパッチリリースがある。ユーザー企業が独自にそのサイクルを追いかけ、適切に対応するには、かなりの労力が必要になる。

 こうした課題を克服しつつ、企業がHadoopをビジネスに生かすためにはどのような方法があるだろうか。実際にHadoop活用によるデータ処理の高速化に成功した幾つかの事例を交えて考える。


提供:株式会社ノーチラス・テクノロジーズ
アイティメディア営業企画/制作:TechTargetジャパン編集部