特集/連載
Hadoopトラブルの“真犯人”、「HDFS」を使わずに済む代替手段とは:Hadoopとストレージシステムの良い関係【前編】
「Apache Hadoop」の要ともいえる分散ファイルシステム「HDFS」。その課題を回避するために、共有ストレージシステムを使用するユーザー企業が増えている。その理由を紹介する。
大量データを複数のマシンに分散して処理できるオープンソースのプラットフォーム「Apache Hadoop」のユーザー企業は通常、複数の汎用(はんよう)サーバで並列処理するクラスタを独自に構築する。各サーバの内蔵ストレージを使用し、6〜12台のディスクを「JBOD構成」(複数のディスクを論理的にまとめて1つのディスクに見せる構成)にするのが一般的だ。
Hadoopクラスタは、1つのデータを分割して複数のサーバに分散する「シェアードナッシング」アーキテクチャとして知られている。それは各サーバが独立して処理をすることによって、クラスタ内の全処理が並列に動くことに起因する。データのやりとりは、共通のネットワークを経由する。だがそれを除けば、コンピューティングやメモリ、ストレージといったリソースをクラスタ内で共有することはない。
併せて読みたいお勧め記事
Hadoopのメリット/デメリット
Hadoopディストリビューション比較
- HDFSの落とし穴を回避する商用「Hadoop」ディストリビューション3選
- 徹底比較:Hadoopの主要ディストリビューションを4つの要素で見る
- 企業向け機能とサポートが充実の「商用Hadoopディストリビューション」6選
Copyright © ITmedia, Inc. All Rights Reserved.