FacebookはHadoop分散ファイルシステムにRAIDを展開して、容量削減を実現した。だが、当初は期待通りに削減できず、データの破損に悩まされた。彼らはいかにして課題を解決したのだろうか。
米Facebookは2013年、大規模なHadoop分散ファイルシステム(HDFS)にRAIDを展開して、空き容量を数十Pバイト増やすと同時にデータの複製(レプリケーション)処理を減らした。しかしこのプロジェクトを進める間に、同社のエンジニアリングチームはデータの破損や大規模なディレクトリシステム全体にわたるRAIDの実装に苦戦するなど、数多くの課題に直面した。
同社が今回実装したテクノロジーの例として、HDFS内のErasure Codingが挙げられる。これによってHDFSでデータの複製が発生する要因を減らしている。
RAID(Redundant Array of Independent Disks)は、同一のデータを複数のHDDに保存する(すなわち冗長性を持たせる)手法である。HDFSは、Hadoopが使用するプライマリストレージシステムだ。HDFSはHadoopクラスタ全体にわたって、データへのアクセスについて高いパフォーマンスを実現する。また、ビッグデータの管理とビッグデータのアナリティクスをサポートしているという点で、HDFSは重要なツールとして大規模組織からの注目を集めている。
HDFSで複製できるファイルは、デフォルトでは3つまでとなっている。Facebookのエンジニアリングチームによると、この制約のためにメディア容量の大きなオーバーヘッドが発生することがあったという。そこで同社はHDFSのRAIDテクノロジーを活用し、データの複製の実行回数を減らすとともに、使用する領域のオーバーヘッドを減らすことにも成功した。
「2013年、当社のデータウェアハウスのHDFSクラスタに全面的にRAIDを展開した。クラスタでデータの複製が発生する要因を減らすことで、2013年末までに数十Pバイトのメディア容量を節減できた」と、Facebookのエンジニアリングチームは同社の公式ブログに投稿している。
ただし、数百Pバイトの大規模なHDFSクラスタにRAIDを展開する過程で、Facebookは幾つもの課題に直面した。「そこでわれわれが学んだ教訓を共有したいと思った」と、同社エンジニアリングチームはブログに記している。
FacebookがRAIDを本番環境に展開した当初、節減できたメディアの容量は予測よりもずっと少なかった。「調査の結果、RAIDに深刻な問題があることが分かった。われわれは『微小ファイル問題』の洗礼を受けた」とエンジニアはブログに記している。
エンジニアリングチームは、ファイルサイズが論理ブロック10個程度の場合に、容量の節減効果が最も大きくなることを発見した。それよりもファイルが小さくなると、容量削減の効果は落ちる。2ブロック以下のファイルでは、RAIDの容量削減効果は全くなくなる。
同チームの分析では、本番環境のクラスタに保存されているファイルのうち50%以上が、その小さすぎる(2ブロック以下の)ファイルだった。
この問題の解決策として、ITチームは複数ブロックをまとめてグループ化した。「微小ファイル問題への対策として、ある単純な観察結果から発想を得て、ディレクトリRAIDを開発した。その観察結果とは、(Hadoop MapReduceのツールである)Hiveを使用していると、リーフディレクトリ下のファイルは、作成後ほとんど変更されないということだ。だとすると、リーフディレクトリ全体を1つのファイルとして扱えばファイルのサイズが(見かけ上は)大きくなる。そのファイルをRAIDに展開すればいいと考えた」(エンジニアリングチームのブログ投稿記事より)
HDFSでRAIDを利用する際のもう1つの課題として、RAIDの再構築ロジックにバグがあるために、データが壊れるというものがあった。
続きを読むには、[続きを読む]ボタンを押して
会員登録あるいはログインしてください。
RAID vs. イレージャーコーディング──フラッシュに最適な保護技術とは?
大容量データ保護の福音イレージャーコーディングで「RAIDは不要になる」
HDD大容量化による「RAIDの限界」を解決するイレージャーコーディング
フラッシュストレージ時代のRAID――基礎から各社の独自技術まで
失敗から成功まで、HDFSでRAIDを利用するFacebookの挑戦
Copyright © ITmedia, Inc. All Rights Reserved.
長年にわたり強力かつ安全な基盤であり続けてきたメインフレームシステム。しかし今では、クラウド戦略におけるボトルネックとなりつつある。ボトルネックの解消に向け、メインフレームを段階的にモダナイズするアプローチを解説する。
コンピューティング市場で支配的な地位にあったはずのIntelは、なぜ衰退してしまったのか。歴史を振り返りながら、同社の失敗を分析する。Intelに生き残る道はあるのか。
SSDの大容量化や価格競争力の向上により、「SSDオンリー」という選択肢が現実味を帯びつつある。しかし、HDDが完全に不要になるとは断言できない。その理由は何か。
昨今は企業で扱うデータが増加傾向にある上、働き方の変化などにも対応する必要性から、オンプレミスのファイルサーバをクラウドに移行する企業が増えている。そこで、移行先を選ぶポイントやセキュリティ対策について、動画で解説する。
ECと通販システムを統合したパッケージの開発と導入を事業の柱とするエルテックスでは、事業の成長に伴いデータの容量を拡大する必要に迫られていた。そこでストレージを刷新してコスト削減や可用性の向上などさまざまな成果を得たという。
Hyper-Vは「次の仮想化基盤」になり得るのか 有識者の本音を聞く (2025/3/14)
「生成AI」の自社運用に“ちょうどよいサーバ”の賢い選び方 (2025/3/12)
大量データのクラウド化を阻む「検索課題」を解決した東急建設の秘策とは (2025/2/25)
AI時代のデータ活用を阻む「ストレージ」の壁 悩める運用担当者の救世主とは? (2025/1/21)
生成AI時代の「コスト、電力、スペース」問題 救世主となるストレージはこれだ (2025/1/20)
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年4月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「AIエージェント」はデジタルマーケティングをどう高度化するのか
電通デジタルはAIを活用したマーケティングソリューションブランド「∞AI」の大型アップ...