アナリティクス&ビッグデータに最適な新世代フラッシュストレージサーバ仮想化はターゲット外

フラッシュ市場の成熟とともに、アナリティクスやビッグデータ用途に最適なフラッシュストレージが登場してきた。従来製品との違いと各社の新世代製品の特徴を紹介する。

2017年01月23日 08時00分 公開
[Chris EvansComputer Weekly]
Computer Weekly

 フラッシュストレージ市場の当初の目標は、企業のアプリケーションのパフォーマンス問題に対処することだった。最初のフラッシュストレージはそのコストから、高いスループットと低レイテンシによって確実にメリットが得られるアプリケーションのみをターゲットにしていた。

Computer Weekly日本語版 1月11日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 1月11日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 だが、市場が成熟し、フラッシュが主流となった今、具体的な要件に対処する新しい種類の製品が登場してきた。その1つが、ビッグデータと分析ワークロードにフラッシュを使用する製品だ。

 主要市場が注目するのはパフォーマンスを機能で補完する手法だ。フラッシュ製品の新しい動きは2つの分野に分かれている。

 ハイエンド市場では、EMC(DSSD)やMangstor(NXシリーズ)などのサプライヤーが、余分な機能がなく、パフォーマンスが極めて高く、レイテンシが低い製品を提供している。一方、ローエンド市場では、最近のNAND容量の増加を利用する「安価で大容量」のフラッシュ製品が見受けられるようになっている。

 SanDiskやPure StorageなどのサプライヤーはTLCや3D NANDテクノロジーにより、フラッシュの耐久性をあまり重視せず、容量やパフォーマンスの要件に応える製品を提供できるようになった。

 このような新しいプラットフォームは、サーバ仮想化など従来のワークロードでも使用可能だが、このような使い方はターゲットにしていない。その低レイテンシと高いスループットは、ビッグデータや分析の用途に最適だ。

 ビッグデータのワークロードの特性を見ると、フラッシュに合う点が多数存在する。

低いレイテンシと高いIOPS

 分析タスクでは一般に入出力(I/O)が集中的に行われ、同じデータを何度も読み取ったり、読み取り直したりすることが多い。

 データセット全体が処理の対象になる場合、キャッシュによって得られるメリットはほとんどない。そのため、分析の応答を速くするには、できる限り高速に動作するストレージが必要になる。

 本稿後半のまとめで紹介する製品のレイテンシは(読み取りと書き込みのアクティビティーに応じて)100マイクロ秒以下が目標になっている。これは、サーバに直接導入されるPCIe SSDデバイスに匹敵する数値だ。

スケーラビリティ

 ビッグデータとはデータ量の問題に他ならない。とてつもない速さで生み出される情報をできる限り多くデータとして取り込んで分析することで、洞察や価値が得られる。フラッシュベースの分析システムには、P(ペタ)B単位の容量へのラックレベルのスケーラビリティが求められる。

並列処理

 Hadoopなどのプラットフォームは、クエリのワークロードを分割し、分割した多数のワークロードを並列実行するという考え方を中心に設計されている。Hadoop開発当時、I/Oスループットを得るには多数のHDDを使用し、多数の物理サーバに処理を分散する方法しかなかったことから、このような手法が考案された。

 フラッシュを利用すると、多くのサーバのワークロードを1つシステムに統合できる可能性が高い。パフォーマンスを確保するため、このようなシステムはI/Oを並列処理できる必要がある。NVMeなどのテクノロジーを導入することで、従来のストレージよりもはるかに多くの同時入出力タスクを実行できると考えられている。

ランダム性

 大半の分析処理は本質的にランダムに行われる。そのため、次にデータのどの部分が必要になるかを予測するのは困難だ。このような場合にフラッシュが適している。フラッシュは、ランダムなI/O要求に一貫して対処できる。

 前述のように、大量のデータセットを迅速に読み取る状況では、キャッシュはI/Oのステージング領域になるだけで実用的ではない。このような状況では、全てのデータに対する一貫したI/O応答が重要になる。

 多くの分析環境では、読み取りが集中して行われることも考慮する必要がある。ビッグデータシステムでは、データは(絶えず更新されるよりも)追加される方が一般的だ。従って、大多数のI/Oは処理データの読み取りになる。

 3D NANDやTLCなどの新しいテクノロジーを使用するスケールアウトフラッシュシステムは、高密度のフラッシュシステムになるが、SLCやMLCベースのデバイスに比べて耐久性は低い。だが、読み取り処理が主となる環境では耐久性の低さは重要ではない。

HPC向けフラッシュ

Copyright © ITmedia, Inc. All Rights Reserved.

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

事例 株式会社AIT

スケーラブルで高速・確実なデータアクセスを実現、某研究所のHPSS導入事例

データ生成デバイスの進化・多様化により、保存すべきデータ容量は急増した。その管理においては、コストとパフォーマンスのバランスが課題となっている。解決策の1つとして注目される「HPSS」の効果について、導入事例を紹介したい。

事例 株式会社AIT

データ量の急増でインフラ強化が急務に、JA大阪電算の事例に学ぶシステム移行術

業務のデジタル化が進み、データ量やワークロードが増大していた大阪府農協電算センター。それによりインフラの負荷が高まり、性能を向上させることが喫緊の課題になっていた。本資料では同社がどのようにインフラを移行したのか解説する。

製品資料 日本ヒューレット・パッカード合同会社

ハイブリッド環境の構造化データ管理、レガシーストレージからどう脱却する?

AIでは構造化データの活用が進む一方、クラウド普及に伴いデータの分散化が加速している。この状況下で課題となるのが、レガシーストレージの存在だ。本資料では、構造化データに適したストレージ戦略を紹介する。

製品資料 株式会社ネットワールド

どのタイプのストレージがニーズに合致するのか、NetApp製品ガイドで探る最適解

データ環境の急変は、企業のストレージ課題を複雑化させている。性能や拡張性、データ保護、分散環境の一元管理、コスト最適化など、自社の課題に合わせた製品・サービスをどう見つければよいのか。それに役立つ製品ガイドを紹介したい。

製品資料 日本ヒューレット・パッカード合同会社

AI活用で非構造化データも適切に処理、ハイブリッド環境に最適なストレージとは

構造化データ/非構造化データの両方を適切に処理する必要がある今、エンタープライズデータストレージには、より高度な要件が求められている。こうした中で注目される、単一障害点のないAI主導の分散型ストレージプラットフォームとは?

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...