アナリティクス&ビッグデータに最適な新世代フラッシュストレージサーバ仮想化はターゲット外

フラッシュ市場の成熟とともに、アナリティクスやビッグデータ用途に最適なフラッシュストレージが登場してきた。従来製品との違いと各社の新世代製品の特徴を紹介する。

2017年01月23日 08時00分 公開
[Chris EvansComputer Weekly]
Computer Weekly

 フラッシュストレージ市場の当初の目標は、企業のアプリケーションのパフォーマンス問題に対処することだった。最初のフラッシュストレージはそのコストから、高いスループットと低レイテンシによって確実にメリットが得られるアプリケーションのみをターゲットにしていた。

Computer Weekly日本語版 1月11日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 1月11日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 だが、市場が成熟し、フラッシュが主流となった今、具体的な要件に対処する新しい種類の製品が登場してきた。その1つが、ビッグデータと分析ワークロードにフラッシュを使用する製品だ。

 主要市場が注目するのはパフォーマンスを機能で補完する手法だ。フラッシュ製品の新しい動きは2つの分野に分かれている。

 ハイエンド市場では、EMC(DSSD)やMangstor(NXシリーズ)などのサプライヤーが、余分な機能がなく、パフォーマンスが極めて高く、レイテンシが低い製品を提供している。一方、ローエンド市場では、最近のNAND容量の増加を利用する「安価で大容量」のフラッシュ製品が見受けられるようになっている。

 SanDiskやPure StorageなどのサプライヤーはTLCや3D NANDテクノロジーにより、フラッシュの耐久性をあまり重視せず、容量やパフォーマンスの要件に応える製品を提供できるようになった。

 このような新しいプラットフォームは、サーバ仮想化など従来のワークロードでも使用可能だが、このような使い方はターゲットにしていない。その低レイテンシと高いスループットは、ビッグデータや分析の用途に最適だ。

 ビッグデータのワークロードの特性を見ると、フラッシュに合う点が多数存在する。

低いレイテンシと高いIOPS

 分析タスクでは一般に入出力(I/O)が集中的に行われ、同じデータを何度も読み取ったり、読み取り直したりすることが多い。

 データセット全体が処理の対象になる場合、キャッシュによって得られるメリットはほとんどない。そのため、分析の応答を速くするには、できる限り高速に動作するストレージが必要になる。

 本稿後半のまとめで紹介する製品のレイテンシは(読み取りと書き込みのアクティビティーに応じて)100マイクロ秒以下が目標になっている。これは、サーバに直接導入されるPCIe SSDデバイスに匹敵する数値だ。

スケーラビリティ

 ビッグデータとはデータ量の問題に他ならない。とてつもない速さで生み出される情報をできる限り多くデータとして取り込んで分析することで、洞察や価値が得られる。フラッシュベースの分析システムには、P(ペタ)B単位の容量へのラックレベルのスケーラビリティが求められる。

並列処理

 Hadoopなどのプラットフォームは、クエリのワークロードを分割し、分割した多数のワークロードを並列実行するという考え方を中心に設計されている。Hadoop開発当時、I/Oスループットを得るには多数のHDDを使用し、多数の物理サーバに処理を分散する方法しかなかったことから、このような手法が考案された。

 フラッシュを利用すると、多くのサーバのワークロードを1つシステムに統合できる可能性が高い。パフォーマンスを確保するため、このようなシステムはI/Oを並列処理できる必要がある。NVMeなどのテクノロジーを導入することで、従来のストレージよりもはるかに多くの同時入出力タスクを実行できると考えられている。

ランダム性

 大半の分析処理は本質的にランダムに行われる。そのため、次にデータのどの部分が必要になるかを予測するのは困難だ。このような場合にフラッシュが適している。フラッシュは、ランダムなI/O要求に一貫して対処できる。

 前述のように、大量のデータセットを迅速に読み取る状況では、キャッシュはI/Oのステージング領域になるだけで実用的ではない。このような状況では、全てのデータに対する一貫したI/O応答が重要になる。

 多くの分析環境では、読み取りが集中して行われることも考慮する必要がある。ビッグデータシステムでは、データは(絶えず更新されるよりも)追加される方が一般的だ。従って、大多数のI/Oは処理データの読み取りになる。

 3D NANDやTLCなどの新しいテクノロジーを使用するスケールアウトフラッシュシステムは、高密度のフラッシュシステムになるが、SLCやMLCベースのデバイスに比べて耐久性は低い。だが、読み取り処理が主となる環境では耐久性の低さは重要ではない。

HPC向けフラッシュ

ITmedia マーケティング新着記事

news098.jpg

イーロン・マスク氏がユーザーに問いかけた「Vine復活」は良いアイデアか?
イーロン・マスク氏は自身のXアカウントで、ショート動画サービス「Vine」を復活させるべ...

news048.jpg

ドコモとサイバーエージェントの共同出資会社がCookie非依存のターゲティング広告配信手法を開発
Prism Partnerは、NTTドコモが提供するファーストパーティデータの活用により、ドコモオ...

news112.jpg

「インクルーシブマーケティング」実践のポイントは? ネオマーケティングが支援サービスを提供
ネオマーケティングは、インクルーシブマーケティングの実践に向けたサービスを開始した...