SSDの信頼性検証の歴史を振り返るフラッシュドライブの信頼性向上【前編】

物理的破損が生じない分だけHDDよりも信頼性が高いとされるSSD。しかしSSDにもデータが破損する問題が存在した。まずはSSDの課題が検証されてきた歴史を再確認しよう。

2020年09月04日 08時00分 公開
[Cliff SaranComputer Weekly]

 SSDはPCやサーバベースコンピューティングの速度を向上させる。デジタル変革に乗り出して、AI(人工知能)などの技術を使ってデータから優れた洞察を得ようとするなら、ストレージ容量を増やすだけでなくアクセス速度も上げる必要がある。

 Total Gas & Powerはフラッシュストレージを導入して、クラウドサービスとの統合を必要とするオンプレミスアプリケーションの速度を向上させる可能性を探っている。同社はNutanixのハイパーコンバージドインフラを導入すると同時に、NetAppのファイラーをフラッシュベースのストレージアレイに置き換えた。

 「当社は大掛かりな統合に取り組んでいる」と話すのは、Total Gas & Powerでテクノロジーアーキテクトを務めるドミニク・メイドメント氏だ。同社はAPIの管理にMuleSoft製品を使用し、フラッシュがハイブリッド統合をどの程度サポートするかを探っている。「オンプレミスのデータ資産は、アクセスを可能な限り高速かつ軽量にしなければならない」とメイドメント氏は語る。

ストレージの革命

 HDDは、1分間に数千回転する円盤と各円盤のほんの数マイクロメートル上に浮かぶヘッドから成る。浮揚するヘッドが円盤にぶつかるとデータが欠損する恐れがある。SSDはNANDフラッシュメモリを使っており、回転する円盤が不要なのでHDDよりも信頼性が高いといわれる。本当にそうだろうか。

 SSDは極めて信頼性が高い。だが、それでもデータ損失を引き起こす傾向があり、データ破損を防ぐための対策を必要とする。

 SSDはデータをブロック単位でメモリに格納する。つまり、データは1ページ当たり4KBずつSSDに書き込まれる。消去は256KBのブロック単位だ。ここまでは問題ない。だが、2008年にジェット推進研究所(JPL:Jet Propulsion Laboratory)が行った調査によると、SSDの同じメモリブロックに書き込みと消去を連続的に繰り返すとエラーの発生率が高まるという。

 データストレージ企業Qumuloで製品管理部門のバイスプレジデントを務めるベン・ギテンスタイン氏は、SSDのセクターに一定数の上書きを繰り返すと使えなくなると話す。つまり、SSDは限られた回数の書き込みを行うと「摩耗」する。

 2008年のJPLの調査によると、多くのシステムがウェアレベリングを実装していたという。ウェアレベリングによってデータをあるブロックから別のブロックに頻繁に移し、各ブロックの書き込みと消去のサイクルを他のブロックと均等にする。

 データブロックの動的管理以外に、SSDを必要以上にプロビジョニングするという対策も取る傾向がある。必要以上にプロビジョニングしておけば、不良セクターがあっても動的再割り当てが可能になる。大規模データセンターでは、エラーや不良チップを減らすために定期メンテナンスを行って、SSDを定期的に交換する必要がある。

 2016年、データセンターでのSSDの使用を調べていた研究者は、SSDが稼働する日数の大半で修復不可能なエラーが最低1回は起きると警告した。ただしその研究者によると、ユーザーの目に触れないようにドライブを隠せる透過的エラーは、ユーザーの目に触れる非透過的エラーに比べればめったに起きないという。

 データセンターにおけるフラッシュストレージの信頼性に関するこの研究結果は、米カリフォルニア州サンタクララで開催された「14th USENIX Conference on File and Storage Technologies」(Fast'16)で、トロント大学のビアンカ・シュレーダー准教授とGoogleでエンジニアを務めるラガフ・ラギセッティ氏およびアリフ・マーチャント氏によって発表された。

 この研究は、Googleのデータセンターで6年間かけて評価された。その結果、SSDはHDDよりも交換率が大幅に低かったという。ただし、修復不可能なエラーの発生率はSSDの方が高かった。

 この研究では、さまざまな世代のフラッシュ技術を使った幅広いSSDで同じデータの読み取りと書き込みを調べている。テスト対象の全システムで同じエラー訂正コードが使われた。その結果、最も発生したエラーは操作を再試行しても解決できない読み取りエラーだった。このエラーが非透過的エラーと呼ばれる。

 この研究論文では、書き込みエラーが非透過的エラーになることはほとんどないとして次のように記されている。「このモデルで最終的に書き込みエラーとなったのは、全ドライブの1.5〜2.5%。1万台のドライブのうち1〜4台だった。最終的な書き込みエラーとは、再試行しても書き込み操作が成功しなかったことを指す」

 最終的な読み取りエラーと最終的な書き込みエラーに頻度の違いがあるのは、書き込み操作に失敗してもドライブ上の他の場所への書き込みを再試行している可能性が高いとして研究者は次のようにまとめている。「読み取りエラーは読み取りを行ったセルの一部のみの信頼性が低かったことに原因がある。最終的な書き込みエラーが起きるのは、ハードウェアに大規模の問題が起きていることを示している」

 研究では、最大80%のドライブで不良データブロックが生じ、テスト対象のドライブの2〜7%でライフサイクルの最初の4年間に不良NANDフラッシュメモリチップが生じていたことが分かった。不良チップを除外するメカニズムがなければ、こうしたドライブは修理するかメーカーに返却する必要があるという。

後編(Computer Weekly日本語版 9月16日号掲載予定)では、セルの摩耗だけでなくPCIeバス経由でのデータ転送で生じる問題とSSDの展望を紹介する。

ITmedia マーケティング新着記事

news115.jpg

「TikTok禁止法案」に米大統領が署名 気になるこれからにまつわる5つの疑問
米連邦上院が、安全保障上の理由からTikTokの米国事業の売却を要求する法案を可決し、バ...

news077.jpg

「気候危機」に対する理解 日本は米国の3分の1
SDGsプロジェクトはTBWA HAKUHODOのマーケティング戦略組織である65dB TOKYOと共同で、「...

news058.jpg

アドビ、Adobe Firefly機能搭載の「Adobe Express」モバイル版アプリを一般提供
アドビは、生成AI「Adobe Firefly」の機能を利用できる「Adobe Express」モバイル版アプ...