SSDのエラー発生率増大と解決、予防保全の実現：フラッシュドライブの信頼性向上【後編】

SSDの故障率が増大する条件の特定とその回避策の実装までの流れを解説する。業界がどのようにSSDを改善してきたのかがよく分かる。

≫ 2020年09月25日 08時00分公開

[Cliff Saran，Computer Weekly]

　前編（Computer Weekly日本語版　9月2日号掲載）では、SSDの課題が検証されてきた歴史を再確認した。

　後編では、セルの摩耗だけでなくPCIeバス経由でのデータ転送で生じる問題とSSDの展望を紹介する。

　研究者によると、チップに障害が発生することにつながる兆候を見ると、どのモデルでも不良チップの3分の2は不良ブロック数がしきい値（5％）に達した後不良になったという。興味深いことに、この研究当時、ブロックの5％以上で障害が起きた不良チップはメーカーの仕様に違反したチップだったと研究者は記している。

　この研究では、ドライブの20～63％で最初の4年間に最低1回修復不可能なエラーが発生している。そうした修復不可能なエラーがそのドライブで最も一般的な非透過的エラーにつながると結論付けている。

　Googleのデータセンターでこの研究が行われる1年前、カーネギーメロン大学とFacebookの研究者がSSDの信頼性を調査している。この研究では、PCI Express（PCIe）バス経由で転送されるデータが多くなるほどバスの使用電力が多くなり、SSDの温度が上昇することが報告された。温度が高くなるほど故障率も高くなり、この傾向はデータ転送速度を下げるスロットル技法を採用していないSSDに最も顕著に現れることが分かった。

　Seagate Technology、カーネギーメロン大学、チューリッヒ工科大学が2018年に公開した論文「Errors in Flash-Memory-Based Solid-State Drives: Analysis, Mitigation, and Recovery」（フラッシュメモリベースのSSDのエラー：分析、緩和、修復）では、ストレージ密度が高いほどエラーの発生率が高くなり障害が多くなると強調されている。

　この論文の研究者は次のように警告している。

　「ストレージ密度を高めるために、SSDの基盤となるNANDフラッシュメモリをスケーリングするにつれ、セルのビット自体でエラーの発生率が高まり、それによってSSDの寿命が短くなる」

　従来のHDDアレイよりもSSDの信頼性が高いのは間違いない。「これまでは、HDDアレイのHDDを交換しようと思ったら1日5000ポンド（約69万円）の費用をかけてエンジニアを雇い、新しいHDDを使ってアレイのマッピングをやり直す必要があった」と話すのはNutanixでシニアシステムエンジニアリングディレクターを務めるロブ・トライブ氏だ。

　同氏によると、SSDのファームウェアが絶えず書き込みサイクルを監視し、障害が見つかったら多くのエラーが生じているメモリブロックを使用対象から外すという。ITの自動化が進むにつれ、SSDのファームウェアが提供するメトリクスをOSが十分に利用しなくなっていることをトライブ氏は認めている。

　信頼性は、入出力操作（ドライブへの読み取りと書き込み）の失敗によって測定される。今後はSSDのファームウェアが利用され、システムがSSDの摩耗を綿密に追跡監視し、将来的には予防保全できるようになるだろう。

TechTargetジャパントップサーバ＆ストレージ