SSDのエラー発生率増大と解決、予防保全の実現フラッシュドライブの信頼性向上【後編】

SSDの故障率が増大する条件の特定とその回避策の実装までの流れを解説する。業界がどのようにSSDを改善してきたのかがよく分かる。

2020年09月25日 08時00分 公開
[Cliff SaranComputer Weekly]

 前編(Computer Weekly日本語版 9月2日号掲載)では、SSDの課題が検証されてきた歴史を再確認した。

 後編では、セルの摩耗だけでなくPCIeバス経由でのデータ転送で生じる問題とSSDの展望を紹介する。

 研究者によると、チップに障害が発生することにつながる兆候を見ると、どのモデルでも不良チップの3分の2は不良ブロック数がしきい値(5%)に達した後不良になったという。興味深いことに、この研究当時、ブロックの5%以上で障害が起きた不良チップはメーカーの仕様に違反したチップだったと研究者は記している。

 この研究では、ドライブの20〜63%で最初の4年間に最低1回修復不可能なエラーが発生している。そうした修復不可能なエラーがそのドライブで最も一般的な非透過的エラーにつながると結論付けている。

 Googleのデータセンターでこの研究が行われる1年前、カーネギーメロン大学とFacebookの研究者がSSDの信頼性を調査している。この研究では、PCI Express(PCIe)バス経由で転送されるデータが多くなるほどバスの使用電力が多くなり、SSDの温度が上昇することが報告された。温度が高くなるほど故障率も高くなり、この傾向はデータ転送速度を下げるスロットル技法を採用していないSSDに最も顕著に現れることが分かった。

 Seagate Technology、カーネギーメロン大学、チューリッヒ工科大学が2018年に公開した論文「Errors in Flash-Memory-Based Solid-State Drives: Analysis, Mitigation, and Recovery」(フラッシュメモリベースのSSDのエラー:分析、緩和、修復)では、ストレージ密度が高いほどエラーの発生率が高くなり障害が多くなると強調されている。

 この論文の研究者は次のように警告している。

 「ストレージ密度を高めるために、SSDの基盤となるNANDフラッシュメモリをスケーリングするにつれ、セルのビット自体でエラーの発生率が高まり、それによってSSDの寿命が短くなる」

 従来のHDDアレイよりもSSDの信頼性が高いのは間違いない。「これまでは、HDDアレイのHDDを交換しようと思ったら1日5000ポンド(約69万円)の費用をかけてエンジニアを雇い、新しいHDDを使ってアレイのマッピングをやり直す必要があった」と話すのはNutanixでシニアシステムエンジニアリングディレクターを務めるロブ・トライブ氏だ。

 同氏によると、SSDのファームウェアが絶えず書き込みサイクルを監視し、障害が見つかったら多くのエラーが生じているメモリブロックを使用対象から外すという。ITの自動化が進むにつれ、SSDのファームウェアが提供するメトリクスをOSが十分に利用しなくなっていることをトライブ氏は認めている。

 信頼性は、入出力操作(ドライブへの読み取りと書き込み)の失敗によって測定される。今後はSSDのファームウェアが利用され、システムがSSDの摩耗を綿密に追跡監視し、将来的には予防保全できるようになるだろう。

ITmedia マーケティング新着記事

news193.jpg

IASがブランドセーフティーの計測を拡張 誤報に関するレポートを追加
IASは、ブランドセーフティーと適合性の計測ソリューションを拡張し、誤報とともに広告が...

news047.png

【Googleが公式見解を発表】中古ドメインを絶対に使ってはいけない理由とは?
Googleが中古ドメインの不正利用を禁止を公式に発表しました。その理由や今後の対応につ...

news115.jpg

「TikTok禁止法案」に米大統領が署名 気になるこれからにまつわる5つの疑問
米連邦上院が、安全保障上の理由からTikTokの米国事業の売却を要求する法案を可決し、バ...