バックアップが失敗する4つの原因と解決策：ありがちな原因を整理

システムを守るためのバックアップが失敗していたら致命的だ。確実にバックアップを取得するために、失敗の要因を低減しておこう。

[Antony Adshead，Computer Weekly] PC用表示関連情報

LINE

Hatena

　スナップショットやレプリケーションからクラウドへのコピーに至るまで、データ保護にはさまざまな方法がある。にもかかわらず、IT部門が基盤とするのはバックアップだ。

　スナップショット、レプリケーションその他のどのような方法でも、破損したデータはそのままコピーされる。そのため、ロールバックには可能な限りさかのぼれるバックアップが必要になる。

　だがバックアップも失敗する。最新の調査によると障害発生率は37％と、驚くほど高い。

　バックアップの失敗にはさまざまな理由がある。本稿はその要因を調査する。HDD故障などの予期できない障害や明確に回避できない障害もあるが、これらを軽減することは可能だ。パッチ適用後や構成変更後に発生する問題など、予想が可能な障害もある。

　バックアップの正しい設定やバックアップソフトウェアの仕組みの理解など、人的要素も関係する。

メディアの障害

　ハードウェアは故障する可能性がある。HDDは年間で100分の1が動作不良を起こすといわれているが、障害発生は予期できない。これはRAIDなどの冗長性によって軽減できる。

　SSDでも障害は発生するが、HDDよりも発生率は低い。ただしSSDは寿命が限られている。ここでもハードウェアの冗長性と交換を運用に組み込むことが重要だ。

　テープで障害が起きるメカニズムは独特だ。テープの保持とメンテナンスに関するメーカーの指示に従い、メディア特性に注意しなければならない。読み取りヘッドとメディアは摩耗する可能性があり、それは別の装置に復元するまで分からないことがある。

　バックアップに影響するハードウェア障害を回避する重要なポイントは、3－2－1バックアップなどによって冗長性を持たせることだ。

　ソフトウェアには多種多様な問題がある。バックアップ失敗の最も一般的な原因の一つは、アップグレードやパッチによる変更が問題を引き起こすことだ。ソフトウェアに多数の変更が生じると、バックアップ構成の互換性が失われることがある。

　この問題の主な軽減方法は、実行される更新を認識し、バックアップの中断を招く可能性がある種類と場所に対する備えを怠らないことだ。ソフトウェアで発生する恐れのある問題の予測に役立つ分析プラットフォームを提供するサプライヤーもある。

　バックアップソフトウェア自体でエラーが発生することもある。これには

など、さまざまな問題が関係する。ここではサプライヤーのサポートリソースの確認が必要だ。

　仮想化環境は、仮想化固有の問題を引き起こすことがある。仮想マシンとそのデータの作成、移行、廃棄には必然的に多くの変更を伴う。バックアップソフトウェアは非常に複雑な状況を追跡しなければならない。

　バックアップに関係する障害は、

などが原因になる可能性がある。

　コンテナによってライフサイクルが急速に変化すると、独特の複雑さがもたらされるかもしれない。

　どんなに自動化が進んでも、バックアップのデプロイと運用を監視するのは人間の責任であることは変わらない。そのため人為的ミスが起きる可能性がある。重要なのは、人為的ミスがバックアップに影響する要素を減らすことだ。

　出発点はバックアップの構成、バックアップ製品の知識、タスクの自動化に役立つツールだ。正しく構成してデータセット、アプリケーション、サービス、その他の依存関係の検出方法を理解することがバックアップを成功させる鍵となる。もっと重要なのは、これが復元を成功させる鍵にもなることだ。

　いずれにせよ、単一のファイルであれシステム全体であれ、データを復元できなければ意味がない。データを復元する場合、依存関係が保護され、復元可能であることを確認する必要がある。

　この点でもサプライヤーが検出ルールを用意している可能性がある。ただし、依存関係を検出できないツールがあることに注意しなければならない。

　人為的エラーに備える主な方法は、定期テストを実施してポリシーと手続きを構築し、コンピュータが対処できないギャップを擦り抜ける可能性に対応することだ。

　バックアップはあらゆる種類のインフラを横断する。インフラのどこかで発生した障害はバックアップと復旧に影響する。特に復旧の場合は脆弱（ぜいじゃく）になる可能性がある。

　インフラにはテープドライブとテープライブラリ、ディスクアレイ、バックアップサーバ、ネットワークなどが含まれる。最近はクラウドへのリンクも増えている。

　インフラの問題を削減する鍵は冗長性だ。

　WAN接続、クラウドリソースなど、直接管理できないインフラについてはSLA（サービスレベル契約）を設定する必要がある。災害発生時に作業できるインフラが整っていることも確認する。

　コロナ禍以降、テレワークをサポートする必要性が大幅に高まったことでインフラの問題が浮き彫りになるだろう。エッジデバイスをバックアップする機能があることを確認し、場合によってはこのタスクに特化した製品を調達する必要がある。