バックアップが失敗する4つの原因と解決策:ありがちな原因を整理
システムを守るためのバックアップが失敗していたら致命的だ。確実にバックアップを取得するために、失敗の要因を低減しておこう。
スナップショットやレプリケーションからクラウドへのコピーに至るまで、データ保護にはさまざまな方法がある。にもかかわらず、IT部門が基盤とするのはバックアップだ。
関連記事
- 3−2−1バックアップルールはクラウド時代でも有効なのか
- バックアップシステム刷新――コストメリットがないのに満足の理由
- バックアップテストで確認すべき5つのポイント
- 必ず失敗する仮想マシンバックアップ5つの課題
- クラウドファーストのバックアップ戦略で得たストレスレス環境
スナップショット、レプリケーションその他のどのような方法でも、破損したデータはそのままコピーされる。そのため、ロールバックには可能な限りさかのぼれるバックアップが必要になる。
だがバックアップも失敗する。最新の調査によると障害発生率は37%と、驚くほど高い。
バックアップの失敗にはさまざまな理由がある。本稿はその要因を調査する。HDD故障などの予期できない障害や明確に回避できない障害もあるが、これらを軽減することは可能だ。パッチ適用後や構成変更後に発生する問題など、予想が可能な障害もある。
バックアップの正しい設定やバックアップソフトウェアの仕組みの理解など、人的要素も関係する。
メディアの障害
ハードウェアは故障する可能性がある。HDDは年間で100分の1が動作不良を起こすといわれているが、障害発生は予期できない。これはRAIDなどの冗長性によって軽減できる。
SSDでも障害は発生するが、HDDよりも発生率は低い。ただしSSDは寿命が限られている。ここでもハードウェアの冗長性と交換を運用に組み込むことが重要だ。
テープで障害が起きるメカニズムは独特だ。テープの保持とメンテナンスに関するメーカーの指示に従い、メディア特性に注意しなければならない。読み取りヘッドとメディアは摩耗する可能性があり、それは別の装置に復元するまで分からないことがある。
バックアップに影響するハードウェア障害を回避する重要なポイントは、3−2−1バックアップなどによって冗長性を持たせることだ。
ソフトウェアの問題
ソフトウェアには多種多様な問題がある。バックアップ失敗の最も一般的な原因の一つは、アップグレードやパッチによる変更が問題を引き起こすことだ。ソフトウェアに多数の変更が生じると、バックアップ構成の互換性が失われることがある。
この問題の主な軽減方法は、実行される更新を認識し、バックアップの中断を招く可能性がある種類と場所に対する備えを怠らないことだ。ソフトウェアで発生する恐れのある問題の予測に役立つ分析プラットフォームを提供するサプライヤーもある。
バックアップソフトウェア自体でエラーが発生することもある。これには
- アプリケーションの実行失敗に関係するサービス
- 正しくインストールされていないエージェント
- 接続の問題
- リード/ライトエラー
- バックアップ期間に影響するサマータイムへの変更
など、さまざまな問題が関係する。ここではサプライヤーのサポートリソースの確認が必要だ。
仮想化環境は、仮想化固有の問題を引き起こすことがある。仮想マシンとそのデータの作成、移行、廃棄には必然的に多くの変更を伴う。バックアップソフトウェアは非常に複雑な状況を追跡しなければならない。
バックアップに関係する障害は、
- カタログの破損
- 不十分なアクセス許可
- ボリュームシャドウコピーサービスの障害
- 仮想HDD(VHD)の損傷
などが原因になる可能性がある。
コンテナによってライフサイクルが急速に変化すると、独特の複雑さがもたらされるかもしれない。
人為的ミス
どんなに自動化が進んでも、バックアップのデプロイと運用を監視するのは人間の責任であることは変わらない。そのため人為的ミスが起きる可能性がある。重要なのは、人為的ミスがバックアップに影響する要素を減らすことだ。
出発点はバックアップの構成、バックアップ製品の知識、タスクの自動化に役立つツールだ。正しく構成してデータセット、アプリケーション、サービス、その他の依存関係の検出方法を理解することがバックアップを成功させる鍵となる。もっと重要なのは、これが復元を成功させる鍵にもなることだ。
いずれにせよ、単一のファイルであれシステム全体であれ、データを復元できなければ意味がない。データを復元する場合、依存関係が保護され、復元可能であることを確認する必要がある。
この点でもサプライヤーが検出ルールを用意している可能性がある。ただし、依存関係を検出できないツールがあることに注意しなければならない。
人為的エラーに備える主な方法は、定期テストを実施してポリシーと手続きを構築し、コンピュータが対処できないギャップを擦り抜ける可能性に対応することだ。
インフラの障害
バックアップはあらゆる種類のインフラを横断する。インフラのどこかで発生した障害はバックアップと復旧に影響する。特に復旧の場合は脆弱(ぜいじゃく)になる可能性がある。
インフラにはテープドライブとテープライブラリ、ディスクアレイ、バックアップサーバ、ネットワークなどが含まれる。最近はクラウドへのリンクも増えている。
インフラの問題を削減する鍵は冗長性だ。
WAN接続、クラウドリソースなど、直接管理できないインフラについてはSLA(サービスレベル契約)を設定する必要がある。災害発生時に作業できるインフラが整っていることも確認する。
コロナ禍以降、テレワークをサポートする必要性が大幅に高まったことでインフラの問題が浮き彫りになるだろう。エッジデバイスをバックアップする機能があることを確認し、場合によってはこのタスクに特化した製品を調達する必要がある。
Copyright © ITmedia, Inc. All Rights Reserved.