「De-duplication」や「重複除外」といった機能をうたったバックアップ製品が増えてきた。これは具体的にはどういう機能で、どのようなメリットがあるものなのだろうか?
通常、データをバックアップする際には元のデータ量よりかなり多くのストレージ容量が必要になる。例えば、フルバックアップを4週間分残すような運用をしている場合、単純に考えて元のデータ量の5倍以上のバックアップストレージ容量が必要になる。加えて、災害対策用に遠隔地にデータを保管する場合には、これがさらに増えることになる。
このように、ただでさえバックアップデータの容量は膨れ上がっているにもかかわらず、企業内には通常、同じようなデータが多数保存されている。例えば、ある商品紹介資料を、顧客名の部分だけを変更して幾つもファイルサーバに保存しているようなケースだ。バックアップ対象にこのようなデータが存在する場合、同じ内容を繰り返しバックアップすることになる。これはよく考えてみれば無駄なことをしているわけで、何とかこの無駄を取り除けないかと考えられたのが、“Data De-duplication”(以下、De-duplication)技術である。
“duplication”とは「重複」を意味する英単語だ。従って、“De-duplication”をそのまま日本語に訳すと「重複の除外」あるいは「重複の排除」とでもなろうか。文字通り、重複するデータを除外することによって、バックアップデータの容量を縮小する技術だ。
この技術はまだ新しいこともあり、業界的に統一した呼称がまだ存在しない。「De-duplication」(ディデュプリケーション)「De-dupe」(ディデュープ)「重複排除」「重複除外」「非重複化」などさまざまな呼び方をされているが、本稿では元の英語表記“De-duplication”をそのまま使うことにする。
同じデータのバックアップを省くことによって無駄を取り除くという方法は、以前から存在していた。De-duplication技術を理解しやすくするために、まずはその変遷を簡単に追ってみよう。
まず、かなり以前から存在しており、現在でも一般的に使われている「データ圧縮」も、考え方によってはDe-duplicationの一種といえる。なじみの深いところでは、テープバックアップの際に使われる圧縮がそれだ。一口に圧縮といっても幾つかの手法があるが、典型的なものでは1つのファイルの中にある「繰り返されているデータパターン」をポインタ(同じデータパターンの位置を指し示す値)に変換することで重複部分を省いている(図1)。
追って登場したのが、「ファイル単位でのDe-duplication」(ファイルレベルDe-duplication)の手法である。これは、アーカイブ用ストレージなどで使われる技術で、「シングルインスタンス機能」と呼ばれることも多い。
まずは、ファイルごとにユニークなアドレス(ファイルの位置を表す値)を割り当てる。そしてファイルを保存する際には、既に同じアドレスがないかを確認し、存在する場合はそのファイルのデータを保存しない(図2)。この方法により、同一ファイルを重複して保存することを避けられるわけだ。
ただし、この方法はファイル単位の処理なので、ファイルの内容がほんの少し異なるだけでも別のアドレスが割り当てられ、保存対象となる。
そして最近のDe-duplication技術としては、サブファイル単位で重複を省くタイプが徐々に市場に出回ってきた。この技術は米国では2003年ごろから登場しているが、日本で浸透し始めたのは2006年ごろからのことである。
これはファイルレベルDe-duplicationの考え方をさらに推し進めた方式で、1つのファイルをさらに細かく分割して、より細分化された単位で同一のデータを省くことができる(図3)。前述の例のような、顧客名の部分だけが異なる大量の商品資料ファイルを作成するようなケースであれば、顧客名以外の共通部分のデータは1つだけ保存されることになるため、大半のデータを削減することが可能だ。
なお、このサブファイル単位でのDe-duplicationは、米Data Domainの製品を代表とする、バックアップ用ディスクストレージにDe-duplication機能を組み込んだタイプのものと、「EMC Avamar」などのようにソフトウェアとして提供されている製品の2種類がある。最近はIBMやヒューレット・パッカード、国内の各ストレージメーカーなどがこぞってDe-duplication機能を備えたディスクストレージ製品を発表しており、市場が急速に活性化してきている。
Copyright © ITmedia, Inc. All Rights Reserved.
ランサムウェアが猛威を振るう中、バックアップの重要性に注目が集まっている。迅速な復旧を目指す場合、バックアップとHAクラスタリングの併用が求められるが、問題は両者の相性だ。ここでは「Arcserve Backup」との相性を検証した。
仮想マシンは長年ITインフラの中核を担ってきたが、クラウド時代を迎えてコンテナ技術が台頭し、これに取って代わろうとしている。この過渡期において、仮想マシンとコンテナが混在する環境の運用を合理化するための方法を探る。
デジタルファーストの世界が到来し、技術的なニーズが高まる一方、ITサービスとIT運用がサイロ化し、イノベーションの妨げになっているケースは少なくない。この問題を解消するための「3つのアプローチ」とは?
世界的な混乱によりビジネス環境が厳しさを増す中、企業が生き残るにはレジリエンスと事前対応力が重要になる。ITサービスと運用においても見直しが求められ、生成AIや自動化による組織運営の効率化が必要とされている。
近年、SaaS利用が加速する中、「誰がどのサービスを使っているのか不明」「退職者のアカウントが残っている」といった管理上の問題が顕在化している。そこで本資料では、SaaSのアカウント管理を効率的に行う方法を紹介する。
生成AI時代のPCの選び方 価格だけでは見えない「AI PC」の価値とは (2025/5/15)
デザイン性も機能性も“インカム越え”? 進化した接客用連絡ツールの特徴は? (2025/4/14)
「PoCをした企業」がほぼ導入するアプリケーション監視の新たな解決策 (2025/4/8)
DX推進に向かうにはまず守りの業務の改善から (2025/3/6)
企業のIDを内外から狙う攻撃が急増 ID漏えいを前提とした対策が必要な時代に (2025/3/3)
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。