グローバル重複排除はなぜクラウドバックアップの「キラー機能」なのか?

グローバル重複排除はなぜクラウドバックアップの「キラー機能」なのか?
(本記事は2016年5月4日投稿のWhy Global Dedupe Is The ‘Killer Feature’ of Cloud Backupの抄訳です。)

近年のモバイル技術の進歩により、デバイスのストレージ容量は約2年で2倍になるというムーアの法則にほぼ従っています。ノートパソコンの磁気ディスク (HDD) 容量は、数年前にテラバイト (TB) に達しました。現在、フラッシュベースのディスク (SSD) もテラバイトの壁を突破しています。モバイルワーカーの台頭に伴い、今日多くの業務がモバイルデバイス上で行われており、これらデータの保護はデータセンターに保存されているデータと同様に重要です。

過去数年、 Gartner は「企業向けエンドポイントバックアップの重要な機能 ( Critical Capabilities for Enterprise Endpoint Backup)」に関する定期レポートで、エンドユーザーデータ保護の進展を追跡してきました。この間、モバイルデバイスで作成されたコンテンツのメディアリッチ化が進み、ドキュメント、プレゼンテーション、さらに電子メールのサイズも大きくなっています。デバイス上のデータ増加と不確実なネットワーク接続により、データを効果的に保護できるかどうかは、リカバリが行えるようデータを適時に収集できるかどうかを意味します。モバイルデバイスのデータ保護に関しては、一定周期ごとにバックアップする必要のあるデータ範囲が急拡大することを意味します。

過去数十年にわたるハードドライブストレージ (ハードディスク) の容量は、インターネット帯域に関するNielsenの法則による帯域の増加とほぼ平行しており、年間約50%増加しています。コンテンツ作成がスマートフォンやタブレットなどのモバイルデバイスに移行する中で、コンテンツ種別はメールやドキュメントだけでなく、動画、Power Point、PDFなどのリッチメディアコンテンツに変化しています。 IDCによれば、企業内の非構造化データ量は急増しています。業務の中心は明らかに分散したデバイス、従業員、ネットワークに移行しています。

blog-graph-data-deduplication-v1

左からハードディスク容量の増加、帯域の増加、非構造データの増加を示すグラフ。
※非構造化データ: メール、文書、画像、動画、音声、Webサイトのログやバックアップ/アーカイブなど、特定の構造を持たないデータのこと。構造化データは、ExcelやCSVファイル、固定長ファイルのような、行と列の概念があり、リレーショナルデータベースに格納されたデータのこと。

モバイルデバイスは移動しながら利用するため、ストレージデバイスを接続するよりもネットワークを経由してデータをバックアップすることが多くなります。今日のデバイスでは、会社のWi-Fi、喫茶店のホットスポット、通信会社のデータ通信プランなど、複数のネットワーク接続オプションがあります。特定の接続のみでバックアップを行うようバックアップソフトウェアを設定することはできますが、選択したネットワークが利用できない場合、重大なリスクにさらされます。皆さんの会社の役員が最新のセールスプレゼンテーションに最後の変更を加えた直後に空港ターミナルでノートパソコンを紛失してしまった場合を考えてみてください。バックアップ計画を策定する際には、重要なデータを永久に失うことがありえることから、Wi-Fiアクセスやデータプランの追加費用を見積もるべきなのは明らかです。

データを保護するための重要な要素の一つは、最大限のデータ保護を最小限のデータ転送量で実現するため、圧縮だけではなくデータ冗長性の削除を行う効率的なアルゴリズムを使用することです。これを実現するために製品ベンダーは重複排除を利用しますが、重複排除はすべてが同じではありません。その違いを理解することは、組織によるデータ保護の目的達成に役立ちます。

では、重複排除にはどのような種類があるのでしょうか?

ターゲット方式の重複排除: ネットワークの効率性は悪いものの、ストレージ削減には効果的

ターゲット方式の重複排除では、ストレージデバイスにデータがコピーされると、ストレージプロセッサが重複データを特定し、1つのコピーのみが保存されます。他のすべてのコピーは破棄されます。関連するデータにアクセスする必要がある場合、この1つのコピーから毎回取得されます。

ターゲット方式の重複排除は、インラインまたはオフラインモードで実行されます。インライン重複排除の場合、ストレージプロセッサが新規データを受信すると、そのデータのハッシュが既に保存されているデータのハッシュと一致するかリアルタイムで分析されます。ターゲット (保存先) に同じデータが既に存在する場合、そのデータは保存されず、既存データへの参照情報のみが保存されます。オフラインモードでは、データはまずターゲットにコピーされます。オフラインスキャンで重複したデータが削除され、1つのコピーが保存されます。データへのすべての参照情報は、この1つのコピーを指します。

ファイルコピーが複数存在し、それぞれのファイルが少しだけ異なる場合 (たとえば編集中) を考えてみましょう。ターゲットで重複排除すると、各デバイスはファイルバージョンをネットワーク経由でバックアップストアにコピーします。オンラインまたはオフラインのどちらのモードであっても、バックアップストアのストレージプロセッサはこれらファイルをスキャンし、ユニークなコンテンツを見つけ、ユニークな1つを除く他のすべてのデータを削除します。ここで、各デバイスのファイルバージョンを先にネットワーク経由で送信する必要があるため、大量の通信量が発生します。帯域に関する効率が非常に悪いですが、1つのターゲットにつき1つのコピーしか保存されないため、全体的なストレージ削減につながります。

データがすでにターゲットに保存されているかどうかをコピーする前に確認し、保存されたコピーへの参照情報だけを送信し、データそのものを送信しないのはどうでしょう?これはソース方式の重複排除と呼ばれます。

ソース方式のローカル重複排除: エンドポイントリソースを犠牲にしてネットワーク帯域を削減

ソース方式のローカル重複排除の場合、データはローカル (端末側) で最初にスキャンされ、ユニークなデータが識別されると一度だけバックアップされます。後続のバックアップでは、元のデータへの参照情報のみを送るため、帯域を削減できます。ネットワーク経由でユニークなデータを一度だけ送信すればよいというメリットがありますが、この情報をローカルでスキャンして分析すると、リソースを大量に消費する可能性があり、モバイルデバイスのCPUとメモリの負荷が高まります。 大量のデータをバックアップする場合、エンドポイントデバイスにとって非常に効率が悪いです

さらに重複排除は1つのデバイスで一度行われるだけです。

個人環境のノートパソコンでは問題ありませんが、複数デバイスにまたがって同じデータが複数コピーされている企業環境では、これらデバイス間で重複したデータが複数回転送されてしまいます。

ソース方式のグローバル重複排除: 両方にとってベスト

このジレンマへの答えは、ソース方式のグローバル重複排除です。この方法を採用すると、データのハッシュはソース (バックアップ元) で計算されます。このハッシュは既存データと比較するターゲット (保存先) に送信されます。生成元がソースとは無関係に、一致するデータがあればその参照情報だけがコピーされます。「グローバル」とは、すべてのユーザーとそのデバイスを意味します。前述の2つの方法はユーザーまたはデバイスのいずれかのみが対象であり、転送されるデータ量を大幅に削減できるグローバル重複排除で得られるようなネットワーク効率は決して実現できません。

たとえば社員グループにメールの添付ファイルとして同じファイルが送信される例を考えてみましょう。ターゲット方式で重複排除が行われる場合、各モバイルデバイスはネットワーク層を経由してファイルを保存先にコピーします。保存先ではこれらファイルのうち1つを除くすべてが削除され、1つだけコピーが保持されます。ソース方式でローカル重複排除を行う場合、ファイルがバックアップストアに送信されるとき、同一デバイス上からは同じファイルのコピーは送信されずユニークな識別子を持つファイルのメタデータのみが転送されます。しかし別のデバイスではそのデバイス上でユニークなファイルについては他のデバイスで同じファイルがバックアップされたとしてもそのファイルを送信してしまいます。ソース方式のグローバル重複排除の場合、ファイルは10台や100台のデバイスにまたがって、ネットワーク経由で1回だけ送信されます。

導入されるユーザー数が増えると、重複データが累積し始めます。後続ユーザーは、バックアップするデータのうち一部だけをアップロードすればよくなります。これにより、バックアップに必要な帯域量が削減され、組織全体に展開する導入スピードを向上させることができます。

以下に示す実際の例では、世界規模のコンサルティング会社における大規模展開がソース方式のグローバル重複排除の結果、3カ月以内で導入することができました。ユーザーには合計300TBのバックアップデータがありましたが、最終的には150TB未満のデータのみがバックアップクラウドへ転送されました。これはユーザー単位ではなく、組織全体でグローバルに重複排除が行われたことで可能になりました。50%のデータ転送削減は初回導入時に適用され、ユニークなデータのみをバックアップするため時間の経過とともに(スナップショットが増えるごとに)80%まで削減効果が上がります。

Druva-global-deduplication

実際の顧客事例では合計300TBのバックアップデータがグローバル重複排除により最終的に150TB未満の転送に

ソース方式のグローバル重複排除は、単一ユーザーではなく組織全体に拡張されます。結果として、誰か別のユーザーがバックアップサイクルのいずれかのタイミングでファイルをバックアップストアに送っているかもしれないため、ネットワーク経由でそのファイルをコピーする必要がないかもしれません。ファイルのユニークな識別子を見つけられるようにすることで、大量のネットワークトラフィックを削減することができます。

ソース方式のグローバル重複排除を利用することで、CPUリソースやネットワーク帯域のコストを削減することができます。実際1年間に15TB近く削減したケースもあり、この方式により時間の経過とともに組織全体で膨大な帯域を削減できたことを確認してきました。ソースでのグローバル重複排除のメリットがなければ、企業データのバックアップにほぼ2倍の量のデータを転送する必要があります。これにより、帯域消費が大幅に増加するだけでなく、災害復旧時にバックアップサイクルの時間が長くなり、RPOが悪化します。

Druva-global-deduplication

上記全社導入されたハイテク企業の例では、重複排除のメリットが維持されデータバックアップ量の伸びよりデータ転送量の増加のほうが緩い

ローカルで重複排除されるバックアップの場合、デバイス間で重複するコンテンツは一定量存在するため、必要帯域は徐々に増加します。しかしグローバル重複排除機能では、展開されるデバイス数が増えるにしたがって帯域の削減が加速します。後続のユーザーは、それまでに行われたデバイスバックアップの重複排除メリットを享受できるため、初期バックアップ時間も短縮されます。

エンドポイントバックアップの重複排除方式の比較

ターゲット方式の重複排除

ソース方式のローカル重複排除

ソース方式のグローバル重複排除

 

エンドポイントデバイスの必要リソース

小さい。

大きい。
すべての重複計算はローカルで行われる。データのハッシュ計算と比較を実施。

中間。
データのハッシュ計算を実施。

帯域削減効果

なし。
すべてのデータがバックアップストアへ送信される。

中間。
メール添付ファイルなど組織でデータが複製された場合、ネットワーク経由で同じデータが複数回送信される。

高い。
単一のデータコピーのみがネットワーク経由で送信される。

バックアップストアでのストレージ容量

小さい。
単一コピーのみ保存されるため、ストレージ容量は小さくなる。

中間。
各デバイス上で重複排除されたデータのみをバックアップするため、ある程度ストレージを削減できる。

小さい。
組織全体で単一データコピーのみ保存されるため、大幅にストレージ削減できる。

バックアップサーバーの必要リソース

大きい。
重複排除処理に高リソースを使用。

小さい。
エンドポイントデバイスで重複排除が行われるため、リソース使用量は少ない。

中間。
インライン重複排除処理にある程度のリソースが必要。

 

最後に、組織がソース方式のグローバル重複排除によって享受する大きなメリットについて、以下の簡単な事例によって見てみましょう。

  • 地理的に分散している組織では、最初に比較的広帯域を利用できる本社のユーザーに導入し、その後リモート拠点のユーザーに展開することで、既存データによる重複排除のメリットを享受したリモートユーザーのバックアップ時間を短縮できます。
  • 導入期間の後半でモバイルデバイスやテザリングデバイスに展開することで、Wi-Fiやモバイルデータ通信でバックアップするデバイスでの使用帯域を削減することができます。

0 Comments

Leave a reply

Your email address will not be published. Required fields are marked *

*