データ重複除去とは

[アーティクル]
03/09/2023

このドキュメントでは、データ重複除去のしくみについて説明します。

データ重複除去のしくみ

Windows Server のデータ重複除去は、次の 2 つの原則をもとに作成されました。

最適化はディスクへの書き込みの妨げになってはならない データ重複除去は、後処理モデルを使用してデータを最適化します。すべてのデータは最適化されないままディスクに書き込まれ、後でデータ重複除去によって最適化されます。
最適化によってアクセスのセマンティクスが変更されてはならない 最適化されたボリューム上のデータにアクセスするユーザーとアプリケーションは、アクセスしているファイルが重複除去されていることをまったく認識しません。

ボリュームでデータ重複除去を有効にすると、バックグラウンドで次の処理が行われます。

そのボリューム上のファイル全体で繰り返されるパターンを特定します。
再解析ポイントと呼ばれる特殊なポインターを使用して、その繰り返される部分 (チャンク) を、チャンク独自のコピーにシームレスに移動します。

これは、次の 4 つの手順で行われます。

最適化ポリシーを満たすファイルについて、ファイルシステムをスキャンします。
ファイルをさまざまなサイズのチャンクに分割します。
一意のチャンクを識別します。
チャンクをチャンクストアに配置し、必要に応じて圧縮します。
最適化されたファイルの元のファイルストリームをチャンクストアへの再解析ポイントに置き換えます。

最適化されたファイルが読み取られると、再解析ポイントを使用して、ファイルシステムからファイルがデータ重複除去ファイルシステムフィルター (Dedup.sys) に送信されます。フィルターによって、読み取り操作は適切なチャンクにリダイレクトされ、チャンクストア内のそのファイル用のストリームが構成されます。重複除去された一連のファイルに加えられた変更は、最適化されていない状態でディスクに書き込まれ、次回実行時に最適化ジョブによって最適化されます。

使用法の種類

次の使用法の種類は、一般的なワークロードに対して合理的なデータ重複除去の構成を提供します。

使用の種類	理想的なワークロード	相違点
Default	汎用ファイルサーバー: チームの共有作業フォルダーフォルダーリダイレクトソフトウェア開発用の共有	バックグラウンドの最適化既定の最適化ポリシー: ファイルの最小経過期間 = 3 日使用中のファイルの最適化 = なし部分的なファイルの最適化 = なし
Hyper-V	仮想デスクトップインフラストラクチャ (VDI) サーバー	バックグラウンドの最適化既定の最適化ポリシー: ファイルの最小経過期間 = 3 日使用中のファイルの最適化 = あり部分的なファイルの最適化 = あり Hyper-V 相互運用のための「内部的」な調整
Backup	Microsoft Data Protection Manager (DPM) などの仮想化バックアップアプリケーション	優先度の最適化既定の最適化ポリシー: ファイルの最小経過期間 = 0 日使用中のファイルの最適化 = あり部分的なファイルの最適化 = なし DPM または DPM に似たソリューションとの相互運用のための「内部的」な調整

ジョブ

データ重複除去は、処理後の戦略を使用してボリュームのスペース効率を最適化および維持します。

ジョブ名	ジョブの説明	既定のスケジュール
Optimization	最適化ジョブは、ボリュームのポリシー設定に従って、ボリューム上のデータをチャンクにすることにより重複除去を行い、(オプションで) これらのチャンクを圧縮し、チャンクをチャンクストアに一意に格納します。データ重複除去が使用する最適化プロセスの詳細については、「データ重複除去のしくみ」を参照してください。	1 時間ごと
ガベージコレクション	ガベージコレクションジョブは、最近変更または削除されたファイルによって参照されなくなった不要なチャンクを削除することにより、ディスク領域を解放します。	毎週土曜日、午前 2 時 35 分
整合性スクラブ	整合性スクラブジョブは、ディスク障害または不良セクターによるチャンクストア内の破損を特定します。可能な場合、データ重複除去は、ボリューム機能 (記憶域スペースボリューム上のミラーまたはパリティなど) を自動的に使用して、破損したデータを再構築することができます。また、データ重複除去では、チャンクの参照回数が 100 回を超える場合に、頻繁に参照されるチャンクのバックアップコピーをホットスポットと呼ばれる領域に保持します。	毎週土曜日、午前 3 時 35 分
非最適化	非最適化ジョブは、手動でのみ実行できる特殊なジョブであり、重複除去によって行われた最適化を取り消し、そのボリュームのデータ重複除去を無効にします。	オンデマンドのみ

データ重複除去の用語

項目	定義
チャンク	チャンクは、他の同様のファイルで発生する可能性があるとして、データ重複除去のチャンクを行うアルゴリズムによって選択されたファイルのセクションです。
チャンクストア	チャンクストアは、データ重複除去がチャンクを一意に格納するために使用する、システムボリューム情報フォルダー内で編成された一連のコンテナーファイルです。
重複除去	PowerShell、Windows Server API およびコンポーネント、Windows Server コミュニティで一般的に使用されるデータ重複除去の略称。
ファイルメタデータ	すべてのファイルには、ファイルの主要な内容には関連しない、ファイルに関する興味深いプロパティを説明するメタデータが含まれています。たとえば、作成日、前回の読み取り日、作成者などです。
ファイルストリーム	ファイルストリームは、ファイルの主要な内容です。これが、データ重複除去によって最適化されるファイルの部分です。
ファイルシステム	ファイルシステムは、オペレーティングシステムがストレージメディア上にファイルを保存できるようにするためのソフトウェアおよびディスク上のデータ構造です。データ重複除去は、NTFS でフォーマットされたボリュームでサポートされます。
ファイルシステムフィルター	ファイルシステムフィルターは、ファイルシステムの既定の動作を変更するプラグインです。アクセスのセマンティクスを維持するため、データ重複除去は、ファイルシステムフィルター (Dedup.sys) 使用して、読み取り要求を行っているユーザーまたはアプリケーションに対して、読み取りを最適化されたコンテンツに完全に透過的にリダイレクトします。
Optimization	ファイルは、ファイルがチャンクされ、その固有のチャンクがチャンクストアに格納されている場合、データ重複除去によって最適化 (または重複除去) されていると見なされます。
最適化ポリシー	最適化ポリシーは、データ重複除去を考慮すべきファイルを指定します。たとえば、ファイルが新しいか、開かれているか、ボリューム上の特定のパスにあるか、または特定のファイルの種類である場合に、ポリシー外として見なされます。
再解析ポイント	再解析ポイントは、I/O を指定したファイルシステムフィルターに渡すようファイルシステムに通知する特殊なタグです。ファイルのファイルストリームが最適化されると、データ重複除去がそのファイルストリームを再解析ポイントと置き換えることにより、データ重複除去は、そのファイルのアクセスセマンティクスを保持することができます。
ボリューム	ボリュームは、1 つまたは複数のサーバー間の複数の物理記憶域デバイスにまたがる可能性がある論理記憶域ドライブの Windows コンストラクトです。重複除去はボリュームごとに有効にします。
ワークロード	ワークロードは、Windows Server 上で実行されるアプリケーションです。ワークロードの例には、汎用ファイルサーバー、Hyper-V、SQL Server などがあります。

警告

権限のある Microsoft サポート担当者によって指示された場合を除き、チャンクストアを手動で変更しようとしないでください。変更しようとすると、データを破損または消失する可能性があります。

よく寄せられる質問

データ重複除去は他の最適化製品とどのように違いますか。 データ重複除去とその他の一般的な記憶域最適化製品の間にはいくつかの重要な違いがあります。

データ重複除去は単一インスタンスストアとどのように違いますか。 単一インスタンスストア (SIS) は、Windows Storage Server 2008 R2 で初めて導入された、データ重複除去に先行するテクノロジでした。単一インスタンスストアは、ボリュームを最適化するために、完全に同一のファイルを特定して、それらのファイルを SIS の共通ストアに格納されているファイルの単一のコピーへの論理リンクに置き換えます。単一インスタンスストアとは異なり、データ重複除去は、同一ではないが、多くの共通するパターンを共有するファイルや、ファイル自体に多くの繰り返しパターンが含まれているファイルから、スペースを節約することができます。単一インスタンスストアは、Windows Server 2012 R2 で非推奨とされ、データ重複除去を優先するため Windows Server 2016 で削除されました。
データ重複除去は NTFS 圧縮とどのように違いますか。 NTFS 圧縮は、必要に応じてボリュームレベルで有効にできる NTFS の機能です。 NTFS 圧縮では、書き込み時の圧縮によって、各ファイルが個別に最適化されます。 NTFS 圧縮とは異なり、データ重複除去はボリューム上のすべてのファイルにまたがってスペースを節約できます。ファイルには内部重複 (NTFS 圧縮により対処される) と、他のファイルとの類似性 (NTFS 圧縮により対処されない) がある場合の両方の可能性があるため、データ重複除去は NTFS 圧縮よりも利点があります。さらに、データ重複除去は処理後のモデルを採用しています。つまり、新規のファイルまたは変更されたファイルは最適化されていない状態でディスクに書き込まれ、データ重複除去によって後で最適化されます。
データ重複除去は zip、rar、7 z、cab などのアーカイブファイル形式とどのように違いますか。 zip、rar、7 z、cab などのアーカイブファイル形式は、指定されたファイルのセットに対して圧縮を実行します。データ重複除去と同様に、ファイル内の重複するパターンとファイル全体の重複するパターンは最適化されます。ただし、アーカイブに含めるファイルは選択する必要があります。また、アクセスのセマンティクスも異なります。アーカイブ内の特定のファイルにアクセスするには、アーカイブを開き、特定のファイルを選択し、そのファイルを展開して使用する必要があります。データ重複除去はユーザーと管理者に対して透過的に動作し、手動で開始する必要はありません。さらに、データ重複除去では、アクセスのセマンティクスが保持されます。最適化されたファイルは、最適化後も変更されていません。

選択した使用法の種類のデータ重複除去設定を変更することができますか。 はい。データ重複除去は推奨されるワークロードに対して合理的な既定を提供しますが、記憶域を最大限に活用するためにデータ重複除去設定を調整する場合もあります。また、他のワークロードでは、データ重複除去によってワークロードが妨げられないようにするために、一定の調整を行う必要があります。

データ重複除去ジョブを手動で実行できますか。 はい、すべてのデータ重複除去ジョブを手動で実行することができます。これは、スケジュールされたジョブがシステムリソースの不足、またはエラーにより実行されなかった場合に望ましいことがあります。また、非最適化ジョブは手動でのみ実行できます。

データ重複除去ジョブの履歴結果を監視できますか。 はい、すべてのデータ重複除去ジョブは Windows イベントログにエントリが作成されます。

システムでデータ重複除去ジョブの既定のスケジュールを変更できますか。 はい、すべてのスケジュールは設定可能です。既定のデータ重複除去のスケジュールを変更することは、特にデータ重複除去ジョブを完了するための時間を確保し、ワークロードのリソースと競合しないようにするために望ましい変更です。

次の方法で共有

データ重複除去とは

データ重複除去のしくみ

使用法の種類

ジョブ

データ重複除去の用語

よく寄せられる質問

フィードバック

その他のリソース