重复数据消除的工作原理

重复数据消除是一种技术，可以在同一物理介质上容纳更多备份，将备份保留更长时间并提高数据恢复的速度。Deduplication analyzes data streams sent to be backed up, looking for duplicate "chunks."It saves only unique chunks to disk.重复数据在特定索引文件中被跟踪。

在 Arcserve Backup 中，重复数据消除是一种在备份服务器上的单个会话中进行的联机处理。要识别在两台不同计算机的根目录上执行的备份作业之间的冗余，请使用“全局重复数据消除”。

在第一次备份过程中：

Arcserve Backup 扫描传入数据并将其分解成块。此进程在磁带引擎的 SIS 层进行。
Arcserve Backup 执行哈希算法，该算法会为每个数据块指定唯一的值，然后 Arcserve Backup 会将这些值保存到一个哈希文件中。
Arcserve Backup 比较哈希值。当发现重复数据之后，数据仅写入磁盘一次，并且引用将添加到引用文件（指向首次识别的该数据块实例的存储位置）。

下图中，在重复数据消除备份作业中备份数据流所需的磁盘空间小于常规备份作业中备份数据流所需的磁盘空间。

Illustration:Deduplication saves only unique data chunks to disk.

使用重复数据消除，将为每个备份会话创建三个文件：

索引文件（元数据文件）
- 哈希文件 - 存储为每个冗余数据块分配的标记。
- 引用文件 - 计算哈希数量，并将地址存储到与各哈希相对应的数据文件中。
数据文件 - 存储已备份数据的唯一实例。

两个索引文件加起来只占用总数据存储的一小部分，因此用于存储这些文件的驱动器的大小不像驱动器的速度那么重要。因此，请考虑固态磁盘或具有出色寻道时间的类似设备。

在后续备份过程中：

Arcserve Backup 扫描传入数据并将其分解成块。
Arcserve Backup 执行哈希算法以指定哈希值。
Arcserve Backup 将新的哈希值与先前的值进行比较，以查找重复数据。如果发现了重复数据，则数据将不写入磁盘，而是使用数据块原始实例的存储位置来更新引用文件。

Note:Use Optimization for better throughputs and decreased CPU usage.启用优化后，Arcserve Backup 会扫描文件属性，查找文件标头级的更改。如果没有更改，则不对这些文件执行哈希算法，文件也不会复制到磁盘。哈希算法仅会对自上次备份后有所更改的文件运行。要启用优化，请选择位于“重复数据消除组配置”屏幕上的“允许优化重复数据消除备份”选项。仅在 Windows 卷中支持优化。不支持对基于数据流的备份的优化，例如 SQL VDI、Exchange 数据库级、Oracle 和 VMware 映像级备份。

如果您必须还原已消除的重复数据，Arcserve Backup 会参考索引文件，以先识别、后查找重新组合成原始数据流所需的每个数据块。