Fonctionnement de la déduplication de données

La déduplication des données est une technologie permettant de stocker davantage de sauvegardes sur le même média physique, de conserver ces sauvegardes pour de plus longues périodes et d'accélérer la récupération des données. La déduplication analyse les flux de données envoyés à des fins de sauvegarde et recherche des "fragments" dupliqués (ou doublons). Une seule instance des fragments est enregistrée sur disque. Des fichiers d'index spéciaux assurent le suivi des doublons.

Dans CA ARCserve Backup, la déduplication est un processus en ligne qui a lieu au niveau du serveur de sauvegarde au sein d'une session unique. Pour identifier une redondance entre les jobs de sauvegarde effectués sur les répertoires racines de deux ordinateurs différents, utilisez la déduplication globale.

Lors de la première sauvegarde :

Dans le diagramme ci-dessous, l'espace disque nécessaire à la sauvegarde de ce flux de données est plus petit pour un job de sauvegarde par déduplication que pour un job de sauvegarde normal.

Illustration : Seuls des fragments de données uniques sont enregistrés sur disque par la déduplication.

Pour chaque session de sauvegarde par déduplication, trois fichiers sont créés.

Les deux fichiers d'index occupent un petit pourcentage du magasin total de données ; un espace disque étendu n'est donc pas nécessaire mais il est essentiel que son temps d'accès soit réduit. Envisagez d'utiliser à cet effet un disque dur électronique ou une unité similaire avec d'excellents temps d'accès.

Lors des sauvegardes successives :

Remarque : Utilisez l'optimisation pour obtenir de meilleurs débits de sauvegarde et pour réduire la charge de l'UC. Lorsque l'optimisation est activée, CA ARCserve Backup analyse les attributs des fichiers et recherche les changements apportés au niveau de l'en-tête des fichiers. En l'absence de changements, l'algorithme de hachage n'est pas exécuté sur ces fichiers et ces fichiers ne sont pas copiés sur le disque. L'algorithme de hachage s'exécute uniquement sur les fichiers qui ont changé depuis la dernière sauvegarde. Pour activer l'optimisation, sélectionnez l'option Autoriser l'optimisation pour les sauvegardes par déduplication située dans l'écran Configuration de groupe de déduplication. L'optimisation est prise en charge sur les volumes Windows uniquement. Elle n'est pas prise en charge pour les sauvegardes basées sur les flux, telles que les sauvegardes de niveau VDI de SQL, base de données d'Exchange, Oracle ou image de VMware.

Lorsque vous devez restaurer des données dédupliquées, CA ARCserve Backup utilise les fichiers d'index afin d'identifier et de rechercher chaque fragment de données nécessaire pour reconstituer le flux de données d'origine.