از مقاله ویکیپدیا دراینباره (http://en.wikipedia.org/wiki/Data_deduplication) میتوان چیزهای زیادی آموخت. این نکته را به خاطر داشته باشید که Deduplicate، نمیتواند درستی و یکپارچگی اطلاعات را تضمین کند. پس عملیات Deduplicate به اصطلاح یعنی برخورد دو تکه مختلف از اطلاعات که دارای مقدار Hash شبیه به هم هستند.
نقطه مهم بعدی، الگوریتم مورد استفاده می باشد. به طور کلی در مکانیزم Deduplicate، اگر بیشتر اطلاعات تکراری باشند و همچنین Depuplication در سطح Application کار کند و نه در سطح سیستم فایل، منافع زیادی را فراهم میکند. از نمونه Applicationها میتوان بک آپها یا ایمیلهایی که در آنها فایلهای پیوست بزرگ یکسان وجود دارد را نام برد.
یک نقل قول کوتاه درمورد تجربه استفاده از Depulication:
“فکر میکنم شروع با Deduplicate کار عاقلانهای نیست. تنها دلیلی که Deduplicate انجام دادم این بود که من با اپلیکشنهای ساده کاربری سرگرم بودم برای اینکه ببینم اگر روی سیستم عادی خودم Dedup داشته باشم دقیقاً چقدر میتوانم در فضای مصرفی صرفه جویی کنم، با حجم 107 گیگابایت من 300 مگابایت صرفه جویی داشتم. بنابراین برای کاربر معمولی مثل من میتواند بی فایده باشد.”
شما به احتمال زیاد از مزایای Deduplication زیاد شنیده باشید. مکانیزم Deduplicate حتی به اثبات میرساند که 90 درصد در حجم اطلاعات کاهش داشته است. اما در نظر داشته باشید که مورد شما میتواند مانند نمونه بالا کمتر از 0.3% صرفه جویی داشته باشد. نکتهی دیگر، عملکرد Deduplicate داخلی با اطلاعات خاص Deduplicte شده، کارایی بسیار خوبی را نشان خواهد داد و تقریباً یک Volume خالی را نشان میدهد. در مورد دادههای منظم و Volume که پر از اطلاعات است شما یک تجربه بزرگ از عملکرد را خواهید داشت.
به علاوه، در حالتی که دادههای تکراری زیادی داشته باشید و همچنین Volume مورد استفاده حجم زیادی نداشته باشد، استفاده از Deduplication عملکرد بسیار خوبی خواهد داشت. اما در حالتی که دادههای تکراری حجم زیادی نداشته باشد و Volume مورد استفاده هم فضای خالی نداشته باشد امکان Deduplication بر روی کارایی سیستم اثر نامطلوبی خواهد داشت.