در بسیاری از سازمانها برای افزایش پایداری و دسترسپذیری سیستمهای ذخیرهسازی، از دیسکهای Hot Spare بهعنوان راهکار یدکی استفاده میشود. این دیسکها بهصورت خودکار در زمان خرابی یک هارد وارد مدار شده و بازسازی دادهها را آغاز میکنند. در نگاه اول این موضوع ایدهآل به نظر میرسد و در محیطهایی مانند ZFS یا دیگر سیستمهای مدیریت ذخیرهسازی، به کاهش زمان کارکرد سیستم در وضعیت Degraded کمک میکند.
اما باید توجه داشت که هدف اصلی RAID، تداوم سرویس و جلوگیری از ازدسترفتن دادههاست. اگر روشی مانند Hot Spare به جای کاهش ریسک، احتمال بروز خطا یا از دست رفتن اطلاعات را افزایش دهد، نمیتواند بهترین انتخاب باشد. در ادامه به بررسی 3 چالش جدی در استفاده از دیسکهای Hot Spare و جنبههای مشکلساز استفاده از این دیسکها از وبسایت Open-E میپردازیم.
راهنمای مطالعه
پیشنهاد مطالعه:
بررسی ۳ چالش جدی در استفاده از دیسکهای Hot Spare توسط Open-E
1. دیسکهای Hot Spare فشار بیشتری به سیستمهای آسیبپذیر وارد میکنند.
مشکل اصلی دیسکهای Hot Spare این است که فرآیند بازسازی (resilvering) را در سیستمی فعال و در حال بهرهبرداری آغاز میکنند در حین انجام فرآیند resilvering، سیستم همچنان به خواندن و نوشتن دادههای عملیاتی و پردازش درخواستهای کاربران ادامه میدهد.

فرآیند resilvering به شدت از منابع سرور استفاده میکند. زمانی که این فرآیند همزمان با بار کاری اصلی سرور اجرا میشود، باید با فعالیتهای عملیاتی رقابت کند. از آنجا که این فرآیند به عنوان یک کار با اولویت پایین در نظر گرفته میشود، ممکن است مدتزمان زیادی طول بکشد، گاهی حتی چندین روز. این دورهی طولانی از عملکرد مداوم با بیشینه توان ممکن، فشار زیادی به دیسکها، بهویژه دیسکهای HDD، وارد میکند و میتواند موجب فرسودگی شدید یا حتی خرابی آنها شود.
بر اساس دههها تجربه، ما به این نتیجه رسیدهایم که استفاده از دیسکهای Hot Spare در سیستمهای پیچیدهی سازمانی، احتمال خرابی دیسکهای بیشتر را افزایش میدهد؛ چراکه فرآیند resilvering فشار فزایندهای به دیسکهای موجود و کل سیستم وارد میسازد.
2. مشکلات موجود در طراحی کلی دیسکهای Hot Spare
نقص بعدی در استفاده از دیسکهای Hot Spare این است که این دیسکها در طول زمان دچار کاهش کارایی میشوند. از لحظهای که به سیستم متصل میشوند، در حال فعالیت هستند. و زمانی که بالاخره باید به عنوان جایگزین یک دیسک خراب وارد عمل شوند، ممکن است خود دیسک Hot Spare دیگر در وضعیت مناسبی برای انجام این وظیفه نباشد.
مشکل دیگر این است که دیسکهای Hot Spare به صورت خودکار و بدون بررسی وضعیت کلی سیستم فعال میشوند؛ حتی در شرایطی که دیسک خراب همچنان به سیستم متصل است. در این حالت، دیسک معیوب ممکن است مجدداً تلاش کند تا به سیستم متصل شده و فعالیت خود را از سر گیرد، در حالی که دیسک Hot Spare در حال جایگزینی آن است. این همپوشانی عملکرد میتواند باعث افزایش فشار روی سیستم شده، عملکرد کلی را تحت تأثیر قرار داده و در برخی موارد، خطر از دست رفتن دادهها را نیز افزایش دهد.

3. دیسکهای Hot Spare یک نقطه ضعف بحرانی در سیستم ایجاد میکنند.
اگر هدف شما ایجاد سیستمی بدون نقطه ضعف منفرد (Single Point of Failure) باشد، اتکا به دیسکهای Hot Spare نمیتواند اطمینان زیادی برایتان فراهم کند. فرآیند جایگزینی خودکار یک دیسک معیوب ممکن است در برخی موارد بهطور ناقص یا کامل با شکست مواجه شود و این موضوع میتواند به از دست رفتن دادهها منجر گردد.
بر اساس دههها تجربه ما در ارائه راهکارهای ذخیرهسازی داده با استفاده از Open-E، موارد بسیاری را مشاهده کردهایم که در آنها یک دیسک Hot Spare موجب از کار افتادن کامل سرور و حتی از دست رفتن دائمی دادهها شده است. ریشه این خطر در اتوماسیون است؛ زمانی که به صورت خودکار فعال میشود، میتواند زنجیرهای از مشکلات را بهراه اندازد، بهویژه در زیرساختهای قدیمی که سختافزار آنها پیش از این نیز تحت فشار و فرسایش بوده است.
جهت دریافت مشاوره خرید استوریج با قیمت مناسب و متناسب با نیاز سازمانتان، میتوانید با کارشناسان شرکت رایانش ابری پردیس تماس بگیرید.
رایانش ابری پردیس با بیش از 10 سال سابقه در ارائه خدمات و راهکارهای ذخیره سازی اطلاعات و مشاوره خرید استوریج آماده همکاری با شماست.
راهکارهای جایگزین ارائه شده توسط Open-E برای افزایش امنیت داده و تداوم سرویس

همین جنبههای مشکلساز دیسکهای Hot Spare است که ما را بر آن میدارد تا توصیه کنیم در معماریهای پیچیده ذخیرهسازی داده، از تکیه بر دیسکهای Hot Spare خودداری کرده و بهجای آن از راهکارهای دیگر تداوم کسبوکار استفاده شود. راهکاری مانند On- & Off-site Data Protection با برنامههای نگهداری پشتیبانگیری با بازههای زمانی قابل تعریف توسط کاربر، که زمانهای RPO و RTO را تا حد چند دقیقه کاهش میدهد.
با استفاده از فایلسیستم ZFS، نظارت بر سیستم و ایجاد پشتیبان مناسب بسیار سادهتر میشود. در این شرایط میتوان دادهها را از دیسک آسیبدیده بازیابی و روی دیسک جدید بازنویسی کرد. همچنین، هنگام استفاده از یک HA Cluster، این گزینه وجود دارد که بهصورت دستی عملیات تولید را از نود آسیبدیده به نود ثانویه منتقل کرده و بدین ترتیب شرایط لازم برای انجام عملیات نگهداری روی نود دچار مشکل فراهم شود.
روال پیشنهادی در صورت بروز خرابی دیسک
ما توصیه میکنیم پس از آنکه آرایهی ذخیرهسازی وارد وضعیت Degraded شد و مشخص شد که خرابی دیسک رخ داده، مراحل زیر را بهدقت دنبال کنید:
1. یک نسخه پشتیبان کامل از دادهها تهیه کنید.
2. صحت دادههای پشتیبان را بررسی کرده و اطمینان حاصل کنید که مکانیزم بازگردانی اطلاعات (Restore) به درستی عمل میکند.
3. منبع مشکل را شناسایی کنید؛ یعنی دیسک معیوب را پیدا کنید. در صورت امکان، سرور را خاموش کرده و مطمئن شوید که شماره سریال دیسک با آنچه در Event Viewer یا لاگهای سیستم گزارش شده تطابق دارد.
4. دیسک معیوب را با یک دیسک جدید و استفادهنشده جایگزین کنید. اگر دیسک جایگزین قبلاً در یک آرایه RAID دیگر مورد استفاده قرار گرفته است، اطمینان حاصل کنید که تمام متادیتای باقیمانده مربوط به آن آرایه از طریق کنترلر RAID اولیه حذف شده باشد.
5. فرآیند بازسازی (Rebuild) سیستم را آغاز کنید.
با استفاده از این فرآیند دستی، عملیات بازسازی شامل ۵ مرحله مهم است. در مقابل، زمانی که از یک دیسک Hot Spare استفاده میشود، چهار مرحله ابتدایی که جنبه حیاتی دارند بهطور کامل نادیده گرفته شده و سیستم مستقیماً به مراحل ۴ و ۵ میپردازد. این یعنی بازسازی کامل میشود. قبل از آنکه فرصت انجام پشتیبانگیری، بررسی صحت دادهها، یا تأیید قطعهی معیوب را داشته باشید، مراحلی که در بسیاری از موارد تفاوت میان حفظ ایمن دادهها و ازدستدادن آنها را رقم میزنند.
در نهایت، انتخاب سازوکار مناسب برای طراحی معماری ذخیرهسازی، وابسته به نیازها و سیاستهای فنی هر سازمان است. با این حال، ما توصیه میکنیم که در آرایههای RAID مبتنی بر ZFS از اتکا به دیسکهای Hot Spare پرهیز کنید؛ چرا که میتوانند منجر به از بین رفتن اطلاعات شوند.

