چرا استفاده از دیسک‌های Hot Spare همیشه ایده خوبی نیست؟

در بسیاری از سازمان‌ها برای افزایش پایداری و دسترس‌پذیری سیستم‌های ذخیره‌سازی، از دیسک‌های Hot Spare به‌عنوان راهکار یدکی استفاده می‌شود. این دیسک‌ها به‌صورت خودکار در زمان خرابی یک هارد وارد مدار شده و بازسازی داده‌ها را آغاز می‌کنند. در نگاه اول این موضوع ایده‌آل به نظر می‌رسد و در محیط‌هایی مانند ZFS یا دیگر سیستم‌های مدیریت ذخیره‌سازی، به کاهش زمان کارکرد سیستم در وضعیت Degraded کمک می‌کند.

اما باید توجه داشت که هدف اصلی RAID، تداوم سرویس و جلوگیری از ازدست‌رفتن داده‌هاست. اگر روشی مانند Hot Spare به جای کاهش ریسک، احتمال بروز خطا یا از دست رفتن اطلاعات را افزایش دهد، نمی‌تواند بهترین انتخاب باشد. در ادامه به بررسی 3 چالش جدی در استفاده از دیسک‌های Hot Spare و جنبه‌های مشکل‌ساز استفاده از این دیسک‌ها از وبسایت Open-E می‌پردازیم.

پیشنهاد مطالعه:

ماشین حساب RAID

بررسی ۳ چالش جدی در استفاده از دیسک‌های Hot Spare توسط Open-E

1. دیسک‌های Hot Spare فشار بیشتری به سیستم‌های آسیب‌پذیر وارد می‌کنند.

مشکل اصلی دیسک‌های Hot Spare این است که فرآیند بازسازی (resilvering) را در سیستمی فعال و در حال بهره‌برداری آغاز می‌کنند در حین انجام فرآیند resilvering، سیستم همچنان به خواندن و نوشتن داده‌های عملیاتی و پردازش درخواست‌های کاربران ادامه می‌دهد.

فرآیند resilvering به شدت از منابع سرور استفاده می‌کند. زمانی که این فرآیند هم‌زمان با بار کاری اصلی سرور اجرا می‌شود، باید با فعالیت‌های عملیاتی رقابت کند. از آن‌جا که این فرآیند به عنوان یک کار با اولویت پایین در نظر گرفته می‌شود، ممکن است مدت‌زمان زیادی طول بکشد، گاهی حتی چندین روز. این دوره‌ی طولانی از عملکرد مداوم با بیشینه توان ممکن، فشار زیادی به دیسک‌ها، به‌ویژه دیسک‌های HDD، وارد می‌کند و می‌تواند موجب فرسودگی شدید یا حتی خرابی آن‌ها شود.

بر اساس دهه‌ها تجربه، ما به این نتیجه رسیده‌ایم که استفاده از دیسک‌های Hot Spare در سیستم‌های پیچیده‌ی سازمانی، احتمال خرابی دیسک‌های بیشتر را افزایش می‌دهد؛ چراکه فرآیند resilvering فشار فزاینده‌ای به دیسک‌های موجود و کل سیستم وارد می‌سازد.

2. مشکلات موجود در طراحی کلی دیسک‌های Hot Spare

نقص بعدی در استفاده از دیسک‌های Hot Spare این است که این دیسک‌ها در طول زمان دچار کاهش کارایی می‌شوند. از لحظه‌ای که به سیستم متصل می‌شوند، در حال فعالیت هستند. و زمانی که بالاخره باید به عنوان جایگزین یک دیسک خراب وارد عمل شوند، ممکن است خود دیسک Hot Spare دیگر در وضعیت مناسبی برای انجام این وظیفه نباشد.

مشکل دیگر این است که دیسک‌های Hot Spare به صورت خودکار و بدون بررسی وضعیت کلی سیستم فعال می‌شوند؛ حتی در شرایطی که دیسک خراب همچنان به سیستم متصل است. در این حالت، دیسک معیوب ممکن است مجدداً تلاش کند تا به سیستم متصل شده و فعالیت خود را از سر گیرد، در حالی که دیسک Hot Spare در حال جایگزینی آن است. این هم‌پوشانی عملکرد می‌تواند باعث افزایش فشار روی سیستم شده، عملکرد کلی را تحت تأثیر قرار داده و در برخی موارد، خطر از دست رفتن داده‌ها را نیز افزایش دهد.

3. دیسک‌های Hot Spare یک نقطه‌ ضعف بحرانی در سیستم ایجاد می‌کنند.

اگر هدف شما ایجاد سیستمی بدون نقطه ضعف منفرد (Single Point of Failure) باشد، اتکا به دیسک‌های Hot Spare نمی‌تواند اطمینان زیادی برایتان فراهم کند. فرآیند جایگزینی خودکار یک دیسک معیوب ممکن است در برخی موارد به‌طور ناقص یا کامل با شکست مواجه شود و این موضوع می‌تواند به از دست رفتن داده‌ها منجر گردد.

بر اساس دهه‌ها تجربه ما در ارائه راهکارهای ذخیره‌سازی داده با استفاده از Open-E، موارد بسیاری را مشاهده کرده‌ایم که در آن‌ها یک دیسک Hot Spare موجب از کار افتادن کامل سرور و حتی از دست رفتن دائمی داده‌ها شده است. ریشه این خطر در اتوماسیون است؛ زمانی که به صورت خودکار فعال می‌شود، می‌تواند زنجیره‌ای از مشکلات را به‌راه اندازد، به‌ویژه در زیرساخت‌های قدیمی که سخت‌افزار آن‌ها پیش از این نیز تحت فشار و فرسایش بوده است.

جهت دریافت مشاوره خرید استوریج با قیمت مناسب و متناسب با نیاز سازمانتان، می‌توانید با کارشناسان شرکت رایانش ابری پردیس تماس بگیرید.
رایانش ابری پردیس با بیش از 10 سال سابقه در ارائه خدمات و راهکارهای ذخیره سازی اطلاعات و مشاوره خرید استوریج آماده همکاری با شماست.

معرفی استوریج Open-E

راهکارهای جایگزین ارائه شده توسط Open-E برای افزایش امنیت داده و تداوم سرویس

همین جنبه‌های مشکل‌ساز دیسک‌های Hot Spare است که ما را بر آن می‌دارد تا توصیه کنیم در معماری‌های پیچیده ذخیره‌سازی داده، از تکیه بر دیسک‌های Hot Spare خودداری کرده و به‌جای آن از راهکارهای دیگر تداوم کسب‌وکار استفاده شود. راهکاری مانند On- & Off-site Data Protection با برنامه‌های نگهداری پشتیبان‌گیری با بازه‌های زمانی قابل تعریف توسط کاربر، که زمان‌های RPO و RTO را تا حد چند دقیقه کاهش می‌دهد.

با استفاده از فایل‌سیستم ZFS، نظارت بر سیستم و ایجاد پشتیبان مناسب بسیار ساده‌تر می‌شود. در این شرایط می‌توان داده‌ها را از دیسک آسیب‌دیده بازیابی و روی دیسک جدید بازنویسی کرد. همچنین، هنگام استفاده از یک HA Cluster، این گزینه وجود دارد که به‌صورت دستی عملیات تولید را از نود آسیب‌دیده به نود ثانویه منتقل کرده و بدین ترتیب شرایط لازم برای انجام عملیات نگهداری روی نود دچار مشکل فراهم شود.

روال پیشنهادی در صورت بروز خرابی دیسک

ما توصیه می‌کنیم پس از آن‌که آرایه‌ی ذخیره‌سازی وارد وضعیت Degraded شد و مشخص شد که خرابی دیسک رخ داده، مراحل زیر را به‌دقت دنبال کنید:

1. یک نسخه پشتیبان کامل از داده‌ها تهیه کنید.

2. صحت داده‌های پشتیبان را بررسی کرده و اطمینان حاصل کنید که مکانیزم بازگردانی اطلاعات (Restore) به درستی عمل می‌کند.

3. منبع مشکل را شناسایی کنید؛ یعنی دیسک معیوب را پیدا کنید. در صورت امکان، سرور را خاموش کرده و مطمئن شوید که شماره سریال دیسک با آنچه در Event Viewer یا لاگ‌های سیستم گزارش شده تطابق دارد.

4. دیسک معیوب را با یک دیسک جدید و استفاده‌نشده جایگزین کنید. اگر دیسک جایگزین قبلاً در یک آرایه RAID دیگر مورد استفاده قرار گرفته است، اطمینان حاصل کنید که تمام متادیتای باقی‌مانده مربوط به آن آرایه از طریق کنترلر RAID اولیه حذف شده باشد.

5. فرآیند بازسازی (Rebuild) سیستم را آغاز کنید.

با استفاده از این فرآیند دستی، عملیات بازسازی شامل ۵ مرحله مهم است. در مقابل، زمانی که از یک دیسک Hot Spare استفاده می‌شود، چهار مرحله ابتدایی که جنبه حیاتی دارند به‌طور کامل نادیده گرفته شده و سیستم مستقیماً به مراحل ۴ و ۵ می‌پردازد. این یعنی بازسازی کامل می‌شود. قبل از آن‌که فرصت انجام پشتیبان‌گیری، بررسی صحت داده‌ها، یا تأیید قطعه‌ی معیوب را داشته باشید، مراحلی که در بسیاری از موارد تفاوت میان حفظ ایمن داده‌ها و از‌دست‌دادن آن‌ها را رقم می‌زنند.

در نهایت، انتخاب سازوکار مناسب برای طراحی معماری ذخیره‌سازی، وابسته به نیازها و سیاست‌های فنی هر سازمان است. با این حال، ما توصیه می‌کنیم که در آرایه‌های RAID مبتنی بر ZFS از اتکا به دیسک‌های Hot Spare پرهیز کنید؛ چرا که می‌توانند منجر به از بین رفتن اطلاعات شوند.

منبع مطلب

3/5 - (2 رای)

مرداد ۳۰, ۱۴۰۴