در تئوری دادههای بر روی دیسک عضو RAID میتواند در برابر خرابی مصون باشد و RAID هارد دیسک جدید را بازسازی میکند.
اما این امر متاسفانه همیشه رخ نمیدهد. در برخی از موارد ممکن است سیستم عامل با خطای I/O مواجه شود و حتی بدتر از آن: سرور از سرویسدهی باز بماند. دقیقاً شبیه به این مشکل برای سرور ما رخ داد. در یک صبح زیبای چهارشنبه متوجه یک مشکل وحشتناک شدیم: یکی از سرورها در دسترس نبود و حتی پینگ آن را نیز از دست داده بودیم.
بنابراین مجبور شدیم سرور را ابتدا بصورت سخت افزاری خاموش کرده –Power Off– و سپس آن را روشن نماییم؛ صحنهی جالبی نبود، با RAID کج خلقی مواجه بودیم و سیستم عامل Boot نمیشد. خوشبختانه در Reboot بعدی سیستم عامل بالا آمد. اولین کاری که انجام دادیم تهیه Backup جدید از SQL Application Database بود. نرم افزار بخوبی کار میکرد بنابراین تصمیم گرفتیم تا با همین شرایط ادامه دهیم تا چند ساعت بعد بازسازی RAID را انجام دهیم.
متاسفانه بعد از چند ساعت سرور مجدداً هنگ کرد. این بار سرور پینگ داشت اما کنسول و SQL Application هیچ حرکتی را انجام نمیداد. بعد از خاموش کردن سرور هارد دیسک معیوب را از سرور جدا کردیم و سرور را بدون هارد دیسک معیوب روشن نمودیم سرور بدون هیچ گونه مشکلی بالا آمد.
بنابراین هارد دیسک معیوب در جایگاهی قرار داشت که موجب هنگ کردن سرور میشد. با توجه به تجربه ی شخصی من این اتفاق با هرگونه برندی میتوانست رخ دهد. و از فروشندهی این دست قطعات نمیتوان گلهی زیادی داشت.
آدرس این مشکل را در راهکارهای iSCSI and NAS (NFS) Failover قرار دادهایم.
اگر به تداوم کسب و کار (Business Continuity) احتیاج دارید لطفاً به سیستمهای HA Cluster نیز توجه ویژهای داشته باشید. از دادهها با استفاده از سیستمها و راهکارهای پشتیبانگیری حرفهای حفاظت کنید و به یاد داشته باشید: از دست رفتن سختافزار امر غیرعادی و عجیبی نیست و یک پروسهی طبیعی است.