سکوت یک سوئیچ شبکه، بلای جان یک ادمین شبکه است. برخلاف سرورها که با صدای فن یا صفحه آبی مرگ، اعتراض خود را فریاد میزنند، سوئیچها اغلب بیصدا میمیرند. در لحظه مرگ، فقط چراغهای چشمکزن باقی میمانند که شاید دیگر معنایی پشتشان نباشد.
در لایه ۲ شبکه، سوئیچ ستون فقرات انتقال فریمهاست. وقتی این ستون ترک بردارد، پکتها ناپدید میشوند، صدا در تماسهای VoIP میافتد، و دوربینهای مداربسته یخ میزنند. مشکل اینجاست که خرابی سوئیچ به ندرت با یک پیغام خطای شفاف همراه است.
در عوض، خود را در قالب مکالمات نصفه کاربران، کندی مرموز برنامهها و افزایش تیکتهای پشتیبانی نشان میدهد. این محتوای تخصصی از متااندیش دقیقاً همان جایی را نشانه میگیرد که مرز بین پیکربندی اشتباه و خرابی فیزیکی سختافزار مشخص میشود.
فیزیک خرابی: آنچه درون سوئیچ رخ میدهد
سوئیچها چیپهای بیعیب و نقصی نیستند. عمر مفید یک سوئیچ غیر مدیریتی تجاری معمولاً بین ۵ تا ۱۰ سال و یک سوئیچ مدیریتی سازمانی بین ۷ تا ۱۵ سال، بسته به کیفیت منبع تغذیه و خنکسازی است. دشمن اول، گرماست. برای هر ۱۰ درجه افزایش دمای محیط، عمر الکترولیت خازنها نصف میشود.
وقتی خازنهای نزدیک رگولاتور ولتاژ باد کنند یا خشک شوند، نویز روی خطوط ۳.۳ ولت و ۵ ولت ظاهر میشود. این نویز مستقیماً باعث فساد تصادفی بیتها در بافرهای حافظه میشود. نتیجه؟ پکتهایی که سالم وارد پورت میشوند اما خراب از پورت دیگر خارج میگردند. این دقیقاً تعریف خطای CRC است که ابزارهای مانیتورینگ ثبت میکنند.
نکته مهم دیگر، چیپ ASIC سوئیچ است. این تراشه وظیفه Forwarding فریمها با سرعت وایر-اسپید را دارد. اگر هیتسینک روی این چیپ از کار بیفتد یا خمیر سیلیکون آن خشک شود، دمای هسته به سرعت از ۱۰۰ درجه عبور میکند. ASIC در دماهای بالا دچار خطاهای محاسباتی داخلی میشود که به ندرت گزارش داده میشود.
ادمین شبکه فقط میبیند که مثلاً VLAN 20 گاهی با VLAN 30 قاطی میشود یا MAC Address Table به یکباره خالی میشود، بدون آنکه لاگی مبنی بر خطای نرمافزاری ثبت شده باشد.
نشانههای قطعی و قابل اندازهگیری خرابی
۱. افزایش تصاعدی کرنل ارورها و Packet Drops ورودی
وارد CLI سوئیچ که میشوید، دستور show interfaces counters errors یا مشابه آن را اجرا کنید. اعداد و ارقامی که میبینید نباید صرفاً نادیده گرفته شوند. یک پورت سالم گیگابیتی در یک شبکه اداری عادی، بعد از ۲۴ ساعت کار، نباید بیشتر از ۵۰ خطای ورودی داشته باشد.
اگر CRC errorها، Runtها (فریمهای کوچکتر از ۶۴ بایت) و Giantها (فریمهای بزرگتر از ۱۵۱۸ بایت) را روی پورتهای مختلف و بدون الگوی مشخص میبینید، پای سختافزار سوئیچ در میان است. نکته تشخیصی: خطای CRC روی یک پورت معمولاً مشکل کابل یا NIC دستگاه مقصد است. اما CRC روی هفت، هشت پورت متفاوت که همگی کابلهای تستشده دارند، یعنی باس داخلی سوئیچ یا منبع تغذیه آن مشکل دارد.
۲. نوسانات دمای غیرعادی و خاموشیهای ناگهانی پورتها
سنسورهای داخلی سوئیچهای مدیریتی دمای CPU، MAC و PHY را گزارش میدهند. اگر اختلاف دمای MAC (لایه فیزیکی) بین پورت ۱ و پورت ۲۴ بیش از ۱۵ درجه سانتیگراد باشد، یکی از تراشههای کنترلر پورت در حال سوختن است.
در این حالت، پورتها به طور تصادفی وارد حالت Err-disable یا Shutdown میشوند. این خاموشی ارتباطی به Spanning Tree یا Loop ندارد. پورت Down میشود، در لاگ سیستم یک پیام مبهم physical link failure ثبت میکند و دیگر Up نمیشود مگر اینکه سوئیچ کامل ریستارت شود. این رفتار، یک زنگ خطر جدی برای مرگ تدریجی بکپلین سوئیچ است.
۳. ناپایداری PoE: وقتی برق، گروگان میگیرد
در سوئیچهای PoE، ماژول منبع تغذیه داخلی بخش بسیار پراسترسی دارد. بودجه کلی PoE سوئیچ را بررسی کنید. اگر یک سوئیچ ۲۴ پورت با بودجه ۳۷۰ وات دارید که جمع مصرف اسمی دستگاههای متصل به آن زیر ۲۰۰ وات است، اما سوئیچ مدام هشدار PoE budget exceeded میدهد یا برق یک اکسس پوینت را بدون دلیل قطع و وصل میکند، مقصر اصلی خازنهای صافی در مدار PoE است.
این خازنها توانایی تامین جریان لحظهای بالا را از دست دادهاند. با یک مولتیمتر ولتاژ پای پورت PoE را اندازه بگیرید؛ اگر ولتاژ روی ۴۸ ولت تنظیم نشده باشد و دائماً بین ۴۴ تا ۵۲ ولت نوسان کند، منبع تغذیه سوئیچ مشکل دارد و این نوسانات به مرور زمان دستگاههای تغذیهشونده (PD) را هم نابود میکند.
۴. فراموشی جدول MAC Address
سوئیچهای لایه ۲ برای آنکه بدانند فریم را به کدام پورت بفرستند، جدول MAC Address دارند. یک رفتار مخرب و گویای خرابی، شفاف شدن رفتار سوئیچ و تبدیل آن به هاب است. وقتی ASIC یا حافظه TCAM دچار خطا شود، سوئیچ نمیتواند MAC جدید یاد بگیرد.
در این صورت ترافیک Unicast را به همه پورتها Flood میکند. با نصب وایرشارک روی یک پورت معمولی، اگر ترافیک مقصدی که به IP شما نیست مشاهده کردید، یعنی سوئیچ دیگر سوئیچ نیست. دستور show mac address-table count را اجرا کنید. اگر تعداد مکهای یادگرفتهشده ناگهان از ۳۰۰ به ۳ سقوط کند و دوباره بالا برود، حافظه Flash یا RAM سوئیچ دچار Bit Flip شده است.
۵. فساد فریمور و بوتلوپهای بیپایان
سوئیچی که هر چند دقیقه یکبار ریبوت میشود، گرفتار بوتلوپ شده. اگر با اتصال کابل کنسول، صفحه بوت را میبینید که روی فلان سکتور حافظه Flash ارور CRC میدهد، تراشه فلش مموری آن فرسوده شده. این تراشهها بین ۱۰۰,۰۰۰ تا ۱,۰۰۰,۰۰۰ سیکل نوشتن عمر دارند. در شبکههای ناپایدار با نوسان برق، رجیسترهای فلش به مرور خراب میشوند. تعویض IOS یا Firmware در این حالت فایده ندارد، چون بیتهای معیوب اجازه نوشتن صحیح فایل سیستم را نمیدهند. سوئیچ باید از رک خارج شود.
تفاوت ظریف بین مشکل پیکربندی و خرابی فیزیکی
بسیاری از ادمینها ماهها با خرابی سختافزاری میجنگند و فکر میکنند مشکل Spanning Tree یا Storm Control است. چند مرز باریک برای تشخیص وجود دارد:
- قطع و وصل شدن لینک در پورتهای خالی: اگر پورتی که هیچ کابلی به آن وصل نیست، در لاگها Down و Up میشود، مشکل از نویز الکترومغناطیسی داخلی سوئیچ است، نه سوییچینگ.
- عدم عبور ترافیک در VLAN مشخص ولی پینگ سالم: پینگ از خود سوئیچ با سایز ۱۵۰۰ بایت بدون مشکل عبور میکند، اما کاربران آن VLAN نمیتوانند کار کنند. اینجا بافر خروجی ASIC دچار مشکل جداسازی ترافیک شده است.
- برگشت خودبهخودی کانفیگ به تنظیمات قبلی: سوئیچ را ریبوت میکنید، کانفیگ سه روز پیش برمیگردد. این یعنی NVRAM یا فلش داخلی که startup-config را نگه میدارد، قابلیت Write را از دست داده.
جدول نشانهها و اقدام فوری
| نشانه بالینی سوئیچ | اندازهگیری دقیق | تشخیص احتمالی |
|---|---|---|
| CRC Error روی چندین پورت | بیش از ۰.۰۱% نرخ خطا در SNMP | خرابی باس داخلی یا منبع تغذیه |
| قطع و وصل شدن تصادفی پورتها | تغییر Status بیش از ۵ بار در دقیقه | خرابی کنترلر PHY یا تداخل داخلی |
| Overheat هشدار دائم | دمای سنسور بالای ۷۰ درجه دائمی | خرابی فن یا هیتسینک ASIC |
| Unknown Unicast Flooding | مشاهده ترافیک غیرمرتبط در پورت | خرابی جدول TCAM/MAC |
| PoE مرده روی چند پورت | ولتاژ خروجی زیر 44V تحت بار | خرابی بانک خازنی PoE |
سناریوهای خرابی در میدان واقعی
در یک سناریوی رایج، یک سوئیچ ۴۸ پورت دست دوم اکسس، بعد از ۴ سال کار مداوم در یک کارگاه نجاری، شروع به رفتار نامنظم کرد. تمام چراغهای پورت سبز بودند اما کاربران سه دفتر در روزهای دوشنبه، اینترنت نداشتند. بررسی لاگها نشان داد دقیقاً ساعت ۹ صبح، هنگام روشن شدن دستگاههای CNC و اوج مصرف برق سه فاز، خطاهای CRC روی تمام ۴۸ پورت به صورت هماهنگ جهش میکند.
دلیل این بود که منبع تغذیه سوئیچ نمیتوانست نویز برگشتی از زمین الکتریکی سالن را فیلتر کند. فیلتر EMC داخلی سوئیچ سوخته بود. این رفتار را هیچ تست کابلی نشان نمیداد. فقط تعویض سوئیچ با یک مدل صنعتی مشکل را حل کرد.
مثال دیگر، سوئیچهایی است که در ترافیک سنگین iSCSI استفاده میشوند. یک سوئیچ ۱۰ گیگابایتی که بافر داخلی آن خراب شده باشد، در ترافیکهای سبک بدون مشکل کار میکند. اما به محض اینکه نرخ ترافیک به بالای ۷ گیگابیت بر ثانیه میرسد، شروع به Drop کردن پکتهای خاصی میکند. در خروجی دستور show interface queue میبینید که Tail Drop در صفهای ۴ و ۵ به شدت بالاست، اما صفهای ۰ تا ۳ خالیاند. این یک نقص آشکار در چیپ QoS سوئیچ است. این سوئیچ در ظاهر سالم، یک خوره بیصدا در دل سن استوریج است.
مانیتورینگ هدفمند برای پیشبینی مرگ سوئیچ
منتظر نمانید تا کاربران زنگ بزنند. SNMP را روی OIDهای خاصی تنظیم کنید که سلامت فیزیکی را نشان میدهند. اگر سوئیچ شما CISCO است، OID مربوط به cpmCPUTotalPhysicalIndex و ciscoEnvMonTemperatureStatusTable را هر ۵ دقیقه پول کنید. در سوئیچهای HP/Aruba، وضعیت Power Supply Redundancy و Fan Tray را زیر نظر بگیرید. یک آلارم مهم: Power Supply moved to Fault state.
این خطا به معنی آن است که یکی از دو منبع تغذیه ریداندنت از مدار خارج شده. خیلی از ادمینها این هشدار را نادیده میگیرند چون سوئیچ هنوز با یک پاور کار میکند. اما این فشار مضاعف، پاور سالم دوم را ظرف چند هفته آینده نابود میکند و سوئیچ به یکباره خاموش میشود.
همچنین دستور show post (Power-On Self-Test) را جدی بگیرید. اگر سوئیچ هر بار که روشن میشود، یک تست سختافزاری مشخص را با ارور پاس میکند اما باز هم بالا میآید، به آن اعتماد نکنید. Fail شدن تست Packet Buffer یا MAC Address EPROM یعنی سختافزار اصلی معیوب است و فقط منتظر یک لحظه حساس برای از کار افتادن کامل است.
سوالات متداول در مواجهه با خرابی سوئیچ
۱. آیا آپدیت فریمور میتواند مشکلات CRC را حل کند؟
به ندرت. اگر خطاهای CRC ناشی از یک باگ نرمافزاری در درایور پورت خاص باشد، بله. اما در ۹۰ درصد موارد، CRC یعنی بیتها در لایه فیزیکی یا باس داخلی خراب شدهاند. آپدیت زدن روی سختافزار معیوب، فقط ریسک تبدیل سوئیچ به آجر را دارد.
۳. اگر پورتهای سوئیچ قفل کنند و ریست نرمافزاری جواب ندهد چه کنیم؟
این پدیده به «Port Stuck» معروف است. اگر shutdown / no shutdown اثر نکرد، معمولاً پردازنده PHY آن پورت هنگ کرده است. باید سوئیچ یک بار کامل Power Cycle شود. اگر بعد از پاور سایکل، دوباره همان پورت قفل کرد، پورت معیوب است و باید در کانفیگ به صورت دستی غیرفعال بماند تا تراشه آن آسیب بیشتری به بکپلین نزند.
۴. چرا چراغهای پورت روشن است ولی هیچ دادهای رد و بدل نمیشود؟
چراغ Link نشاندهنده وجود سیگنال الکتریکی بین دو PHY است، نه توانایی عبور فریم. اگر MAC یا بخش Switching Engine گیر کرده باشد، لینک سبز است اما Counter پکتهای عبوری صفر میماند. این حالت بیشتر در سوئیچهایی دیده میشود که صاعقه به کابل شبکه خورده باشد. ترانسفورماتور ایزوله پورت سوخته و فقط ولتاژ را عبور میدهد، نه دیتا را.
۵. طول عمر واقعی خازنهای سوئیچ چقدر است؟
خازنهای الکترولیتی برندهای خوب (روبیکان، نیچیکان) در دمای ۲۵ درجه، حدود ۱۰,۰۰۰ ساعت طول عمر اسمی دارند. در دمای کاری ۵۵ درجه داخل رک (که بسیار شایع است)، این عدد به کمتر از ۲,۰۰۰ ساعت میرسد. یعنی عملاً ۲ تا ۳ سال کار مداوم. بعد از آن، ظرفیت خازن افت میکند و ESR (مقاومت معادل سری) بالا میرود. نتیجه این افت، نویز و ریپل روی ولتاژ تغذیه پردازنده است.
۶. آیا باز کردن سوئیچ و تمیزکاری آن ریسک دارد؟
بله. تخلیه الکتریسیته ساکن بدن روی چیپ ASIC، لحظهای آن را نابود میکند. اگر سوئیچ خاموش است و فنهایش پر از گرد و غبارند، از کمپرسور هوای خشک و نازل فشار متوسط استفاده کنید و حتماً مچبند ضد استاتیک به بدنه متصل داشته باشید. همچنین فنهایی که صدای غیرعادی دارند را باید ظرف یک هفته تعویض کرد. یک فن خراب میتواند جریان هوای داخلی را به صفر برساند و قطعات را در جا سرخ کند.
۷. چه زمانی باید سوئیچ را یکباره از شبکه خارج کرد و با اورژانس تماس نگرفت؟
وقتی بوی تخم مرغ گندیده (سولفید هیدروژن) از پشت سوئیچ میآید. این یعنی خازن تانتالیوم ترکیده و گاز خورنده متصاعد کرده. این گاز به مسهای روی بورد حمله میکند. همچنین اگر سوئیچ آنقدر داغ است که نمیتوانید دستتان را روی بدنه آن نگه دارید، فوراً برق آن را قطع کنید. این حرارت میتواند به ذوب شدن سوکتهای داخلی و اتصال کوتاه منجر شود که خطر آتشسوزی جدی در رک دارد.
طرح عملی جایگزینی و جمعبندی
سوئیچ خراب را احیا نکنید. تعمیر سوئیچهای تجاری در سطح بورد به صرفه نیست. اگر سه نشانه از نشانههای بالا را در یک سوئیچ دیدید، یک دستگاه جایگزین با ضمانت در کنار آن حاضر کنید. قبل از آنکه بمیرد، فایل تنظیمات را بردارید.
مرگ سوئیچ یک رویداد قطعی در چرخه عمر شبکه است. مهم این است که این مرگ، غافلگیرتان نکند و به دادههای در حال عبور آسیب نزند. ابزارهای مانیتورینگ خود را روی آستانههای خطای سختافزاری تنظیم کنید، نه فقط پهنای باند و CPU. چون سوئیچی که CPU اش ۲ درصد است اما هزاران CRC Error در ثانیه تولید میکند، از کار افتاده محسوب میشود، حتی اگر هنوز روشن باشد.




