نشانه‌های خرابی سوئیچ شبکه

سکوت یک سوئیچ شبکه، بلای جان یک ادمین شبکه است. برخلاف سرورها که با صدای فن یا صفحه آبی مرگ، اعتراض خود را فریاد می‌زنند، سوئیچ‌ها اغلب بی‌صدا می‌میرند. در لحظه مرگ، فقط چراغ‌های چشمک‌زن باقی می‌مانند که شاید دیگر معنایی پشتشان نباشد.

در لایه ۲ شبکه، سوئیچ ستون فقرات انتقال فریم‌هاست. وقتی این ستون ترک بردارد، پکت‌ها ناپدید می‌شوند، صدا در تماس‌های VoIP می‌افتد، و دوربین‌های مداربسته یخ می‌زنند. مشکل اینجاست که خرابی سوئیچ به ندرت با یک پیغام خطای شفاف همراه است.

در عوض، خود را در قالب مکالمات نصفه کاربران، کندی مرموز برنامه‌ها و افزایش تیکت‌های پشتیبانی نشان می‌دهد. این محتوای تخصصی از متااندیش دقیقاً همان جایی را نشانه می‌گیرد که مرز بین پیکربندی اشتباه و خرابی فیزیکی سخت‌افزار مشخص می‌شود.

نکته حیاتی: اگر سوئیچ شما بیش از ۸ سال عمر دارد و در محیطی با دمای بالای ۳۵ درجه سانتی‌گراد کار کرده، خرابی خازن‌های الکترولیتی روی بورد اصلی تقریباً قطعی است. نشانه اولیه آن افزایش آرام و پیوسته خطاهای CRC روی تمام پورت‌هاست، حتی زمانی که کابل‌ها را تعویض کرده‌اید.

فهرست مطالب

فیزیک خرابی: آنچه درون سوئیچ رخ می‌دهد

سوئیچ‌ها چیپ‌های بی‌عیب و نقصی نیستند. عمر مفید یک سوئیچ غیر مدیریتی تجاری معمولاً بین ۵ تا ۱۰ سال و یک سوئیچ مدیریتی سازمانی بین ۷ تا ۱۵ سال، بسته به کیفیت منبع تغذیه و خنک‌سازی است. دشمن اول، گرماست. برای هر ۱۰ درجه افزایش دمای محیط، عمر الکترولیت خازن‌ها نصف می‌شود.

وقتی خازن‌های نزدیک رگولاتور ولتاژ باد کنند یا خشک شوند، نویز روی خطوط ۳.۳ ولت و ۵ ولت ظاهر می‌شود. این نویز مستقیماً باعث فساد تصادفی بیت‌ها در بافرهای حافظه می‌شود. نتیجه؟ پکت‌هایی که سالم وارد پورت می‌شوند اما خراب از پورت دیگر خارج می‌گردند. این دقیقاً تعریف خطای CRC است که ابزارهای مانیتورینگ ثبت می‌کنند.

نکته مهم دیگر، چیپ ASIC سوئیچ است. این تراشه وظیفه Forwarding فریم‌ها با سرعت وایر-اسپید را دارد. اگر هیت‌سینک روی این چیپ از کار بیفتد یا خمیر سیلیکون آن خشک شود، دمای هسته به سرعت از ۱۰۰ درجه عبور می‌کند. ASIC در دماهای بالا دچار خطاهای محاسباتی داخلی می‌شود که به ندرت گزارش داده می‌شود.

ادمین شبکه فقط می‌بیند که مثلاً VLAN 20 گاهی با VLAN 30 قاطی می‌شود یا MAC Address Table به یکباره خالی می‌شود، بدون آنکه لاگی مبنی بر خطای نرم‌افزاری ثبت شده باشد.

نشانه‌های قطعی و قابل اندازه‌گیری خرابی

۱. افزایش تصاعدی کرنل ارورها و Packet Drops ورودی

وارد CLI سوئیچ که می‌شوید، دستور show interfaces counters errors یا مشابه آن را اجرا کنید. اعداد و ارقامی که می‌بینید نباید صرفاً نادیده گرفته شوند. یک پورت سالم گیگابیتی در یک شبکه اداری عادی، بعد از ۲۴ ساعت کار، نباید بیشتر از ۵۰ خطای ورودی داشته باشد.

اگر CRC errorها، Runtها (فریم‌های کوچکتر از ۶۴ بایت) و Giantها (فریم‌های بزرگتر از ۱۵۱۸ بایت) را روی پورت‌های مختلف و بدون الگوی مشخص می‌بینید، پای سخت‌افزار سوئیچ در میان است. نکته تشخیصی: خطای CRC روی یک پورت معمولاً مشکل کابل یا NIC دستگاه مقصد است. اما CRC روی هفت، هشت پورت متفاوت که همگی کابل‌های تست‌شده دارند، یعنی باس داخلی سوئیچ یا منبع تغذیه آن مشکل دارد.

۲. نوسانات دمای غیرعادی و خاموشی‌های ناگهانی پورت‌ها

سنسورهای داخلی سوئیچ‌های مدیریتی دمای CPU، MAC و PHY را گزارش می‌دهند. اگر اختلاف دمای MAC (لایه فیزیکی) بین پورت ۱ و پورت ۲۴ بیش از ۱۵ درجه سانتی‌گراد باشد، یکی از تراشه‌های کنترلر پورت در حال سوختن است.

در این حالت، پورت‌ها به طور تصادفی وارد حالت Err-disable یا Shutdown می‌شوند. این خاموشی ارتباطی به Spanning Tree یا Loop ندارد. پورت Down می‌شود، در لاگ سیستم یک پیام مبهم physical link failure ثبت می‌کند و دیگر Up نمی‌شود مگر اینکه سوئیچ کامل ریستارت شود. این رفتار، یک زنگ خطر جدی برای مرگ تدریجی بک‌پلین سوئیچ است.

۳. ناپایداری PoE: وقتی برق، گروگان می‌گیرد

در سوئیچ‌های PoE، ماژول منبع تغذیه داخلی بخش بسیار پراسترسی دارد. بودجه کلی PoE سوئیچ را بررسی کنید. اگر یک سوئیچ ۲۴ پورت با بودجه ۳۷۰ وات دارید که جمع مصرف اسمی دستگاه‌های متصل به آن زیر ۲۰۰ وات است، اما سوئیچ مدام هشدار PoE budget exceeded می‌دهد یا برق یک اکسس پوینت را بدون دلیل قطع و وصل می‌کند، مقصر اصلی خازن‌های صافی در مدار PoE است.

این خازن‌ها توانایی تامین جریان لحظه‌ای بالا را از دست داده‌اند. با یک مولتی‌متر ولتاژ پای پورت PoE را اندازه بگیرید؛ اگر ولتاژ روی ۴۸ ولت تنظیم نشده باشد و دائماً بین ۴۴ تا ۵۲ ولت نوسان کند، منبع تغذیه سوئیچ مشکل دارد و این نوسانات به مرور زمان دستگاه‌های تغذیه‌شونده (PD) را هم نابود می‌کند.

متااندیش : راهنما و راه حل شما در دنیای شبکه

از مشاوره و راه اندازی شبکه تا پشتیبانی فنی و دقیق . ما زیرساخت های شما را بهینه سازی میکنیم با امنیت تضمین شده و گزارش ۲۴ ساعته متااندیش

۴. فراموشی جدول MAC Address

سوئیچ‌های لایه ۲ برای آنکه بدانند فریم را به کدام پورت بفرستند، جدول MAC Address دارند. یک رفتار مخرب و گویای خرابی، شفاف شدن رفتار سوئیچ و تبدیل آن به هاب است. وقتی ASIC یا حافظه TCAM دچار خطا شود، سوئیچ نمی‌تواند MAC جدید یاد بگیرد.

در این صورت ترافیک Unicast را به همه پورت‌ها Flood می‌کند. با نصب وایرشارک روی یک پورت معمولی، اگر ترافیک مقصدی که به IP شما نیست مشاهده کردید، یعنی سوئیچ دیگر سوئیچ نیست. دستور show mac address-table count را اجرا کنید. اگر تعداد مک‌های یادگرفته‌شده ناگهان از ۳۰۰ به ۳ سقوط کند و دوباره بالا برود، حافظه Flash یا RAM سوئیچ دچار Bit Flip شده است.

۵. فساد فریم‌ور و بوت‌لوپ‌های بی‌پایان

سوئیچی که هر چند دقیقه یکبار ریبوت می‌شود، گرفتار بوت‌لوپ شده. اگر با اتصال کابل کنسول، صفحه بوت را می‌بینید که روی فلان سکتور حافظه Flash ارور CRC می‌دهد، تراشه فلش مموری آن فرسوده شده. این تراشه‌ها بین ۱۰۰,۰۰۰ تا ۱,۰۰۰,۰۰۰ سیکل نوشتن عمر دارند. در شبکه‌های ناپایدار با نوسان برق، رجیسترهای فلش به مرور خراب می‌شوند. تعویض IOS یا Firmware در این حالت فایده ندارد، چون بیت‌های معیوب اجازه نوشتن صحیح فایل سیستم را نمی‌دهند. سوئیچ باید از رک خارج شود.

تفاوت ظریف بین مشکل پیکربندی و خرابی فیزیکی

بسیاری از ادمین‌ها ماه‌ها با خرابی سخت‌افزاری می‌جنگند و فکر می‌کنند مشکل Spanning Tree یا Storm Control است. چند مرز باریک برای تشخیص وجود دارد:

قطع و وصل شدن لینک در پورت‌های خالی: اگر پورتی که هیچ کابلی به آن وصل نیست، در لاگ‌ها Down و Up می‌شود، مشکل از نویز الکترومغناطیسی داخلی سوئیچ است، نه سوییچینگ.
عدم عبور ترافیک در VLAN مشخص ولی پینگ سالم: پینگ از خود سوئیچ با سایز ۱۵۰۰ بایت بدون مشکل عبور می‌کند، اما کاربران آن VLAN نمی‌توانند کار کنند. اینجا بافر خروجی ASIC دچار مشکل جداسازی ترافیک شده است.
برگشت خودبه‌خودی کانفیگ به تنظیمات قبلی: سوئیچ را ریبوت می‌کنید، کانفیگ سه روز پیش برمی‌گردد. این یعنی NVRAM یا فلش داخلی که startup-config را نگه می‌دارد، قابلیت Write را از دست داده.

جدول نشانه‌ها و اقدام فوری

نشانه بالینی سوئیچ	اندازه‌گیری دقیق	تشخیص احتمالی
CRC Error روی چندین پورت	بیش از ۰.۰۱% نرخ خطا در SNMP	خرابی باس داخلی یا منبع تغذیه
قطع و وصل شدن تصادفی پورت‌ها	تغییر Status بیش از ۵ بار در دقیقه	خرابی کنترلر PHY یا تداخل داخلی
Overheat هشدار دائم	دمای سنسور بالای ۷۰ درجه دائمی	خرابی فن یا هیت‌سینک ASIC
Unknown Unicast Flooding	مشاهده ترافیک غیرمرتبط در پورت	خرابی جدول TCAM/MAC
PoE مرده روی چند پورت	ولتاژ خروجی زیر 44V تحت بار	خرابی بانک خازنی PoE

سناریوهای خرابی در میدان واقعی

در یک سناریوی رایج، یک سوئیچ ۴۸ پورت دست دوم اکسس، بعد از ۴ سال کار مداوم در یک کارگاه نجاری، شروع به رفتار نامنظم کرد. تمام چراغ‌های پورت سبز بودند اما کاربران سه دفتر در روزهای دوشنبه، اینترنت نداشتند. بررسی لاگ‌ها نشان داد دقیقاً ساعت ۹ صبح، هنگام روشن شدن دستگاه‌های CNC و اوج مصرف برق سه فاز، خطاهای CRC روی تمام ۴۸ پورت به صورت هماهنگ جهش می‌کند.

دلیل این بود که منبع تغذیه سوئیچ نمی‌توانست نویز برگشتی از زمین الکتریکی سالن را فیلتر کند. فیلتر EMC داخلی سوئیچ سوخته بود. این رفتار را هیچ تست کابلی نشان نمی‌داد. فقط تعویض سوئیچ با یک مدل صنعتی مشکل را حل کرد.

مثال دیگر، سوئیچ‌هایی است که در ترافیک سنگین iSCSI استفاده می‌شوند. یک سوئیچ ۱۰ گیگابایتی که بافر داخلی آن خراب شده باشد، در ترافیک‌های سبک بدون مشکل کار می‌کند. اما به محض اینکه نرخ ترافیک به بالای ۷ گیگابیت بر ثانیه می‌رسد، شروع به Drop کردن پکت‌های خاصی می‌کند. در خروجی دستور show interface queue می‌بینید که Tail Drop در صف‌های ۴ و ۵ به شدت بالاست، اما صف‌های ۰ تا ۳ خالی‌اند. این یک نقص آشکار در چیپ QoS سوئیچ است. این سوئیچ در ظاهر سالم، یک خوره بی‌صدا در دل سن استوریج است.

مانیتورینگ هدفمند برای پیش‌بینی مرگ سوئیچ

منتظر نمانید تا کاربران زنگ بزنند. SNMP را روی OIDهای خاصی تنظیم کنید که سلامت فیزیکی را نشان می‌دهند. اگر سوئیچ شما CISCO است، OID مربوط به cpmCPUTotalPhysicalIndex و ciscoEnvMonTemperatureStatusTable را هر ۵ دقیقه پول کنید. در سوئیچ‌های HP/Aruba، وضعیت Power Supply Redundancy و Fan Tray را زیر نظر بگیرید. یک آلارم مهم: Power Supply moved to Fault state.

این خطا به معنی آن است که یکی از دو منبع تغذیه ریداندنت از مدار خارج شده. خیلی از ادمین‌ها این هشدار را نادیده می‌گیرند چون سوئیچ هنوز با یک پاور کار می‌کند. اما این فشار مضاعف، پاور سالم دوم را ظرف چند هفته آینده نابود می‌کند و سوئیچ به یکباره خاموش می‌شود.

همچنین دستور show post (Power-On Self-Test) را جدی بگیرید. اگر سوئیچ هر بار که روشن می‌شود، یک تست سخت‌افزاری مشخص را با ارور پاس می‌کند اما باز هم بالا می‌آید، به آن اعتماد نکنید. Fail شدن تست Packet Buffer یا MAC Address EPROM یعنی سخت‌افزار اصلی معیوب است و فقط منتظر یک لحظه حساس برای از کار افتادن کامل است.

سوالات متداول در مواجهه با خرابی سوئیچ

۱. آیا آپدیت فریم‌ور می‌تواند مشکلات CRC را حل کند؟

به ندرت. اگر خطاهای CRC ناشی از یک باگ نرم‌افزاری در درایور پورت خاص باشد، بله. اما در ۹۰ درصد موارد، CRC یعنی بیت‌ها در لایه فیزیکی یا باس داخلی خراب شده‌اند. آپدیت زدن روی سخت‌افزار معیوب، فقط ریسک تبدیل سوئیچ به آجر را دارد.

۳. اگر پورت‌های سوئیچ قفل کنند و ریست نرم‌افزاری جواب ندهد چه کنیم؟

این پدیده به «Port Stuck» معروف است. اگر shutdown / no shutdown اثر نکرد، معمولاً پردازنده PHY آن پورت هنگ کرده است. باید سوئیچ یک بار کامل Power Cycle شود. اگر بعد از پاور سایکل، دوباره همان پورت قفل کرد، پورت معیوب است و باید در کانفیگ به صورت دستی غیرفعال بماند تا تراشه آن آسیب بیشتری به بک‌پلین نزند.

۴. چرا چراغ‌های پورت روشن است ولی هیچ داده‌ای رد و بدل نمی‌شود؟

چراغ Link نشان‌دهنده وجود سیگنال الکتریکی بین دو PHY است، نه توانایی عبور فریم. اگر MAC یا بخش Switching Engine گیر کرده باشد، لینک سبز است اما Counter پکت‌های عبوری صفر می‌ماند. این حالت بیشتر در سوئیچ‌هایی دیده می‌شود که صاعقه به کابل شبکه خورده باشد. ترانسفورماتور ایزوله پورت سوخته و فقط ولتاژ را عبور می‌دهد، نه دیتا را.

۵. طول عمر واقعی خازن‌های سوئیچ چقدر است؟

خازن‌های الکترولیتی برندهای خوب (روبی‌کان، نیچیکان) در دمای ۲۵ درجه، حدود ۱۰,۰۰۰ ساعت طول عمر اسمی دارند. در دمای کاری ۵۵ درجه داخل رک (که بسیار شایع است)، این عدد به کمتر از ۲,۰۰۰ ساعت می‌رسد. یعنی عملاً ۲ تا ۳ سال کار مداوم. بعد از آن، ظرفیت خازن افت می‌کند و ESR (مقاومت معادل سری) بالا می‌رود. نتیجه این افت، نویز و ریپل روی ولتاژ تغذیه پردازنده است.

۶. آیا باز کردن سوئیچ و تمیزکاری آن ریسک دارد؟

بله. تخلیه الکتریسیته ساکن بدن روی چیپ ASIC، لحظه‌ای آن را نابود می‌کند. اگر سوئیچ خاموش است و فن‌هایش پر از گرد و غبارند، از کمپرسور هوای خشک و نازل فشار متوسط استفاده کنید و حتماً مچ‌بند ضد استاتیک به بدنه متصل داشته باشید. همچنین فن‌هایی که صدای غیرعادی دارند را باید ظرف یک هفته تعویض کرد. یک فن خراب می‌تواند جریان هوای داخلی را به صفر برساند و قطعات را در جا سرخ کند.

۷. چه زمانی باید سوئیچ را یکباره از شبکه خارج کرد و با اورژانس تماس نگرفت؟

وقتی بوی تخم مرغ گندیده (سولفید هیدروژن) از پشت سوئیچ می‌آید. این یعنی خازن تانتالیوم ترکیده و گاز خورنده متصاعد کرده. این گاز به مس‌های روی بورد حمله می‌کند. همچنین اگر سوئیچ آنقدر داغ است که نمی‌توانید دستتان را روی بدنه آن نگه دارید، فوراً برق آن را قطع کنید. این حرارت می‌تواند به ذوب شدن سوکت‌های داخلی و اتصال کوتاه منجر شود که خطر آتش‌سوزی جدی در رک دارد.

طرح عملی جایگزینی و جمع‌بندی

سوئیچ خراب را احیا نکنید. تعمیر سوئیچ‌های تجاری در سطح بورد به صرفه نیست. اگر سه نشانه از نشانه‌های بالا را در یک سوئیچ دیدید، یک دستگاه جایگزین با ضمانت در کنار آن حاضر کنید. قبل از آنکه بمیرد، فایل تنظیمات را بردارید.

مرگ سوئیچ یک رویداد قطعی در چرخه عمر شبکه است. مهم این است که این مرگ، غافلگیرتان نکند و به داده‌های در حال عبور آسیب نزند. ابزارهای مانیتورینگ خود را روی آستانه‌های خطای سخت‌افزاری تنظیم کنید، نه فقط پهنای باند و CPU. چون سوئیچی که CPU اش ۲ درصد است اما هزاران CRC Error در ثانیه تولید می‌کند، از کار افتاده محسوب می‌شود، حتی اگر هنوز روشن باشد.

متااندیش | ۲۰ سال تخصص در طراحی زیرساخت، شبکه و مجازی‌سازی امن، پایدار و قابل توسعه برای سازمان‌ها در تهران