في الآونة الأخيرة، ساعدت محطة تجارة إلكترونية في التعامل مع مشكلة تبديل العقدة لشبكة CDN عالية الدفاع، وكادت أعمالهم تنهار بسبب ارتفاع زمن انتقال العقدة. لقد ألقيت نظرة على الخلفية على السعيد - هذا الصديق في الواقع تبديل العقدة كعملية تبديل الضوء، والقطع اليدوي المباشر الثابت، والنتيجة هي أن شكاوى المستخدمين مثل رقاقات الثلج المتطايرة.
إن تبديل العقدة في شبكة CDN عالية الدفاع ليست مجرد مسألة "تغيير الطريق"، إنها أشبه بتغيير الإطارات عندما تتسابق على الطريق السريع. عليك أن تفكر في حركة المرور التجارية، وصيانة الجلسات، والتخزين المؤقت لنظام أسماء النطاقات، والعودة إلى سياسة المصدر لهذه الأشياء، والإهمال قليلاً هو شاشة خطأ 500.
لماذا تتحول العقد إلى اختناقات في العمل؟وجدت أن 80% من المشكلة تكمن في "الاعتماد المفرط على التكوين الافتراضي". تعتقد العديد من الفرق أن شراء شبكة CDN عالية الدفاع لا بأس به، ولكن عندما يتم اختراق العقدة من قبل DDoS، لا يوجد بديل. لا تنسى، في هذه الأيام، حتى شبكات CDN يجب أن "تمنع زملاء الفريق" - مراقبة العقدة لدى بعض مزودي الخدمة هي ببساطة للعرض.
لنبدأ بسيناريو نموذجي للتبديل اليدوي. عندما تجد أن وقت استجابة العقدة يرتفع من 50 مللي ثانية إلى 2000 مللي ثانية، فإن رد فعلك الأول هو بالتأكيد "قطع الاتصال". ولكن إذا قمت بإيقاف تشغيل العقدة مباشرةً، فسوف ينقطع اتصال TCP الذي تم إنشاؤه فجأة، وسيفقد طلب المستخدم نصف المدفوع.
يجب أن يكون التبديل اليدوي الموثوق به عملية تبديل رمادية النطاق: أولاً وزن العقدة الجديدة إلى 5%، ومراقبة 15 دقيقة من الاستقرار ثم زيادة النسبة تدريجياً. لقد استخدمت واجهة برمجة تطبيقات CDN5 لإجراء التجارب، ومعدل فشل التبديل الفوري القسري يصل إلى 37%، في حين أن معدل فشل التبديل على النطاق الرمادي يكاد يكون صفرًا.
لإظهار نموذج تهيئة مباشر، إليك البرنامج النصي لتبديل التدرج الرمادي باستخدام واجهة برمجة تطبيقات CDN5:
لكن التبديل اليدوي هو في نهاية المطاف مهمة رجال الإطفاء. إن نظام التعافي التلقائي من الكوارث هو الذي يمكن الاعتماد عليه حقاً. يجب أن يكون التبديل التلقائي الجيد مثل الطيار الآلي - تغيير المسارات قبل أن يستشعر الخطر.
لقد قارنت بين حلول مزودي الخدمة الثلاثة الرئيسيين: يعتمد التوجيه الذكي لشبكة CDN5 على تحليل توقيعات الهجمات في الوقت الفعلي، وتعتمد CDN07 على مراقبة المسبار العالمي، وطورت 08Host خوارزمية مطورة ذاتيًا للتنبؤ بحركة المرور. بصراحة، لا يوجد حل مثالي، فالمفتاح يعتمد على خصائص العمل.
لا تصدق دعاية "لا حاجة للتهيئة"!. هل تتذكر فشل التبديل التلقائي لبائع السحابة العام الماضي؟ بسبب سوء تقدير خصائص حركة المرور، تم نقل جميع طلبات المستخدم العادية إلى العقدة الاحتياطية، ونتيجة لذلك، تم اختراق العقدة الاحتياطية مباشرة. يجب تكوين التبديل التلقائي الجيد بآلية دمج:
هناك درس يجب تعلمه هنا: يجب عليك إعداد سياسة التراجع للتبديل التلقائي. لم أقم ذات مرة بتكوين شروط التراجع، وتراجعت حركة استرداد العقدة تلقائيًا، ثم تسببت في حدوث فشل ثانٍ. الآن ممارستي القياسية هي مراقبة ساعتين على الأقل من الاستقرار قبل التراجع تلقائيًا.
عندما يتعلق الأمر بتبديل نظام أسماء النطاقات فإن الحفرة أعمق، فإعداد قيمة TTL هو فن، فبعض الفرق ضبطته على 60 ثانية للسرعة، والنتيجة هي أن استعلامات نظام أسماء النطاقات ارتفعت بشكل كبير وتسببت في انخفاض الخوادم المصرح بها. يوصى باستخدام TTL 300 ثانية خلال ساعات ذروة العمل، ثم خفضها إلى 60 ثانية أثناء الصيانة الليلية. لا تنسَ أن هناك أيضًا مشكلة الصلاحية المحلية، فقد يكون تحديث ذاكرة التخزين المؤقت لنظام أسماء النطاقات في بعض المناطق بطيئًا جدًا لدرجة أنك تشك في حياتك.
كنت أساعد مؤخرًا عميلاً ماليًا في تصميم حل ثنائي النشاط ووجدت أن التحويل التلقائي القائم على البث التلقائي Anycast هو الحل الأمثل. على الرغم من أن التكلفة عالية جدًا لدرجة أنها تجعل الناس يتألمون، إلا أنه في الحقيقة تبديل لا يدركه المستخدم. خاصةً ضد هجمات DDoS، يمكن لـ Anycast نشر حركة المرور إلى عقد عالمية، وهو أكثر موثوقية من نقطة دفاع واحدة.
أخيرًا، اقتراح قوي: يجب إجراء تمرين على الفشل كل شهر. افصل سلك طاقة العقدة الرئيسية مباشرةً لمعرفة ما إذا كان التبديل التلقائي يمكن أن يحمل حقًا. لقد رأيت الكثير من الفرق التي تقوم بتكوينها ثم ترميها جانبًا، وعندما يحدث خطأ ما بالفعل، يجدون أن المراقبة والتنبيه لم يتم تكوينها بشكل صحيح.
تبديل العقدة يقوم في الأساس على توازن المخاطر. السرعة الزائدة قد تؤدي إلى سلسلة من ردود الفعل، والبطء الشديد سيوسع من تأثير الفشل. بعد العديد من التوقفات العملية، مبدئي هو: أولوية ذروة العمل مع الاستقرار مع التبديل على نطاق رمادي، يمكن للصيانة الليلية محاولة التعافي التلقائي من الكوارث، يجب القيام بالأنشطة الرئيسية قبل اختبار ضغط الارتباط الكامل.
اذهب وتحقق من تكوين CDN الخاص بك الآن وانظر ما إذا كانت استراتيجية تبديل العقدة لا تزال عالقة في العصر الحجري. لا تنسَ أن أفضل تبديل هو دائمًا النوع الذي لا يشعر به المستخدمون.

