كيف تقوم شبكات CDN عالية الوضوح بمنع هجمات الزواحف وحظر برامج الزحف الخبيثة من خلال تحديد UA والحد من التردد

في الآونة الأخيرة لمساعدة عدد قليل من العملاء على التعامل مع هجمات الزاحف، وجدت أن الكثير من الناس يعتقدون على CDN عالية الدفاع على كل شيء على ما يرام، تم الزحف إلى النتائج للشك في الحياة. حتى أنه تم الزحف إلى محطة التجارة الإلكترونية من خلال قاعدة بيانات الأسعار، وأخذ المنافسون البيانات مباشرة للقيام بالتسعير الديناميكي، وكاد الرئيس أن يضع الفريق التقني في الجنة.

يمكن لشبكة CDN عالية الدفاع أن تحمل بالفعل DDoS، ولكن للتعامل مع برامج الزحف يجب استخدام هذا الشيء بذكاء. لقد اختبرت ووجدت أن مجرد تقييد تدفق بروتوكول الإنترنت لا يمكن أن يمنع برامج الزحف المتقدمة - سيتمكن الأشخاص الذين يحصلون على تجمع البروكسي بشكل عرضي من كسر قواعدك. الاستراتيجية الفعالة الحقيقية، يجب أن تبدأ من الجمع بين تحديد UA والحد من التردد.

التعرف على UA ليس مجرد مطابقة الكلمات الرئيسية

تقوم العديد من الفرق بتهيئة قواعد UA الخاصة بهم لحظر الطلبات التي تقول بوضوح ”Python” أو ”curl” فقط. في الوقت الحاضر، تستطيع برامج الزحف الأكثر تقدمًا تزييف UA، على سبيل المثال، من خلال التظاهر بأنها متصفح سائد:

هل يمكنك معرفة ما إذا كان شخصًا حقيقيًا أم زاحفًا بمجرد النظر إلى هذا؟ لقد أجريت اختبارات على CDN5 العام الماضي وكانت النسبة المئوية لطلبات الزاحف التي تنتحل UA تصل إلى 83%. لذا يجب أن يكون المفتاح هو الملف الشخصي السلوكي - الشخص العادي لن يستخدم UA الخاص بـ Chrome ومع ذلك يطلب واجهة واجهة API 10 مرات في الثانية.

حدود التردد للعب استراتيجية ديناميكية

يمكن أن يؤدي وضع قاعدة صارمة ”5 طلبات في الثانية” إلى الإضرار بالمستخدمين العاديين. خاصة عندما تكون هناك عروض ترويجية، فإن تردد المستخدمين الحقيقيين سيرتفع أيضًا. لقد مارست خوارزمية التردد الديناميكي على عقدة 08Host:

ساعدت هذه المجموعة من التكوينات موقعًا إخباريًا على تقليل عدد الإيجابيات الخاطئة بمقدار 921 نقطة مئوية 3، بينما زاد معدل اعتراض الزاحف أيضًا بمقدار 371 نقطة مئوية 3.

يجب تحديث مكتبة بصمة UA في العالم الحقيقي باستمرار!

تتعلم أطر عمل برامج الزحف الآن تدوير UA، لكن لا يزال لكل إطار عمل ميزات بصمة. على سبيل المثال، Puppeteer افتراضيًا مع كلمة HeadlessChrome، على الرغم من أن برامج الزحف المتقدمة في الوقت الحاضر ستزيل هذه العلامة عمدًا، ولكن من خلال خصائص تنفيذ JavaScript لا يزال من الممكن اكتشافها.

تحتوي قاعدة قواعد الاكتشاف التي أحتفظ بها على منصة CDN07 على أكثر من 1700 بصمة، مع بعض الإضافات الحديثة بما في ذلك:

تبدو هذه القواعد بسيطة، ولكن في الواقع هناك دروس من الدم والدموع وراء كل واحدة منها. فقد تم خداع أحد العملاء من قبل زاحف يستخدم متصفح UA قديم لتجاوز القواعد، وفي النهاية لم ينجح الاعتراض إلا من خلال اكتشاف خصائص المتصفح.

يجب تصميم حدود التردد في طبقات

لا تستخدم نفس مجموعة قواعد التكرار لجميع الواجهات. تحتوي واجهة تسجيل الدخول على مستوى مخاطر مختلف تمامًا عن صفحة تفاصيل المنتج، وعادةً ما أقوم بثلاثة مستويات من حدود التردد لعملائي:

يتم تخفيف الموارد الثابتة إلى 50 ثانية/ثانية، ويتم التحكم في واجهة برمجة التطبيقات بصرامة إلى 10 ثوانٍ/ثانية، ويجب أن تقتصر واجهة تسجيل الدخول على 3 ثوانٍ/ثانية أو أقل. من المهم بشكل خاص حماية واجهة اختبار CAPTCHA - العديد من برامج الزحف ستعمل على تحديث اختبار CAPTCHA بعنف، ويجب أن يقتصر ذلك على 1r/10s.

مثال على التكوين على CDN5:

لا تثق أبدًا في قائمة UA البيضاء.

تقترح بعض البرامج إطلاق متصفحات UA الشائعة للمتصفح فقط، وسيحدث شيء ما بالتأكيد مع هذا النهج الواحد الذي يناسب الجميع. تحتاج العديد من برامج الزحف المشروعة (محركات البحث، ومواقع مقارنة الأسعار) إلى معاملة خاصة هذه الأيام. لقد رأيت موقعًا واحدًا يحظر Googlebot، ونتيجة لذلك انخفضت حركة المرور الطبيعية 40%.

الشيء الصحيح الذي يجب القيام به هو التحقق من صحة برامج الزحف المعروفة. على سبيل المثال، يوفر Googlebot طريقة للتحقق:

لدى البعض الآخر مثل Bingbot آليات تحقق مماثلة، يجب تكوين هذا الجزء يدويًا ولا يمكن الاعتماد على القواعد الافتراضية لشبكة CDN.

التحقق من توقيع المتصفح هو السلاح النهائي

أصبحت برامج الزحف المتقدمة الآن قادرة تمامًا على تزييف UA و IP، وفي النهاية الأمر متروك لبصمات المتصفح لتحديدها. يتم اكتشاف خصائص بيئة المتصفح من خلال تحديات جافا سكريبت، مثل التحقق مما إذا كان navigator.plugins مكتملًا، وما إذا كان عارض WebGL مطابقًا، وما إلى ذلك.

في CDN07 يمكن تهيئته على هذا النحو:

لقد تم اختبار هذا الحل لحظر 99.9% المتصفحات التي لا رأس لها، ولكن كن على دراية بتأثيره على تحسين محركات البحث، فمن الأفضل وضع قائمة بيضاء ببرامج زحف محركات البحث المعروفة.

لا تنس المراقبة والتكرار

تتطور تقنية الزاحف باستمرار والقواعد التي نجحت الشهر الماضي قد لا تعمل هذا الشهر. يجب أن يكون هناك نظام مراقبة لمراقبة هذه المقاييس:

النسبة المئوية للطلبات غير الطبيعية، ومعدل تشغيل اختبار CAPTCHA، وتوزيع تكرار الطلبات عبر الواجهات. عادةً ما أقوم بإجراء Kanban في الوقت الفعلي على Grafana وأقوم بتعديل القواعد على الفور عندما أجد حالات شاذة.

وجدت مؤخرًا أن الزاحف الجديد بدأ في محاكاة مسار الفأر، في المرة القادمة للحديث عن كيفية استخدام القياسات الحيوية السلوكية للدفاع. في هذه الأيام، حتى شبكات CDN يجب أن ”تمنع زملاء الفريق” - حتى أن بعض برامج الزحف تتنكر في شكل روبوتات مراقبة خاصة بشبكات CDN!

إن الحماية الفعالة حقًا هي دائمًا مزيج متعدد الطبقات من الاستراتيجيات: اكتشاف UA لفحص برامج الزحف المنخفضة، وقيود التردد لمنع الهجمات الوسيطة، ومصادقة المتصفح لإخراج اللاعبين المتقدمين. أخيراً، هناك طريق للهروب - في حالة حظر مستخدم حقيقي عن طريق الخطأ، على الأقل إعطاء الناس قناة للشكوى.

{{userData.name}}موثّق

كيف تقوم شبكات CDN عالية الدفاع بمنع هجمات الزواحف وحظر برامج الزحف الخبيثة من خلال تحديد UA والحد من التردد

ملخص صفقات CDN عالية الدفاع CDN ملخص مزايا العملاء الجدد ونصائح توفير المال

الفرق بين المستوى الدفاعي لشبكة CDN عالية الدفاع وحماية نظام أسماء النطاقات (DNS) والأمان المشترك لأسماء النطاقات

التصنيفات