كيف يمكن لشبكة CDN عالية الدفاع الاجتماعي أن تمنع برامج الزحف من الزحف؟ تشفير المحتوى والتعرف على برامج الزحف لمنع زحف البيانات

في الآونة الأخيرة، اشتكى لي العديد من الأصدقاء الذين يعملون على المنصات الاجتماعية من أن ديناميكيات المستخدم والمحتوى الخاص بهم يتم الزحف إلى الأسفل، ويتم حظر الخادم من قبل برامج الزحف كل يوم. حتى أن أحد الأصدقاء ضحك بمرارة وقال: “أنا الآن أقرأ السجلات هي اضطراب ما بعد الصدمة، بمجرد أن أرى وكيل المستخدم الذي يحتوي على كلمة Python، أريد أن أفصل كابل الشبكة”.”

إن عتبة تكنولوجيا الزاحف أصبحت أقل وأقل هذه الأيام، فكتابة بضعة أسطر من برنامج Python النصي سيجرؤ على جمع البيانات، ناهيك عن أولئك المتخصصين في فريق تهريب البيانات، ونقل مئات من عناوين IP الخاصة بالاستضافة السحابية التي تقصف. إن جدار الحماية التقليدي في نظر هؤلاء الناس مثل الورق تماماً، الاعتماد على قائمة سوداء لعناوين IP لمنع برامج الزحف؟ قد تأمل كذلك في الفوز باليانصيب.

لقد ساعدت الكثير من المنصات الاجتماعية على مر السنين على القيام بحلول مضادة للتسلق، ووجدت الاختبارات أن الاعتماد البحت على مطابقة القواعد لا يمكن ببساطة أن يلعب الزاحف الحديث. ستحاكي برامج الزحف المتقدمة هذه الآن منحنى السلوك البشري، يمكن أن يمنحك مسار الفأرة توزيعًا طبيعيًا لإنشائه، بالاعتماد على تكرار الطلب لتحديد ما إذا كان الزاحف؟ لا تكن ساذجاً.

يجب أن يكون لاستراتيجية مكافحة تسلق شبكات التواصل الاجتماعي عالية الدفاع الاجتماعي الفعالة حقًا ثلاث طبقات دفاعية:: تشفير المحتوى حتى لا تتمكن برامج الزحف من الحصول على بيانات فعالة، والتعرف السلوكي للتمييز بدقة بين البشر والآلات، وأخيرا مع آليات الدفاع الديناميكية لجعل تكلفة برامج الزحف عالية للشك في الحياة. فيما يلي سأجمع بين الخبرة العملية والتحدث عن كيفية العمل.

لنبدأ بمشكلة تسرب المحتوى الأكثر ضررًا. تعتقد العديد من المنصات أن كل شيء على ما يرام مع HTTPS، لكنني لا أعرف أن الزاحف مباشرة في عقدة CDN الخاصة بك لتحليل المحتوى. لقد رأيت الحالة الأكثر تطرفًا هي أن واجهة برمجة تطبيقات المنصة الاجتماعية تقوم بإرجاع بيانات JSON مباشرةً بواسطة تحليل دفعة الزاحف ، وقد تم تسلق سلسلة علاقات المستخدم نظيفة ، وقد وجد الشخص المسؤول حتى بدأ المنافسون في البحث بدقة وجد الناس شيئًا خاطئًا.

لا تصدق أولئك الذين يقولون إن برنامج “مصادقة الرمز المميز كافٍ”، لطالما كان تسرب الرمز المميز في دائرة الزواحف تقنية قياسية، حيث يقوم الأشخاص بفك تجميع التطبيق الخاص بك مباشرةً وتفريغه، واستخراج المفتاح بسيط مثل التسوق في السوبر ماركت. نظام الهاتف المحمول هوك المباشر الأكثر قسوة نظام الهاتف المحمول هوك المباشر، يتم صيد الرمز المميز لذاكرة وقت التشغيل.

النهج الموثوق به هوتشفير المحتوى الديناميكي. يمكننا إجراء تشويش على البيانات في حافة عقدة CDN، مثل حقول البيانات الرئيسية للترميز العشوائي، فكل طلب يُرجع اسم حقل مختلف. على سبيل المثال، قد يُسمى حقل معرّف المستخدم ”uid”، وفي المرة التالية سيصبح ”z3df9″، بحيث لا يستطيع الزاحف ببساطة إنشاء قواعد دقة ثابتة.

لقد اختبرت هذا الحل على CDN5، وتدعم عُقد الحوسبة الطرفية الخاصة بهم منطق معالجة JavaScript المخصص الذي يمكنه تعطيل بنية JSON ديناميكيًا قبل تصدير البيانات:

تحصل برامج الزحف على هذا النوع من البيانات مثل إزالة مربع أعمى، في كل مرة تقوم فيها بتحليل القواعد يجب إعادة تحليلها، مما يزيد بشكل كبير من تكلفة تنظيف البيانات. لقد سربت عمدا اختبارا لهذا النوع من الواجهة، وضعت هناك لمدة أسبوع لم يكن الزحف ناجحا، ولكن بدلا من ذلك قام فريق الزاحف في المنتدى بلعن هذه الواجهة الحمقاء كل يوم لتغيير الهيكل.

لكن التشفير لا يكفي، فبعض برامج الزحف المتقدمة ستعمل على تشغيل JS مباشرةً لاستعادة البيانات. لذلك يجب أن يقترن أيضًا بـالتنميط السلوكي. هذا هو المجال الذي أنجزت فيه CDN07 عملاً شاقاً، حيث يلتقط محركها السلوكي الحيوي أكثر من 200 بُعد من أبعاد خصائص التشغيل البشرية.

وأكثر ما يثير إعجابي هو قدرتها على اكتشاف تطابق منحنى بيزير لحركات الفأرة - فالأشخاص الحقيقيون الذين يشغلون الفأرة سيكون لديهم منحنى تسارع طبيعي واهتزاز صغير، بينما محاكاة الزاحف لحركة المسار إما أن تكون مثالية جدًا أو عشوائية جدًا. يمكنهم أيضًا اكتشاف التوزيع الإحصائي لوقت المكوث في الصفحة - يتوافق وقت تصفح الأشخاص الحقيقيين مع توزيع قانون القوة، بينما تميل برامج الزحف إلى أن يكون لها دورية ثابتة أو توزيع بواسون لفترات الزيارة.

هذه هي مجموعة مجموعات القواعد التي قمنا بتكوينها على 08Host:

لا تقلل من شأن هذه التفاصيل، لقد ضبطت العديد من برامج الزحف “المتطورة” باستخدام هذه القواعد. استخدمت إحدى المجموعات التي تتنكر على أنها GoogleBot وضع Chrome الكامل بدون رأس، مع مرجع عادي لكل طلب، وتم القبض عليها لأن حركات الفأرة كانت خطية للغاية - كيف يمكن لشخص حقيقي أن يتحرك في خط مستقيم تمامًا في كل مرة؟

عندما يتعلق الأمر بحظر عنوان IP، فإن أول رد فعل لكثير من الناس هو سحب شريحة IP السوداء. ولكن الآن تستخدم الزواحف الآن IP لمزود الخدمة السحابية، اليوم ختم علي السحابي غدًا مع سحابة Tencent، يمكنك ختم أكثر؟ ما هو أكثر إثارة للاشمئزاز هو أن أولئك الذين يستخدمون شبكات البروكسي السكنية، IP هم النطاق العريض المنزلي الحقيقي، وقد يصاب ختم مستخدم حقيقي عن طريق الخطأ.

أوصي به الآن.آلية التحدي الديناميكية.. بدلاً من حظر حركة المرور المشتبه بها مباشرة، يتم وضع تحديات تحقق عشوائية. على سبيل المثال، يتلقى المستخدمون العاديون تحديات CAPTCHA بسيطة (على سبيل المثال، النقر على كائن في صورة)، بينما تواجه الجلسات المشتبه في كونها متصفحات تحديات معززة:

لا تستهينوا بتحدي هذه المشكلة الحسابية، فهي سهلة المنال بالنسبة للأشخاص الحقيقيين، ولكنها كابوس بالنسبة لبرامج الزحف الموزعة. لتنسيق مئات العُقد لحل المشكلة بشكل متزامن، ينفجر زمن الاستجابة مباشرةً. بعد أن قمتُ بنشر هذا الحل على CDN5، انخفضت حركة مرور الزاحف بمقدار 82%، وانخفض حمل وحدة المعالجة المركزية مباشرةً من خط التنبيه إلى النطاق الطبيعي.

بدأت بعض برامج الزحف الآن في استخدام الذكاء الاصطناعي لكسر الـCAPTCHA، لذا من الأفضل تحديث بنك أسئلة التحدي بانتظام. عادةً ما أقوم بإعداد العشرات من أنواع التحديات بالتناوب العشوائي، بدءًا من الحسابات الرياضية إلى الأسئلة المنطقية الرسومية، بحيث يكون فريق الزاحف دائمًا على طريق الاختراق.

وأخيراً، تفاصيل حماية واجهة برمجة التطبيقات. صُممت العديد من واجهات برمجة التطبيقات الخاصة بالمنصات الاجتماعية لتكون إلزامية للغاية، على سبيل المثال، يجب أن تكون واجهات معلومات المستخدم/API/مستخدم/{ID}يقوم الزاحف بكتابة حلقة للزحف الدفعي. يوصى بتصميم مسار واجهة برمجة التطبيقات بشكل غير بديهي، مثل إخفاء رقم الإصدار في الرأس وعشوائية مسار الواجهة:

بالمناسبة، حماية واجهة برمجة تطبيقات CDN07 أكثر تفصيلاً، ويمكنك تعيين حد التردد لكل واجهة على حدة. على سبيل المثال، واجهة الصفحة الرئيسية الشخصية لديها حد أقصى 60 طلبًا في الدقيقة، بينما الواجهة الحساسة مثل قائمة الأصدقاء تقتصر على 5 طلبات في الدقيقة، والتي يتم إرجاع البيانات المزيفة تلقائيًا بطريقة متدهورة.

يجب أن يلعب تنسيق إرجاع البيانات أيضًا بعض الحيل. لا تقم دائمًا بإرجاع بيانات JSON كاملة، يمكنك استخدام ترميز مجزأ (ترميز مجزأ)، وتقسيم البيانات الرئيسية إلى حزم متعددة لإرسالها، وإدراج حزم القمامة في المنتصف للتدخل في تحليل الزاحف. لا يملك المستخدمون الحقيقيون أي تصور، لكن محلل الزاحف يكون مشوشًا بشكل مباشر.

ما هو أكثر شيء مخادع في حماية الزاحف؟ إنه قتل المستخدمين الحقيقيين عن طريق الخطأ. لهذا السبب أوصي بشدة أن تحتوي جميع القواعد علىنموذج التعلّميعمل الوضع الذكي الخاص بـ CDN5 بشكل جيد، حيث يتعلم حركة المرور العادية لمدة أسبوع قبل إنشاء عتبات القواعد تلقائيًا، وهو أكثر دقة بكثير من التكوين اليدوي.

أخيرًا، لإعطاء اقتراح حقيقي: لا تتوقع مجموعة من البرامج لتناول جميع السيناريوهات. أستخدم بشكل عام CDN5 للقيام بالطبقة الأولى من تنظيف حركة المرور، و 08Host للتحليل السلوكي، و CDN07 واجهة واجهة برمجة تطبيقات الحماية الخاصة CDN07. الجمع بين الثلاثة استخدام التكلفة الشهرية أكثر من بضع مئات، ولكن أكثر فعالية من حيث التكلفة من الخسارة الناجمة عن الزحف على البيانات.

طبيعة مكافحة الزحف هي لعبة تكلفة، ما نريد القيام به هو جعل تكلفة الزحف أعلى بكثير من قيمة البيانات. الآن يتم التقاط منصة موكلي بمجرد التقاط البيانات، فريق الزاحف لاستثمار أكثر من عشرة خوادم رفيعة المستوى + عشرات الآلاف من تكاليف بروتوكول الإنترنت الوكيل شهريًا، ونحن نعتمد على الجدولة الذكية والتشفير الديناميكي، بحيث لا يزال الرجال يحفرون البيانات أكثر من حفر البيتكوين يحرقون المال.

في الآونة الأخيرة، وجدتُ أن مجتمع الزواحف قد بدأ أيضاً في الانهيار، وبدأت بعض الفرق في استخدام التعلم المعزز لمحاكاة السلوك البشري. ومع ذلك، فإن الداو بطول قدم واحدة والشيطان بطول عشرة أقدام، كما أن جانبنا منخرط أيضًا في نماذج التعلم العميق للكشف عن الأنماط الشاذة. من المقدر أن تستمر حرب الهجوم والدفاع هذه، ولكن هناك شيء واحد مؤكد - أولئك الذين يعتقدون أن تعليق WAF يمكن أن يمنع منصة الزاحفين، عاجلاً أم آجلاً سيصبحون الأكثر تضرراً من تسرب البيانات.

{{userData.name}}موثّق

كيف يمكن لشبكة CDN عالية الدفاع الاجتماعي أن تمنع برامج الزحف من الزحف؟ تشفير المحتوى وتحديد هوية الزاحف لمنع زحف البيانات

كيف يمكن استخدام شبكات CDN عالية الدفاع لأمن إنترنت الأشياء لحماية اتصالات الأجهزة ومنع تسرب البيانات

كيف تقوم شبكات CDN عالية الوضوح لشبكات التواصل الاجتماعي بمكافحة حركة مرور البيانات الخبيثة وحظر الطلبات الخبيثة من خلال تحديد السلوك وتقييد بروتوكول الإنترنت

التصنيفات