Comment un CDN social à haute défense empêche-t-il les crawlers de crawler ? Cryptage du contenu et identification des robots d'indexation pour empêcher l'indexation des données - Navigation pour les outils de sécurité DDoS

Récemment, plusieurs amis travaillant sur des plateformes sociales se sont plaints à moi que leurs propres dynamiques d'utilisateurs et leur contenu ont été crawlés jusqu'au fond, et que le serveur a été bloqué par des crawlers tous les jours. Un ami a même ri amèrement et a dit : “Je lis maintenant que les journaux sont des SSPT, dès que je vois l'agent utilisateur avec le mot Python, j'ai envie de débrancher le câble du réseau”.”

Le seuil technologique des crawlers est de plus en plus bas de nos jours, il suffit d'écrire quelques lignes de script Python pour oser glaner des données, sans parler de ceux qui se spécialisent dans le trafic de données, déplaçant des centaines d'IP d'hébergement en nuage à la bombe. Aux yeux de ces personnes, le pare-feu traditionnel n'est que du papier, et l'on se fie à une liste noire d'adresses IP pour empêcher les crawlers ? Autant espérer gagner à la loterie.

J'ai aidé de nombreuses plateformes sociales au fil des ans à mettre en place des solutions anti-escalade, en testant celles qui s'appuient uniquement sur la correspondance des règles et qui ne peuvent tout simplement pas jouer le rôle du crawler moderne. Ces crawlers avancés simulent désormais la courbe du comportement humain, la trajectoire de la souris peut vous donner une distribution normale à créer, en s'appuyant sur la fréquence des requêtes pour déterminer si le crawler ? Ne soyez pas naïf.

Une stratégie anti-escalade de CDN à haute défense sociale vraiment efficace doit comporter trois niveaux de défenseLe système est composé des éléments suivants : le cryptage du contenu afin que les robots d'indexation ne puissent pas obtenir de données efficaces, la reconnaissance comportementale pour distinguer avec précision les humains des machines, et enfin des mécanismes de défense dynamiques pour rendre le coût des robots d'indexation élevé afin de mettre en doute la vie des internautes. Dans ce qui suit, je vais combiner l'expérience pratique, parler de la façon d'opérer.

Commençons par le problème de fuite de contenu le plus préjudiciable. De nombreuses plateformes pensent que tout va bien avec HTTPS, mais je ne sais pas si le crawler entre directement dans votre nœud CDN pour analyser le contenu. J'ai vu le cas le plus extrême : une plateforme sociale API renvoie des données JSON directement par l'analyse par lots du crawler, la chaîne de relations avec l'utilisateur a été nettoyée, la personne en charge jusqu'à ce que les concurrents commencent à creuser avec précision les gens ont trouvé quelque chose de mal.

Ne croyez pas ceux qui disent que le programme “l'authentification par jeton est suffisante”, la fuite de jeton dans le cercle des crawlers est depuis longtemps une technologie standard, les gens décompilent directement votre APP, l'extraction des clés est aussi simple que de faire ses courses au supermarché. Le système de téléphonie mobile à crochet direct le plus impitoyable, la mémoire d'exécution des jetons sont pêchés.

L'approche fiable est la suivanteCryptage dynamique du contenu. Nous pouvons obscurcir les données à la périphérie du nœud CDN, comme les champs de données clés pour le codage aléatoire, chaque demande renvoie un nom de champ différent. Par exemple, le champ d'identification de l'utilisateur peut être appelé ”uid”, la fois suivante il deviendra ”z3df9″, de sorte que le crawler ne peut tout simplement pas établir de règles de résolution fixes.

J'ai testé cette solution sur CDN5, et leurs nœuds de calcul en périphérie prennent en charge une logique de traitement JavaScript personnalisée qui peut perturber dynamiquement la structure JSON avant que les données ne soient exportées :

Les crawlers obtiennent ce type de données comme s'ils enlevaient une boîte aveugle, à chaque fois que vous analysez les règles, vous devez les réévaluer, ce qui augmente considérablement le coût du nettoyage des données. J'ai intentionnellement fait fuir un test de ce type d'interface, placé là pendant une semaine sans succès, mais l'équipe du crawler dans le forum a maudit cette interface cassée chaque jour pour changer la structure.

Mais le cryptage n'est pas suffisant, certains robots d'exploration avancés exécuteront JS directement pour restaurer les données. Il doit donc être associé àProfilage comportemental. C'est un domaine dans lequel CDN07 a fait un travail considérable, avec son moteur bio-comportemental qui saisit plus de 200 dimensions des caractéristiques de fonctionnement humaines.

Je suis particulièrement impressionné par leur capacité à détecter la correspondance de la courbe de Bézier des mouvements de la souris - les personnes réelles qui utilisent la souris auront une courbe d'accélération naturelle et une petite gigue, alors que la simulation du mouvement de la trajectoire par le crawler est soit trop parfaite, soit trop aléatoire. Ils peuvent également détecter la distribution statistique du temps de visite des pages - le temps de navigation des personnes réelles est conforme à une distribution en loi de puissance, alors que les robots d'exploration ont tendance à avoir une périodicité fixe ou une distribution de Poisson des intervalles de visite.

Voici l'ensemble des jeux de règles que nous avons configurés sur 08Host :

Ne sous-estimez pas ces détails, j'ai attrapé plusieurs crawlers “haut de gamme” avec ces règles. Un groupe se faisant passer pour un GoogleBot utilisait le mode Chrome Headless complet, avec un référent régulier pour chaque requête, et s'est fait prendre parce que ses mouvements de souris étaient trop linéaires - comment une personne réelle peut-elle se déplacer en ligne parfaitement droite à chaque fois ?

Lorsqu'il s'agit de blocage d'IP, la première réaction de nombreuses personnes est de retirer le segment IP noir. Mais aujourd'hui, les crawlers utilisent les IP des fournisseurs de services en nuage, aujourd'hui Ali cloud scellé demain avec Tencent cloud, vous pouvez sceller sur ? Ce qui est encore plus dégoûtant, c'est que ceux qui utilisent des réseaux proxy résidentiels, les IP sont de vraies largeurs de bande à domicile, le scellement d'un vrai utilisateur peut être blessé par erreur.

Je le recommande dès à présent.Mécanisme de contestation dynamique.. Au lieu de bloquer directement le trafic suspecté, des défis de validation aléatoires sont placés. Par exemple, les utilisateurs normaux reçoivent des CAPTCHA minimalistes (par exemple, en tapant sur un objet dans une image), tandis que les sessions suspectées d'être des robots d'indexation sont confrontées à des défis plus importants :

Ne sous-estimez pas ce défi informatique, c'est un jeu d'enfant pour les personnes réelles, mais un cauchemar pour les crawlers distribués. Pour coordonner des centaines de nœuds afin de résoudre le problème de manière synchrone, la latence explose directement. Après avoir déployé cette solution sur CDN5, le trafic des crawlers a chuté de 82%, et la charge CPU est passée directement de la ligne d'alerte à la plage normale.

Certains crawlers commencent maintenant à utiliser l'IA pour craquer les CAPTCHA, il est donc préférable de mettre à jour régulièrement votre banque de questions. Je prépare généralement des dizaines de types de défis en rotation aléatoire, allant des calculs mathématiques aux questions de logique graphique, afin que l'équipe de crawlers soit toujours sur la voie du craquage.

Enfin, les détails de la protection de l'API. De nombreuses API de plateformes sociales sont conçues de manière trop normative, par exemple, les interfaces d'information des utilisateurs doivent être/api/user/{id}Le crawler écrit une boucle pour effectuer un crawl par lots. Il est recommandé de concevoir le chemin de l'API de manière contre-intuitive, par exemple en cachant le numéro de version dans l'en-tête et en randomisant le chemin de l'interface :

Par ailleurs, la protection de l'API de CDN07 est plus détaillée, et vous pouvez définir la limite de fréquence pour chaque interface individuellement. Par exemple, l'interface de la page d'accueil personnelle a un maximum de 60 requêtes par minute, tandis que l'interface sensible telle que la liste d'amis est limitée à 5 requêtes par minute, au-delà desquelles les fausses données sont automatiquement renvoyées de manière dégradée.

Le format de retour des données doit également jouer des tours. Ne renvoyez pas toujours des données JSON complètes, vous pouvez utiliser l'encodage par morceaux (chunked encoding), diviser les données clés en plusieurs paquets à envoyer, et insérer des paquets inutiles au milieu pour interférer avec l'analyse du crawler. Les utilisateurs réels ne le perçoivent pas, mais l'analyseur du robot est directement perturbé.

Quel est l'aspect le plus louche de la protection contre les robots d'indexation ? C'est qu'elle tue par erreur de vrais utilisateurs. C'est pourquoi je recommande vivement que toutes les règles soient assorties d'une sectionModèle d'apprentissageLe Smart Mode de CDN5 fonctionne bien, il apprend le trafic normal pendant une semaine avant de générer automatiquement les seuils des règles, ce qui est beaucoup plus précis qu'une configuration manuelle.

Enfin, pour donner une vraie suggestion : ne vous attendez pas à ce qu'un ensemble de programmes puisse répondre à tous les scénarios. J'utilise généralement CDN5 pour faire la première couche de nettoyage du trafic, 08Host pour l'analyse comportementale, CDN07 pour la protection spéciale de l'interface API. La combinaison des trois utilise un coût mensuel de plus de quelques centaines, mais plus rentable que la perte causée par le crawling des données.

La nature de l'anti-crawler est un jeu de coût, ce que nous voulons faire est de rendre le coût du crawling beaucoup plus élevé que la valeur des données. Aujourd'hui, la plateforme de mon client est capturée une fois les données, l'équipe de crawlers doit investir plus d'une douzaine de serveurs de haut niveau + des dizaines de milliers de coûts d'IP proxy par mois, et nous nous appuyons sur une planification intelligente et un cryptage dynamique, de sorte que les gars qui creusent les données que de creuser le bitcoin est encore brûler de l'argent.

Récemment, j'ai découvert que la communauté des reptiles a également commencé à imploser, et certaines équipes ont commencé à utiliser l'apprentissage par renforcement pour simuler le comportement humain. Cependant, le Dao ne mesure qu'un pied et le diable dix pieds, notre camp est également engagé dans des modèles d'apprentissage profond pour détecter des modèles anormaux. Cette guerre de l'attaque et de la défense devrait se poursuivre, mais une chose est sûre : ceux qui pensent que l'installation d'un WAF peut empêcher la plateforme de crawlers seront tôt ou tard les plus durement touchés par les fuites de données.

{{userData.name}}Vérifié

Comment un CDN social à haute défense empêche-t-il les robots d'explorer les données ? Cryptage du contenu et identification des robots d'indexation pour empêcher l'indexation des données

Comment les CDN haute défense peuvent être utilisés pour la sécurité de l'IoT afin de protéger les communications des appareils et d'empêcher les fuites de données.

Comment les CDN de haute définition pour réseaux sociaux empêchent le trafic de pillage et bloquent les requêtes malveillantes grâce à l'identification comportementale et à la restriction de l'IP

Catégories