La nuit dernière, je suis resté éveillé jusqu'à 3 heures du matin, juste parce que le CDN de haute défense que nous utilisions a soudainement eu un accident vasculaire cérébral. La surveillance en arrière-plan est une alarme rouge, les plaintes des utilisateurs affluent comme des flocons de neige. De nos jours, même le CDN, qui revendique une disponibilité de 99,99%, peut vous donner un spectacle d“”évaporation", ce qui empêche vraiment les pirates d'empêcher les coéquipiers.
Pour être honnête, l'instabilité du nœud CDN de haute défense, j'ai marché sur la fosse que certaines personnes ont écrit le code sont plus. Certains fournisseurs de services soufflant le ciel, vraiment rencontré le trafic sur, le nœud s'est effondré plus vite que le papier mâché. L'année dernière, j'ai utilisé un CDN07, habituellement aussi stable que le vieux chien, une attaque CC directement à plat, le temps de réponse de 200 ms a grimpé à 20 secondes, l'appel téléphonique du client a presque atteint notre ligne fixe.
Ne vous empressez pas de réprimander le fournisseur de services en premier lieu, la raison de l'instabilité du nœud peut être plus compliquée que vous ne le pensez. Je la résume comme suit : fluctuations de la dorsale du réseau (en particulier les nœuds intercontinentaux), pompage des FAI locaux, trafic DDoS dépassant la capacité de nettoyage du nœud, certificats SSL mal configurés, ou peut-être même un climatiseur en panne dans la salle des serveurs - j'ai vraiment rencontré un fournisseur qui a surchauffé et déclassé des nœuds en raison d'une défaillance du climatiseur.
La semaine dernière, j'ai aidé des amis à vérifier un cas particulièrement typique : avec un fournisseur CDN5 bien connu, j'ai soudainement constaté que la latence du nœud de l'Asie de l'Est avait grimpé en flèche. Après vérification par MTR, il s'est avéré que le nœud lui-même n'était pas un problème, mais qu'il s'agissait d'un point de saut de routage intermédiaire qui avait été endommagé. À ce moment-là, vous avez critiqué l'inutilité du fournisseur de CDN, les gens ne peuvent pas contrôler le routage de l'opérateur.
La première chose à faire est de déterminer l'ampleur du problème. N'attendez pas bêtement que le fournisseur de services vous réponde, utilisez d'abord les outils pour résoudre le problème vous-même :
Si vous constatez que les utilisateurs d'une zone particulière accèdent au site de manière anormale, il est probable qu'il y ait un problème au niveau du point POP local. Ne vous fiez pas au panneau de contrôle à ce stade - les pages d'état de certains fournisseurs diront toujours “tout va bien”, ce qui est moins fiable qu'une prévision météorologique.
J'ai subi une perte l'année dernière avec 08Host. Leur page d'état était toute verte, mais en fait le nœud de la Chine du Sud était en panne depuis une demi-heure. J'ai alors appris à être intelligent et j'ai utilisé UptimeRobot pour mettre en place plus de 20 points de surveillance, ce qui est plus sensible que la propre surveillance du fournisseur de services.
La procédure d'or après la découverte d'une anomalie dans un nœud : activer immédiatement le nœud de secours ! Un CDN fiable devrait prendre en charge l'équilibrage de la charge entre plusieurs nœuds. Dans notre pratique, le trafic habituel est dirigé vers le nœud principal et bascule automatiquement vers le nœud de secours lorsque des anomalies sont détectées. Laissez-moi vous montrer une configuration réelle :
Faites attention au paramètre BACKUP - c'est la dernière ligne de défense. Si tous les nœuds du réseau de distribution de contenu (CDN) tombent en panne, le trafic sera renvoyé vers votre propre serveur. Il ne sera peut-être pas en mesure de supporter un trafic important, mais il permettra au moins d'éviter que l'entreprise ne s'arrête complètement.
Le changement de nœud n'est qu'une solution d'urgence, le problème fondamental étant toujours de trouver le fournisseur de services. Mais la manière de communiquer a ses propres règles. Ne vous contentez pas de dire “votre nœud est bloqué”, les ingénieurs sont très agacés par ce genre de description vague. Préparez un modèle de rapport d'incident, chaque fois qu'il est directement jeté par-dessus bord :
Je l'ai testé et j'ai constaté que si vous transmettez les données au service clientèle, la vitesse de traitement peut être plus de trois fois supérieure. La semaine dernière, CDN07 a résolu le problème en 18 minutes seulement, parce que ses ingénieurs ont examiné les données pour localiser directement le problème du lien de peering de Shanghai Mobile.
Les solutions à long terme doivent commencer dès le début de la sélection pour éviter les risques. Pour choisir un CDN, je dois maintenant examiner trois indicateurs : la redondance des nœuds (au moins 2 nœuds disponibles dans chaque région), le nombre de liens BGP (pour déterminer les capacités d'optimisation des routes), la capacité de nettoyage (ne pas croire à la valeur théorique, mais voir les performances de l'attaque réelle).
08Host a fait du bon travail dans ce domaine, en déployant plus de 3 nœuds dans chaque région et en utilisant différents fournisseurs de salles de serveurs pour les différents nœuds. Même si une salle de serveurs a un problème, les autres nœuds peuvent toujours être couverts. Bien que le prix soit plus élevé, il est beaucoup plus rentable que la perte d'un temps d'arrêt de l'activité.
Voici un autre conseil : effectuez régulièrement des exercices de simulation de défaillance. Chaque mois, choisissez une période de faible affluence, simulez manuellement la défaillance d'un nœud et vérifiez que le processus de basculement se déroule sans heurts. N'attendez pas que quelque chose se passe mal pour découvrir que le nœud de secours est configuré avec le mauvais certificat SSL - j'ai vu ce genre d'erreur de bas niveau plus d'une fois.
Enfin, un fait indéniable : il n'existe pas de CDN 100% stable. Les CDN puissants comme Cloudflare connaissent également des temps d'arrêt. La clé est de disposer d'un système complet de reprise après sinistre. Nous déployons actuellement une architecture à trois niveaux : CDN5 pour l'accélération frontale et la prévention des attaques DDoS, CDN07 pour l'équilibrage global de la charge, et enfin 08Host comme solution de secours. Bien que le coût soit un peu plus élevé, au cours des deux dernières années, nous n'avons jamais subi d'interruption d'activité due à des problèmes de CDN.
N'oubliez pas qu'un CDN à haute défense ne consiste pas simplement à acheter un service et à s'en contenter. Il faut surveiller en permanence, tester régulièrement et établir des plans d'urgence. Ceux qui disent “achetez un CDN à haute défense pour être tranquille” sont soit stupides, soit mauvais. La sécurité des réseaux est censée être une guerre d'attaque et de défense, les nœuds stables d'aujourd'hui peuvent s'effondrer demain, il faut rester vigilant plus que tout.
La prochaine fois que vous rencontrerez un nœud qui pompe, prenez d'abord une grande respiration, puis suivez ce processus : surveillance et positionnement → commutation des nœuds → collecte de données → contact avec les fournisseurs. Ne soyez pas pressé de changer aveuglément la configuration, une fois que mon collègue a glissé et a coupé tout le trafic vers le nœud en attente, les résultats de ce nœud ne sont pas configurés pour protéger les règles, directement brossé 500G trafic ...... c'est le vrai désastre.
Vérifiez la configuration de votre CDN. Une commutation automatique a-t-elle été mise en place ? Les nœuds de sauvegarde ont-ils été testés ? Les conditions de l'accord de niveau de service du fournisseur de services ont-elles été lues et comprises ? Ces devoirs ne sont généralement pas faits, il se passe quelque chose, vous ne pouvez que vous agenouiller et supplier.

