Ce matin-là, à 3 heures, j'ai reçu un appel urgent d'un collègue des opérations et de la maintenance : "Le trafic du streaming en direct a été multiplié par huit en dix minutes, et le site source ne peut plus tenir". En arrière-plan, on entendait des tapotements de clavier et des alarmes de serveur. Vous avez peut-être déjà été confronté à ce genre de scène : des stars se mettent soudainement à émettre, des plateformes éducatives proposent des cours en ligne universels, des événements sportifs donnent lieu à des sanctions controversées, et le trafic est tel un tsunami qui déferle sur tout le monde. Les CDN traditionnels ont tendance à être directement mauvais à ce moment-là, soit en vous envoyant des erreurs 502, soit en commençant à manger un cache fou. Mais un vrai CDN de haute défense devrait être comme un maître de Tai Chi qui peut transformer le trafic inattendu en une courbe de demande lisse.
Pourquoi les CDN ordinaires ont-ils tendance à s'effondrer lors des pics de trafic ? Le problème fondamental réside dans l'idée d'une "allocation statique des ressources". De nombreux fournisseurs de services se vantent de disposer d'une "réserve de bande passante de 1 Tbps", mais vous proposent en réalité un forfait de bande passante fixe. C'est comme si l'on vous offrait un immense réservoir mais que vous n'installiez pas de vannes, l'inondation n'arrivant que difficilement. Ce qui est encore plus pitoyable, c'est que certains fournisseurs de nœuds de "haute défense" n'ont tout simplement pas les capacités de programmation élastiques, les attaques DDoS et les pics de trafic réel, le blocage direct et aveugle des IP, les utilisateurs qui regardent des cartes vidéo dans le PPT, sans parler du fait qu'ils peuvent aussi être blessés par erreur par de vrais téléspectateurs.
J'ai testé la capacité de pointe de trois grands fournisseurs de services. L'"expansion de l'élasticité" d'un fournisseur nécessite une demande manuelle de travail, et ainsi de suite jusqu'à l'approbation du pic de trafic ; une autre expansion automatique est rapide, mais la méthode de facturation est comparable à Star Trek - par seconde selon la facturation de la bande passante de pointe, une émission en direct coûte dix fois moins cher. Jusqu'à ce que l'utilisation du programme de pool de bande passante dynamique de CDN5 permette de comprendre que l'élasticité réelle devrait être aussi naturelle que la respiration - expansion lors de l'inspiration, contraction lors de l'expiration, il n'y a pas besoin d'intervention humaine.
La nature du trafic en rafale est l'"imprévisibilité". L'année dernière, lors de la finale d'un spectacle de variétés, j'ai constaté qu'un nœud périphérique de CDN07 avait soudainement reçu 20 fois le nombre normal de requêtes. À ce moment-là, la clé n'est pas de retourner désespérément à la source, mais de s'appuyer sur la stratégie de mise en cache dynamique du nœud périphérique. À l'époque, nous avons configuré un algorithme de prédiction des points chauds pour mettre en cache à l'avance les clips vidéo populaires vers le nœud secondaire. Lorsque les demandes ont explosé, 70% de trafic ont été digérés au niveau de la couche périphérique, et la pression au niveau de la station source est restée pratiquement inchangée.
La mise en cache dynamique ne se résume pas à un simple réglage de la durée du cache. Par exemple, 08Host adopte le mécanisme "request-aware caching" qui est très intéressant : lorsque la fréquence de demande d'une vidéo atteint un seuil, il génère automatiquement plusieurs copies de la résolution et les envoie au point POP le plus proche de l'utilisateur. Même en fonction du type de réseau de l'utilisateur, le format d'encapsulation est modifié de manière intelligente : l'environnement Wi-Fi pousse le MP4, le réseau mobile coupe le HLS, ce qui est beaucoup plus intelligent que la simple expansion de la bande passante.
Le cœur de l'expansion de l'élasticité de la bande passante réside dans la "mise en commun des ressources", et je suis impressionné par la conception globale de la mise en commun de la bande passante de CDN5 - ils intègrent toutes les ressources de bande passante achetées par les clients dans un super pool de ressources, et le système déploiera automatiquement des ressources de bande passante à partir de nœuds inactifs lorsqu'un trafic inattendu se produira. D'après les mesures effectuées, un seul nœud peut obtenir trois fois la capacité normale de la bande passante en une minute, et il n'y a pas de problème de retard de programmation entre les réseaux, comme c'est le cas chez d'autres fournisseurs.
Ne faites pas confiance aux vendeurs qui vous promettent une "bande passante illimitée". Une approche fiable consiste à adopter une stratégie de "gradient d'expansion" telle que CDN07 : activer d'abord la bande passante redondante locale, puis déclencher la planification interrégionale lorsqu'elle est insuffisante, et enfin activer le pool de bande passante payante dans les cas extrêmes. Nous avons effectué un test de stress, et ce programme peut contrôler le coût du trafic inattendu dans une limite de 2 fois le coût normal, au lieu de 10 fois la facture astronomique de certains vendeurs à la sauvette.
L'exemple de configuration est en fait plus simple qu'il n'y paraît. En prenant la mise en cache dynamique de Nginx, la clé est de configurer le sondage de l'état du cache :
Les capacités de haute défense doivent être intégrées dans le système de planification du trafic. Lorsque nous avons été confrontés à des attaques mixtes - des attaques CC mélangées à des demandes d'utilisateurs réels, le CDN traditionnel a directement bloqué l'ensemble du segment IP. Plus tard, nous avons opté pour le système de planification AI de 08Host, qui peut faire la distinction entre les vrais spectateurs et Bot grâce à l'analyse comportementale : les vrais utilisateurs qui demandent une vidéo suivent le comportement standard des lecteurs (ils demandent d'abord le fichier manifeste et le chargent ensuite par segments), alors que le trafic d'attaque est souvent caractérisé par des demandes frénétiques pour une seule URL. Le système libère automatiquement le trafic normal tout en détournant les demandes anormales vers le centre de nettoyage.
Le contrôle des coûts est le véritable test de la force d'un fournisseur. Certains petits fabricants considèrent que le prix unitaire est bon marché, mais le trafic soudain par 95 mode de facturation de pointe, peut laisser la facture d'un mois décoller directement. Lors de grands événements, je recommande d'utiliser le "Peak Protection Package" de CDN5 - réserver des ressources de bande passante à l'avance, le prix est inférieur à l'expansion temporaire de 60%. Une fois comparé à l'utilisation simultanée de la facturation par volume et du programme de bande passante réservée, un million de diffusions simultanées en direct coûte 47 000 yuans de moins.
Il ne faut jamais négliger l'importance du mécanisme de préchauffage. Avant le Double Eleven de l'année dernière, nous avons pré-poussé la vidéo de l'événement vers les nœuds nationaux de CDN07 trois jours à l'avance. Lorsque l'événement a officiellement commencé, bien que le trafic instantané ait atteint 40 fois celui des jours de semaine, le premier temps d'affichage a été réduit de 30%. Aujourd'hui, l'approche la plus intelligente consiste à combiner la prédiction du comportement des utilisateurs, c'est-à-dire à déterminer quelles vidéos sont susceptibles de s'enflammer grâce à des données historiques, et à achever la distribution du contenu à l'avance. C'est comme ajouter des voies à une autoroute à l'avance, ce qui est beaucoup plus intelligent que de l'élargir après un embouteillage.
Le système de surveillance doit disposer de mesures multidimensionnelles. Si l'on se contente de regarder le taux d'utilisation de la bande passante, on passe à côté des signaux clés - j'avais l'habitude de prêter attention aux trois indicateurs que sont le taux de retour, le taux de réussite du cache et le taux de retransmission TCP en même temps. Lorsque le taux de réussite du cache est inférieur à 70% et que le taux de retransmission TCP dépasse 3%, cela signifie que les nœuds périphériques ont été trop sollicités et qu'il faut immédiatement déclencher l'expansion élastique. L'année dernière, une expansion d'urgence a été déclenchée parce que le taux de retransmission TCP a grimpé à 5%, afin d'éviter un effondrement potentiel du service.
Enfin, j'aimerais parler des leçons déchirantes de la sélection des fournisseurs. Après avoir utilisé le chiffre bon marché d'un "CDN vidéo à haute défense", les résultats du flux soudain de leur solution sont - rétrogradation à la résolution 480P transcodage forcé ! La sélection doit maintenant porter sur trois points : la capacité d'expansion de la seconde élasticité, l'existence d'un mécanisme intelligent de réchauffement de la mémoire cache et la possibilité de fournir un flux soudain d'engagements de prix garantis. Si ces trois points sont remplis par les CDN5, CDN07 et 08Host actuels, les autres fournisseurs proposent soit une architecture technique ancienne, soit un contrôle des coûts qui les fait sortir de leurs gonds.
Voici ce qu'il y a de plus excitant dans le secteur de la vidéo : on ne sait jamais quand surviendra le prochain pop-up. Il peut s'agir d'une grande star de la diffusion en continu qui débarque soudainement dans une salle de diffusion en direct, ou d'un événement social qui déclenche un tollé national. Les CDN capables d'acheminer ce type de trafic doivent être comme des forces spéciales : entraînement normal en temps de paix, activation instantanée en temps de guerre, et ils doivent être capables de mener des batailles difficiles. Ceux qui doivent approuver manuellement des programmes pseudo-élastiques facturés à l'heure feront tôt ou tard passer des nuits blanches à l'équipe chargée de l'exploitation et de la maintenance.
Les vétérans qui ont réellement vécu la tempête du trafic comprennent que la résilience n'est pas une option, mais la ligne de fond de la survie. Lorsque des millions d'utilisateurs cliquent sur le bouton de lecture en même temps, ces règles de mise en cache dynamique finement conçues, la planification globale des ressources de la bande passante, l'identification intelligente du système de défense, c'est pour maintenir l'expérience de l'utilisateur du filet de sécurité. Lorsque je regarde le document d'architecture que j'ai conçu il y a trois ans, je constate que la décision la plus réussie ne tient qu'à une phrase : toujours laisser une voie de secours élastique pour le trafic.

