À trois heures du matin, ce jour-là, le téléphone portable du support technique a été coupé - non pas parce qu'il a été attaqué, mais parce que les joueurs se sont plaints collectivement d'être bloqués dans le PPT. Le patron a directement déversé une capture d'écran du retard du backend dans le groupe : "Si vous ne pouvez pas le refaire, tout le personnel ira dans la salle informatique du Xinjiang pour être administrateur réseau !
Les gens de l'industrie des échecs savent que le CDN à haute défense, c'est comme porter un gilet pare-balles pour le serveur, mais que le gilet est trop lourd pour que l'utilisateur puisse le porter. J'ai vu trop d'équipes dépenser de l'argent pour acheter des téraoctets de protection, et en conséquence, les joueurs désinstallent directement le jeu à cause de la lenteur du chargement. La vitesse et la protection ne sont pas du tout un choix unique, la clé est de voir comment vous réglez le CDN.
Le goulot d'étranglement de la vitesse n'est jamais dans la bande passante, mais dans les "routes invisibles".La première fois que nous avons dépanné un utilisateur d'Asie du Sud-Est, nous avons constaté que le trafic contournait les États-Unis avant de revenir à la source. Une fois, nous avons vérifié l'encombrement des utilisateurs d'Asie du Sud-Est et constaté que le trafic contournait en fait les États-Unis avant de revenir à la source. Plus tard, nous avons utilisé traceroute pour capturer des paquets et nous avons découvert que le "routage intelligent" d'un fournisseur de CDN n'était qu'un retard artificiel - le nœud se trouve manifestement à Hong Kong, mais la table de routage pointe vers l'Europe.
Commençons par une conclusion contre-intuitive :Un nombre élevé de nœuds n'est pas synonyme de vitesse. Certains fournisseurs se vantent d'avoir plus de 500 nœuds dans le monde, mais les nœuds en périphérie peuvent être remplis de machines virtuelles pour compenser les chiffres. J'ai testé les nœuds CDN5 et CDN07 dans la même région, la même salle de serveurs à Tokyo, la latence CDN5 est stable à 80ms, CDN07 fluctue à 200ms+. Plus tard, j'ai découvert que le nœud de CDN07 partage la bande passante, le pic du soir est directement pris en charge par la prochaine plateforme en direct pour s'emparer de toutes les ressources.
Un véritable "accès de proximité" doit répondre à trois niveaux de correspondance :Distance physique → hiérarchie du réseau → caractéristiques du service. Le trafic des échecs est généralement constitué de petits paquets à haute fréquence, ce qui est exactement l'inverse des transferts de gros paquets pour la vidéo. Si vous appliquez simplement un CDN générique, le réglage de la fenêtre TCP est erroné.
Il s'agit d'une solution d'optimisation du routage que nous avons réalisée pour une plateforme de Texas Hold'em :
Les algorithmes seuls ne suffisent pas, ils doivent être étayés par des données réelles. Nous avons mis en place un réseau mondial de surveillance ping pour tester la qualité de chaque nœud vers les trois principaux opérateurs toutes les cinq minutes. L'année dernière, à cause de la gigue du réseau fédérateur d'un opérateur, nous avons perdu 20% d'activité quotidienne.
C'est la stratégie de mise en cache qui est l'arme fatale de l'optimisation de la vitesse.. Mais les gens de 90% ne peuvent tout simplement pas définir les bonnes règles de mise en cache - soit l'interface dynamique est mise en cache, ce qui entraîne un mauvais placement des données, soit ce qui devrait être mis en cache ne l'est pas. J'ai vu le cas le plus scandaleux : une plateforme a mis en cache l'interface /user/info pendant une heure, et le joueur a gagné de l'or et a rafraîchi la page pour découvrir qu'elle était vide...
Les ressources échiquéennes doivent être mises en cache à trois niveaux :
Dans la pratique, la configuration du cache peut s'écrire comme suit :
N'oubliez pas les stratégies de mise en cache côté client ! Nous avions activé la compression Brotli sur le node de 08Host, et le volume du fichier js seul a été réduit de 70%, et le temps de chargement est passé directement de 4s à 1,2s.
Le réglage du protocole TCP est le buff caché.. La plupart des fournisseurs de CDN utilisent des paramètres TCP par défaut qui ne sont tout simplement pas adaptés aux scénarios d'échecs. Par exemple :
Un jour, un client a insisté pour utiliser un grand CDN international, mais le lecteur est toujours déconnecté et reconnecté. Plus tard, la capture de paquets a révélé que le paramètre de temporisation TCP était trop agressif, avec une perte de paquets de 20% lors de la déconnexion. Après être passé à la retransmission adaptative, la tolérance de perte de paquets a été portée à 35%, et l'expérience s'est immédiatement déroulée sans heurts.
C'est ce que l'on appelle devoir cracher :De nos jours, même les CDN doivent être "à l'épreuve des coéquipiers".. Certains fournisseurs, afin de réduire les coûts, envoient votre trafic vers des salles de serveurs bon marché. Nous avons rencontré l'opération sordide suivante : "Utilisateurs de Pékin → nœud de Tianjin → station source de Heilongjiang", puis nous avons écrit directement dans le contrat "Interdire la programmation interprovinciale".
Le routage intelligent CDN5 est vraiment fiable, en particulier pour l'optimisation des lignes en Asie du Sud-Est, mais le prix est deux fois plus élevé que celui d'un CDN ordinaire.CDN07 La performance du cache est étonnante, une fois qu'il a porté une étoile, l'impact du trafic est cent fois plus important.08 L'hébergeur est le plus rentable, les nœuds nationaux couvrent les villes de troisième rang, ce qui convient aux équipes dont le budget est limité.
Enfin, j'exposerai une théorie de la tempête :L'optimisation sans contrôle relève de la métaphysique. Un système de surveillance de toutes les liaisons doit être mis en place :
Le tableau de contrôle que nous avons développé nous-mêmes est directement connecté au système d'alarme, et tout retard de nœud dépassant le seuil est automatiquement basculé. Il est arrivé qu'un câble de fibre optique se rompe quelque part, et avant que l'utilisateur ne puisse donner son avis, le trafic avait déjà été envoyé au nœud de secours.
L'optimisation de la vitesse est un sujet constant. La semaine dernière, le remplacement de TCP par le protocole QUIC a permis de réduire la latence de 151 TP3T supplémentaires.Ce qui compte vraiment, c'est la recherche ultime de l'expérience de l'utilisateur--Après tout, les joueurs se moquent de la technologie que vous utilisez, ils veulent juste s'emparer des propriétaires et jouer au mahjong en douceur.
(Après avoir écrit ceci et regardé le grand écran de surveillance, le temps de latence du nœud global est tout vert pour le moment, je peux donc enfin dormir une nuit entière - jusqu'à ce que la prochaine attaque de piratage commence).

