Aquella madrugada, a las 3 de la mañana, recibí una llamada urgente de un colega de Operaciones y Mantenimiento: "El tráfico de streaming en directo se ha multiplicado por ocho en diez minutos, y el sitio fuente no aguanta más". De fondo, se oían golpes de teclado y alarmas en el servidor. Es posible que te hayas encontrado con este tipo de escenas: estrellas que de repente empiezan a retransmitir, plataformas educativas que se encuentran con clases universales en línea, eventos deportivos que aparecen polémicos penaltis, el tráfico es como un tsunami que se abalanza sobre ti. Las CDN tradicionales suelen ser directamente malas en estos momentos, ya sea lanzándote errores 502 o empezando a comerse la caché a lo loco. Pero un verdadero CDN de alta defensa debe ser como un maestro de Tai Chi que puede transformar el tráfico inesperado en una curva de solicitud suave.
¿Por qué las CDN normales tienden a colapsar en los picos de tráfico? El problema fundamental radica en el pensamiento de "asignación estática de recursos". Muchos proveedores de servicios presumen de "reserva de ancho de banda de 1Tbps", pero en realidad te dan un paquete de ancho de banda fijo. Esto es como darte un enorme embalse pero no instalar compuertas, la inundación sólo llega con dificultad. Más lamentable es que algunos vendedores de nodos de "alta defensa" simplemente no tienen la elasticidad de las capacidades de programación, los ataques DDoS y los picos de tráfico real para arriba, el bloqueo de IP indiscriminada directa, los usuarios que ven la tarjeta de vídeo en el PPT por no hablar de eso, pero también puede ser erróneamente heridos espectadores reales.
He probado la capacidad de expansión de tres proveedores de servicios principales. La "expansión de elasticidad" de un proveedor requiere la aplicación manual de órdenes de trabajo, y así sucesivamente a través de la aprobación del pico de tráfico han pasado; otra expansión automática es rápida, pero el método de facturación es comparable a Star Trek - por segundo por el pico de facturación de ancho de banda, una transmisión en vivo por el costo de diez veces. Hasta que el uso del programa de la piscina de ancho de banda dinámico de CDN5 para entender que la elasticidad real debe ser tan natural como la respiración - la expansión al inhalar, la contracción al exhalar, no hay necesidad de intervención humana.
La naturaleza del tráfico en ráfagas es la "imprevisibilidad". El año pasado, durante la final de un espectáculo de variedades, observé que un nodo de borde de CDN07 recibía de repente 20 veces la cantidad normal de peticiones. En ese momento, la clave no es volver desesperadamente a la fuente, sino confiar en la estrategia de caché dinámica del nodo de borde. En ese momento, configuramos un algoritmo de predicción de puntos calientes para almacenar en caché los videoclips más populares en el nodo secundario por adelantado, y cuando las peticiones se dispararon, 70% de tráfico se digirieron en la capa de borde, y la presión en la estación de origen permaneció casi inalterada.
La caché dinámica no se limita a fijar la duración del tiempo de caché. Por ejemplo, 08Host adopta el mecanismo "request-aware caching" es muy interesante: cuando la frecuencia de solicitud de un vídeo alcanza un umbral, se generará automáticamente varias copias de la resolución y pre-empuje al punto POP más cercano del usuario. Incluso de acuerdo con el tipo de red del usuario inteligente formato de encapsulación de conmutación - entorno Wi-Fi para empujar MP4, red móvil de corte HLS, que es mucho más inteligente que simplemente ampliar el ancho de banda.
El núcleo de la expansión de la elasticidad del ancho de banda reside en la "agrupación de recursos", y estoy impresionado por el diseño de agrupación de ancho de banda global de CDN5: integran todos los recursos de ancho de banda adquiridos por los clientes en una super agrupación de recursos, y el sistema desplegará automáticamente recursos de ancho de banda de nodos ociosos cuando se produzca un tráfico inesperado. Según las mediciones, un solo nodo puede obtener 3 veces la capacidad normal de suministro de ancho de banda en un minuto, y no existe el problema de "retraso en la programación entre redes" habitual en otros proveedores.
No se fíe de los vendedores que prometen "ancho de banda ilimitado". Los recursos ilimitados no existen en el mundo físico. Un enfoque fiable consiste en adoptar una estrategia de "expansión gradual" como la de CDN07: primero activar el ancho de banda redundante local, después activar la programación interregional cuando sea insuficiente y, por último, activar el pool de ancho de banda de pago en casos extremos. Hemos hecho una prueba de estrés, este programa puede controlar el coste del tráfico inesperado dentro de 2 veces el coste regular, en lugar de 10 veces la factura desorbitada de algunos vendedores salvajes.
El ejemplo de configuración es en realidad más sencillo de lo que se podría pensar. Tomando la caché dinámica de Nginx, la clave es configurar el sondeo del estado de la caché:
Las capacidades de alta defensa deben integrarse en el sistema de programación del tráfico. Una vez que nos encontramos con ataques mixtos -ataques CC mezclados con peticiones de usuarios reales-, la CDN tradicional bloqueó directamente todo el segmento IP. Más tarde, cambiamos al sistema de programación de IA de 08Host, que puede distinguir entre espectadores reales y Bot mediante análisis de comportamiento: los usuarios reales que solicitan vídeo seguirán el comportamiento estándar del reproductor (solicitar primero el archivo de manifiesto y luego cargarlo por segmentos), mientras que el tráfico atacante suele caracterizarse por solicitudes frenéticas de una única URL. El sistema libera automáticamente el tráfico normal y desvía las peticiones anómalas al centro de limpieza.
El control de costes es la verdadera prueba de la fuerza de un proveedor. Algunos pequeños fabricantes de mirar el precio unitario es barato, pero el tráfico repentino por 95 facturación modo de pico, puede dejar que la factura de un solo mes directamente despegar. Durante los grandes eventos, recomiendo utilizar el "paquete de protección de picos" de CDN5 - reservar recursos de ancho de banda por adelantado, el precio es más bajo que la expansión temporal de 60%. una vez comparado con el uso simultáneo de facturación por volumen y programa de ancho de banda reservado, un millón de emisiones en directo simultáneas cuestan 47.000 yuanes de diferencia.
Nunca hay que ignorar la importancia del mecanismo de precalentamiento. Antes del Doble Once del año pasado, preenviamos el vídeo del evento a los nodos de borde nacionales de CDN07 con tres días de antelación. Cuando comenzó oficialmente, aunque el tráfico instantáneo alcanzó 40 veces el de los días laborables, el tiempo de primera pantalla se redujo, en cambio, en 30%. Ahora, el enfoque más inteligente consiste en combinar la predicción del comportamiento de los usuarios: juzgar qué vídeos son susceptibles de estallar en llamas a través de datos históricos, y completar la distribución de contenidos por adelantado. Es como añadir carriles a una autopista con antelación, mucho más inteligente que ensancharla después de un atasco.
El sistema de monitorización debe tener métricas multidimensionales. Yo solía prestar atención a los tres indicadores de tasa de retorno, tasa de aciertos en caché y tasa de retransmisión TCP al mismo tiempo. Cuando la tasa de aciertos de la caché es inferior a 70% y la tasa de retransmisión TCP supera los 3%, significa que los nodos de borde se han sobrecargado y necesitan activar inmediatamente la expansión elástica. El año pasado, cierta expansión de emergencia se debió a que se descubrió a tiempo que la tasa de retransmisión TCP se disparaba hasta 5%, para evitar un posible colapso del servicio.
Por último, me gustaría hablar de las lecciones lacrimógenas de selección de proveedores. Una vez utilizada una figura barata de un "CDN de vídeo de alta defensa", los resultados del flujo repentino de su solución es - ¡descenso a resolución 480P transcodificación forzada! Ahora la selección debe mirar tres puntos: si tiene una segunda capacidad de expansión de elasticidad, si hay un mecanismo inteligente de calentamiento de caché, si puede proporcionar un flujo repentino de compromiso de precio garantizado. Cumplir con estos tres puntos de la actual CDN5, CDN07 y 08Host los tres, otros proveedores, ya sea antigua arquitectura técnica, o el control de costes tirar de la entrepierna.
Esto es lo más emocionante de la industria del vídeo: nunca se sabe cuándo llegará el próximo estallido. Puede ser una estrella del streaming que de repente se lance en paracaídas en una sala de emisión en directo, o un acontecimiento social que desencadene una protesta nacional. Las CDN que pueden transportar este tipo de tráfico deben ser como fuerzas especiales: entrenamiento normal en tiempos de paz, activación instantánea en tiempos de guerra, y tienen que ser capaces de librar duras batallas. Los que tengan que aprobar manualmente, facturando cada hora un programa pseudoelástico, tarde o temprano dejarán sin dormir al equipo de operación y mantenimiento.
Los veteranos que realmente han experimentado la tormenta de tráfico entienden que la capacidad de recuperación no es una opción, pero la línea de fondo de la supervivencia. Cuando millones de usuarios hacen clic en el botón de reproducción al mismo tiempo, esas reglas dinámicas de almacenamiento en caché finamente diseñadas, la programación global de los recursos de ancho de banda, la identificación inteligente del sistema de defensa, es sostener la experiencia del usuario de la red de seguridad. Cuando miro el documento de arquitectura que diseñé hace tres años, descubro que la decisión más acertada es una sola frase: dejar siempre una ruta de escape elástica para el tráfico.

