Cada día caducan miles de certificados SSL. En la mayoría de los casos, estos momentos aparentemente insignificantes pasan desapercibidos. Nuestros sitios web permanecen seguros, nuestros servidores siguen funcionando sin problemas y todo sigue como de costumbre.
Entonces ocurre. Otro certificado SSL caduca. Solo que esta vez, alguien olvidó renovarlo. ¿Qué sucede a continuación? En este blog, analizaremos por qué caducan los certificados, qué sucede cuando lo hacen y cómo responder eficazmente.
Los certificados SSL son un factor importante para proteger sitios web, aplicaciones y conexiones máquina a máquina, pero, debido a su uso generalizado, también son increíblemente difíciles de rastrear.
¿Por qué llevar un registro de los certificados? Todo se reduce a un evento: la caducidad del certificado.
Cada certificado SSL tiene una fecha de caducidad establecida. Solían durar hasta cinco años, luego dos. Ahora, los certificados emitidos públicamente solo son válidos por 398 días. A diferencia de su suscripción a Netflix, que se renueva automáticamente mientras disfruta de su contenido, los certificados SSL no se renuevan solos. Esa responsabilidad suele recaer en el equipo de PKI o de seguridad.

Si una organización utiliza solo un puñado de certificados, puede rastrearlos y renovarlos manualmente. Sin embargo, la realidad es que la mayoría de las empresas tienen miles y miles de certificados SSL. Llevar un registro de dónde residen estos certificados, quién los posee y cuándo caducan se vuelve extremadamente difícil de hacer manualmente a gran escala.
Entonces, ¿por qué tanto problema? ¿Por qué deben caducar los certificados? ¿Y qué sucede cuando lo hacen?
La importancia (y el riesgo) de la caducidad de los certificados
La caducidad de los certificados es algo positivo. Por la misma razón que renovamos nuestro pasaporte, identificación personal y contraseñas, los certificados tienen una fecha de caducidad y deben renovarse después de un período de validez establecido para garantizar que sean precisos, actualizados y confiables.
Los certificados con una vida útil más corta (90 días o menos) son más seguros y favorables en los entornos actuales de rápido cambio. Sin embargo, estos certificados de corta duración también aumentan la carga de trabajo de los equipos responsables de su emisión y renovación.
Las interrupciones ocurren cuando la caducidad de los certificados pasa desapercibida y los propietarios de sitios web olvidan renovar el certificado a tiempo, a pesar de múltiples correos electrónicos y mensajes de advertencia. La gravedad y el impacto de estas interrupciones de certificados pueden variar desde un único usuario que no puede acceder a Wi-Fi hasta una interrupción global de la red o del servicio que afecta a millones de clientes.
Para poner las cosas en perspectiva, Keyfactor lanzó recientemente un informe sobre el Estado de la Gestión de Identidades de Máquinas. En el informe, preguntamos a los encuestados con qué frecuencia experimentan interrupciones relacionadas con certificados y qué impacto tienen en su organización. Esto es lo que encontramos:
- El 88% de las empresas siguen experimentando interrupciones no planificadas debido a certificados caducados
- En promedio, experimentaron más de 3 interrupciones de certificados en los últimos dos años
- El 40% de los encuestados afirma que su organización tiene una alta probabilidad de experimentar más interrupciones
- El 59% de los encuestados afirma estar preocupado por el mayor riesgo de interrupciones debido a la menor vida útil de los certificados SSL/TLS

Un certificado caducado, una interrupción de Epic
Casi todas las empresas luchan con las interrupciones de certificados, pero muy pocas revelan cuándo o por qué ocurren. Eso fue hasta que Epic Games —creador de favoritos de los fans como Fortnite, Rocket League y Houseparty— experimentó una interrupción masiva debido (lo adivinó) a un certificado SSL caducado.
El 6 de abril de 2021, un certificado TLS wildcard caducó inesperadamente. Es vergonzoso cuando un certificado caduca, pero consideramos importante compartir nuestra historia aquí con la esperanza de que otros también puedan aprender de nuestra experiencia y mejorar sus sistemas. Si usted o su organización utilizan la monitorización de certificados, esto puede ser un buen recordatorio para verificar si hay deficiencias en esos sistemas.
Qué sucede cuando un certificado SSL caduca
En lugar de minimizar el incidente, Epic Games convirtió una mala situación en una lección aprendida al compartir un relato detallado de lo sucedido y cómo podría haberse evitado.
Aquí tiene un resumen rápido de la cronología del incidente:

- Vencimiento: A las 12:00 PM UTC, un certificado interno caducó. El certificado comodín caducado estaba instalado en cientos de servicios de backend, lo que provocó interrupciones generalizadas en Fortnite, Rocket League, Houseparty, Epic Online Services y Epic Games Store.
- Respuesta: Una vez que se inició su proceso de gestión de incidentes, sus equipos tardaron solo 12 minutos en descubrir que el certificado caducado era la causa del problema y en iniciar el proceso de renovación.
- Solución: A las 12:37 PM UTC, el certificado actualizado fue reemitido e implementado en sus servicios de backend durante los siguientes 15 minutos. En ese momento, tenían 25 personas directamente involucradas en la resolución del problema y muchas más mitigando incidencias en los servicios de Soporte al Jugador, Comunidad, Ingeniería y Producción.
- Consecuencias: Sus equipos lograron renovar el certificado y recuperar la mayoría de los servicios en el plazo de una hora. Sin embargo, la interrupción inicial expuso una serie de otros problemas en su infraestructura de TI, causando mayores interrupciones en Epic Games Launcher y Epic Games Store.
En total, Epic Games tardó casi cinco horas y media en recuperarse por completo. Lamentablemente, este no es un incidente aislado. Las caducidades de certificados han sido la causa de numerosas interrupciones recientes de alto perfil y larga duración, como las de Microsoft Teams, Azure AD o Google Voice.
Las causas raíz de las interrupciones de certificados SSL
Cada interrupción es diferente, pero los problemas subyacentes que las provocan son consistentemente los mismos: visibilidad limitada y falta de automatización. Este incidente no es una excepción…
Visibilidad limitada
Las zonas DNS para esta comunicación interna de servicio a servicio no fueron monitoreadas activamente por nuestros servicios de monitoreo de certificados, un descuido por nuestra parte.
El descubrimiento de certificados es una de las partes más importantes, si no la que más, de la gestión de certificados. Al fin y al cabo, no se puede renovar un certificado del que no se tiene conocimiento. Dicho esto, el 53% de las empresas aún no sabe exactamente cuántas claves y certificados (incluidos los autofirmados) poseen.
Falta de procesos y automatización
Las renovaciones automatizadas no estaban habilitadas para este certificado interno, y el trabajo necesario para lograrlo no se había priorizado cuando se identificó a principios de este año.
Para renovar un certificado, los propietarios de certificados suelen necesitar generar un nuevo CSR, certificarlo con una CA, instalarlo, verificar que esté activo y luego volver a la operación en vivo. Si estos procesos se gestionan manualmente, es casi imposible responder eficazmente cuando un certificado caduca de forma inesperada.
Certificados comodín
El certificado comodín de servicio a servicio utilizado estaba instalado en cientos de servicios de producción diferentes, y debido a esto, el impacto fue muy amplio.
Los certificados SSL comodín son convenientes, pero desde una perspectiva de seguridad, crean serios desafíos. Si la clave privada se ve comprometida o si se permite que el certificado caduque, el radio de impacto se multiplica por el número de servidores en los que está instalado.
La necesidad de automatización del ciclo de vida de los certificados
Lamentablemente, es demasiado fácil para los líderes de TI y seguridad ver las interrupciones de certificados como un evento inesperado, en lugar de un síntoma de un problema subyacente mucho mayor: los procesos de gestión de certificados manuales y ad hoc.
No es raro que las organizaciones dependan de una combinación de hojas de cálculo, interfaces de CA y herramientas propias para rastrear y gestionar sus certificados. De hecho, solo alrededor de un tercio (36%) de las empresas utiliza una solución dedicada de gestión del ciclo de vida de los certificados (CLM). Esto significa que la mayoría de las organizaciones siguen atrapadas en procesos manuales y aislados que no proporcionan la visibilidad que necesitan en su entorno de TI.

Una estrategia eficaz de gestión de certificados debe monitorear activamente cada certificado, permitir renovaciones automatizadas e implementación en cargas de trabajo y puntos finales, y limitar el uso de certificados desconocidos, autofirmados y comodín que aumentan el riesgo y el impacto de una interrupción.
Descubra por qué la automatización del ciclo de vida de los certificados es ahora una necesidad para el negocio digital. Obtenga información de más de 1100 profesionales de TI y seguridad en el primer informe sobre el Estado de la Gestión de Identidades de Máquinas y compártala con su equipo.
