
Índice
- Introducción
- Resumen ejecutivo del incidente
- Cronología de la caída (20 de octubre de 2025)
- Causa técnica (evaluación probable)
- Servicios de AWS afectados
- Impacto por país: Ecuador, México, Colombia
- Aplicaciones y plataformas afectadas a nivel global
- Consecuencias operativas y económicas
- Medidas de mitigación y recomendaciones para empresas
- Reacciones oficiales y estado de recuperación
- Fuentes y verificación
Introducción
Este lunes 20 de octubre de 2025, Amazon Web Services (AWS) sufrió una interrupción de gran alcance que dejó fuera de servicio múltiples plataformas, aplicaciones y servicios críticos en varias regiones del mundo. El impacto se extendió desde servicios de infraestructura (compute, almacenamiento y DNS) hasta aplicaciones de consumo y servicios bancarios en países de Latinoamérica.
Resumen ejecutivo del incidente
- Alcance: Interrupciones transcontinentales que afectaron tanto regiones de AWS como servicios globales que dependen de su infraestructura.
- Duración: Interrupciones principales en la mañana y primeras horas de la tarde (varió por servicio y región).
- Afectados: Proveedores de servicios financieros, aplicaciones de mensajería, plataformas de streaming, juegos en línea y servicios empresariales.
- Estado: AWS confirmó trabajos de recuperación y degradado de tráfico a rutas alternativas mientras investigaba la raíz del problema.
Cronología de la caída (20 de octubre de 2025)
- 08:30 UTC: Primeros reportes de latencia y errores en endpoints de usuarios finales.
- 09:00 UTC: Incremento súbito de errores 5xx en múltiples servicios dependientes de AWS.
- 09:30–11:00 UTC: Interrupciones masivas reportadas por grandes aplicaciones y bancos; picos en reportes de usuario.
- 11:30–15:00 UTC: AWS despliega mitigaciones; algunos servicios comienzan a recuperar disponibilidad parcial.
- 15:00 UTC en adelante: Recuperación progresiva, con monitoreo continuo y análisis forense en curso.
Causa técnica (evaluación probable)
- Vector inicial: Falla localizada en un centro de datos o en un plano de control que gestiona un conjunto crítico de servicios de infraestructura, provocando cascadas por dependencias internas.
- Factores contribuyentes: fallas en balanceadores de carga, problemas de replicación de control plane, congestión o errores en servicios de DNS gestionados por AWS, y colapso temporal de rutas internas que impidieron el failover automático completo.
- Nota técnica: la naturaleza interdependiente de servicios como IAM, Route 53 y control planes de regiones puede convertir una degradación localizada en un evento de impacto global cuando ocurre durante ventanas de alto tráfico.
Servicios de AWS afectados
Los siguientes servicios mostraron degradación, errores o indisponibilidad según reportes de operadores y empresas afectadas:
- Amazon EC2 (instancias virtuales)
- Amazon S3 (almacenamiento de objetos)
- Amazon RDS (bases de datos relacionales)
- Amazon DynamoDB (base NoSQL)
- AWS Lambda (funciones serverless)
- Amazon CloudFront (CDN)
- Amazon Route 53 (DNS)
- AWS Identity and Access Management (IAM)
- Elastic Load Balancing (ELB)
- AWS API Gateway
Impacto por país: Ecuador, México, Colombia
Ecuador
- Banca y fintech: Interrupciones en aplicaciones móviles y portales web de bancos que subcontratan infraestructura en AWS; reportes de imposibilidad de iniciar sesión y bloquear transacciones online temporalmente.
- Proveedores de pago: Pasarelas de pago y servicios de transferencia electrónica sufrieron fallos intermitentes, retrasando cobros y acreditaciones.
- Gobierno y servicios públicos: Sistemas de consulta ciudadana y trámites con componentes en la nube reportaron latencia elevada.
México
- Servicios de consumo masivo: Aplicaciones de mensajería y entretenimiento (streaming y juegos) mostraron caídas parciales que afectaron la experiencia de millones de usuarios.
- Comercio electrónico: Picos de errores en tiendas online que usan infraestructura en AWS derivaron en carritos no procesados y reintentos masivos.
- Banca: Instituciones con arquitectura híbrida presentaron degradación en servicios Móvil/Online Banking durante las horas pico.
Colombia
- Bancos y neobancos: Reportes de indisponibilidad y errores al autenticar y procesar transacciones en apps populares; plataformas como apps de pago móvil tuvieron interrupciones parciales.
- Empresas tecnológicas: Startups y plataformas locales que dependen de servicios serverless experimentaron fallos operativos e interrupciones en pipelines de datos.
- Impacto regional: Usuarios en ciudades principales (Bogotá, Medellín, Cali) reportaron problemas sincronizados en servicios cotidianos.
Aplicaciones y plataformas afectadas a nivel global
- Marketplaces y e-commerce que usan AWS para hosting y CDN.
- Plataformas de streaming y videojuegos con servidores frontales o servicios auxiliares en AWS.
- Apps de mensajería y redes sociales con componentes en la nube.
- Servicios financieros y exchanges de criptomonedas que dependen de baja latencia y disponibilidad.
Ejemplos reportados por usuarios y empresas durante el incidente: tiendas digitales, plataformas de juegos multijugador, apps de pago y transfers, servicios de video bajo demanda y herramientas colaborativas empresariales.
Consecuencias operativas y económicas
- Pérdida de ingresos por tiempo de inactividad para tiendas y plataformas que facturan por hora/por transacción.
- Costos de recuperación y conmutación por error para equipos de SRE y operaciones.
- Pérdida de confianza temporal en disponibilidad de servicios en la nube por parte de clientes empresariales; discusión acelerada sobre estrategias multi-cloud y redundancia.
Medidas de mitigación y recomendaciones para empresas
- Arquitectura: implementar estrategias multi-AZ y multi-region; evaluar multi-cloud para servicios críticos.
- Resiliencia: diseñar degradación controlada (graceful degradation) para funcionalidades no esenciales.
- DNS y tráfico: tener planes de contingencia para DNS, enrutamiento alternativo y caches locales.
- Backups y réplica: validar RTO/RPO y pruebas regulares de recuperación en diferentes regiones.
- Observabilidad: mejorar monitoreo end-to-end y establecer playbooks automatizados para conmutación por error.
- Comunicación: preparar canales de comunicación con clientes y empleados para informarlos durante incidentes.
Reacciones oficiales y estado de recuperación
- AWS: despliegue de equipos de ingeniería en el plano de control y mitigaciones temporales para estabilizar servicios; comunicación pública con actualizaciones del estado de servicios.
- Empresas afectadas: comunicados informando trabajos de recuperación y activación de planes de contingencia.
- Reguladores y gobiernos: supervisión de impactos críticos en servicios financieros y sistemas esenciales.
Fuentes y verificación
Fuentes recopiladas de reportes periodísticos y comunicados de empresas tecnológicas y financieras en la jornada del 20 de octubre de 2025: El Heraldo, Eje Central, Meristation, Emol, El Universal, Euronews y comunicados de empresas afectadas.
¿Deseas comentar cómo te afectó esta falla de AWS en tu rutina diaria?
✅ ¿Te gustó este contenido?
📢 Regístrate aquí y síguenos para más actualizaciones sobre ciberseguridad y tecnología empresarial.