La recuperación del fallo tecnológico global de CrowdStrike podría ser un proceso largo y arduo

PorRT en Español

Jul 19, 2024

(CNN) — La compañía que causó una interrupción masiva de computadoras en todo el mundo dice que la actualización fallida fue revertida pero eso no necesariamente ayuda a las miles de empresas que se han visto afectadas por el fallo.

El problema del software CrowdStrike que causó el apagón afecta a un nivel tan profundo de los equipos y sistemas afectados que, en muchos casos, será un enorme desafío ponerlos en funcionamiento.

¿Qué es Crowdstrike, la empresa responsable del apagón global?

A esto se suma el hecho de que muchos de los servidores que pueden contener la información necesaria para que estos sistemas vuelvan a funcionar están atrapados en un ciclo de fallos y reinicios.

Y puede que ni siquiera sea fácil acceder a algunas de las computadoras afectadas, instaladas en ubicaciones remotas y pensadas para funcionar sin intervención humana.

“No creo que sea demasiado pronto para decirlo: este será el mayor apagón informático de la historia”, afirmó el experto en seguridad Troy Hunt en una publicación en X.

El software de CrowdStrike en cuestión opera en lo que se denomina el nivel del kernel de un equipo, un nivel mucho más profundo que el de las aplicaciones más comunes, como los navegadores o los videojuegos. Esta parte de un dispositivo tiene mucha más visibilidad y control sobre una computadora y sus componentes, por lo que es fundamental para el funcionamiento de todos los demás sistemas, y mucho más sensible.

En esta ilustración fotográfica se ve el logotipo de Crowdstrike en un teléfono inteligente. Mateusz Slodkowski/SOPA Images/LightRocket/Getty Images

Funcionar a nivel del kernel significa que el software de CrowdStrike puede hacer más para detectar ciberataques, pero también significa que el fallo actual está provocando que las computadoras que corren Windows se bloqueen en una pantalla azul de la muerte antes de que los usuarios puedan tomar ninguna medida para corregirlo.

El problema parece ser recuperable, según CrowdStrike, pero en muchos casos requiere un trabajo minucioso: un administrador debe acceder a cada dispositivo afectado y reiniciarlo manualmente en modo seguro. A continuación, el archivo de CrowdStrike defectuoso debe borrarse a mano.

Para las empresas con cientos o miles de portátiles, equipos de escritorio y servidores que ejecutan el software de seguridad de CrowdStrike, un humano individual puede tener que realizar ese proceso una y otra y otra vez.

“No se puede automatizar eso”, dijo Kevin Beaumont, investigador de seguridad y exanalista de amenazas de Microsoft, en un mensaje en X. “Así que esto va a ser increíblemente doloroso para los clientes de CrowdStrike”.

El viernes, una página de estado de Microsoft informó que algunos usuarios de Windows Virtual Machine se han recuperado con éxito del problema reiniciando repetidamente, en algunas situaciones hasta 15 veces seguidas.

“Hemos recibido comentarios de los clientes que indican que pueden ser necesarios varios reinicios (se han notificado hasta 15), pero la opinión general es que los reinicios son un paso eficaz para la solución de problemas en esta etapa”, dijo Microsoft en la página. La empresa no especuló sobre por qué la técnica parece funcionar.

Las organizaciones afectadas también pueden intentar restaurar sus máquinas a un estado anterior volviendo a una copia de seguridad del sistema anterior, añadió Microsoft, aunque reconoció que puede no ser posible en todos los casos.

“Las empresas que no han invertido en soluciones rápidas de copia de seguridad están atrapadas en un callejón sin salida”, dijo Eric O’Neill, experto en ciberseguridad y ex funcionario de contrainteligencia del FBI.

Alan Mai, especialista en ciberseguridad: “Fue uno de los apagones informáticos más grandes de la historia”

Y se pone peor.

Las organizaciones que se toman en serio la seguridad probablemente habrán cifrado los discos duros de los equipos, lo que dificulta aún más el acceso al archivo que debe eliminarse.

(Crédito: Getty Images)

Para esas organizaciones, “es necesario descifrar manualmente el disco con una clave de recuperación de BitLocker, que probablemente, para la mayoría de las empresas, está almacenada digitalmente en uno de los servidores que se está iniciando una y otra vez”, dijo Ira Bailey, un investigador de seguridad, en una publicación en BlueSky.

Cada equipo afectado que esté cifrado con BitLocker tendrá que ser desbloqueado con una clave de recuperación antes de que las organizaciones puedan iniciar el proceso de eliminación del archivo CrowdStrike dañado y restaurar el funcionamiento normal, dijo el experto en ciberseguridad que se hace llamar SwiftOnSecurity en una publicación en X.

La recuperación será enormemente costosa para las empresas de Fortune 500 con grandes equipos de personal informático y probablemente aún más difícil para las empresas más pequeñas, dijo a CNN Kenn White, un investigador de seguridad independiente especializado en seguridad de redes.

“Si no tienes personal físico que pueda tocarlo, a gran parte de las empresas estadounidenses les va a costar muchos, muchos días recuperarse”, dijo White. “Es simplemente una tonelada de trabajo manual intensivo”.

“Es un procedimiento bastante complicado para personas no técnicas”, añadió White, “e incluso a muchos profesionales de TI cualificados les resultará difícil hacerlo a la escala que se va a requerir dado el número de máquinas afectadas”.

Mira como la caída mundial de CrowdStrike colapsó el aeropuerto de Barajas en Madrid

¿Cómo pudo el fallo de CrowdStrike tener efectos tan generalizados?

Dado que el software de seguridad de CrowdStrike se ejecuta en innumerables equipos individuales de todo el mundo, la actualización que se envió a esos dispositivos hizo que todos se apagaran, prácticamente al mismo tiempo.

Y en la economía en red de hoy en día, una interrupción en una parte de la cadena de suministro puede causar efectos dominó en toda la cadena. Cuando se caen varias partes de una cadena de suministro, se desencadena una cascada de problemas.

Imaginemos a una persona que intenta comprar un café, explica Andrew Peck, experto en ciberseguridad de la Universidad británica de Loughborough. Lo que puede parecer una transacción sencilla depende de múltiples computadoras que trabajan en tándem, desde el punto de venta de la cafetería hasta los propios sistemas back-end del procesador de pagos.

“Hay muchas computadoras en esta cadena y, normalmente, cuanto mayor es el negocio, mayor es la cadena”, explica Peck. “Si alguna de las computadoras de la cadena no funciona, la transacción no se completará”.

Según O’Neill, ex agente de contrainteligencia del FBI, arreglar todas las computadoras afectadas podría requerir millones de horas de trabajo de los profesionales informáticos de las empresas. Sin embargo, dijo, es difícil hacer una estimación firme porque se desconoce cuántas computadoras se vieron afectadas.

Imaginemos algo como la enorme industria de la aviación, el crítico sector de los servicios financieros o las operaciones de vida o muerte de un proveedor de atención sanitaria, y el alcance del desastre se hace evidente.

Pasajeros hacen cola en el aeropuerto de Gatwick en medio de una interrupción global de TI causada por un defecto en una actualización de software el 19 de julio de 2024 en Crawley, Reino Unido. (Foto de Jack Taylor/Getty Images)

Ahora que mucha gente trabaja desde casa, los informáticos no pueden limitarse a ir de una mesa a otra para reparar las computadoras. En cambio, tendrán que comunicarse con cada empleado y explicarle el proceso a distancia.

“Esto agrava el problema”, afirma. “Algo que podría haberse arreglado en horas va a tardar días”.

Es posible que algunas máquinas afectadas apenas tengan personal de mantenimiento o estén situadas en zonas remotas. Otras pueden incluso no tener monitores o teclados conectados, porque no requieren regularmente que los humanos interactúen directamente con ellas.

Los ejemplos más extremos pueden incluir sensores de control meteorológico o dispositivos en cajas de señales ferroviarias, dijo Peck, lo que podría requerir que los técnicos visiten físicamente potencialmente cientos de miles de máquinas para llevar a cabo el proceso de recuperación.

La recuperación costará al mundo “miles de horas y millones, potencialmente miles de millones de dólares”, dijo Peck, lo que rápidamente se suma a “algunos equipos de soporte de TI muy agotados quemando presupuesto que no tenían”.

¿Cuál es el papel de Microsoft en todo esto?

Un problema separado más temprano, el jueves, llevó a impactos significativos en muchos de los propios clientes de nube de Microsoft, pero se resolvió durante la noche y no estaba relacionado con el problema de CrowdStrike, Microsoft y múltiples expertos en ciberseguridad dijeron a CNN.

El fallo de CrowdStrike puede haberse confundido inicialmente con el problema de Microsoft porque el error de CrowdStrike afectaba sólo a máquinas Windows.

“Ambos están relacionados con Microsoft, pero Microsoft no tuvo nada que ver con el segundo incidente”, dijo White a CNN.
Eso parece estar respaldado por la propia cuenta de estado de Microsoft en X, que el jueves anunció un problema que afectaba a “aplicaciones y servicios de Microsoft 365” y un anuncio separado el viernes que abordaba la interrupción de CrowdStrike. Los dos problemas están siendo rastreados utilizando diferentes números de referencia.

¿Qué pasó con Microsoft en la caída global informática y qué causó el fallo?

En la mañana del viernes, Microsoft dijo que el problema con Microsoft 365 se había resuelto y que la situación estaba mejorando.

“El problema en curso de CrowdStrike no está relacionado con una interrupción anterior en la región central de Azure de Estados Unidos el 18 de julio, que afectó a los clientes de Azure que utilizan esa región, así como algunos servicios de Microsoft 365”, dijo Microsoft.

El CEO de Microsoft, Satya Nadella, reconoció el problema de CrowdStrike en un post en X el viernes por la mañana, diciendo que Microsoft está “trabajando estrechamente con CrowdStrike y en toda la industria para proporcionar a los clientes orientación técnica y apoyo para que sus sistemas vuelvan a estar en línea de forma segura”.

Dado que la actualización del software de CrowdStrike fue entregada por los propios sistemas de la compañía, parece poco probable que Microsoft tenga responsabilidad directa en los cortes del viernes, dijo Beaumont, quien dijo que revisó una copia de la actualización defectuosa de CrowdStrike.

El problema con la actualización de CrowdStrike era que no estaba formateada correctamente “y hace que Windows se bloquee cada vez”, publicó Beaumont en X.