La caída del data center de Microsoft en Sidney
Y el intento de recuperación del servicio tras una pérdida momentánea de la alimentación con una afección especial sobre los sistemas de clima.
En nuestro anterior artículo sobre caídas de data center, dedicamos unas líneas a la sucedida en la ciudad de Lincoln (Nebraska). En concreto, en el centro que da cobertura al servicio de emergencia en su relación con un asunto recurrente como es el del incendio como origen de este tipo de sucesos y, en particular, el del agua como agente agitador del incendio, en su contacto con los sistemas eléctricos, especialmente las baterías.
En este nuevo suceso, cambiamos de tercio, para hablar del que tuvo lugar en fechas muy próximas a las de aquél y que tiene que ver con otro tema, también bastante recurrente, como es el de la recuperación del servicio tras una pérdida momentánea de la alimentación con una afección especial sobre los sistemas de clima.
Y es que, en el centro en cuestión, a raíz de una alteración en la alimentación eléctrica, fruto de una tormenta y la inmediata caída de los sistemas de clima, al recuperarse el suministro sólo pudo reiniciarse una de las enfriadoras de las 7 existentes en el lugar (5 en funcionamiento y 2 de respaldo).
La recuperación del cooling tras un paso por cero de su alimentación es un asunto delicado que nos ocupa bastante durante las pruebas y ensayos de integración y que debe encontrase perfectamente ensayada en cada instalación en función de las características de los equipos empleados y de la tecnología inherente a cada uno de ellos.
Entendemos, por la explicación que se ha ofrecido, que la tormenta no trajo consigo sobretensiones que pudiesen afectar permanentemente a los equipos, lo cual conduciría el análisis hacia otro frente bien distinto, sino que el problema ha radicado exclusivamente en el procedimiento de re-arranque de los chillers y, en particular, en la realimentación de sus bombas. A ello, se añade el comentario de la propiedad en el sentido de reconocer que la presencia de personal técnico capacitado para atender una eventualidad como la que se presentó era más bien escasa (3 personas del turno de noche) y que esa dotación era insuficiente para proceder, en tiempo, al necesario reinicio del sistema.
Como siempre en estos casos, las escenas siguientes de esta película, presentan un lugar común, con la desconexión progresiva de equipos por temperatura.
Independientemente de las explicaciones que la compañía pueda seguir ofreciendo y de los análisis en profundidad que puedan estarse desarrollando junto al proveedor de los equipos, lo que sí queda de manifiesto en estos casos es una ausencia, bastante general, de ensayos específicos sobre escenarios que son la base del funcionamiento global de un centro de datos y, de la reposición de toda la capacidad de enfriamiento tras un corte es uno de los principales.