Otra vez lo eléctrico en el ojo del huracán
La primera reacción de la Compañía fue disculparse ante sus clientes (We apologize for the current IT systems outage. We are working to resolve the problem as quickly as possible) y la explicación, un fallo en el suministro eléctrico. La promesa de recuperación del servicio, algo inquietante. ”Incluso aunque el servicio se restablezca rápidamente, lo que es muy incierto, los trastornos pueden durar varios días. El efecto es masivo”.
Estuve tentado de dar un primer pronóstico sobre el suceso, pero no lo hice de forma inmediata, ya que los datos eran muy escasos y las posibilidades de meter la pata muy altas. Ese vaticinio habría ido, sin duda, a apuntar hacia los sistemas de respaldo como causa última de la caída, para no desviarnos mucho del tema que ha supuesto un denominador común en las últimas grandes caídas de data centers.
Desde BA, para el lunes ya había una explicación algo más explícita, aunque bastante inverosímil.
"un aumento excepcional de energía" que fue tan fuerte que dejó invalidado el sistema de apoyo”
Han pasado sólo un par de días más, y parece que los datos ofrecen un poco más de información, aunque la Compañía sigue la investigación. Resulta que, además de la pérdida del suministro, parece que ha habido un daño material en un determinado número de servidores.
“La enorme falla en los sistemas informáticos que dejó sin poder viajar a 75.000 pasajeros de British Airways se produjo tras un daño en los servidores por un cortocircuito, dijo la aerolínea el miércoles
Si bien se produjo una falla de alimentación eléctrica en un centro de datos cerca del aeropuerto Heathrow de Londres, dijo la empresa, el daño en los sistemas informáticos se produjo por un fuerte aumento en la tensión una vez que se restableció la electricidad
No fue un problema informático, fue un problema de alimentación eléctrica.
Hubo una pérdida total de energía en el centro de datos y la energía regresó de manera incontrolada, causando daños físicos a los servidores informáticos”
Pues bien, al final es una pena que no escribiese el mismo sábado el pronóstico de los grupos de emergencia porque, al final, estos van a estar directamente implicados en el suceso.
La explicación del subidón de energía es muy periodística y no obedece a la realidad, como la mayoría de los comentarios expuestos, aunque no deja de tener algo de relación con el proceso.
Con las reservas oportunas por no tener verificadas las fuentes y por, obviamente, no conocer ni un pimiento de la instalación en cuestión, el proceso estaría por asegurar que se desarrolló de la forma siguiente:
- Pérdida de alimentación de red de Compañía por la razón que sea
- Alimentación de los equipos IT desde UPSs a la espera de la entrada del suministro de respaldo (grupos electrógenos)
- Suministro de respaldo de vacaciones
- Fin de la autonomía de las baterías de los UPSs
- Circuito de red establecido, aunque sin tensión, y conexión directa a cargas IT a través de los circuitos de bypass de los UPSs
- Vuelta de red con una sucesión de frentes de onda asociados a sobretensiones con frentes escarpados
- Protección a sobretensiones inexistente o mal dimensionada
- Deterioro físico de equipos
Si esta descripción coincide con los hechos, que no andará muy lejos, se trata de una evolución “de libro”, que ya ha sucedido en otras ocasiones y lugares y cuya prevención debe estar contemplada en los criterios de diseño y de operación. Lo único que necesita el usuario es estar bien asesorado.
Claro, que como el presidente ejecutivo es español, es probable que pueda desviarse algún palo por esa vía. Pero lo más bonito de todo, yo lo calificaría de excelso, es la salida del sindicato GMB, relacionando el fallo con la externalización de los servicios informáticos. Afirmación inmejorable que, de forma interesada confunde el voltio con el Megabyte y más propia de tipos como Benny Hill o Mr. Bean.
Por otra parte, y aprovechando el ciclón, se está acusando, desde ciertos foros, de obsoletos a los data centers de BA. Probablemente no sea así y se trate, una vez más, de un tema absolutamente eléctrico, conocido por quienes estamos a fondo en esto y tratado de forma muy superficial por toda esa caterva de expertos de toda la vida pero de nuevo cuño que pulula por este sector de nuestras entretelas.
No han pasado ni 9 meses de una de las últimas y sonadas caídas de data center, en concreto la de Delta Airlines, donde el sistema de respaldo también se había tomado unos días para asuntos propios. Las aerolíneas están que lo tiran.


Artículos de interés relacionados:
Otra vez lo eléctrico en el ojo del huracán (Parte II) – British Airways
Otro caso sonado de caída de Data Center – OVH
¡Este huracán sin ojo que lo gobierne! Nueva caída de data center de primer nivel – Claro en Liray
Y en un punto como este, resulta un buen ejercicio el echar la vista atrás y analizar una trayectoria que ha seguido, de forma paralela, la propia de los data center estos de nuestras entretelas. Quizá no “bajo el burlón mirar de las estrellas” pero siempre conviene volver la mirada y ver sobre qué estamos asentados.
Fue en aquellos años cuando, al hilo de determinados trabajos de naturaleza forense, comenzamos la actividad en un sector, el nuestro, que prácticamente nos ha absorbido por completo, al tiempo que nos ha planteado siempre un importante reto para el que siempre hemos estado dispuestos.
Los primeros tiempos estuvieron marcados por un denominador común, cuál era el de la incipiente tecnología basada en redundancias distribuidas para los equipos IT. Tras la publicación por parte de la gente de un, entonces jovencito, Uptime Institute de los resultados de un estudio sobre caídas en servicios de data center o análogos, cuya principal conclusión indicaba que el punto de fallo se encontraba, casi un 80% de las veces, entre la salida de los UPSs y la llegada a los equipos IT, se lanzó al mercado la propuesta de equipar estos dispositivos con doble fuente. Dicho y hecho, en unos pocos años la transformación fue realidad y quienes estábamos al tanto de la misma comenzamos a incorporar en los diseños topologías en consonancia con esa nueva capacidad.
Llegados al cambio de siglo, empezamos a observar una evidente progresión al alza en los niveles de exigencia requeridos para entornos que ya empezaban a presentar características de auténtica Misión Crítica. Hubo varias y conocidas caídas de servicio en España que nos encontraron muy bien formados para poder determinar sus causas y, con ello, darnos a conocer en un mercado de mayor amplitud y responsabilidad que el cubierto hasta entonces.
Si, ya de por sí, una caída en un data center es algo traumático, si además le añadimos los tiempos de recovery que por entonces se gastaban por la parte IT, el resultado era tremendo.
Fueron tiempos donde las auditorías se abrieron paso con peso propio, ya que la mayoría de las causas que se encontraban en el origen de los problemas para los que nos llamaban, eran absolutamente predecibles. Esa labor de diagnóstico, al menos por la parte electromecánica que nos toca, dio importantes resultados y facilitó la adopción de medidas en una línea que ha sido, quizá, la de mayor actividad en todo este tiempo y no es otra que la de reingeniería de centros que, bien por la topología de partida o directamente por su edad, requerían una actualización. Sin duda se ha tratado, y se trata, de la labor más delicada en este tipo de entornos. Como muy acertadamente la definió un cliente de reconocido prestigio y procedente del sector aeronáutico, se había hecho un cambio de motor en pleno vuelo.
El mundo del proyecto, tanto en su versión de nueva instalación como de reingeniería de una ya existente, vino de la mano de los propios clientes con el consabido “no quiero que vengáis al final a decirme qué es lo que he hecho mal, sino que estéis desde el principio para evitarlo”.
En realidad, esta frase, que en su origen estaba conduciéndonos hacia nuevos proyectos, lo que estaba describiendo al mismo tiempo era un concepto que ahora es más o menos habitual en el sector, pero que entonces era casi desconocido. El del commissioning.
Basados en experiencias anteriores en el sector industrial, el primer trabajo propiamente dicho de commissioning en data centers tuvo lugar en 2007, lo que resultó una actividad pionera en el sector. Como mencionó en varias ocasiones el cliente que había requerido ese primer servicio, se consiguieron parar muchos balones que iban dentro.
Casi coincidente en el tiempo, vino el asunto de las certificaciones, donde el mayor protagonismo lo tuvo desde el primer momento Uptime Institute y sus escalones o Tiers. Al principio, fue como una labor evangelizadora, a veces en pleno desierto, pero mereció la pena.
Con la asistencia a los sucesivos simposios, la adopción de criterios similares a los de los países de mayor vanguardia, con la acreditación de profesionales, etc., se fue dando mayor relieve a todo lo que rodeaba el data center y el mercado siguió la misma línea. Al de poco, todo el mundo manejaba, a veces con más voluntad que acierto, los nuevos conceptos, pero estos fueron calando hasta quedarse definitivamente presentes.
En 2008 comenzó una crisis que afectó inmediata y profundamente al sector industrial pero que no fue tan evidente en el de los data centers. Quizá por ello, fue una época donde se produjo una invasión en nuestro sector. Todo el mundo sabía de esto y florecieron los “expertos de toda la vida”.
Por otra parte, y como quiera que ya los niveles de exigencia para el servicio cuya continuidad debíamos garantizar habían pegado un nuevo e importante salto hacia adelante, la sofisticación en los diseños fue pareja pero se encontró con un claro inconveniente en el hecho de que el manejo de las instalaciones resultaba ciertamente complejo y no al alcance de los grupos de personas que tenían asignadas las tareas de operación y mantenimiento. Hubo que trabajar mucho en tareas de capacitación para poder equilibrar la situación.
2009 fue, sin duda, el año de la eficiencia, y no tanto por el hecho de que apenas dos años antes la EPA entregase al congreso USA su famoso estudio, sino porque Google publicó sus datos sobre lo que hasta entones casi nadie conocía, el valor PUE. El sector de los data centers se volvió medio loco en una especie de desenfrenado concurso por ver quien la tenía más pequeña (PUE es en realidad un término femenino). Ello condujo a una época, ya bastante reciente, en la que las instalaciones de climatización tuvieron para sí todos los focos de atención ya que se trataba del principal contribuyente al concepto en cuestión. Los sistemas de enfriamiento gratuito en todas sus modalidades, que son muchas, se convirtieron en compañeros habituales de proyectos y actividades complementarias a los mismos.
Por su parte, las herramientas de apoyo a todo el proceso han ido llegando hasta nuestras manos y las hemos ido adaptando de forma paulatina, hasta convertirse en compañeras de viaje. Desde que empezamos hace unos 10 años con las primeras aplicaciones en España de dinámica de fluidos CFD, y la utilización posterior de la herramienta BIM, hasta la época actual con la implantación bastante generalizada de sistemas DCiM en los data centers.
De resultas de todas las experiencias anteriores y de las propias necesidades del mercado, y aunque existían algunos precedentes tanto en Europa como en Norteamérica, surgió con fuerza por esa época un servicio que planteaba, no ya los proyectos ni las construcciones al uso, sino una consultoría de confianza al margen de todo lo anterior que facilite un acompañamiento al cliente desde el principio, con los OPR y el diseño conceptual hasta los propios comienzos de la operación. Alguien que, como profundo conocedor del medio, y sin implicarse directamente ni en el proyecto de detalle ni en la construcción, pueda contribuir a que todo el proceso se lleve a cabo según los intereses del cliente. La figura del CTC comenzó a ser especialmente reconocida y los beneficios de su adopción, muy evidentes, sobre todo en términos de TCO.
Precisamente, mirando los costes de unas instalaciones que, como se ha comentado, habían adquirido tintes de absoluta complejidad con sistemas muy redundados, y para rebajar de alguna forma los costes de inversión, comenzamos a desarrollar, por un lado, soluciones de crecimiento modular en versiones tanto abierta como cerrada y, por otro, soluciones de respaldo común para distintas etapas de crecimiento, es decir, conseguir los escalones de topología para las distintas fases pero con utilización de sistemas de reserva compartidos entre ellas.
En paralelo con las líneas de actuación descritas, ha tenido lugar también una expansión internacional digna de tenerse en cuenta. Comenzando casi siempre con clientes propios que tenían intereses e instalaciones en otros países, fundamentalmente en Latam, la entrada en esos mercados resulta menos complicada. Siempre es necesario un periodo de maduración que, a veces, puede resultar excesivo (varias empresas del sector han abandonado este objetivo al no conseguir resultados inmediatos), pero la realidad está ahí y si se sabe esperar la oportunidad, esta se presenta.
Al analizar toda esta evolución de 20 años, quizá una de las cosas más sorprendente es que el nivel de especialización adquirida tenga un campo de demanda que era, en principio, uno de los que menos íbamos a imaginar, pero que a la postre está teniendo un tirón, por otra parte lógico, a la vista de los resultados en varios clientes de otros proyectos anteriores. Se trata del acompañamiento en fase de construcción, una función en la que conviven, parte de CTC, parte de PMO y parte de commissioning, pero que se antoja decisiva a la hora de poder garantizar el éxito.
Llegando a la actualidad, y a pesar de toda la evolución descrita, no podemos dejar de comentar los resultados del último estudio publicado, ya en 2016, sobre pérdidas de disponibilidad en data centers de USA, donde la primera causa son los UPSs, seguido ya de cerca por el ciberataque. El hecho de que los UPSs sean la primera causa nos conduce a suponer que la muestra está compuesta por data centers de topologías simples, es decir, que sigue existiendo una elevada proporción de entornos críticos donde la infraestructura corresponde a ciclos de vida ya vencidos.
Puestos a mirar hacia adelante, para poder predecir el futuro creo que no será suficiente con “adivinar el parpadeo de las luces que a lo lejos van marcando mi retorno”, pero lo cierto es que, siempre basándonos en las experiencias anteriores, tenemos que estar preparados para afrontar un reto que ya muestra algunos indicios de por dónde va a ir, pero que en su mayor parte nos va a deparar auténticas sorpresas.
Ya sabemos que los niveles de tolerancia de los equipos IT en cuanto a condiciones térmicas van a ir siendo menos exigentes y que, con toda probabilidad, la climatización de las salas críticas sea resuelta con equipos de confort ya que los de precisión irán directamente a unos racks que estarán preparados tomar el aire del plenum de impulsión y soltarlo directamente al de retorno. Ya sabemos que el paso al exaflop está a la vuelta de la esquina y que el auténtico reto es conseguir que se puede alimentar esa supercapacidad de procesamiento con recursos moderados y que los sistemas evolucionarán hacia una automatización casi completa. También conocemos ya que el enemigo público nº 1 del sistema van a ser los ataques externos, que el malware ocupará posiciones predominantes y que la Nomofobia será un tema a tratar por psiquiatras. Podemos también vislumbrar un riesgo de rebote en el tema de las certificaciones por el efecto saturación entre quienes ya están de vuelta en ese camino, pero aquello que no conocemos es mucho más amplio que lo que podemos intuir como posible.
Si hace sólo 10 años alguien nos hubiese explicado la realidad de hoy en día, probablemente le hubiésemos tomado por loco. Por tanto, si intentamos hacer lo propio de cara a un horizonte de otros 10, probablemente se nos pueda tachar de lo mismo.




Misión
… Imposible. Pero muy pocas veces.
Visión
Amplia y ambiciosa. Desde el infrarrojo hasta el ultravioleta y mucho más allá
Valores
En bolsa pocos, pero del resto… progresamos satisfactoriamente
Deja una respuesta