Dopad na infrastrukturu
Během nedávného blackoutu, který trval téměř 5 hodin, nezaznamenalo datacentrum vshostingu žádné technické komplikace. „Infrastruktura datacentra pokračovala v normálním provozu bez omezení služeb," vysvětluje Martin Sláma.
Incident potvrdil správnost architektury záložního napájení.
Architektura záložního napájení
Datacentrum vshostingu využívá víceúrovňovou redundanci napájení:
UPS systémy: modulární jednotky Vertiv APM
Diesel generátory: CAT a Visa
Distribuce: Každý přívod má dvě PDU větve, každá větev dvojitě redundantně zálohována.
„UPS neustále vyrovnávají napětí. To znamená, že při mírném poklesu, nebo přepětí je na výstupu pořád to správné napětí. DG máme v horké rezervě a startují do 30 sekund."
Testing a maintenance protokoly
Záložní systémy procházejí pravidelným testováním 4x ročně. Testovací procedura zahrnuje řízené odpojení napájení a validaci automatických postupů.
„Během zátěžového testu cíleně odpojíme napájení a sledujeme, jak záložní systémy přebírají provoz podle přesně definovaných scénářů. Každý krok je koordinován – v každé technické místnosti je náš specialista s vysílačkou, kontroluje průběh testu v reálném čase a komunikuje s dispečinkem. Pravidelné testování všech kritických systémů nám umožňuje ověřit, že v případě skutečného výpadku vše proběhne hladce a bez přerušení služeb.“
“Generátory jely podle očekávání, průběžně jsme je kontrolovali. Interní systémy přitom běžely v plném rozsahu, bez jakýchkoliv omezení.”
Fail-safe mechanismy a redundance
Pro případ selhání primárních záložních systémů existují další úrovně ochrany:
- Záložní diesel generátory pro případ selhání hlavních jednotek
- Automatizované postupy pro různé failure scénáře
- Eskalační procedury včetně manuální intervence technického personálu
„Máme záložní diesel záložních dieselů. Automatický systém řízení má naprogramované postupy, jak v případě nedostupnosti některých prvků postupovat, a v neposlední řadě máme proškolený technický personál, který je v datacentru v pohotovosti 24/7 a situaci ihned začne řešit."
Risk assessment a kontinuální zlepšování
„Největší pojistkou pro tyto případy je správně nastavený automatický systém. Pokud vše funguje, jak má, není čeho se bát."
Historicky datacentrum zažívá občasné krátkodobé výpadky v řádu zlomků vteřin, systémy vždy reagují podle specifikace. Červencový incident byl výjimečný délkou, nikoliv komplexitou řešení.
Customer impact a service continuity
Během blackoutu pokračoval provoz všech zákaznických serverů bez přerušení. Customer support obdržel pouze dva dotazy týkající se délky autonomie záložních zdrojů a dostupnosti služeb během výpadku. Dále jsme dostali na sítích pochvalu klientů, že zatímco ostatní služby selhaly (platební terminály, mobilní sítě, nemocnice přešly na záložní zdroje a některé průmyslové provozy musely zastavit výrobu ad.), my fungujeme a s námi i stránky, aplikace a e-shopy.
„Našim zákazníkům díky průběžným opatřením vše fungovalo. A naše služby fungovaly v plném rozsahu."
Operations perspective
Z provozního hlediska incident probíhal standardně. Po detekci výpadku tým provedl validaci správné funkce automatiky a záložních systémů, monitoring příčiny a odhad délky výpadku.
„V momentě, kdy zaznamenáme výpadek, okamžitě jdeme prověřit, že automatika zareagovala správně a že záložní systémy fungují jak mají, a zjišťujeme příčinu a délku výpadku. Provoz serverové místnosti zůstal po celou dobu výpadku zcela bez dopadu."
Alarm systém fungoval podle očekávání: „není to pro nás nic neobvyklého a na podobné situace jsme velmi dobře připraveni. Jen nás po zjištění zaskočil stejně jako všechny rozsah výpadku, ale to na provoz nemělo žádný vliv," dodává Martin Sláma.
Lessons learned a závěr
Incident potvrdil správnost investic do redundantní infrastruktury a automatizace. „Vše zafungovalo přesně tak, jak mělo, a potvrdilo se, že náš tým přesně ví, jak se v takových situacích má chovat," shrnuje Martin Sláma, Head of HW/DC vshostingu.
Červencový blackout ukázal, že záložní systémy navržené pro kritickou infrastrukturu fungují spolehlivě i v reálném provozu. Kombinace správně navržené architektury, pravidelného testování a připraveného personálu zajistila kontinuitu služeb i během rozsáhlého výpadku elektřiny.
Datacentrum má z těchto důvodů 100% dostupnost elektrické energie bez výpadku po celou dobu svého provozu od otevření v roce 2015 – tedy již 10 let.
Pro organizace provozující kritickou IT infrastrukturu incident slouží jako case study důležitosti investic do redundantních systémů napájení a důkladné přípravy formou disaster recovery planning.