Stále ignorované hrozby českých datových center v roce 2017

Konec roku 2016 a začátek roku 2017 sebou přinesl několik výpadků datacenter. Připravili jsme pro Vás přehled typických a bohužel stále ignorovaných hrozeb provozu datových center v České republice.

(následující rizika nepopisují žádné konkrétní datové centrum, abychom nebyli napadeni pro “nekalosoutěžní jednání”).

Lokalita

Když jsem v roce 2013 psal podobný článek na E15, ani by mě nenapadlo, že zaplavení datacentra z důvodu nevhodné lokality, které jsem uváděl jako reálnou hrozbu, se jen pár měsíců na to stane v Casablance. Nutno podotknout, že riziko provozu datacentra ve staré výškové budově v podobě možnosti zaplavení při havárii inženýrských sítí je stále reálné a neeliminují ho ani „stříšky“ v datovém sále. Bohužel špatně zvolená lokalita je stále často ignorovanou hrozbou, která se následně v reálném provozu jen těžko řeší.

Zkrátka – kde hrozí riziko zaplavení technologie, nemá datové centrum, co dělat.

Napájení

Většina výpadků datacenter však bylo způsobeno výpadkem napájení, zejména poruchou na systému UPS. Vždy, když se toto stane, je z toho patrné, že dané datacentrum není realizováno ani dle požadavků TIER III, který vyžaduje mít 2 nezávislé napájecí větve.

Mnoho provozovatelů datových center si bohužel neuvědomuje, že na spolehlivosti UPS stojí spolehlivost celého datacentra. Když už mají 2 nezávislé UPS, často jsou jednotlivé UPS vytíženy na více než 50%, z čehož vyplývá, že při poruše jedné UPS dojde u druhé UPS k přetížení.

Dalším častým prohřeškem bývá 1 bateriový string na UPS. Baterie jsou ve stringu zapojeny v sérii a je možné, že některá baterie bude mít poruchu, například vysoký vnitřní odpor a funkce UPS, jako hlavního záložního prvku datacentra, je tak narušena, což se často zjistí až při skutečném výpadku napájení z veřejné sítě.

Baterie čas od času odchází, na což se většinou přijde při pravidelné revizi UPS, která by se měla minimálně 1x ročně provádět v každém datacentru. Zatím jsem v ČR neviděl datacentrum s monitoringem každé jednotlivé baterie, byť takovou technologii výrobci UPS často nabízí, systém UPS však výrazně prodražují. Již jsem se také setkal s datacentrem, které pro 2 „nezávislé UPS“ sdílelo jednu sadu baterií.

Za spolehlivý systém UPS lze považovat 2 nezávislé systémy (v případě modulární UPS nejlépe navíc každá UPS s vnitřní redundancí na bázi modulů N+1), přičemž každý systém UPS by měl disponovat vlastní sadou baterií a ideálně více než 1 string na každou UPS. UPS musí být rovněž výkonnostně dostatečně naddimenzovaná pro případ poruchy druhé UPS.

V datovém centru by se v nejlepším případě neměla nacházet žádná jednozdrojová zařízení. Taková zařízení je pak nutné vybavit STS (static switchem) zajišťujícím plynulé přepnutí mezi napájecími větvemi při havárii jedné celé větve bez vlivu na běh zařízení. vshosting~ je v ČR jedinou společností, která STS nabízí jako nadstandardní výbavu racků.

Hodně opomíjenou vlastností datacenter je pořádný projekt. Často datacentra vznikají „na koleni“ a rozšířují se až dle aktuálních potřeb klientů bez řádného projektu. U takových datacenter pak hrozí reálné riziko, že v kritickém případě nezafunguje správně selektivita či nejsou správně spočítané zkratové proudy jistících prvků. Může se tak například stát, že prostá porucha zdroje v serveru vedoucí ke zkratu způsobí popadání jističů až na výstupu z UPS a dojde tak ke kompletnímu výpadku celé větve.

V kombinaci s nedostatky z pohledu UPS popsaných výše může tak snadno dojít k výpadku celého datacentra. Výpočet selektivity považuji za jednu z nejdůležitějších částí každého energo projektu datacentra.

Zásobování naftou

V únoru postihla VVN rozvodnu na Chodově v Praze porucha vedoucí k cca 30 minutovému výpadu napájení velké části Prahy. Mnoho provozovatelů datacenter se na twitteru či facebooku chlubilo tím, jak bravurně zvládlo pomocí generátoru zazálohovat napájení datacentra.

Nechávám stranou, že jde o naprosto běžnou situaci, se kterou si datacentrum musí umět poradit naprosto automaticky a netřeba z toho dělat mimořádnou situaci. Tato událost ale ukázala na dvě jiná témata. Jedním z nich je reálné napájení z více VVN rozvoden v Praze, kterým se několik datacenter chlubí. Realita je ovšem taková, že i tato datacentra, chlubící se nezávislým přívodem VN, startovalo generátory, tudíž realita s existencí nezávislých VN přívodů ze dvou VVN rozvoden je minimálně diskutabilní.

Druhým tématem je realita stavu zásob nafty. 30 minutový výpadek jistě žádnému standardnímu datacentru nečiní problém. Jaká by však byla situace při výpadku, který by trval 6, 12, 24 hodin nebo déle? Mnoho datacenter nemá žádným způsobem vyřešeno naftové hospodářství s dostatečnou rezervou (TIER III udává objem paliva pro souvislý provoz z generátorů po dobu minimálně 48 hodin).

Řada datacenter má generátory umístěny včetně nádrží na střeše s obtížnou možností doplňování paliva. Skutečný stav je pak takový, že v případě výpadku elektřiny nefungují ani okolní čerpací stanice a má-li někdo sjednané smluvní zavážený nafty je otázkou, zda se na takovou službu, v případě delšího blackoutu, lze spolehnout.

Riziko výpadku chlazení

Nedostatečně řešené chlazení považuji za druhý nejčastější důvod výpadku datacenter. Nebudu rozebírat rozdílnost a spolehlivost jednotlivých technologií. Zaměřím se na reálnou míru redundance a riziko nedostatku takové míry zálohy chlazení. Většina datacenter uvádí, že disponují redundancí na úrovní chlazení N+1, to znamená, že si datové centrum bez vlivu na provoz může dovolit výpadek 1 chladící jednotky. Je to ale opravdu dostatečné?

V případě, že se jedná například o přímý výpar, tedy nejčastěji použitou chladící technologii datacenter, každá porucha na chladícím okruhu znamená odstávku jednotky i na několik dní. Znamená to odsát chladivo, provést opravu, vakuovat okruh (několik hodin), doplnit chladivo, zprovoznit jednotku. Klimatizační jednotky tvoří nejporuchovější části datacentra, protože mají spoustu mechanických částí (motory, elektronicky řízené ventily, ventilátory apod.) a jsou trvale v chodu. Riziko souběhu poruch tak existuje a v případě N+1 redundance může jít o kritickou situaci, která způsobí výpadek datacentra.

Často provozovatelé datacenter opomíjejí druhou důležitou veličinu týkající se chlazení. Kromě chladícího výkonu je nutné řešit objem vzduchu. Trend výrobců serverů je v dnešní době takový, že na stále se snižující příkon serveru připadá stále stejný průtok vzduchu serverem. Může se tak stát, že chladící jednotky mají sice rezervu ve výkonu, nemusí však stačit objem vzduchu, což se může při poruše jednotky projevit velice rychle formou podtlaku ve studené uličce a přehříváním serverů.

Damir Špoljarič

CEO