fbpx
Damir Špoljarič

Konec roku 2016 a začátek roku 2017 sebou přinesl několik výpadků datacenter. Připravili jsme pro Vás přehled typických a bohužel stále ignorovaných hrozeb provozu datových center v České republice. 

(následující rizika nepopisují žádné konkrétní datové centrum, abychom nebyli napadeni pro “nekalosoutěžní jednání”).

Lokalita

Když jsem v roce 2013 psal podobný článek na E15, ani by mě nenapadlo, že zaplavení datacentra z důvodu nevhodné lokality, které jsem uváděl jako reálnou hrozbu, se jen pár měsíců na to stane v Casablance. Nutno podotknout, že riziko provozu datacentra ve staré výškové budově v podobě možnosti zaplavení při havárii inženýrských sítí je stále reálné a neeliminují ho ani „stříšky“ v datovém sále. Bohužel špatně zvolená lokalita je stále často ignorovanou hrozbou, která se následně v reálném provozu jen těžko řeší.

Zkrátka – kde hrozí riziko zaplavení technologie, nemá datové centrum, co dělat.

Napájení

Většina výpadků datacenter však bylo způsobeno výpadkem napájení, zejména poruchou na systému UPS. Vždy, když se toto stane, je z toho patrné, že dané datacentrum není realizováno ani dle požadavků TIER III, který vyžaduje mít 2 nezávislé napájecí větve.

Mnoho provozovatelů datových center si bohužel neuvědomuje, že na spolehlivosti UPS stojí spolehlivost celého datacentra. Když už mají 2 nezávislé UPS, často jsou jednotlivé UPS vytíženy na více než 50%, z čehož vyplývá, že při poruše jedné UPS dojde u druhé UPS k přetížení.

Dalším častým prohřeškem bývá 1 bateriový string na UPS. Baterie jsou ve stringu zapojeny v sérii a je možné, že některá baterie bude mít poruchu, například vysoký vnitřní odpor a funkce UPS, jako hlavního záložního prvku datacentra, je tak narušena, což se často zjistí až při skutečném výpadku napájení z veřejné sítě.

Baterie čas od času odchází, na což se většinou přijde při pravidelné revizi UPS, která by se měla minimálně 1x ročně provádět v každém datacentru. Zatím jsem v ČR neviděl datacentrum s monitoringem každé jednotlivé baterie, byť takovou technologii výrobci UPS často nabízí, systém UPS však výrazně prodražují. Již jsem se také setkal s datacentrem, které pro 2 „nezávislé UPS“ sdílelo jednu sadu baterií.

Za spolehlivý systém UPS lze považovat 2 nezávislé systémy (v případě modulární UPS nejlépe navíc každá UPS s vnitřní redundancí na bázi modulů N+1), přičemž každý systém UPS by měl disponovat vlastní sadou baterií a ideálně více než 1 string na každou UPS. UPS musí být rovněž výkonnostně dostatečně naddimenzovaná pro případ poruchy druhé UPS.

V datovém centru by se v nejlepším případě neměla nacházet žádná jednozdrojová zařízení. Taková zařízení je pak nutné vybavit STS (static switchem) zajišťujícím plynulé přepnutí mezi napájecími větvemi při havárii jedné celé větve bez vlivu na běh zařízení. vshosting~ je v ČR jedinou společností, která STS nabízí jako nadstandardní výbavu racků.

Hodně opomíjenou vlastností datacenter je pořádný projekt. Často datacentra vznikají „na koleni“ a rozšířují se až dle aktuálních potřeb klientů bez řádného projektu. U takových datacenter pak hrozí reálné riziko, že v kritickém případě nezafunguje správně selektivita či nejsou správně spočítané zkratové proudy jistících prvků. Může se tak například stát, že prostá porucha zdroje v serveru vedoucí ke zkratu způsobí popadání jističů až na výstupu z UPS a dojde tak ke kompletnímu výpadku celé větve.

V kombinaci s nedostatky z pohledu UPS popsaných výše může tak snadno dojít k výpadku celého datacentra. Výpočet selektivity považuji za jednu z nejdůležitějších částí každého energo projektu datacentra.

Zásobování naftou

V únoru postihla VVN rozvodnu na Chodově v Praze porucha vedoucí k cca 30 minutovému výpadu napájení velké části Prahy. Mnoho provozovatelů datacenter se na twitteru či facebooku chlubilo tím, jak bravurně zvládlo pomocí generátoru zazálohovat napájení datacentra.

Nechávám stranou, že jde o naprosto běžnou situaci, se kterou si datacentrum musí umět poradit naprosto automaticky a netřeba z toho dělat mimořádnou situaci. Tato událost ale ukázala na dvě jiná témata. Jedním z nich je reálné napájení z více VVN rozvoden v Praze, kterým se několik datacenter chlubí. Realita je ovšem taková, že i tato datacentra, chlubící se nezávislým přívodem VN, startovalo generátory, tudíž realita s existencí nezávislých VN přívodů ze dvou VVN rozvoden je minimálně diskutabilní.

Druhým tématem je realita stavu zásob nafty. 30 minutový výpadek jistě žádnému standardnímu datacentru nečiní problém. Jaká by však byla situace při výpadku, který by trval 6, 12, 24 hodin nebo déle? Mnoho datacenter nemá žádným způsobem vyřešeno naftové hospodářství s dostatečnou rezervou (TIER III udává objem paliva pro souvislý provoz z generátorů po dobu minimálně 48 hodin).

Řada datacenter má generátory umístěny včetně nádrží na střeše s obtížnou možností doplňování paliva. Skutečný stav je pak takový, že v případě výpadku elektřiny nefungují ani okolní čerpací stanice a má-li někdo sjednané smluvní zavážený nafty je otázkou, zda se na takovou službu, v případě delšího blackoutu, lze spolehnout.

Riziko výpadku chlazení

Nedostatečně řešené chlazení považuji za druhý nejčastější důvod výpadku datacenter. Nebudu rozebírat rozdílnost a spolehlivost jednotlivých technologií. Zaměřím se na reálnou míru redundance a riziko nedostatku takové míry zálohy chlazení. Většina datacenter uvádí, že disponují redundancí na úrovní chlazení N+1, to znamená, že si datové centrum bez vlivu na provoz může dovolit výpadek 1 chladící jednotky. Je to ale opravdu dostatečné?

V případě, že se jedná například o přímý výpar, tedy nejčastěji použitou chladící technologii datacenter, každá porucha na chladícím okruhu znamená odstávku jednotky i na několik dní. Znamená to odsát chladivo, provést opravu, vakuovat okruh (několik hodin), doplnit chladivo, zprovoznit jednotku. Klimatizační jednotky tvoří nejporuchovější části datacentra, protože mají spoustu mechanických částí (motory, elektronicky řízené ventily, ventilátory apod.) a jsou trvale v chodu. Riziko souběhu poruch tak existuje a v případě N+1 redundance může jít o kritickou situaci, která způsobí výpadek datacentra.

Často provozovatelé datacenter opomíjejí druhou důležitou veličinu týkající se chlazení. Kromě chladícího výkonu je nutné řešit objem vzduchu. Trend výrobců serverů je v dnešní době takový, že na stále se snižující příkon serveru připadá stále stejný průtok vzduchu serverem. Může se tak stát, že chladící jednotky mají sice rezervu ve výkonu, nemusí však stačit objem vzduchu, což se může při poruše jednotky projevit velice rychle formou podtlaku ve studené uličce a přehříváním serverů.

Damir Špoljarič

CEO


Damir Špoljarič

Google dnes postihl výpadek všech služeb ve střední Evropě. Příčinou jsou s největší pravděpodobností problémy v interním routingu Google. Pokles trafficu v českých peering centrech lze pozorovat již kolem 19:20h a nutno podoknout, že problém není zcela vyřešen ani nyní (1h ráno, 23.11.2016).

Google své služby provozuje pomocí takzvaného anycastu, kdy některé propagované IP rozsahy jsou dostupné více cestami a tyto IP rozsahy jsou propagovány z více míst. Lze si to představit tak, že serverů se stejnou IP adresou se v Internetu nachází mnoho a uživatel se vždy připojí k té lokalitě, která je dle výpočtu dynamického routingu nejbližší.

Výhodou anycastu je zejména to, že redundance je založena na samotném principu fungování Internetu. “Umře” jeden bod, uživatel se připojí k dalšímu nejbližšímu stejnému bodu v Internetu se stejnou adresou. Tato redundance má nevýhodu v tom, že je poměrně pomalá. Umře-li tento bod v Internetu, trvá i několik minut, než routery v Internetu pochopí, že “tudy cesta nevede” a datový tok začne téct jinou cestou.

V případě dnešního výpadku google byl problém v tom, že byť nastala technická závada v routingu, prefixy google byly dále z tohoto místa propagovány a z pohledu routingu tak byla cesta “živá”, byť tudy netekl žádný traffic a končil na prvním routeru google v ČR.

Až po několika hodinách google přestal tyto prefixy v ČR propagovat a Internet si tedy našel cestu jinudy, mnohdy přes zahraniční linky. Ve vshosting~ jsme traffic přeroutovali přes náš peering s Google ve Frankfurtu. Obdobně se zachovali i ostatní operátoři jako O2, Vodafone, T-mobile.

Odhaduje se, že Googlu “upadl” traffic v ČR kolem 400 Gbps a ochromeny byly všechny jeho služby. Ve chvíli, kdy nám začal monitoring ve vshosting~ hlásit nedostupné anycast DNS adresy Google (sledujeme dostupnost spousty veřejných služeb mimo naši síť), podezření na problém u Google následovalo až po ověření naší sítě a našich cest, přeci jen Google nepadá denně, byť za poslední dva měsíce jde už o druhý obdobný problém (první problém byl však pouze několika minutový). Předpokládám, že prvotní “chaos” nastal u většiny operátorů.

Nejvíce trápení s nedostupným Googlem měli poskytovatelé připojení pro koncové uživatele jako je UPC nebo O2. Krom nedostupnosti uživatelských funkcí jako mapy, youtube a další se uživatelům nenačítalo i mnoho webů, které Google používají a kdy při nedostupnosti Google se nenačte web, resp. načte až po dlouhé době, kdy prohlížeč vytimeoutuje nefunkční adresu (např. google analytics).

Mnoho webů používá online Google služby třeba i pro fonty ve frontend aplikacích. Některé služby jsou z principu založeny na Google mapách, bez kterých plně nefungují (Liftago apod.). Ti všichni měli problém. Závislost na Google je obrovská a nejde jen o emailové služby. Samotnou kapitolu tvoří DNS, kdy Google anycast DNS servery (8.8.8.8 a 8.8.4.4) používá i spoustu koncových uživatelů – takovým lidem v danou chvíli nefungovalo nic, protože díky nedostupným DNS serverům nebylo možné přeložit žádné adresy.

Tyto situace jsou vždy nepříjemné a spousta technických problémů nelze předvídat. Přejeme kolegům z Google zdárné dořešení celého problému.


Damir Špoljarič

Včera se potýkalo jedno pražské datové centrum několikahodinovým výpadkem napájení elektrické energie. Dle vyjádření provozovatele šlo o chybu UPS, kdy se nečekaně vybily baterie při instalaci nového diesel generátoru. S podobným problémem se potýkala i další hostingová firma s datacentry v Praze a Brně. Podívejme se, jak vlastně systém UPS funguje, proč jde o nejdůležitější komponentu celého datacentra a jak má být ve správném datovém centru UPS udržována a co od ní lze očekávat.

UPS slouží k zajištění nepřetržité dodávky elektrické energie pro koncové spotřebiče (v případě datacentra jde především o servery a kritické části infrastruktury datacentra) a také k zajištění kvalitní dodávky, kdy UPS vyrovnává podpětí či předpětí na síti.

Nejpoužívanějším typem pro tento účel jsou bateriové UPS (on-line UPS s invertorem), zřídkakdy lze najít v některých datacentrech rotační UPS, která funguje na principu velkého setrvačníku, který dodává až několik desítek vteřin napájení serverům do doby nastartování generátorů. Bateriový systém je používanější, neboť jeho účinnost je v dnešní době poměrně vysoká (> 96%) a zaručuje dodávku energie po dobu několika jednotek až desítek minut, čímž se získá větší časová rezerva například ke startu záložního generátoru. O UPS je však nutné patřičně pečovat a znát slabá místa tohoto systému.

Životnost baterií, aneb jak se nespoléhat na dobu zálohování

Výrobce v dnešní době deklarují životnost baterií až 12 let. Lze to přirovnat ke garanci spotřeby auta výrobcem. Jde o velice teoretický údaj závislý na mnoha faktorech, mezi které patří například prostředí, ve kterém se baterie nacházejí či jejich četnost a způsob vybíjení a nabíjení. Baterie potřebují prostředí 20°C, vyšší teplota prostředí zkracuje dobu životnost, nižší teplota zvyšuje dobu životnosti, ale zkracuje dobu zálohování.

Baterie postupem času ztrácí svoji původní kapacitu a výpočet doby zálohování vychází z matematického výpočtu UPS dle typu baterií a vybíjecí křivky (při vybíjení baterii klesá napětí a při stálém odběru tedy stoupá proud (P=U x I) – to znamená, že se rychlost vybíjení zrychluje). UPS tak může krásně na display psát předpokládanou dobu zálohování 30 minut, ale po pár letech to již nemusí být pravda a posledních pár desítek % baterie při vybíjení zmizí v mžiku. 

Z tohoto důvodu je nutné provádět pravidelné kapacitní zkoušky, které například v ServerParku provádíme jednou do roka. Při těch se provádí vybíjení baterií až na nízkou hodnotu, sleduje se vybíjecí křivka a také rozdíl napětí na bateriích, čímž se zjistí i například vadný článek baterie, což je opět situace, kterou UPS nemá možnost v běžném provozu poznat.

Paralelní bateriové stringy UPS

Kapacitní test je přitom naprosto bezpečný, protože pouze sníží úroveň napětí ze sítě na usměrňovači na vstupu UPS ze sítě, čímž se začnou baterie vybíjet. Pokud by při testu došlo k problému, například nečekaně rychlému vybití baterií (pod kritickou hodnotu, která je po dobu testu nastavena na usměrňovači), nezpůsobí to výpadek napájení serverů, protože při náhlém poklesu napětí na bateriích UPS začne ihned napájet ze sítě.

Baterie jsou ve stringu zapojeny v sérii a pokud by došlo někde například k vadné baterii a výrazným zvýšením jejího vnitřního odporu nebo špatnému kontaktu mezi dvěma bateriemi, při výpadku napájení ze sítě dojde k tomu, že UPS nebude zálohovat a dojde k výpadku serverů. Z tohoto důvodu je vhodné mít zapojených několik paralelních bateriových stringů. V ServerParku tak máme na každé větvi UPS 3 nezávislé bateriové stringy. 

Nelze spoléhat na jeden systém… vždyť jde jen o techniku

Nikdy se nelze spoléhat na to, že UPS bude na 100 % fungovat, ať už výrobci deklarují co chtějí. Stejně tak správné datové centrum nemůže provádět výměnu či servis generátoru bez jiného náhradního zdroje elektrické energie. I dle UPTIME INSTITUTE je generátor primárním zdrojem elektrické energie.

ServerParku tak máme zapojené dvě naprosto nezávislé napájecí větve, na každé větvi je UPS v režimu N+1, tzn celkem tedy režim 2 x (N+1), každá větev disponuje vlastním diesel generátorem a současně je zapojen další diesel generátor, který je automatickým řídícím systémem připnut místo generátoru na jedné z větví, který je v poruše či údržbě. Každá větev disponuje vlastní sadou baterií a každá sada baterií je složena ze 3 stringů. 

I kdyby datové centrum potkala porucha generátoru, do toho se záhadně vybily baterie a do toho nastala porucha rozvaděče, datové centrum si s tím musí být schopni poradit bez výpadku napájení serverů. Servery by tak měly mít instalované 2 zdroje a být současně zapojeny do obou nezávislých větví, na nezávislé UPS, nezávislé rozvaděče a nezávislé generátory. Pokud servery mají pouze 1 napájecí zdroj, máme v ServerParku pro takové servery nainstalované v racku STS switche, tedy polovodičové rychlé „přepínače“, které při kompletní poruše na jedné větvi přepnou napájení z druhé větve bez výpadku serverů.

Foto z nedávné revize UPS ServerParku, která zahrnovala i kontrolu jednotlivých modulů modulární UPS (kontrola kondenzátorů, čištění modulu):


Damir Špoljarič

Většina lidí se při výběru nového poskytovatele služeb rozhoduje podle SLA a garancí dostupnosti. Vzhledem k výpadkům 3 významných českých hostingových poskytovatelů v posledních dvou týdnech je vhodné podívat se blíže, co lze reálně technicky po poskytovateli požadovat a co by vám měla hostingová firma zajistit.

Garance 100 % je utopie

Z principu technologie nelze nikdy garantovat 100 %. Na světě neexistuje datacentrum, kde je možné docílit 100 % dostupnosti. Standard Uptime institut určuje, že TIER IV musí splňovat dostupnost 99,995 %, což je nejvyšší standard. Je nutné si ale uvědomit, že takových datacenter je v ČR jen pár. Oficiálně certifikováno žádné není a technicky tento standard splňuje jen několik málo datacenter, přičemž většina jsou korporátní datacentra typu Škoda Auto.

Světlou výjimku, tak mezi hosting datacentry tvoří ServerPark :-). Většina datacenter odpovídá standardu TIER III (99,982 %) nebo TIER II (99,741 %), což je teoreticky již 110 minut výpadku datacentra v měsíci. Na dostupnosti se dále podílí samotné fungování Internetu, které je celosvětově zajištěno protokolem BGP (Border Gateway Protocol), což je z principu pomalý protokol a pokud dojde k poruše u nějakého významného operátora, routerům může trvat i několik minut, než přepočítají obsáhlé routovací tabulky (> 1 milion routovacích záznamů u IPv4) a zaregistrují změnu v Internetu a začnou posílat data jinou trasou. Takových příkladů je mnoho.

Technologická versus obchodní garance

Pokud poskytovatel garantuje 100 % dostupnost, jedná se tedy pouze o takzvanou obchodní garanci, tedy že operátor nemá 100 % dostupnost, ale pouze dá klientovi slevu v případě (až) nastane nějaká nedostupnost.

Pro klienta tedy toto měřítko dostupnost nemá naprosto žádný význam a klient nemůže vědět, na jakou dostupnost služeb se reálně může spolehnout. Sleva z poskytovaných služeb asi není cílem klientů, kteří hledají řešení s vysokou dostupností.

Eliminace rizik – zjistěte si co nejvíce o svém poskytovateli

Ve vshosting~ se snažíme garantovat taková SLA, která jsme schopni technicky splnit a jejich nesplnění by mělo být mimořádnou událostí. Poskytovatel by měl znát co nejvíce rizik spojených s provozem vlastní infrastruktury, vědět, co se reálně může stát, nespoléhat se pouze na dodavatele a jejich sliby či na jednu technologii.

TIER IV datacentrum z principu zajišťuje dvě plně zálohované a nezávislé větve, na každé větvi UPS v režimu N+1, dieselgenerátor, VN přípojku s transformátorem. Poskytovatel by měl být schopen reagovat na delší výpadek energie od dodavatele (blackout) a měl by mít dostatek nafty v zásobě pro takto mimořádný provoz.

Fyzická síťová infrastruktura by měla být redundantní a zajištěna tak, aby přepnutí datového provozu uvnitř sítě při poruše optické trasy probíhalo v ideálním případě okamžitě (< 1s). U projektů citlivých na vysokou dostupnost je nutné zajistit redundanci na úrovni serverů (high availability cluster) a dalších prvků (storage, síťové prvky apod.), aby nebyl narušen provoz při poruše serveru.

Nebojte se svého poskytovatele zeptat, na základě čeho má spočítanou garanci dostupnosti, chtějte vidět technické zázemí a fyzickou infrastrukturu a přesvědčte se o kvalitě zázemí vašeho poskytovatele.


Během 17 let jsme provedli úspěšnou migrací stovky klientů. Pomůžeme i vám.

  1. Domluvte se na konzultaci

    Stačí nám zanechat kontakt. Obratem se vám ozveme.

  2. Bezplatný návrh řešení

    Nezávazně probereme, jak vám můžeme pomoct. Navrhneme řešení na míru.

  3. Profesionální realizace

    Připravíme vám prostředí pro bezproblémovou migraci dle společného návrhu.

Zanechte nám svůj e-mail nebo telefon




    Nebo nás kontaktujte napřímo

    +420 246 035 835 V provozu 24/7
    konzultace@vshosting.cz
    Zkopírovat
    Obratem se vám ozveme